초록 close

분류는 유용한 데이터마이닝 기술의 하나로서 이미 클래스 레이블이 붙어있는 데이터를 이용해 분류기를 만들고이를 이용해서 차후에 분류가 되어 있지 않은 데이터의 클래스 레이블을 예측하는 기술이다. 여러 분류 방법 중에서Adaboost는 많은 응용 분야에서 가장 널리 사용되는 분류 알고리즘 중 하나이다. 한편 처리해야 하는 데이터가 매우크게 증가하는 추세에서 기존의 순차적 연산에 의한 알고리즘은 대용량 데이터를 처리하기 힘들어졌다. 따라서 본 논문에서는 자원 비공유 방식의 분산처리 패러다임으로 주목 받고 있는 맵리듀스를 사용하여 병렬화된 Adaboost 알고리즘을 제안한다. 그리고 제안한 알고리즘의 효율성을 실험 결과를 통해 검증하였다. 실험결과는 대용량 데이터에 대해서 효율적으로 수행되며 머신 수에 따라 선형적인 성능 향상을 보여주었다.


Classification is a useful data mining technique which generates a classifier using an existing labeled data set so that the generated classifier can predict class labels of each object whose label is unknown. Among several classification algorithms, Adaboost is one of the widely-used important classification algorithms for various applications. As there is an increasing trend of data mining applications that expects to deal with vast amount of data that usually do not process with the classification algorithms using serial computation, MapReduce framework has recently received a lot of attentions as a scalable parallel shared-nothing data processing platform. In this paper, we propose a parallel Adaboost algorithm using MapReduce and we perform experiments to show the effectiveness our proposed algorithm. Our experimental results confirm that our algorithm is scalable with large data and has linear speed up with increasing the number of machines.