초록 close

데이터마이닝은 방대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 기법으로서 각종 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 룰 등을 발견하는데 사용된다. 데이터마이닝 기법 중 하나인 군집분석기법은 군집의 수 혹은 군집의 구조에 대한 가정이 없으며, 다양한 특성을 지닌 관찰대상을 유사성을 바탕으로 군집을 형성하고, 형성된 군집의 특성을 파악하여 군집들 사이의 관계를 분석하는 기법으로 PAM, CLARA, CLARANS, k-means, Twostep 등 다양한 군집분석 알고리즘이 있다. 본 논문에서는 데이터마이닝에서 가장 많이 활용되고 있는 k-평균 군집분석과 Twostep 군집분석에 대한 알고리즘 및 모형화 단계를 비교한 후, 실제 예제에 적용하여 두 군집분석에 대한 군집 결과 및 각 군집 간 속성들의 차이를 비교하고자 한다. 주요용어 : 군집분석, 데이터마이닝, k-평균 군집분석, Twostep 군집분석, AIC, BIC.


Clustering is the process of grouping the data into clusters so that objects within a cluster have high similarity in comparison to one another. It has been widely used in many applications, such that pattern analysis or recognition, data analysis, image processing, market research on off-line or on-line and so on. It can identify dense and sparse regions among data attributes or object attributes. There are many clustering algorithms to find clusters based on an assumptions that all attributes are continuous. One of the most widely used clustering algorithms is the k-means algorithm. Whereas the twostep clustering is the algorithm that enables clustering data with both continuous and categorical attributes. In this paper, we analysis real data to compare the k-means clustering and the twostep clustering algorithms.