초록 close

LAD(Logical Analysis of Data)는 Boolean-logic에 기반을 둔 데이터 마이닝 방법론이다. LAD에 의한 데이터 분석 시 중요한 과정은 데이터 집합에 숨겨진 구조적 정보를 패턴의 형식으로 발견해내는 패턴 생성 단계이다. 기존의 패턴 생성 방법은 열거법에 기반을 두고 있어 높은 차수의 패턴을 생성하는 것은 실질적으로 불가능하였다. 본 논문에서는 최적화에 기반을 둔 패턴 생성 방법론을 제안하고 혼합 정수 선형 모형과 SCP(Set Covering Problem)의 두 가지 모형을 제안한다. 기계학습 분야에서 널리 쓰이는 데이터 집합에 대해 제안된 패턴 생성 방법을 이용한 분석 실험을 통하여 기존의 패턴 생성 방법으로는 생성될 수 없는 패턴을 쉽게 생성하는 효율성을 입증하였다.


The logical analysis of data(LAD) is a Boolean-logic based data mining tool. A critical step in analyzing data by LAD is the pattern generation stage where useful knowledge and hidden structural information in data is discovered in the form of patterns. A conventional method for pattern generation in LAD is based on term enumeration that renders the generation of higher degree patterns practically impossible. In this paper, we present a novel optimization-based pattern generation methodology and propose two mathematical programming models, a mixed 0-1 integer and linear programming (MILP) formulation and a well-studied set covering problem (SCP) formulation for the generation of optimal and heuristic patterns, respectively. With benchmark datasets, we demonstrate the effectiveness of our models by automatically generating with ease patterns of high complexity that cannot be generated with the conventional approach.