초록 close

인공지능의 핵심은 추론을 바탕으로 기계와 인간 혹은 기계들 간의 소통에 있다. 특히 디지털화된 언어적 데이터로부터 정보를 얻고 지식화하기 위해서는 개념체계, 일종의 정신 사전에 상응하는 온톨로지가 필요하다. 본 연구는 온라인 쇼핑 몰의 e-카탈로그가 제공하는 상품의 분류체계와 상품 정보는 나름대로 소비자의 지식체계를 반영하고 있다는 점에서 온톨로지적 활용이 가능하다는 그간 연구의 연장선상에 있다. 특히 다양한 e-카탈로그의 정보를 누적적으로 통합하여, 보다 완벽한 데이터의 모델링을 위한 방안을 제시하고자 한다. 한 카탈로그 안에서도 상품관련 정보의 출처는 다양하다. 분류체계로부터 얻어지는 정보, 속성과 속성 값의 표 형식으로 제공되는 구조적인 정보, 텍스트 형식으로 제공되는 비구조적인 정보가 그것이다. 따라서 한 e-카탈로그내에서의 수직적인 정보의 통합 절차를 모형화한다. 더 나아가 상이한 e-카탈로그들의 정보를 수평적으로 통합하는 절차를 모형화한다. 이러한 일련의 빅데이터적 통합과정은 언어적 경계를 뛰어넘어 진행될 수 있다. 본 연구는 다양한 형태의 온톨로지 개발, 지식 그래프, 데이터 레이블링 등 데이터로부터 정보를 추출하여 지식을 구축하고 확장하고자 하는 최근의 인공지능 연구에 기여하고자 하는 언어학적 기초연구이다.


Die vorliegende Arbeit setzt sich zum Ziel, aus den E-Katalogen extrahierte verschiedenartige Produktinformationen in ein strukturiertes Informationsbündel zu integrieren. Diese Operation ermöglicht die semantische Kalkulierung und daduch eine ontologische Nutzung des E-Kataloges. Ein E-Katalog umfasst eine Taxonomie und Produktdetails, die in tabellarischer Form oder in Textform vorliegen. Einerseits erscheinen produktbezogene Informationen aus dem Klassifizierungssystem und dem tabellarischen Format paarweise in Form eines “Attribut – Attributswert” strukturiert. Andererseits sind sie im Textformat unstrukturiert dargestellt. Für die Strukturierung dieser textuellen Informationen braucht man einen Prozess von Informationsextrahierung, der sich seinerseits durch eine Reihe von morphosytaktischen Analysen vollzieht. Die vorliegende Untersuchung fokussiert nicht auf Informationsextrahierung aus dem Text, sondern versucht auf Grund des Extrahierungsprozesses extrahierte strukturierte Informationen in bereitgestellte strukturierte Informationen zu integrieren. Dies kann insofern vertikale Integration genannt werden, als diese sich innerhalb eines E-Kataloges vollzieht. Dieses struktuierte Informationsbündel sollte darüber hinaus mit denen aus anderen E-Katalogen zusammengeführt werden, um eine vollständigere Datenmodellierung zu erreichen. Dieses horizontale Integrationsverfahren kann über sprachliche Grenzen hinausgehen. In dieser Arbeit versuche ich, aus linguistischer Perspektive eine Methode für eine vollständigere Datenmodellierung vorzuschlagen, indem verschiedenartige Informationen aus E-Katalogen kumulativ gesammelt werden.