초록 close

현존하는 상업용 웹 정보검색 시스템들이 전문성을 갖추지 못하고 있는 이유는 검색된 분야별 정보를 통합하고 가공하는 능력이 부족하기 때문이다. 따라서, 단순 검색이 아닌 실제 사용자가 원하는 웹 상의 의미정보를 추출하고 가공/통합하는 정보통합시스템의 필요성이 대두되었다. 본 논문에서는 분산된 이질의 웹사이트들에서 제공되는 특정분야의 정보를 추출 및 통합하는 정보통합시스템(TIC: Target Information Collector)을 구현하고, 구현된 시스템의 평가결과를 제시한다. 본 논문에서 대상으로 설정한 정보 영역은 국제입찰정보이다. 국제입찰정보는 전 세계 국가의 정부에서 필요로 하는 조달물품 및 서비스에 대한 공개 입찰자료이다. 본 논문에서는 전 세계의 국제입찰정보 제공 원천 사이트에서 공통 특성 정보를 자동 추출하기 위해 HTML 태그간 패턴을 사용한 정보위치지정 방법을 사용하였으며, 정보추출 및 통합을 위한 프레임워크 설계를 통해 큰 부담 없이 모든 원천사이트 별 정보추출 및 통합 코드를 작성할 수 있었다. 또한, 구현된 TIC을 약 8 개월 동안 운영한 결과 매우 단순한 기법을 사용하고도 거의 대부분의 중복정보가 제거된 고품질의 국제입찰정보를 수집할 수 있음을 확인하였다. 본 논문이 기여하는 바는 특정 범주에 속하는 공통정보를 추출 및 통합/가공하는 데에 필요한 시스템 프레임워크를 제시했다는 점이다.


The lack of specialties of the existing commercial web search systems stems from the fact that they have no capabilities to extract and gather the meaningful information from each information domain they cover. We are sure, however, that the necessity for the information integration system, not just search system, will be likely to become larger in the future. In this paper, we propose a design and implementation of an information integration system called TIC(target information collector). TIC is able to extract meaningful information from a specific information area in the internet and integrate them for the commercial service. We also show the evaluation results of our implementation. For the experiments we applied our TIC to the international procurement information area. The international procurement information is publicly and freely announced by each government to the world. To automatically extract common properties from the related source sites, we adopt information pointing technique using inter-HTML tag pattern parsing. And through the information integration framework design, we can easily implement a site-specific information integration engine. By running our TIC for about 8 months, we find out it can remove considerable amount of the duplicated information, and as a result, we can obtain high quality international procurement information. The main contribution of this paper is to present a framework design and it's implementation for extracting the information of a specific area and then integrating them into a meaningful one.