초록 close

이 논문은 웹 정보를 추출하기 위한 래퍼 프로그램을 생성해내기 위한 XWS(XWEET Web-wrapper System)의 데이타 모델과 소프트웨어 개발방법에 대해 설명하고 있다. 다양한 정보 출처에 존재하는 정보에 접근하기 위해서는 원본 데이타를 공통된 데이타 모델로 변환하고 통합해야 된다. XWS 시스템은 XWEET 프로젝트의 부분으로 개발되었다. 우리는 효율적이고 사용하기 쉬운 Perl 프로그램 언어를 사용하여 XWS 시스템을 구현하였다. XWS은 다른 시스템과 구별되는 몇 가지 특징을 가지고 있다. 첫째, HTML 페이지로부터 정보를 추출하기 위해 사용되는 데이타모델과 연산자들은 HTML 문서의 다양한 뷰를 지원할 수 있는 통합된 모델을 사용한다. 둘째, XWS는 사용자가 래퍼 프로그램을 손쉽게 생성해 내기 위한 그래픽 인터페이스 프로그램을 제공한다. 셋째, 객체지향적으로 설계된 고수준의 스크립트 언어를 사용하였다. 또한 논문에서 DBLP 사이트로부터 검색된 논문 정보를 추출하기 위한 자세한 예제를 통해 XWS의 사용법을 보이고 있다.


This paper describes the data model and software development of XWS, an XWEET Web-wrapper System for generation wrapper program. To access information from various information sources, one has to convert and integrate source data into the same data model. XWS is developed as a part of XWEET project. We have implemented the XWS system using the Perl programming language stressing efficiency and ease-of-use. XWS has a few distinct features. First, data model and operator used for extracting information from HTML support a unified model of different views of HTML document. Second, it provides a user-friendly interface program to enable wrapper programmer to generate wrapper easily. Third, XWS use the high-level script language designed by object-oriented methodology. In this paper, we also present the detail demonstration where it is useful for extracting article information from DBLP site.