초록 close

「青空文庫」는 웹을 통해, 대량의 일본어 전자 텍스트뿐만 아니라, 개개의 텍스트에 관한 서지정보를 포함한 부가정보를 함께 공개하고 있는 인터넷 전자 텍스트 아카이브즈로, 다양한 시대의 수많은 저자의 텍스트가 대규모로 수록되어 있는 일본어 전자 텍스트의 보고이다. 본고에서는 이와 같은「青空文庫」를 일본어 연구에 보다 폭 넓게 그리고 효과적으로 활용 할 필요가 있다는 판단 하에,「青空文庫」를 일본어학의 연구 자료로서 보다 유용하게 이용할 수 있는 수단으로서, 체계적인 데이터베이스화와 함께 이를 관리 및 검색하는 툴의 개발이라고 하는 구체적인 모델을 제시했다. 그리고 그와 같은 모델에 따라 실제적인「青空文庫」의 데이터베이스를 구축하고, 데이터베이스 및 텍스트 처리 툴을 일반에 공개했다. 본고를 통한 데이터베이스 구축의 대략의 공정은 다음과 같다. 1)「青空文庫」의 전자 텍스트 데이터를 일괄 다운로드:「AJ-Aozora-Tool ver1.02」이용2) 전자 텍스트 변환 및 처리:「AJ-Aozora-Tool ver1.02」이용2-1) 전 XHTML 태그 텍스트 데이터를 플레인 텍스트로 일괄 변환2-2) 전 플레인 텍스트를 일괄 형태소 분석3) 데이터베이스 입력 :「AJ-Aozora-Tool ver1.02」이용3-1) 플레인 텍스트의 데이터베이스화 :「MS-Access」및「MS-SQL」3-2) 형태소 분석 결과의 데이터베이스화 :「MS-Access」및「MS-SQL」4) 데이터베이스 관리 :「MS-Access」파일 혹은「MS-SQL」서버 내 데이터베이스와 웹5) 데이터베이스 검색 :「MS-Access」파일 혹은 웹 검색「青空文庫」テキスト検索:http://www.japanese.or.kr/japaneseutill/Corpus-Aozora/Corpus_TxtDB.aspx


「青空文庫」はウェブを通じて、大量の日本語の電子テキストだけではなく、個々のテキストに関する書誌情報を含む付加情報を共に公開しているインターネット電子テキストアーカイブズであって、様々な時代の数多くの著者のテキストが大規模で収録されている日本語の電子テキストの宝庫である。本稿ではこのような「青空文庫」を日本語の研究により幅広く、そして効果的に活用する必要があるという判断の上、「青空文庫」を日本語学の研究資料としてより有用に利用する手段として、体系的なデータベース化と共にその管理及び検索ツールの開発という具体的なモデルを提示した。そして、そのようなモデルに基づいて実際的な「青空文庫」のデータベースを構築し、データベース及びテキストの処理ツールを一般に公開した。本稿におけるデータベースの概略的な構築工程は以下のようである。1)「青空文庫」の電子テキストデータを一括ダウンロード:「AJ-Aozora-Tool ver1.02」利用2) 電子テキスト変換及び処理:「AJ-Aozora-Tool ver1.02」利用2-1) すべてのXHTMLタグテキストデータをプレーンテキストに一括変換2-2) すべてのプレーンテキストを一括して形態素分析3) データベース入力 :「AJ-Aozora-Tool ver1.02」利用3-1) プレーンテキストの電子テキスト化 :「MS-Access」及び「MS-SQL」3-2) 形態素分析結果のデータベース化 :「MS-Access」及び「MS-SQL」4) データベース管理 :「MS-Access」ファイル或いは「MS-SQL」サーバー内のデータベースとウェブ5) データベース検索 :「MS-Access」ファイル或いはウェブ検索http://www.japanese.or.kr/japaneseutill/Corpus-Aozora/Corpus_TxtDB.aspx