초록 close

현재 세계의 여러 학술 기관은 산스끄리뜨 불전을 디지털 DB로 구축하여 웹사이트에서 제공하는 프로젝트들을 수행하고 있으며, 앞으로 이 자료들은 여러 분야에 종사하는 많은 연구자들의 연구 대상이 될 것이다. 하지만 그러기에 앞서 반드시 해결되어야 하는 문제가 있는데, 그것은 바로 해당 연구자의 공통 관심사이자 가장 기초적이면서도 텍스트의 올바른 번역 및 해석에 이르는데 꼭 필요한 작업이라 말할 수 있는 언어학적 가공과 그에 따른 문법정보 데이터베이스의 구축이다. 이 논문은, 베다문헌이나 고전 산스끄리뜨 문헌들과 달리, 유독 산스끄리뜨 불전에 대해 아직까지 거의 진행되고 있지 않는 그 두 가지 작업과 관련하여 최적의 구성 및 체계 모델을 제시하는데 그 목적이 있다. 언어학적 가공은 크게 두 과정으로 형태 가공과 의미 가공으로 구성된다. 형태 가공은 단어 절단 작업, 산디 풀기, 표지 분리, 합성어 분리, 어간ㆍ접사ㆍ어근을 대상으로 하는 형태소 추출의 분석 단계들로 구성되며, 의미 가공은 어근의 의미, 접사의 기능, 어간 및 합성어의 의미, (실사 및 동사) 표지의 의미, 문장 의미의 규정을 위한 분석 단계들로 구성된다. 각각의 가공과 분석 단계에서 얻어지는 결과들은 크게 텍스트 DB와 어휘 DB로 구축되며, 전자는 (행 번호가 붙여진) 단어절단 텍스트 DB와 산디 적용 이후/이전 텍스트 DB로 구성되며, 후자는 AtoH 배열의 어휘 DB와 어원적 배열의 어휘 문법 DB로 구성된다. AtoH 배열의 어휘 DB에는 먼저 텍스트를 구성하는 각 단어가 산디 적용 이후 형태와 산디 적용 이전 형태의 순서대로 나열되고, 각각의 단어에는 문법적 정보를 제공할 표제어가 표시되어 있다. 이 표제어들은 어원적 배열의 어휘 정보 DB에서 찾을 수 있으며, 1 의미, 2 형태소 구조, 3 문법적 범주, 4 텍스트 내 단어 위치(인덱스) 등에 대한 정보를 제공한다. 산스끄리뜨 불전을 디지털 DB로 구축한 후 다음 단계의 작업이 언어학적 가공과 그에 따른 체계적인 문법정보 데이터베이스의 구축이라는 것은 분명한 사실이다. 이는 미래의 웹서비스 제공에서 매우 중요한 콘텐츠를 구성하고, 불전에 관심을 두고 있는 세계의 모든 사람에게 공개되고 자유로이 이용될 수 있으며, 또한 산스끄리뜨 언어학과 불교학에 관심을 갖게 될 미래 전문가의 후학들에게 연구의 토대를 제공해 줄 수 있다는 점에서, 더 나아가 불교학 관련 학술 연구뿐만 아니라, 대상 텍스트의 문법서 및 (어원적) 사전 편찬에 대한 토대를 제공할 수 있는 연구이기 때문이다.


This article aims at suggesting a model with optimal formation and systematic analytical methodology for linguistic process of Buddhist Sanskrit Text and construction of it’s Grammatical Information Database. Linguistic process largely consists of morphological process(MP) and semantic one(SP), which are respectively provided with subsequent analytic steps. As for MP, it consists of in turn the steps like Word Bundle Separating, Sandhi Clearing, Compound Segmentation, and Morpheme Extracting. In the case of SP, there are the steps for defining of Meaning or Function of Root, Affix, Stem and Compound, Marker (of Declension and Conjugation), and finally Sentence Meaning according to text-specific contexts in question. Results from the respective process and steps are then constructed with Textual Database(TD) and Lexical one(LD). The latter is divided in two classes, the one is Textual DB marked with Word Bundle Separating, the other Textual DB with sandhi-cleared forms. The formal is also divided in two classes, the one is Lexical DB with AtoH-Arrangement, including the sandhi-cleared words and entry word, the other Lexical DB with Etymolo- gical Arrangement and Grammatical Information about meaning, morpheme structure, grammatical categories, index indicating word location within texts in question.