초록 close

웹상의 정보가 폭발적으로 증가하는 현실에서 웹문서를 형태적으로나 의미적으로 분석할 필요성이 대두되는데, 이에 대한 지속적인 연구결과가 나옴에도 불구하고 미등록어가 많이 발생한다. 이는 미등록어에 채팅어가 많이 포함되고 있기 때문이다. 사이버 공간의 대화어인 채팅어는 빠른 정보 전달이 요구되는 상황에서 사용되므로 일반 언어의 축약 형태인 어휘가 대부분을 차지한다. 본 연구에서는 채팅어의 특징을 분석하여 웹문서에서 채팅어가 포함된 문서일 가능성, 미등록어의 채팅어 여부, 채팅어의 일상어로서의 변환을 비트 연산을 통해 분석하고자 한다. 채팅어로서 자주 사용되는 축약어휘의 음소 축약 현상과 축약을 통한 새로운 채팅어휘의 생성을 분석하여 비트 연산을 활용한 채팅어휘와 일상어휘간의 변환 알고리즘을 제안하고자 한다.


We need to analyze the web document by a morpheme or a meanings where the web information increases. Despite the continuous study finding appears, unregistered words happen often. It is because chatting words are included in unregistered words. The chatting word is conversation language of cyber space, so it is used under the situation where the fast information transmission is demanded, that contraction vocabulary occupies most of them. In this study, we interested in the possibility where a chatting word is included in the web document, the availability where an unregistered word is chatting word, the conversion between the chatting word and the natural vocabulary, Analyzing to create a new chatting word through contraction of phonemes which is used frequently, we wish to propose the conversion algorithm from the chatting vocabulary to lexical vocabulary which applies a bit operation.