초록 close

비디오 영상에 포함되어 있는 자막은 비디오의 내용을 함축적으로 표현하고 있기 때문에 비디오 색인 및 검색에 중요하게 사용될 수 있다. 본 논문에서는 뉴스 비디오로부터 폰트, 색상, 자막의 크기 등과 같은 사전 지식 없이도 자막을 효율적으로 추출하여 인식하는 방법을 제안한다. 문자 영역의 추출과정에서 문자영역은 뉴스 비디오의 여러 프레임에 걸쳐나 나오기 때문에 인접 프레임의 차영상을 통해서 동일한 자막 영역이 존재하는 프레임을 자동적으로 추출한 후, 이들의 시간적 평균영상을 만들어 인식에 사용함으로써 인식률을 향상한다. 또한, 평균 영상의 외각선 영상을 수평, 수직방향으로 투영한 값을 통해 문자 영역을 찾아 Region filling, K-means clustering을 적용하여 배경들을 완벽하게 제거함으로써 최종적인 자막 영상을 추출한다. 자막 인식과정에서는 문자 영역 추출과정에서 추출된 글자영상을 사용하여 white run, zero-one transition과 같은 비교적 간단한 특징 값을 추출하여 이를 비교함으로써 인식과정을 수행한다. 제한된 방법을 다양한 뉴스 비디오에 적용하여 문자영역 추출 능력과 인식률을 측정한 결과 우수함을 확인하였다.


Caption information in news videos can be very useful for video indexing and retrieval since it usually suggests or implies the contents of the video very well. In this paper, a new algorithm for extracting and recognizing characters from news video is proposed, without a priori knowledge such as font type, color, size of character. In the process of text region extraction, in order to improve the recognition rate for videos with complex background at low resolution, continuous frames with identical text regions are automatically detected to compose an average frame. The image of the averaged frame is projected to horizontal and vertical direction, and we apply region filling to remove backgrounds from the character. Then, K-means color clustering is applied to remove remaining backgrounds to produce the final text image. In the process of character recognition, simple features such as white run and zero-one transition from the center, are extracted from unknown characters. These feature are compared with the pre-composed character feature set to recognize the characters. Experimental results tested on various news videos show that the proposed method is superior in terms of caption extraction ability and character recognition rate.