초록 close

본 연구에서는 유전자 발현 마이크로어레이 자료에 대한 유전자 군집분석을 위해, 평활된 성분평균을 가지는 인자분석자 정규혼합모형의 적합을 통해 각 군집에서 이상발현 패턴을 보이는 이른바 "이상표본"들을 효과적으로 검출하는 방법을 제시한다. 이상표본이란 각 군집에서 고발현(저발현)계급에서 특이하게 저발현(고발현)을 보이는 표본을 말한다. 이러한 이상표본들을 식별하여 제거한다면 보다 선명하고 유의미한 정보를 가지는 유전자 군집을 얻을 수 있을 것이다. 그러나 이상표본을 식별하기 위해서는 무엇보다 이상표본들에 대해 보다 로버스트한 성분-평균추정치를 얻어야 한다. 이를 위해 본 연구에서는 적합된 인자분석자 정규혼합모형이 평활된 성분평균을 가지도록 유도하고, 평활 성분평균을 통해 각 군집에서 이상발현하는 표본들을 식별하고자 한다.


This paper provides a detection method of the so called "problematic samples" after clustering genes of microarray gene expression data. The problematic sample addresses the tissue sample which highly(lowly) expresses in the low(high) expression class of each cluster. Without them the clusters are able to provide apparent and meaningful information about the relationship between genes and tissue samples. To detect the problematic samples, it requires a smoothed component-mean estimates which is robust against them. In this paper we fit the factor analyzer normal mixture model with a penalty so that its component-means are smooth over the sample means, and detect the questionable samples using them.