초록 close

전형적인 마이크로어레이 자료는 관측된 환자 수보다 훨씬 더 많은 수의 유전자들의 발현 강도로 이루어져 있다. 이러한 경우, 기존의 통계적 기법을 그대로 적용하기에 무리가 따르는데, 이를 "small n, large p problem"이라고 한다. 따라서, 주된 분석을 하기 전에 주성분 분석이나 부분최소제곱과 같은 방법을 통해 차원을 축소해야만 하는데, 기존의 이러한 방법들은 해석상의 어려움을 수반하는 단점이 있다. 이 논문에서는 유전자 발현 강도의 가중 평균을 이용하여 계산이 용이하고 해석이 간편한 새로운 차원 축소 방법을 제시하였다. 또, supervised data에서 생존시간이 주어진 경우, 임상 변수와 유전자 변수를 동시에 공변량으로 고려하는 칵스(Cox) 회귀 모형을 구축하였고, 생존시간에 영향을 미치리라 예상되는 공변량으로서 각각을 따로 고려하는 것보다 동시에 고려하는 것이 더 좋은 결과를 이끌어 냄을 확인할 수 있었다.


A typical DNA microarray dataset consists of expression measurements on thousands of genes far exceeding a small number of patients. A direct application of standard statistical methodologies is not possible because of 'small n large p problem'. Therefore, we need to reduce dimension before the analysis of our interest. In supervised data with survival time, we regressed survival time on clinical variables as well as microarray data using the Cox regression model. Throughout this procedure, the simple dimension reduction method was suggested in this paper. Also, we found that the results were better when clinical variables and genetic variables were considered simultaneously.