초록 close

인간의 다양성은 인간 유전체에서 나타나는 변이, 특히 SNP에 의하여 나타난다. 이러한 다양성과 유전자간의 연관 연구는 인류가 겪고 있는 많은 유전성 질환들에 대한 예방과 치료를 위해서는 매우 중요한 것이다. 그러나, 이를 위해서는 장기간에 걸친 실험이 필요하기 때문에 시간적, 재정적 비용이 많이 요구된다. 이와 같은 이유로 인해 여러 연구자들은 컴퓨터를 이용하는 연관 연구를 시도해왔다. 그 중에 하나가 바로 유전자형(genotype) 데이터에서부터 일배체형(haplotype)을 재구성(reconstruction)하는 것이다. 본 논문에서는 대표적인 일배체형 재구성 시스템들에 대해서, 일배체형 재구성의 정확도, CPU처리시간, 데이터 처리량, 메모리 소비량에 초점을 맞추어 여러 실험을 수행하고 이에 대한 비교 분석 결과를 제시한다. 분석에 사용된 데이터는 Hudson의 ms 프로그램을 이용하여 생성한 인공 데이터 집합 9개와 Daly 등의 논문에서 제공한 129명의 실제 유전자형 데이터이다.


Variations of human comes from mutations, esp. SNPs, in human genome. Association studies for relations between variations and genes are very important things in the view of prophylaxis and medical therapy of genetic disease. However, they need long-term experiments, so they require large costs in time and money. For this reasons, many researchers tried to use computer systems for their association studies. One of such examples is reconstructing haplotypes from genotype data. In this paper, we make various experiments with famous haplotype reconstruction systems in the points of reconstructing accuracy, CPU processing time, processing capability, and memory usage, and then we provide comparison results of them. We used nine artificial datasets that were created by Hudson's ms program and one dataset that includes 129 people's real genotypes from Daly et al.'s paper.