본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

전진선택법에 의해 선택된 부분 상관관계의 유전자들을 이용한 암 분류
Classifying Cancer Using Partially Correlated Genes Selected by Forward Selection Method

유시호   (연세대학교 컴퓨터과학과UU0000936  ); 조성배   (연세대학교 컴퓨터과학과UU0000936  );
  • 초록

    유전 발현 데이터는 생명체의 특정 조직에서 채취한 샘플을 마이크로어레이상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이터이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현 정도는 차이를 보이기 때문에 유전 발현 데이터를 통하여 암을 분류할 수 있다. 그러나 분류에 모든 유전자가 관여하지는 않으므로 효율적인 암의 분류를 위해서는 관련성 있는 소수의 유전자만을 선별해내는 작업인 특징선택 방법이 필요하다. 본 논문에서는 회귀분석의 변수선택방법중 하나인 전진 선택법(forward selection method)을 사용하여 유전자들을 선하고 분류하는 방법을 제안한다. 이 방법은 선택되는 유전자들의 중복된 정보를 최소화시켜 암의 분류에 있어 보다 효과적인 유전자 선택을 한다. 실험데이터는 대장암 데이터(Colon cancer dataset)를 사용하였고, 분류기는 k-최근접 이웃(KNN)을 사용하였다. 이 방법과 상관계수를 이용한 특징 선택방법인 피어슨 상관계수와 스피어맨 상관계수방법과 비교해본 결과 전진 선택법에 의한 특징선택 방법이 암의 분류에 있어서 더 효과적인 유전자 선택을 한다는 사실을 확인하였다. 실험결과 90.3%의 높은 인식률을 보였다. 추가적으로 림프종 데이터에 대한 실험을 하였고, 그 결과 전진 선택법의 유용성을 확인할 수 있었다.


    Gene expression profile is numerical data of gene expression level from organism measured on the microarray. Generally, each specific tissue indicates different expression levels in related genes, so that we can classify cancer with gene expression profile. Because not all the genes are related to classification, it is needed to select related genes that is called feature selection. This paper proposes a new gene selection method using forward selection method in regression analysis. This method reduces redundant information in the selected genes to have more efficient classification. We used k-nearest neighbor as a classifier and tested with colon cancer dataset. The results are compared with Pearson's coefficient and Spearman's coefficient methods and the proposed method showed better performance. It showed 90.3% accuracy in classification. The method also successfully applied to lymphoma cancer dataset.


  • 주제어

    gene expression profile .   feature selection .   forward selection method .   classification .   regression analysis.  

  • 참고문헌 (13)

    1. J. Rawlings, 'Applied regression analysis,' Wadsworth Books, Belmont, CA, 1998 
    2. K. E. Lee, N. Sha, E. R. Dougherty, M. Vannucci, and B. K. Mallick, 'Gene selection: A bayesian variable selection approach,' Bioinformatics, vol. 19, no. 1, pp 90-97, 2003 
    3. T. H. Bo and I. Jonassen, 'New feature subset selection procedures for classification of expression profiles,' Genome Biology, vol. 3, no. 4, research0017.1-0017.11, 2002 
    4. S. Dudoit, J. Fridlyand, and T. P. Speed, 'Comparison of discrimination methods for the classification of tumors using gene expression data,' Technical Report 576, Department of Statistics, University of California, Berkeley, 2000 
    5. M. Xiong, L. Jin, W. Li, and E. Boerwinkle, 'Computational methods for gene expression-based tumor classification,' BioTechniques, vol. 29, no. 6, pp. 1264-1270, 2000 
    6. P. Tamayo, 'Interpreting patterns of gene expression with self-organizing map: Methods and application to hematopoietic differentiation,' Proc. of National Academy of Sciences, vol. 96, pp. 2907-2912, 1999 
    7. R. J. Lipshutz, S. P. Fodor, T. R. Gingeras, and D. J. Lockhart, 'High density synthetic oligonucleotide arrays,' Nature Genetics, vol. 21, pp. 20-24, 1999 
    8. J. Khan, J S. Wei, M. Ringner, L. H. saar, M. Ladanyi, F. Westermann, F. Berthold, M. Schwab, C. R. Antonescu, C. Peterson, and P. S. Meltzer, 'Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks,' Nature, vol. 7, no. 6, pp. 673-679, June 2001 
    9. L. Li, C. R. Weinberg, T. A. Darden, and L. G. Pedersen, 'Gene selection for samlple classification based on gene expression data-Study of sensitivity to choice of parameters of the GAIKNN method,' Bioinformatics, vol. 17, no. 12, pp 1131-1142, 2001 
    10. M. P. S. Brown, W. N. Grundy, D. Lin, N. Cristianini, C. Sugnet, M. Ares, jr., and D. Haussler, 'Support vector machine classification of microarray gene expression data,' USCS-CRL-99-09, pp. 1-23, June 1999 
    11. C. A. Harrington, C. Rosenow, and J. Retief, 'Monitoring gene expression using DNA microarrays,' Curr. Opin, Microbiol, vol. 3, no. 3, pp. 285-291, 2000 
    12. S. B. Cho and J. W. Ryu, 'Classifying gene expression data of cancer using classifier ensemble with mutually exclusive features,' Proc. of the IEEE, vol. 90, no. 11, pp. 1744-1753, 2002 
    13. W. D. Shannon, M. A. Watson, A. Perry, and K. Rich, 'Mantel statistics to correlate gene expression levels from microarrays with clinical covariates,' Genetic Epidemiology, vol. 23, no. 1, pp 87-96, 2002 
  • 이 논문을 인용한 문헌 (1)

    1. Yeom, Hae-Young ; Kim, Jae-Hyup ; Moon, Young-Shik 2005. "Classification of Gene Data Using Membership Function and Neural Network" 電子工學會論文誌. Journal of the Institute of Electronics Engineers of Korea. CI, 컴퓨터, 42(4): 33~42     

 저자의 다른 논문

  • 유시호 (2)

    1. 2004 "퍼지 클러스터링 기반의 국소평가 유전자 알고리즘" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 31 (9): 1246~1257    
    2. 2004 "퍼지 클러스터링의 베이지안 검증 방법을 이용한 발아효모 세포주기 발현 데이타의 분석" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 31 (12): 1591~1601    
  • 조성배 (114)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기