본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

나이브 베이지안 환경에서 미분류 데이터를 이용한 성능향상
Improving the Classification Accuracy Using Unlabeled Data: A Naive Bayesian Case

이창환   (동국대학교 정보통신학과UU0000452  );
  • 초록

    많은 경우에 분류데이터의 생성은 사람의 시간과 노력에 의존하기 때문에 많은 비용과 시간을 요구한다. 이에 반하여 미분류 데이터는 거의 비용을 들이지 않고 무제한의 데이터를 쉽게 획득할 수 있다. 따라서 기계학습에 있어서 이러한 미분류 데이터를 이용하여 분류학습의 성능을 향상시킬 수 있는 준감독자(semi-supervised)학습 방법이 최근 관심을 끌고 있다. 본 논문에서는 미분류 데이터가 분류학습의 성능향상에 마치는 영향을 분석하기 위하여 나이브 베이지안의 환경에서 미분류 데이터를 이용한 학습방법을 제시하고 이를 이용하여 미분류 데이터의 효용성을 실험적으로 조사하였다. 미분류 데이터는 나이브 베이지안의 환경에서 분류데이터의 숫자가 적을 때 특히 많은 효과를 보임을 알 수 있었다.


    In many applications, an enormous amount of unlabeled data is available with little cost. Therefore, it is natural to ask whether we can take advantage of these unlabeled data in classification learning. In this paper, we analyzed the role of unlabeled data in the context of naive Bayesian learning. Experimental results show that including unlabeled data as part of training data can significantly improve the performance of classification accuracy. The effect of using unlabeled data is especially important in case labeled data are sparse.


  • 주제어

    기계학습 .   준감독자 학습 .   인공지능.  

  • 참고문헌 (21)

    1. R. Duda, et al. 'Pattern Classification' 2nd edition, John Wiley&Sons, 2001 
    2. T. Zhang 'Some Asymptotic Results Concerning the Value of Unlabeled Data' NIPS 99 Workshop on Using Unlabeled Data for Supervised Learning, 1999 
    3. Y. Zhou and S. Goldman 'Enhancing Supervised Learning with Unlabeled Data' 17th Int'l Conf. On Machine Learning, pp.327-334, 2000 
    4. Vittorio Castelli and Thomas M. Cover, 'On the Exponential Value of Labeled Samples' Pattern Recognition Letters, Vol.16, pp.105-111, 1995 
    5. B. Shahshahani and D. Landgrebe 'The Effect of Unlabeled Samples in Reducing the Small Sample Size Problem and Mitigating the Hughes Phenomenon' IEEE Trans. On Geoscience and Remote Sensing, Vol.32, No.5, 1087-1095, 1994 
    6. F. De Comite et al. 'Positive and Unlabeled Examples Help Learning' Tenth Int'l Conf. on Algorithmic Learning Theory, pp.219-230, 1999 
    7. Sally Goldman and Yan Zhou 'Enhancing Supervised Learning with Unlabeled Data' ICML, 2000 
    8. T. Hofmann 'Text Categorization with Labeled and Unlabeled Data: A Generative Model Approach' NIPS 99 Workshop on Using Unlabeled Data for Supervised Learning, 1999 
    9. K. Nigam, AK. McCallum, S. Thrun, and T. Mitchell 'Text Classification from Labeled and Unlabeled Documents Using EM' Machine Learning, Vol.39, pp.103-134, 2000 
    10. T. Mitchell 'The Role of Unlabeled Data in Supervised Learning' 6th Int'l Colloquium on Cognitive Science, 1999 
    11. A. P. Dempster, N. M. Laird, and D. B. Rubin 'Maximum Likelihood from Incomplete Data via the EM Algorithm' Journal of Royal Statistical Society, Vol.39, pp.1-38, 1977 
    12. Xing Yi; Changshui Zhang; Jingdong Wang, 'Multi-view EM algorithm and its application to color image segmentation' IEEE International Conference on Multimedia and Expo., 2004 
    13. Avrim Blum and Tom Mitchell 'Combining Labeled and Unlabeled Data with Co-Training', COLT, 1998 
    14. Kamal Nigam and Rayid Ghani 'Analyzing the Effectiveness and Applicability of Co-training', CIKM, 2000 
    15. A. Levin and P. Viola and Y. Freund, 'Unsupervised improvement of visual detectors using co-training' the Nineth IEEE International Conference on Computer Vision, 2003 
    16. Rong Yan and Naphade, M. 'Multi-Modal Video Concept Extraction Using Co-Training' IEEE International Conference on Multimedia and Expo., 2005 
    17. D. Cohn et al 'Active Learning with Statistical Models' Journal of Artificial Intelligence Research, Vol.4, pp.129-145, 1996 
    18. R. Liere and P. Tadepalli 'Active Learning with Committees for Text Categorization' 14th National Conf. on Artificial Intelligence, pp.591-596, 1997 
    19. Tur, G., Schapire, R.E., and Hakkani-Tur, D. 'Active learning for spoken language understanding' IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003 
    20. Riccardi, G. and Hakkani-Tur, D. 'Active learning: theory and applications to automatic speech recognition' IEEE Transactions on Speech and Audio Processing, 2005 
    21. Tom Mitchell, 'Machine Learning' McGraw Hill, 1997 

 저자의 다른 논문

  • 이창환 (12)

    1. 1997 "귀납법칙 학습과 개체위주 학습의 결합방법" 정보처리논문지 = The transactions of the Korea Information Processing Society 4 (9): 2299~2308    
    2. 1997 "분류학습을 위한 연속 애트리뷰트의 이산화 방법에 관한 연구" 정보처리논문지 = The transactions of the Korea Information Processing Society 4 (6): 1541~1549    
    3. 1999 "확률적 디폴트 규칙들을 이용한 비단조 상속추론 시스템" 정보처리논문지 = The transactions of the Korea Information Processing Society 6 (2): 357~366    
    4. 2002 "JPP(JNI 전처리기)의 설계 및 구현" 정보처리학회논문지. The KIPS transactions. Part A. Part A a9 (1): 129~136    
    5. 2003 "결합적 방법에 의한 귀납법칙 집합의 생성" 정보처리학회논문지. The KIPS transactions. Part B. Part B b10 (1): 27~32    
    6. 2004 "Hellinger 엔트로피를 이용한 다차원 연속패턴의 생성방법" 정보처리학회논문지. The KIPS transactions. Part B. Part B b11 (4): 477~484    
    7. 2004 "속성분할이 없는 향상된 협력학습 방법" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 31 (10): 1259~1265    
    8. 2005 "정보이론을 이용한 K-최근접 이웃 알고리즘에서의 속성 가중치 계산" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 32 (9): 920~926    
    9. 2005 "확률적 다차원 연속패턴의 생성을 위한 효율적인 마이닝 알고리즘" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 32 (2): 75~84    
    10. 2006 "가상 기계 코드를 위한 패턴 매칭 최적화기" 멀티미디어학회논문지 = Journal of Korea Multimedia Society 9 (9): 1247~1256    

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 이용한 콘텐츠
이 논문과 함께 출판된 논문 + 더보기