본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

다항시행접근 단순 베이지안 문서분류기의 개선
Improving Multinomial Naive Bayes Text Classifier

김상범   (고려대학교 컴퓨터학과UU0000159  ); 임해창   (고려대학교 컴퓨터학과UU0000159  );
  • 초록

    단순 베이지언 분류모형은 구현이 간단하고 효율적이기 때문에 실용적으로 사용하기에 적합하다. 그러나 이 분류모형은 많은 기계학습 도메인에서 우수한 성능을 보임에도 불구하고 문서분류에 적용되었을 경우에는 그 성능이 매우 낮은 것으로 알려져왔다. 본 논문에서는 단순 베이지언 분류모형중 가장 성능이 우수한 것으로 알려진 다항 시행접근 단순 베이지언 분류모형을 개선하는 세가지 방법을 제안한다. 첫 번째는 범주에 대한 단어의 확률추정방법을 문서모델에 기반하여 개선하는 것이고, 두 번째는 문서의 길이에 따라 범주와의 관련성이 선형적으로 증가하는 것을 억제하기 위해 길이에 대한 정규화를 수행하는 것이며, 마지막으로 범주판정에 중요한 역할을 하는 단어들의 영향력을 높여주기 위하여 상호정보가중 단순 베이지언 분류방법을 사용하는 것이다. 제안하는 방법들은 문서분류기의 성능 평가를 위한 벤치마크 문서집합인 Reuters21578과 20Newsgroup에서 기존의 방범에 비해 상당한 성능향상을 가져옴을 알 수 있었다.


    Though naive Bayes text classifiers are widely used because of its simplicity, the techniques for improving performances of these classifiers have been rarely studied. In this paper, we propose and evaluate some general and effective techniques for improving performance of the naive Bayes text classifier. We suggest document model based parameter estimation and document length normalization to alleviate the Problems in the traditional multinomial approach for text classification. In addition, Mutual-Information-weighted naive Bayes text classifier is proposed to increase the effect of highly informative words. Our techniques are evaluated on the Reuters21578 and 20 Newsgroups collections, and significant improvements are obtained over the existing multinomial naive Bayes approach.


  • 주제어

    정보검색 .   문서분류 .   단순 베이지안 학습.  

  • 참고문헌 (11)

    1. Yang, Y., Expert network : Effective and efficient learning from human decisions in text categorization and retrieval, In Proceedings of SIGIR-94, 18th ACM International Conference on Research and Development in Information Retrieval, pp. 13-22, 1994 
    2. Joachims, T., Text categorization with support vector machines: learning with many relevant features, In Proceedings of ECML-98, 10th European Conference on Machine Learning, pp. 137-142, 1998 
    3. McCallum, A. K., and Nigam, K., A comparison of event models for naive bayes text classification, In Proceedings of AAAI-98 Workshop on Learning for Text Categorization, pp. 137-142, 1998 
    4. Lewis, D. D., and Ringuette, M., A comparison of two learning algorithms for text categorization, In Third Annual Symposium on Document Analysis and Information Retrieval, pp. 81-93, 1994 
    5. Yiming Yang, Xin Liu, 'A Re-examination of Text Categorization Methods', Proc. of the 22nd ACM SIGIR'99, 1999 
    6. Domingos, P. and Pazzani, M. J., On the optimality of the simple bayesian classifier under zero-one loss, Machine Learning, Vol. 29, No 2/3, pp. 103-130, 1997 
    7. Sparck Jones, K.., Walker, S. and Robertson, S.E., A probabilistic model of information retrieval: development and comparative experiments. Information Processing and Management Vol. 36, Part 1 pp. 779-808; Part 2 pp. 809-840, 2000 
    8. Lewis, D. D., Naive (Bayes) at forty: The independence assumption in information retrieval, In Proceedings of ECML-98, 10th European Conference on Machine Learning, pp. 4-15, 1998 
    9. Singhal, A., Buckley, C. and Mitra, M., Pivoted Document Length Normalization, In Proceedings of SIGIR-96, 19th ACM International Conference on Research and Development in Information Retrieval, pp. 21-29, 1996 
    10. Robertson, S.E. and Walker, S., Some simple effective approximations to the 2-Poisson model for probabilistic weighted retrieval, In Proceedings of SIGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval, pp. 232-241, 1994 
    11. Yang, Y. and Pedersen, J.P. A Comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning (ICML'97), pp. 412-420, 1997 

 저자의 다른 논문

  • 김상범 (2)

    1. 2004 "생물학 도메인에서의 정보검색 : TREC의 Genomics Track을 중심으로" 정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers 22 (4): 52~61    
  • 임해창 (33)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 이용한 콘텐츠
이 논문과 함께 출판된 논문 + 더보기