본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

웹 문서 클러스터링에서의 자질 필터링 방법
Feature Filtering Methods for Web Documents Clustering

박흠   (유비텍(주)CC0156858  ); 권혁철   (부산대학교 전자전기정보컴퓨터공학부UU0000613  );
  • 초록

    색인전문가에 의해 분류된 웹문서들을 통계적 자질 선택방법으로 자질을 추출하여 클라스터링을 해 보면, 자질 선택에 사용된 데이터셋에 따라 성능과 결과가 다르게 나타난다. 그 이유는 많은 웹 문서에서 문서의 내용과 관계없는 단어들을 많이 포함하고 있어 문서의 특정을 나타내는 단어들이 상대적으로 잘 두드러지지 않기 때문이다. 따라서 클러스터링 성능을 향상시키기 위해 이런 부적절한 자질들을 제거해 주어야 한다. 따라서 본 논문에서는 자질 선택에서 자질의 문서군별 자질값뿐만 아니라, 문서군별 자질값의 분포와 정도, 자질의 출현여부와 빈도를 고려한 자질 필터링 알고리즘을 제시한다. 알고리즘에는 (1) 단위 문서 내 자질 필터링 알고리즘(FFID : feature filtering algorithm in a document), (2) 전체 데이터셋 내 자질 필터링 알고리즘(FFIM : feature filtering algorithm in a document matrix), (3)FFID와 FFIM을 결합한 방법(HFF:a hybrid method combining both FFID and FFIM) 을 제시한다. 실험은 단어반도를 이용한 자질선택 방법, 문서간 동시-링크 정보의 자질확장, 그리고 위에서 제시한 3가지 자질 필터링 방법을 사용하여 클러스터링 했다. 실험 결과는 데이터셋에 따라 조금씩 차이가 나지만, FFID보다 FFIM의 성능이 좋았고, 또 FFID와 FFIM을 결합한 HFF 결과가 더 나은 성능을 보였다.


    Clustering results differ according to the datasets and the performance worsens even while using web documents which are manually processed by an indexer, because although representative clusters for a feature can be obtained by statistical feature selection methods, irrelevant features(i.e., non-obvious features and those appearing in general documents) are not eliminated. Those irrelevant features should be eliminated for improving clustering performance. Therefore, this paper proposes three feature-filtering algorithms which consider feature values per document set, together with distribution, frequency, and weights of features per document set: (l) features filtering algorithm in a document (FFID), (2) features filtering algorithm in a document matrix (FFIM), and (3) a hybrid method combining both FFID and FFIM (HFF). We have tested the clustering performance by feature selection using term frequency and expand co link information, and by feature filtering using the above methods FFID, FFIM, HFF methods. According to the results of our experiments, HFF had the best performance, whereas FFIM performed better than FFID.


  • 주제어

    자질선택 .   자질필터링 .   클러스터링 .   웹문서.  

  • 참고문헌 (16)

    1. 이재윤, '자질값투표 기법과 문서측 자질 선정을 이용한 고속문서 분류기',12회 정보관리학회지 pp.71-78, 2005 
    2. 정영미, 이재윤,'지식 분류의 자동화를 위한 클러스트링 모형연구',정보관리학회지 ,Vol.18권,No.2, pp.203-230, 2001 
    3. 고영증, 서정연, '문서 관리를 위한 자동 문서 범주화에 대한 이론 및 기법', 정보관리 연구논문지, Vol.33, No.2, pp.16-32, June, 2002     
    4. 국민상, 정영미, '자질선정에 따른 Naive Bayesian 분류기의 상능 비교', 7회 정보관리학회 제7회 학술대회 논문집, pp.33- 36, 2000 
    5. 이원희, 이교운, 박흠, 김영기, 권혁철, '웹 문서의 단어정보와 링크정보 결합을 이용한 클러스트링 기법',15회 한국정보과학회지, pp.101-107, 2003 
    6. H.Yaun, S.S.Tseng, W.Gangshan, and Z.Fuyan. 'A two-phase feature selection method using both filter and wrapper', In IEEE International conference on Systems, Man, and Cybernetics, Vol. 2, pp.132-136, 1999 
    7. Heum Park, 'A Feature Selection for Korean Web Document Clustering', The 30th Annual Conference of IEEE Industrial Electronics Society, 2004 
    8. Hall, M. 'Correlation-based feature selection of discrete and numeric class machine learning', In Proceedings of the International Conference on Machine Learning, pp.359-366, San Francisco, CA. Morgan Kaufmann Publishers, 2000 
    9. A.Y. Ng, 'On feature selection: learning with exponentially many irrelevant features as training examples'. In Proc. 15th Intl. Conf. on Machine Learning, pp.404-412, 1998 
    10. Zhao, Ying and Karypis, George, 'Criterion functions for document clustering - experiment and analysis', Technical Report TR #01-40, Department of Computer Science, University of Minnesota, 2001 
    11. Zhao, Ying and Karypis, George, 'Evaluation of hierarchical clustering algorithms for document datasets', Technical Report TR #02-22, Department of Computer Science, University of Minnesota, 2002 
    12. Karypis, George, 'CLUTO: A Clustering Toolkit', Technical Report TR #02-017, Department of Computer Science, University of Minnesota, 2002 
    13. Zhi-Hong Deng, Shi-Wei Tang, Dong-Qing Yang, Ming Zhang, Xiao-Bin Wu and Meng Yang, 'Two Odds-Radio-Based Text Classification Algorithms', Proceedings of Web Information Systems Engineering(Workshops) pp.223-231, 2002 
    14. Brank, J., Grobelnik, M., Mili'c-Frayling, N. & Mladenic, D., 'Interaction of feature selection methods and linear classification models', Proceedings of the ICML-02 Workshop on Text Learning, Sydney, AU, 2002 
    15. Y. Yang and J. P. Pedersen, 'A comparative study on feature selection in text categorization', In Proceedings of the International Conference on Machine Learning, pp.412-420, 1997 
    16. Kyo-Woon Lee, Young-Gi Kim, Hyuk-Chul Kwon, 'Clustering of Web Documents with the Use of Term Frequency and Co-link in Hypertext', Proceedings of the International Conference on APIS2003, 2003 

 저자의 다른 논문

  • 권혁철 (33)

    1. 1997 "한국어 철자 검사기와 문법 검사기" 정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers 15 (10): 24~34    
    2. 1998 "한국어-수화 번역시스템을 위한 형태소 변환" 정보처리논문지 = The transactions of the Korea Information Processing Society 5 (3): 688~702    
    3. 1999 "한국어 정보검색 시스템을 위한 다양한 적합성 피드백 방법의 실험" 정보과학회논문지. Journal of KISS (b):software and applications. B 26 (5): 682~691    
    4. 1999 "한국어 정보처리 :어제와 오늘" 정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers 17 (12): 35~38    
    5. 2001 "어휘적 중의성 제거 규칙과 부분 문장 분석을 이용한 한국어 문법 검사기" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 28 (3): 305~315    
    6. 2003 "효율적인 병렬정보검색을 위한 색인어 군집화 및 분산저장 기법" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 30 (1): 129~139    
    7. 2003 "동시링크를 이용한 웹 문서 클러스터링 실험" 한국도서관 정보학회지 = Journal of Korean Library and Information Science Society 34 (2): 233~253    
    8. 2003 "한국어 텍스트에 사용된 이음표의 자동 전사" 언어와 정보 = Language and information 7 (1): 23~40    
    9. 2003 "단어빈도와 동시링크의 결합을 통한 웹 문서 클러스터링 성능 향상에 관한 연구" 한국도서관 정보학회지 = Journal of Korean Library and Information Science Society 34 (3): 211~229    
    10. 2004 "능동적 학습을 위한 군집기반 초기훈련집합 선정" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 31 (7): 859~868    

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기