본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

한국어 구 단위화를 위한 규칙 기반 방법과 기억 기반 학습의 결합
A Hybrid of Rule based Method and Memory based Loaming for Korean Text Chunking

박성배   (서울대학교 컴퓨터공학부UU0000691  ); 장병탁   (서울대학교 컴퓨터공학부UU0000691  );
  • 초록

    한국어나 일본어와 같이 부분 어순 자유 언어에서는 규칙 기반 방법이 구 단위화에 있어서 매우 유용한 방법이며, 실제로 잘 발달된 조사와 어미를 활용하면 소수의 규칙만으로도 여러 가지 기계학습 기법들만큼 높은 성능을 보일 수 있다. 하지만, 이 방법은 규칙의 예외를 처리할 수 있는 방법이 없다는 단점이 있다. 예외 처리는 자연언어처리에서 매우 중요한 문제이며, 기억 기반 학습이 이 문제를 효과적으로 다룰 수 있다. 본 논문에서는, 한국어 단위화를 위해서 규칙 기반 방법과 기억 기반 학습을 결합하는 방법을 제시한다. 제시된 방법은 우선 규칙에 기초하고, 규칙으로 추정한 단위를 기억 기반 학습으로 검증한다. STEP 2000 말뭉치에 대한 실험 결과, 본 논문에서 제시한 방법이 규칙이나 여러 기계학습 기법을 단독으로 사용하였을 때보다 높은 성능을 보였다. 규칙과 구 단위화에 가장 좋은 성능을 보인 Support Vector Machines의 F-score가 각각 91.87과 92.54인데 비하여, 본 논문에서 제시된 방법의 최종 F-score 는 94.19이다.


    In partially free word order languages like Korean and Japanese, the rule-based method is effective for text chunking, and shows the performance as high as machine learning methods even with a few rules due to the well-developed overt Postpositions and endings. However, it has no ability to handle the exceptions of the rules. Exception handling is an important work in natural language processing, and the exceptions can be efficiently processed in memory-based teaming. In this paper, we propose a hybrid of rule-based method and memory-based learning for Korean text chunking. The proposed method is primarily based on the rules, and then the chunks estimated by the rules are verified by memory-based classifier. An evaluation of the proposed method on Korean STEP 2000 corpus yields the improvement in F-score over the rules or various machine teaming methods alone. The final F-score is 94.19, while those of the rules and SVMs, the best machine learning method for this task, are just 91.87 and 92.54 respectively.


  • 주제어

    구 단위화 .   기억 기반 학습 .   규칙 기반 방법 .   하이브리드 방법.  

  • 참고문헌 (29)

    1. B. Scholkopf, C. Burges, and A. Smola, Advances in Kernel Methods - Support Vector Learning, MIT Press, 1999 
    2. J. Zavrel, W. Daelemans, and J. Veenstra, 'Resolving PP attachment ambiguities with memorybased learning,' In Proceedings of the Conference on Computational Language Learning, pp. 136-144, 1997 
    3. 최기선, 남영준, 김진규, 한영균, 박석문, 김진수, 이춘택, 김덕봉, 김재훈, 최병진, '한국어정보베이스를 위한 형태, 통사 태그 표준에 관한 연구', 인지과학, 제7권, 제4호, pp. 43-61, 1996 
    4. CoNLL, Shared Task for Computational Natural Language Learning (CoNLL), http://Icg-www.uia.ac.be/conll2000/chunking, 2000 
    5. T. Joachirns, 'Making large-scale SVM learning practical,' Technical Report LS8, Universitaet Dortmund, 1998 
    6. Y. Freund and R. Schapire, 'Experiments with a new boosting algorithm,' In Proceedings of the 13th International Conference on Machine Learning, pp. 148-156, 1996 
    7. S. Abney, R. Schapire, and Y. Singer, 'Boosting applied to tagging and PP attachment,' In Proceedings of the Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, pp. 38-45, 1999 
    8. W. Daelemans, J. Zavrel, P. Berek, and S. Gillis, 'MBT: A memory-based part of speech taggergenerator,' In Proceedings of the 4th Workshop on Very Large Corpora, pp. 14-27, 1996 
    9. E. Brill, 'Transformation-based error-driven learning and natural language processing: a case study in part of speech tagging,' Computational Linguistics, Vol. 21, No.4, pp. 543-566, 1995 
    10. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann, 1993 
    11. A. Danyluk and F. Provost, 'Small disjuncts in action: Learning to diagnose errors in the local loop of the telephone network,' In Proceedings of the 10th International Conference on Machine Learning, pp. 81-88, 1993 
    12. M. Kay, 'Algorithm Schemata and Data Structures in Syntactic Processing,' In Readings in Natural Language Processing, pp. 35-70, Morgan Kaufmann, 1970 
    13. 김기철, 이기오, 이용석, '형태소 분석 주도의 한국어 복합동사 처리', 정보과학회 논문지, 제22권, 제9호, pp. 1384-1393, 1995     
    14. T. Cover and P. Hart, 'Nearest neighbor pattern classification,' IEEE Transactions on Information Theory, Vol. 13, pp. 21-27, 1967 
    15. W. Daelemans, J. Zavrel, K. Sloot, and A. Bosch, 'TiMBL: Tilburg Memory Based Learner, version 4.1, Reference Guide,' Technical Report ILK 01-04, Tilburg University, 2001 
    16. 박성배, 장병탁, '최대 엔츠로피 모델을 이용한 텍스트 단위화 학습', 제13회 한국 및 한국어 정보처리학술대회 논문집, pp. 130-137,2001 
    17. Y.-S. Hwang, H.-J. Chung, Y.-J. Kwak, S.-Y. Park, and H.-C. Rim, 'Shallow Parsing by Weighted Probabilistic Sum,' In Proceedings of the 19th International Conference on Computer Processing Languages, pp. 236-241, 2001 
    18. W. Daelemans, A. Bosch, and J. Zavrel, 'Forgetting exceptions is harmful in language learning,' Machine Learning, Vol. 34, No.1, pp. 11-41, 1999 
    19. J.-T. Yoon, K-S. Choi and M.-S. Song, 'Three types of chunking in Korean and dependency analysis based on lexical association,' In Proceedings of the 18th International Conference on Computer Processing Languages, pp. 59-65, 1999 
    20. 김미영, 강신재, 이종혁, '규칙과 어휘정보를 이용한 한국어 문장의 구묶음(Chunking)', 제12회 한국 및 한국어 정보처리 학술대회 논문집, pp.11-17, 2000 
    21. 심효필, '최소자원 최대효과의 구문분석', 제11회 한글 및 한국어 정보처리 학술대회 논문집, pp. 242-244, 1999     
    22. G. Zhou and J. Su, 'Error-driven HMM-based chunk tagger with context-dependent lexicon,' In Proceedings of EMNLP/VLC-2000, pp. 71-79, 2000 
    23. M. Shibatani, The Languages of Japan, Cambridge University Press, 1990 
    24. V. Cherkas sky and F. Mulier, Learning from Data: Concepts, Theory, and Methods, John Wiley & Sons, Inc., 1998 
    25. T. Kudo and Y. Matsumoto, 'Use of support vector learning for chunk identification,' In Proceedings of the 4th Conference on Computational Natural Language Learning, pp. 142-144, 2000 
    26. T. Zhang, F. Damerau, and D. Johnson, 'Text chunking using regularized Winnow,' In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics, pp. 539-546, 2001 
    27. S. Argamon, I. Dagan, and Y. Krymolowski, 'A memory-based approach to learning shallow natural language patterns,' In Proceedings of COLING/ACL 98, pp. 67-73, 1998 
    28. L. Ramshaw and M. Marcus, 'Text chunking using transformation-based learning,' In Proceedings of the Third ACL Workshop on Very Large Corpora, pp. 82-94, 1995 
    29. Resolving PP attachment ambiguities with memorybased learning , J.Zavrel;W.Daelemans;J.Veenstra , Proceedings of the Conference on Computational Language Learning / v.,pp.136-144,
  • 이 논문을 인용한 문헌 (4)

    1. 2004. "A Hybrid of Rule based Method and Memory based Loaming for Korean Text Chunking" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, 31(3): 369~378     
    2. 2004. "A Hybrid of Rule based Method and Memory based Loaming for Korean Text Chunking" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, 31(3): 369~378     
    3. Oh, Jin-Young ; Cha, Jeong-Won 2009. "Eojeol Syntactic Tag Prediction of Korean Text using Entropy Guided CRF" 정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터, 15(5): 395~399     
    4. Kim, Hong-Soon ; Ock, Cheol-Young 2014. "An Analysis of Korean Dependency Relation by Homograph Disambiguation" 정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, 3(6): 219~230     

 저자의 다른 논문

  • 장병탁 (75)

    1. 1997 "인공 생명과 진화 알고리즘" 電子工學會誌 = The journal of Korea Institute of Electronics Engineers 24 (3): 51~60    
    2. 1998 "진화 알고리즘을 이용한 초고속 통신망에서의 멀티캐스트 경로배정 방법에 관한 연구" 정보처리논문지 = The transactions of the Korea Information Processing Society 5 (3): 671~680    
    3. 2000 "바이오 데이터 마이닝을 위한 기계학습 기법" 정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers 18 (8): 63~72    
    4. 2000 "바이오지능(Biointelligence) = 생물정보학 + 인공지능" 정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers 18 (8): 90~100    
    5. 2000 "학습 에이전트" 정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers 18 (5): 26~35    
    6. 2000 "건설적 선택학습 신경망을 이용한 앙상블 머신의 구축" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 27 (12): 1202~1210    
    7. 2000 "k-최근점 학습에 기반한 타동사-목적어 연어 사전의 최적화" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 27 (3): 302~313    
    8. 2000 "한영 기계번역에서 결정 트리 학습에 의한 한국어 부사격 조사의 의미 중의성 해소" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 27 (6): 668~677    
    9. 2000 "생물정보학을 위한 인공지능 기법" 지식정보인프라 = Journal of scientific & technological knowledge infrastructure 3 (): 76~83    
    10. 2001 "베이지안 네트워크를 이용한 전자상거래 고객들의 성향 분석" 퍼지 및 지능시스템학회 논문지 = Journal of fuzzy logic and intelligent systems 11 (1): 16~21    

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기