본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템
A Stochastic Word-Spacing System Based on Word Category-Pattern

강미영   (부산대학교 컴퓨터공학과UU0000613  ); 정성원   (부산대학교 컴퓨터공학과UU0000613  ); 권혁철   (부산대학교 컴퓨터공학과UU0000613  );
  • 초록

    본 논문에서는 형태소 unigram과 한국어 어절을 형성하는 형태소 범주 패턴에 기반하여 어절을 인식하는 한국어 띄어쓰기 시스템을 구현하였다. 기존에 많이 연구된 통계 정보를 이용한 띄어쓰기 모델은 비교적 짧은 시간에 쉽게 구현할 수 있는 장점이 있지만, 한국어의 형태 유형론적 특성 때문에 발생하는 (ㄱ) 자료부족 문제와 (ㄴ) 메모리 크기 문제에 효과적으로 대처하지 못한다. 본 논문은 이 두 문제를 동시에 해결하기 위해 어절을 구성하고 있는 개별 형태소의 통계 정보와 그 형태소의 범주의 통계 정보를 기반으로 하여 띄어쓰기 후보 어절들을 추천한다. 임의의 후보 어절이 최종의 띄어쓰기 단위인 어절이 될 수 있는 확률은 (ㄱ) 해당 후보 어절 내의 각 형태소 확률과 (ㄴ) 해당 후보 어절을 구성하기 위해 그 형태소의 범주가 다른 형태소 범주와 함께 형성하는 패턴 내에서 차지하는 '범주가중치'를 고려하여 구한다. 해당 '범주가중치'는 (ㄱ) 말뭉치로부터 실제로 관찰된 어절의 확률과 (ㄴ) 후보 어절 내의 개별 형태소의 확률과 (ㄷ) 그 범주 가중치에 의해 추정된 어절 확률 사이의 평균 에러(error mean)가 최저가 되는 방향으로 학습하여 얻어진다.


    This paper implements an automatic Korean word-spacing system based on word-recognition using morpheme unigrams and the pattern that the categories of those morpheme unigrams share within a candidate word. Although previous work on Korean word-spacing models has produced the advantages of easy construction and time efficiency, there still remain problems, such as data sparseness and critical memory size, which arise from the morpho-typological characteristics of Korean. In order to cope with both problems, our implementation uses the stochastic information of morpheme unigrams, and their category patterns, instead of word unigrams. A word's probability in a sentence is obtained based on morpheme probability and the weight for the morpheme's category within the category pattern of the candidate word. The category weights are trained so as to minimize the error means between the observed probabilities of words and those estimated by words' individual-morphemes' probabilities weighted according to their categories' powers in a given word's category pattern.


  • 주제어

    한국어 자동 띄어쓰기 .   어절 unigram .   형태소 unigram .   음절 bigram .   형태소 범주 패턴 .   통계 정보.  

  • 참고문헌 (12)

    1. 강승식, '음절 bigram를 이용한 띄어쓰기 오류의 자동 교정', 음성과학회 논문지, 8권 2호, pp. 83-90, 2001     
    2. 신호철, '형태소 분석기를 이용한 자동 띄어쓰기 시스템 구축에 대한 연구, 한국어학, 12권, pp. 167-186, 2000 
    3. 심광섭, '음절간 상호 정보를 이용한 한국어 자동 띄어쓰기' 정보과학회논문지: 소프트웨어 및 응용, 23권 9호, pp. 991-1000, 1996 
    4. 심철민, 권혁철, '연어 정보에 기반한 한국어 철자 검사와 교정기의 구현', 정보과학회 논문지: 소프트웨어 및 응용, 23권 8호, pp. 776-785, 1996 
    5. 이도길, 이상주, 임희석, 임해창, '한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델' 정보과학회 논문지: 소프트웨어 및 응용, 30권 4호, pp. 358-370, 2003     
    6. Kang, M.Y., Choi S.W. and Kwon, H.CH., 'A Hybrid Approach to Automatic Word-spacing in Korean,' Lecture Notes in Computer Science (LNCS) Vol.3029, pp, 284-294, 2004 
    7. Kang, S.S. and Woo C.W., Automatic Segmentation of Words Using Syllable Bigram Statistics. Proceedings of the 6th Natural Language Processing Pacific Rim Symposium, pp. 729-732, 200l 
    8. Kim, S.N., Nam, H.S. and Kwon, H.CH., 'Correction Methods of Spacing Words for Improving the Korean Spelling and Grammar Checkers,' Proceedings of the 5th Natural Language Processing Pacific Rim Symposium, pp. 415-419, 1999 
    9. Manning, C.D., and Schutze H., 'Foundations of Statistical Natural Language Processing,' The MIT Press, Cambridge, London, 2001 
    10. Sproat R, Shih, C., Gale, W. and Chang, N. 'A Stochastic Finite-State Word-Segmentation Algorithm for Chinese,' Computational Linguistics, Vol.22 No.3, pp. 377-404, 1996 
    11. 21세기 세종계획 국어기초자료 구축, 문화관광부, 2004 
    12. 한국전자통신 연구원, 'ETRI 품사태그 부착 말뭉치(시험판)', 1999 
  • 이 논문을 인용한 문헌 (1)

    1. Jeong, Seong-Won ; Gwon, Hyeok-Cheol 2007. "" 정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers, 25(3): 57~63     

 저자의 다른 논문

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 이용한 콘텐츠
이 논문과 함께 출판된 논문 + 더보기