본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

한글 문자 인식에서의 오인식 문자 교정을 위한 단어 학습과 오류 형태에 관한 연구
A Study on Word Learning and Error Type for Character Correction in Hangul Character Recognition

이병희    (충남대학교 컴퓨터공학과   ); 김태균    (충남대학교 컴퓨터공학과  );
  • 초록

    본 논문에서는 문자 인식 과정을 거치고 난 후에 발생하게 되는 오인식된 문자들 을 언어적 지식을 이용하여 교정하는 문자 인식 후처리에 관하여 논한다. 문자 인식의 오인식 교정시스템의 경우 후보 단어가 많을 때 많은 후보 단어중에서 가장 적당한 단어를 후보 단어로 올려주기 위해서는 여러 가지 정보가 필요하다. 본 논문에서는 이러한 정보로 이용할 수 있는 것으로 단어들의 특성과, 문자 인식에 발생하는 오인식 형태, 단어 학습에 관하여 논한다. 이를 위한 실험으로 15 만여의 단어가 수록된 국어 사전을 이비력하고 초중고 국어교과서에 나타난 단어 들의 사용빈도를 조사하여 국어 사전에 등록된 단어 중에서 10.7%정도가 실제 초중고 국어교과서에 사용되고 있다는 것을 알 수 있었다. 또한 실제 문자 인식 시스템들을 가지고 여러 문서를 입력하고 인식하여 오인식이 자주 일어나는 글자들 의 형태를 분류하여 보았다. 그리고 한국어 처리 관련 서적이나 논문을 처리하고자 한국어에 관련된 책의 찾아보기에 나타난 단어 를 학습시켜 후보 단어들의 다른 인하여 정확한 단어를 예측하기 힘들던 문제를 해결 하고자 하였다.


    In order perform high accuracy recognition of text recognition systems, the recognized text must be processed through a post-processing stage using contextual information. We present a system that combines multiple knowledge sources to post-process the output of an optical character recognition(OCR) system. The multiple knowledge sources include characteristics of word, wrongly recognized types of Hangul characters, and Hangul word learning In this paper, the wrongly recognized characters which are made by OCR systems are collected and analyzed. We imput a Korean dictionary with approximately 15 0,000 words, and Korean language texts of Korean elementary/middle/high school. We found that only 10.7% words in Korean language texts of Korean elementary/middle /high school were used in a Korean dictionary. And we classified error types of Korean character recognition with OCR systems. For Hangul word learning, we utilized indexes of texts. With these multiple knowledge sources, we could predict a proper word in large candidate words.


 저자의 다른 논문

  • 김태균 (21)

    1. 1977 "Syntactic법에 의한 한글의 패턴 인식에 관한 연구" 電子工學會誌 = Journal of the Korean Institute of Electronics Engineers 14 (5): 15~21    
    2. 1988 "일방향 exploding reflector개념에 적용한 Fourier 변환기법에 의한 Seismic modeling" 한국통신학회논문지 = The journal of the Korean institute of communication science 13 (6): 480~489    
    3. 1988 "뉴메리컬 프로젝션에 의한 3차원 탄성파 데이터의 영상화 및 해석" 한국통신학회논문지 = The journal of the Korean institute of communication science 13 (6): 490~500    
    4. 1988 "미곡(米穀) 상온통풍건조(常温通風乾燥)의 자동제어용(自動制御用) 곡물(穀物) 함수율(含水率) 측정(測定)센서 개발(開發)" 한국농업기계학회지 = Journal of the Korean Society for Agricultural Machinery 13 (3): 52~58    
    5. 1989 "擴張된 DP 매칭법에 依한 흘림체 한글 온라인 認識" 전자공학회논문지 = Journal of the Korean Institute of Telematics and Electronics 26 (1): 29~37    
    6. 1990 "디지탈 곡선의 다각형 근사화" 전자공학회논문지 = Journal of the Korean Institute of Telematics and Electronics 27 (3): 47~53    
    7. 1994 "동적 쿼타할당방식 HMR을 적용한 GFC 프로토콜의 성능평가" 한국통신학회논문지 = The journal of the Korean institute of communication science 19 (7): 1256~1271    
    8. 1994 "구조 정보의 DP 정합에 의한 흘려 쓴 한글의 온라인 인식" 電子工學會論文誌. Journal of the Korea institute of telematics and electronics. B b31 (4): 166~174    
    9. 1994 "동기이상을 위한 멀티미디어 동기시나리오방법" 電子工學會論文誌. Jounnal of the Korea institute of telematics and electronics. A. A a31 (9): 44~52    
    10. 1996 "멀티미디어 동기셀의 트래픽 제어 기법 및 성능 분석" 정보처리논문지 = The transactions of the Korea Information Processing Society 3 (2): 305~314    

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 이용한 콘텐츠
이 논문과 함께 출판된 논문 + 더보기