본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

색상레이어를 이용한 스팸메일 영상에서의 텍스트 영역 추출
Extraction of Text Regions from Spam-Mail Images Using Color Layers

김지수   (전남대학교 전산학과UU0001112  ); 김수형   (전남대학교 전자컴퓨터공학부UU0001112  ); 한승완   (한국전자통신연구원CC0186800  ); 남택용   (한국전자통신연구원 정보보호 연구본부 능동보안기술연구팀CC0186800  ); 손화정   (전남대학교 전산학과UU0001112  ); 오성열   (전남대학교 전산학과UU0001112  );
  • 초록

    본 논문에서는 스팸메일 영상에서 텍스트 영역의 추출을 위한 색상 레이어기반의 알고리즘을 제안한다. CLTE(color layer-based text extraction)는 색상 레이어를 사용하여 영상을 8개로 나눈다. 8개 각각의 영상에서 연결요소를 추출한 후, 연결요소의 크기에 의해서 텍스트 영역과 비텍스트 영역을 분류하고 텍스트 영역을 추출한다. 또한, 추출된 텍스트 영역으로부터 회손된 획 정보를 복구하는 알고리즘을 제안한다. 이진영상내의 한글 문자에는 두 가지 형태의 손상된 획이 존재한다. 첫째 중성 획에 해당하는 'ㅣ' 나 'ㅡ' 등의 획들이 지워지는 경우와, 둘째 초 종성 획에 해당하는 'ㅁ' 이나 'ㅇ'이 흑화소로 채워지는 경우가 있다. 제안한 알고리즘은 이러한 두 가지 손상된 획들을 복구해준다. 200개의 스팸메일 영상을 사용한 실험 결과 제안한 알고리즘이 기존의 텍스트 추출 알고리즘보다 10% 이상 우수함을 관측하였다.


    In this paper, we propose an algorithm for extracting text regions from spam-mail images using color layer. The CLTE(color layer-based text extraction) divides the input image into eight planes as color layers. It extracts connected components on the eight images, and then classifies them into text regions and non-text regions based on the component sizes. We also propose an algorithm for recovering damaged text strokes from the extracted text image. In the binary image, there are two types of damaged strokes: (1) middle strokes such as 'ㅣ' or 'ㅡ' are deleted, and (2) the first and/or last strokes such as 'ㅇ' or 'ㅁ' are filled with black pixels. An experiment with 200 spam-mail images shows that the proposed approach is more accurate than conventional methods by over 10%.


  • 주제어

    텍스트 추출 .   색상 레이어 .   스팸메일 필터링.  

  • 참고문헌 (15)

    1. A. K. Jain, B. Yu, 'Automatic Text Location in Images and Video Frames,' Pattern Recognition, Vol.31, No.12, pp.2055-2076, 1998 
    2. J. Hoya, A. Shio and S. Akamatsu, 'Recognizing Characters in Scene Images,' IEEE Trans. Pattern Analysis and Machine Intelligence, Vol.16, No.2, pp.67-82, 1995 
    3. R. Lienhart, F. Stuber, 'Automatic Text Recognition in Digital Videos,' Image and Video Processing IV, SPIE, 1996 
    4. S. Messelodi and C. M. Modena, 'Automatic Identification and Skew Estimation of Test Lines in Real Scene Images,' Pattern Recognition, Vol.32, No.5, pp.701-810, 1999 
    5. Y. Zhong, K. Karu and A. K Jain, 'Locating Text in Complex collar Images,' Pattern Recognition, Vol.28. No.10,pp.1532-1535 
    6. O. Hori, 'A Video Text Extraction Method for Character Recognition,' Proc. Fifth International Conference on Document Analysis and Recognition, pp.25-28, 1999 
    7. J. Ohya, A. Shio and S. Akamatsu, 'Recognizing Characters in Scene Images,' IEEE Trans. Pattern Analysis and Machine Intelligence, PAMI-16(2), pp. 214-220, 1994 
    8. X. Wang, X. Ding and C. Liu, 'Character Extraction and Recognition in Natural Scene Images,' Proc. Sixth International Conference on Document Analysis and Recognition, pp. 1084-1088, 2001 
    9. C. Wolf and J,M. Jolion, 'Extraction and Recognition of Artificial Text in Multimedia Documents,' Pattern Analysis and Applications, Vol.6, No.4, pp.306- 326, 2003 
    10. V. Wu, R. Manmatha and E.M. Riseman, 'An Automatic System to Detect and Recognize Text in Images,' IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.21, No.11, pp.1224-1229, 1999 
    11. J. Zhang, X. Chen, A. Hanneman, J, Yang and A. Waibel, 'A Robust Approach for Recognition of Text Embedded in Natural Scenes,' Proc. 16th International Conference on Pattern Recognition, Vol.3, pp.204-207, 2002 
    12. 김지수, 김수형,'명도 정보를 이용한 자연 이미지에서의 텍스트 영역 추출,' 한국정보처리학회 호남.제주지부 학술 발표논문집, Vol.3. pp.127-132, 2003 
    13. 김지수, 김수형, 최영우,' 명도 정보와 Split/Merge 분할을 이용한 자연 이미지에서의 텍스트 영역 추출,' 한국정보과학회논문지 : 소프트웨어 및 응용 Vol.32, No.6, pp.502-511, 2005     
    14. Y.J. Song, K.C. Kim, Y.W. Choi, H.R. Byun, S.H. Kim, S.Y Chi, D.K. lang, Y.K Chung, 'Text Region Extraction and Text Segmentation on Camera-captured Document Style Images,' Proc. of the 7th International Conference on Document Analysis and Recognition, Vol.1. pp.172-176, 2005 
    15. D.H. Ballard and CM Brown, Computer Vision, Prentice-Hall, 1982 

 저자의 다른 논문

  • 김지수 (4)

    1. 2005 "명도 정보와 분할/합병 방법을 이용한 자연 영상에서의 텍스트 영역 추출" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 32 (6): 502~511    
    2. 2005 "자연영상 텍스트 이진화를 위한 3단계 색상 군집화 알고리즘" 정보처리학회논문지. The KIPS transactions. Part B. Part B b12 (7): 737~744    
    3. 2006 "H.264 인트라 프레임에서 방해함수를 이용한 적응적 보간" 한국콘텐츠학회논문지 = The Journal of the Korea Contents Association 6 (10): 107~113    
    4. 2006 "지역 밀집도 및 Hausdorff 거리를 이용한 영상기반 텍스트 매칭" 한국콘텐츠학회논문지 = The Journal of the Korea Contents Association 6 (10): 134~142    
  • 한승완 (6)

  • 남택용 (18)

  • 손화정 (5)

  • 오성열 (1)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기