본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

도메인 지식 기반 랩퍼 생성의 추출 성능 향상에 관한 연구
Study on the Improvement of Extraction Performance for Domain Knowledge based Wrapper Generation

정창후   (한국과학기술정보연구원 시스템개발팀CC0007658  ); 최윤수   (한국과학기술정보연구원 시스템개발팀CC0007658  ); 서정현   (한국과학기술정보연구원 시스템개발팀CC0007658  ); 윤화묵   (한국과학기술정보연구원 시스템개발팀CC0007658  );
  • 초록

    기존의 도메인 지식 기반의 랩퍼 학습 방법은 도메인에 대한 정보를 바탕으로 해당 정보 소스에 대한 랩퍼를 생성한다. 용용 분야에 맞게 정의된 도메인 지식을 이용함으로써 정보 소스에서 제공하는 다양한 텍스트의 의미와 형태를 이해할 수 있다. 그러나 정보 소스에서 제공되는 모든 텍스트에 의미 인식의 근거가 되는 레이블이 붙어서 제공되는 것이 아니기 때문에 도메인 지식만을 이용해서 랩퍼를 학습하는 방법은 한계에 부딪힐 수밖에 없다. 이러한 문제를 해결하기 위해서 본 논문은 인터넷에 존재하는 다양한 웹 정보 소스에서 효율적이고 정확하게 랩퍼를 생성하는 도메인 지식 기반의 확률적 랩퍼 생성 시스템을 제안한다. 효율적이고 정확한 랩퍼 생성 시스템을 구축하기 위해서 도메인 지식뿐 아니라 상세 정보로 연결되어 있는 하이퍼링크와 엔티티 인식을 위한 확률 모델을 이용한다. 이와 같은 방법을 적용함으로써 사용자의 개입 없이 다양한 정보 소스에 대해서 보다 추출 성능이 좋은 랩퍼를 생성할 수 있다.


    Wrappers play an important role in extracting specified information from various sources. Wrapper rules by which information is extracted are often created from the domain-specific knowledge. Domain-specific knowledge helps recognizing the meaning the text representing various entities and values and detecting their formats However, such domain knowledge becomes powerless when value-representing data are not labeled with appropriate textual descriptions or there is nothing but a hyper link when certain text labels or values are expected. In order to alleviate these problems, we propose a probabilistic method for recognizing the entity type, i.e. generating wrapper rules, when there is no label associated with value-representing text. In addition, we have devised a method for using the information reachable by following hyperlinks when textual data are not immediately available on the target web page. Our experimental work shows that the proposed methods help increasing precision of the resulting wrapper, particularly extracting the title information, the most important entity on a web page. The proposed methods can be useful in making a more efficient and correct information extraction system for various sources of information without user intervention.


  • 주제어

    도메인 지식 .   랩퍼 .   정보 추출.  

 저자의 다른 논문

  • 정창후 (10)

    1. 2012 "의료 문헌에서의 절차적 지식 추출" 정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터 18 (2): 123~127    
    2. 2012 "SINDI-WALKS: 과학기술지식발견 워크벤치" 정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터 18 (12): 906~910    
    3. 2007 "효율적이고 안정적인 DB-IR 통합시스템을 위한 서버 구조" 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집 2007 (11): 331~334    
    4. 2010 "생의학분야 PLOT 및 관계추출을 위한 테스트컬렉션 구축" 한국콘텐츠학회 2010년도 춘계 종합학술대회 논문집 2010 (5): 425~427    
    5. 2012 "패턴 부트스트랩핑을 이용한 특허 문헌에서의 시맨틱 트리플 추출" 한국콘텐츠학회 2012년도 춘계 종합학술대회 논문집 2012 (5): 281~282    
    6. 2010 "시맨틱 구문 트리 커널 기반의 단백질 간 상호작용 식별" 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C) 2010 (6): 240~244    
  • 최윤수 (17)

  • 서정현 (4)

  • 윤화묵 (19)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
  • 한국인터넷정보학회 : 저널
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기