본문 바로가기
HOME> 보고서 > 보고서 검색상세

보고서 상세정보

언어 모델링을 이용한 저자식별 기법 연구
Study of author disambiguation using a language modeling approach

  • 사업명

    신진연구지원사업

  • 과제명

    언어 모델링을 이용한 저자식별 기법 연구

  • 주관연구기관

    경성대학교
    KyungSung University

  • 연구책임자

    강인수

  • 보고서유형

    최종보고서

  • 발행국가

    대한민국

  • 언어

    한국어

  • 발행년월

    2012-06

  • 과제시작년도

    2011

  • 주관부처

    교육과학기술부

  • 사업 관리 기관

    한국연구재단

  • 등록번호

    TRKO201300010660

  • 과제고유번호

    1345152314

  • DB 구축일자

    2013-06-29

  • 초록 


    ...


    이 연구에서는 저자 식별의 자질 부족 문제를 해결하는 방법론으로 대용량 오픈 언어 자원으로부터의 자동 피드백 및 언어 모델링 (Language Modeling) 기법을 시도하여 저자 표현을 개선하고 저자 식별 성능 향상을 얻고자 하...

    이 연구에서는 저자 식별의 자질 부족 문제를 해결하는 방법론으로 대용량 오픈 언어 자원으로부터의 자동 피드백 및 언어 모델링 (Language Modeling) 기법을 시도하여 저자 표현을 개선하고 저자 식별 성능 향상을 얻고자 하였다. 저자 표현을 개선하는 방법으로 정보검색의 성능 향상을 위해 잘 알려진 자동 피드백 기법을 시도하였다. 그 절차는 먼저 식별 대상 저자명이 출현한 서지레코드의 논문 제목을 구글스칼라와 같은 대용량 학술문헌 검색시스템의 질의로 던져 검색되는 상위 논문의 제목 혹은 초록 등의 발췌 텍스트를 사용하여 최초 서지레코드에 기반한 저자 표현을 풍부하게 만드는 것이다. 영어 저자명 식별의 표준 데이터셋을 사용한 실험에서 피드백 기반의 토픽 확장을 통한 저자표현은 기본 서지레코드만을 사용한 저자표현에 비해 34.6%의 성능 향상을 보였으며, 기존 저자식별 방법과의 성능 비교에서도 피드백 기반의 저자식별 기법은 연구자 홈페이지의 출판논문리스트 정보를 활용하지 않는 방법들과 비교할 때 가장 좋은 성능을 보였다. 피드백을 통해 얻어진 저자의 토픽 표현은 ″저자의 연구 분야를 요약하고 있는 텍스트 혹은 문서″로 볼 수 있다는 관점에서 출발하여, 이 연구에서는 저자의 토픽 유사도 계산을 임의의 두 저자문서에 대한 문서 유사도 계산으로 대체하는 시도를 하였다. 이러한 문서 유사도 계산을 위해 벡터검색모델에 기반한 코사인 유사도, 언어검색모델에 기반한 Jelinek-Mercer Smoothing, Dirichlet Smoothing, 확률 분포 간 거리 계산에 적용되는 Jeffrey Divergence 등을 사용하였다. 실험 결과 언어모델링 기법 중 Jelinek-Mercer Smoothing이 가장 좋았으며 코사인 유사도와 비교하여 6%의 성능 향상을 보였다.


  • 목차(Contents) 

    1. 일반연구자지원사업 최종(결과)보고서 ... 1
    2. 목차 ... 3
    3. I. 연구결과 요약문 ... 4
    4. II. 연구내용 및 결과 ... 5
    5. 1. 연구과제의 개요 ... 5
    6. 2. 국내외 기술개발 현황 ... 5
    7. 3. 연구수행 내용 및 결과 ... 5
    8. 4. 목표 ...
    1. 일반연구자지원사업 최종(결과)보고서 ... 1
    2. 목차 ... 3
    3. I. 연구결과 요약문 ... 4
    4. II. 연구내용 및 결과 ... 5
    5. 1. 연구과제의 개요 ... 5
    6. 2. 국내외 기술개발 현황 ... 5
    7. 3. 연구수행 내용 및 결과 ... 5
    8. 4. 목표 달성도 및 관련 분야에의 기여도 ... 7
    9. 5. 연구결과의 활용계획 ... 8
    10. 6. 연구과정에서 수집한 해외과학기술정보 ... 8
    11. III. 연구성과 ... 8
  • 참고문헌

    1. 전체(0)
    2. 논문(0)
    3. 특허(0)
    4. 보고서(0)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역