본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

오픈 도메인 질의응답을 위한 검색문서 제약 및 정답유형 분류기술
Search Space Reduction and Answer Type Classification for Open Domain Q&A

허정    (한국전자통신연구원 지식마이닝연구팀   ); 류법모    (한국전자통신연구원 지식마이닝연구팀   ); 장명길    (한국전자통신연구원 지식마이닝연구팀   ); 김현기    (한국전자통신연구원 지식마이닝연구팀  );
  • 초록

    오픈 도메인 질의응답을 위해서는 대용량 데이터에 대한 효율적인 검색제약 기술과 세부적인 정답유형 분류기술이 요구된다. 본 논문에서는 오픈 도메인 질의응답 시스템을 여행, 지역, 맛집 등의 도메인 질의응답 시스템과 뉴스, 위키피디아, 블로그 등의 콘텐츠 질의응답 시스템의 집합으로 구성한다. 대용량 데이터에 대한 효율적인 검색제약을 위하여 기계학습 및 패턴 기반 질문도메인 분류 기술, 확률기반 지역별 문서분류 기술을 적용한다. 질문에 대한 세부적인 정답유형 분류를 위하여 세부 개체 유형과 정의, 원인, 방법 등의 서술형을 포함한 약 200여개의 정답유형을 정의한다. 질문도메인 분류 및 질문정답유형 분류 모듈은 sSVM 기반 기계학습모텔과 어휘-구문 패턴 기반 규칙모델을 결합하였다. 정답유형에 대한 질문정답유형 분류 성능은 Macro-FScore가 82.38% 이고, 질문도메인 분류 성능은 Macro-FScore가 89.47%, 그리고, 지역별 문서분류 성능은 정확률 86.33%로 실제 시스템에서 활용 가능한 성능을 보였다.


    Search space reduction method and fine-grained answer type classification method are the most essential parts of open-domain Q&A. In this paper, we define the open-domain Q&A system as a set of domain Q&A systems including travel, region, restaurant and a set of contents Q&A systems including news, blog and Wikipedia. We applied two novel methods to reduce document search space. One is a document classification method using location information extracted from target documents and the other is a question domain classification method. The document classification method using location information is essential for location dependent domains such as travel, region and restaurant domains. We also propose an answer type classification method. The method classifies approximately 200 answer types including factoid types and descriptive types such as definition, reason and method. We applied a combined method of machine learning based on sSVM and lexico-syntactic pattern matching method for the question domain classification and the answer type classification. The proposed method showed promising results. Our document classification based on location information showed the Precision of 86.33%. Our answer type classification method and question domain classification method showed Macro-FScore of 82.38% and Macro-FScore of 89.47%, respectively.


  • 주제어

    오픈 도메인 질의응답 .   질의응답 .   질문 분석 .   질문 분류 .   Open-Domain Q&A .   Q&A .   Question Analysis .   Question Classification.  

  • 참고문헌 (19)

    1. Dan Moldovan, Sanda Harabagiu, Marius Pasca. Rada Mihalcea, Roxana Girju, Richard Goodrum and Vasile Rus. The Structur and Performance of an Open- Domain Question Answering System, In Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, 2000. 
    2. Silvia Quarteroni and Alessandro Moschitti, A Comprehensive Resource to Evaluate Complex Open Domain Question Answering, In Proceedings of LREC'10, 2010. 
    3. Vanitha Guda, Suresh Kumar Sanampudi and I.Lakeshmi Manikyamba, Approaches for Question Answering Systems, Intemational Journal of Engineering Science and Technology, vol.3, no.2, Feb. 2011. 
    4. David Ferrucci, Eric Brown, l ennifer Chu- Carroll, l ames Fan. David Gondek, Adityo A.Kalyanpur, Adam Lally, J,William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, and Chris Welty, Building Watson: An Overview of the DeepQA Project, AI Magazine, vol.31, no.3, FALL Issue, pp.59-79, 2010. 
    5. Alexandra Balahur, Ester Boldrini, Andres Montoyo and Patricio Martinez- Barco, A Comparative Study of Open Domain and Opinion Question Answering Systems for Factual and Opinionated Queries, International Conference RANLP 2009, 2009. 
    6. C. Lee, M. Jang, Named Entity Recognition with Structural SVMs and Pegasos algorithm, Korean Journal of Cognitive Science, vol.21 , no.4, pp.655- 667, 2010.     
    7. H. -J. Oh, Compositional Question Answering with Collaborative Strategies, PhD dissertation, Information and Communication Univ. Korea, 2008. 
    8. Choe Ho- seop, Construction Method of Largescale 'Urimal(Korean)-Word Intelligent Network', Hangul 273(한글 273), pp.125-141, 2006. (in Korean) 
    9. J. Ding, L. Gravano, and N. Shivakumar. Computing geographical scopes of web resources. In Proceedings of the Twenty-sixth International Conference on Very Large Databases (VLDB 2000), 2000. 
    10. L. Gravano, V. Hatzivassiloglou, R. Lichtenstein. Catergorizing Web Queries According to Geographical Locality. In Proceeding of the Twelfth International Conference on Information and Know ledge Management (CIKM 2003). 2003. 
    11. C. Lee, M. Jang Fast Training of Structured SVM Using Fixed- Threshold Sequential Minimal Optimization. ETRI Journal, vol.31, no.2, pp.121-128, Apr. 2009. 
    12. Harksoo Kim, An Young Hun, Jungyun Seo, A Question 'T ype Classifier based on a Support Vector Machine for a Korean Question-Answering System, Journal of KIISE Software and Applications, vol.30, no.5- 6, pp.466-475, 2003. (in Korean) 
    13. Yiming Yang. An Evaluation of Statistical Approaches to Text Categorization, Journal of Information Retrieval, vol.1, Issue 1-2, 1999. 
    14. C. Pinchak, D. Lin. A Probabilistic Answer Type Model, EACL2006. 2006. 
    15. D. Shen, J. Sun, Q. Yang, Z. Chen. Building Bridges for Web Query Classification. SIGIR2006. 2006. 
    16. F. Bu, X. Zhu, Y. Hao and X. Xhu. Function based question classification for general QA. EMNLP2010. 2010. 
    17. Ulf Hermjakob. Parsing and Question Classifica tion for Question Qnswering. In Proceedings of the Workshop on Open- Domain Question Answering at ACL-2001. 2001 . 
    18. Ellen M. Voorhees. Overview of the TREC-9 Question Answering Track. TREC- 9. 2000. 
    19. Dan Moldovan. Marius Pasca, Sanda Harabagiu, and Mihai Surdeanu. Performance Issues and Error Analysis in an Open-Domain Question Answering System. ACM Transcations on Information Systems, vol.21, no. 2, pp.133- 154, 2003. 
  • 이 논문을 인용한 문헌 (1)

    1. Heo, Jeong ; Ryu, Pum Mo ; Kim, Hyun Ki ; Park, Sang Kyu ; Ock, Cheol Young 2013. "Recognizing Page Title and Infobox Attribute for Answer Extraction from Wikipedia Infobox" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, 40(9): 544~557     

 저자의 다른 논문

  • 허정 (7)

    1. 2001 "사전의 뜻풀이말에서 추출한 의미정보에 기반한 동형이의어 중의성 해결 시스템" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 28 (9): 688~698    
    2. 2006 "시맨틱웹 기반 개인용 미디어 관리 기술 동향" 정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers 24 (4): 58~64    
    3. 2012 "클릭로그를 이용한 연관키워드 수집" 정보처리학회논문지. The KIPS transactions. Part B. Part B b19 (2): 149~154    
    4. 2014 "소셜 빅데이터 마이닝 기반 이슈 분석보고서 자동 생성" 정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학 3 (12): 553~564    
  • 류법모 (0)

  • 장명길 (12)

  • 김현기 (22)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 이용한 콘텐츠
이 논문과 함께 출판된 논문 + 더보기