본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

구문 트리 가지치기 및 소멸 인자 조정을 통한 트리 커널 기반 단백질 간 상호작용 추출 성능 향상
Performance Enhancement of Tree Kernel-based Protein-Protein Interaction Extraction by Parse Tree Pruning and Decay Factor Adjustment

최성필    (한국과학기술정보연구원 정보기술연구실   ); 최윤수    (한국과학기술정보연구원 정보기술연구실   ); 정창후    (한국과학기술정보연구원 정보기술연구실   ); 맹성현    (한국과학기술원 전산학과  );
  • 초록

    본 논문에서는 기존의 연구에서 시도되었던 것과는 달리, 복잡하고 추출하기가 어려운 다양한 형태의 자질 및 단서 정보가 필요 없는 합성곱 구문 트리 커널 기반의 단백질 간 상호작용 추출 기법을 소개한다. 이 기법의 특징은 단백질 이름 쌍을 포함한 상호작용 포함 후보 문장에 대한 구문 트리만을 이용하여 추출을 시도한다는 것이며 부가적인 자질이나 커널 함수가 불필요하다는 장점이 있다. 이를 기반으로 본 논문의 연구 성과는 다음과 같다. 첫째, 단백질 간 상호작용 추출에 있어서 구문 트리 커널을 적용할 경우 불필요한 문맥 정보를 효과적으로 제거하는 구문 트리 가지치기 작업이 필수적임을 기존 연구 결과와의 성능 비교로써 증명한다. 둘째, 동일한 학습 조건에서 구문 트리 커널의 소멸 인자(decay factor)는 평활 인자(smoothing factor)로서 중요한 역할을 하며, 성능 변화의 핵심 요소임을 보인다. 특히 학습 집합의 규모에 따라서 소멸인자가 성능에 미치는 영향력이 상이한 패턴으로 나타남을 제시하였다. 결론적으로 기존의 최신 연구결과로서 주장한 "단일 커널보다 혼합 커널의 성능이 더 뛰어나다"라는 가설이 항상 성립하는 것은 아니라는 것을 합성곱 구문 트리 커널 단독으로 적용하여 높은 성능을 나타냄으로써 보여주었다. 동일한 조건으로 수행한 실험에서 기존의 두 연구 결과에 비해 19.8%, 14%의 성능 개선을 나타내었다.


    This paper introduces a novel way to leverage convolution parse tree kernel to extract the interaction information between two proteins in a sentence without multiple features, clues and complicated kernels. Our approach needs only the parse tree alone of a candidate sentence including pairs of protein names which is potential to have interaction information. The main contribution of this paper is two folds. First, we show that for the PPI, it is imperative to execute parse tree pruning removing unnecessary context information in deciding whether the current sentence imposes interaction information between proteins by comparing with the latest existing approaches' performance. Secondly, this paper presents that tree kernel decay factor can play an pivotal role in improving the extraction performance with the identical learning conditions. Consequently, we could witness that it is not always the case that multiple kernels with multiple parsers perform better than each kernels alone for PPI extraction, which has been argued in the previous research by presenting our out-performed experimental results compared to the two existing methods by 19.8% and 14% respectively.


  • 주제어

    단백질간 상호 작용 추출 .   커널 기법 .   합성곱 구문 트리 커널 .   정보 추출 .   관계 추출.  

  • 참고문헌 (18)

    1. Bunescu R., Ge R., Kate R., Marcotte E., Mooney R., Ramani, A., Wong, Y., "Comparative Experiments on Learning Information Extractors for Proteins and their Interactions," Artif. Intell. Med., Summarization and Information Extraction from Medical Documents, vol.33, pp.139-155, 2005. 
    2. Pyysalo S., Ginter F., Heimonen J., Bjorne J., Boberg J., Jarvinen J., Salakoski T., "BioInfer: a corpus for information extraction in the biomedical domain," BMC Bioinformatics, vol.8, no.50, 2007. 
    3. Pyysalo S., Sætre R., Tsujii J., Salakoski T., "Why Biomedical Relation Extraction Results are Incomparable and What to do about it," Proceedings of SMBM'08, 2008. 
    4. Bunescu R. C., Mooney R. J., "Subsequence Kernels for Relation Extraction," NIPS-2005, 2005. 
    5. Culotta A., Sorensen J., "Dependency tree kernels for relation extraction," ACL '04: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics, 2004. 
    6. Moschitti A., "Making tree kernels practical for natural language learning," Proceedings of EACL'06, Trento, Italy, 2006. 
    7. Fundel K., Kuffner R., Zimmer R., "RelEx-Relation extraction using dependency parse trees," Bioinformatics, vol.23, pp.365-371, 2007. 
    8. Miwa M., Sætre R., Miyao Y., Tsujii J., "Proteinprotein interaction extraction by leveraging multiple kernels and parsers," International Journal of Medical Informatics, 2009. 
    9. Airola A., Pyysalo S., Bjorne J., Pahikkala T., Ginter F., Salakoski T., "All-paths graph kernel for protein-protein interaction extraction with evaluation of cross-corpus learning," BMC Bioinformatics, vol.9, no.S2, 2008. 
    10. GuoDong Z., Zhang M., Ji D., QiaoMing Z., "Tree kernel-based relation extraction with context-sensitive structured parse tree information," Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP/ CoNLL-2007), pp.728-736, 2007. 
    11. Pyysalo S., Airola A., Heimonen J., Bjorne J., Ginter F., Salakoski T., "Comparative analysis of five protein-protein interaction corpora," BMC Bioinformatics, vol.9, no.S6, 2008. 
    12. Blaschke C., Andrade M., Ouzounis C., Valencia A., "Automatic extraction of biological information from scientific text: protein-protein interactions," Proc. Int. Conf. Intell. Syst. Mol. Biol., pp.60-67, 1999. 
    13. Collins M., Duffy N., "Convolution Kernels for Natural Language," NIPS-2001, 2001. 
    14. Nedellec C., "Learning language in logic-genic interaction extraction challenge," Proceedings of LLL'05, pp.31-37, 2005. 
    15. Ding J., Berleant D., Nettleton D., Wurtele E., "Mining MEDLINE: abstracts, sentences, or phrases?" Proceedings of PSB'02, pp.326-337, 2002. 
    16. Ono T., Hishigaki H., Tanigam A., Takagi T., "Automated extraction of information on proteinprotein interactions from the biological literature," Bioinformatics, vol.17, no.2, pp.155-161, 2001. 
    17. Bunescu R. C., Mooney R. J., "A shortest path dependency kernel for relation extraction," HLT '05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, Association for Computational Linguistics, pp.724-731, 2005. 
    18. Vishwanathan S. V. N., Smola A. J., "Fast Kernels for String and Tree Matching," Advances in Neural Information Processing Systems, MIT Press, vol.15, pp.569-576, 2003. 
  • 이 논문을 인용한 문헌 (1)

    1. Song, Sa-Kwang ; Choi, Yun-Soo ; Choi, Sung-Pil ; Oh, Heung-Seon ; Myaeng, Sung-Hyon ; Chun, Hong-Woo ; Jeong, Chang-Hoo 2012. "Procedural Knowledge Extraction on Medical Documents" 정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터, 18(2): 123~127     

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기