본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

신경망 기반 음성, 영상 및 문맥 통합 음성인식
Speech Recognition by Integrating Audio, Visual and Contextual Features Based on Neural Networks

김명원   (숭실대학교 컴퓨터학부UU0000851  ); 한문성   (한국전자통신연구원 디지털 홈 연구CC0186800  ); 이순신   (LG-CNS 기술연구부문 솔루션센터 DW/BI  ); 류정우   (숭실대학교 컴퓨터학부UU0000851  );
  • 초록

    최근 잡음환경에서 신뢰도 높은 음성인식을 위해 음성정보와 영상정보를 융합하는 방법이 활발히 연구되고 있다. 본 논문에서는 이절적인 정보의 융합에 적합한 신경망 모델을 기반으로 음성, 영상 및 문맥 정보 등 다양한 정보를 융합하여 잡음 환경에서 고려단어를 인식하는 음성인식 기법에 대하여 기술한다. 음성과 영상 특징을 이용한 이중 모드 신경망 BMNN(BiModal Neural Network)을 제안한다. BMM은 4개 층으로 이루어진 다층퍼셉트론의 구조를 가지며 각 층은 입력 특징의 추상화 기능을 수행한다. BMNN에서는 제 3층이 잡음에 의한 음성 정보의 손실을 보상하기 위하여 음성과 영상 특징을 통합하는 기능을 수행한다. 또한, 잡음환경에서 음성 인식률을 향상시키기 위해 사용자가 말한 단어들의 순차 패턴을 나타내는 문맥정보를 이용한 후처리 방법을 제안한다. 잡음환경에서 BMNN은 단순히 음성만을 사용한 것 보다 높은 성능을 보임으로써 그 타당성을 확인할 수 있을 뿐 아니라, 특히 문맥을 이용한 후처리를 하였을 경우 잡음 환경에서 90%이상의 인식률을 달성하였다 본 연구는 잡음환경에서 강인한 음성인식을 위해 다양한 추가 정보를 사용함으로써 성능을 향상시킬 수 있음을 제시한다.


    The recent research has been focused on fusion of audio and visual features for reliable speech recognition in noisy environments. In this paper, we propose a neural network based model of robust speech recognition by integrating audio, visual, and contextual information. Bimodal Neural Network(BMNN) is a multi-layer perception of 4 layers, each of which performs a certain level of abstraction of input features. In BMNN the third layer combines audio md visual features of speech to compensate loss of audio information caused by noise. In order to improve the accuracy of speech recognition in noisy environments, we also propose a post-processing based on contextual information which are sequential patterns of words spoken by a user. Our experimental results show that our model outperforms any single mode models. Particularly, when we use the contextual information, we can obtain over 90% recognition accuracy even in noisy environments, which is a significant improvement compared with the state of art in speech recognition. Our research demonstrates that diverse sources of information need to be integrated to improve the accuracy of speech recognition particularly in noisy environments.


  • 주제어

    신경망 .   이중모드 .   문맥 정보 .   융합방법 .   후처리.  

  • 참고문헌 (13)

    1. 남상엽, 전은희, 박인정, '실시간 임베디드 음성 인식 시스템', 전자공학횐논문지, 제40권 CI편, 제1호, pp.74-81, 2003년 1월     
    2. L.Reveret, C.Benoit, 'Lip Parameters Extraction Based on Projection of Raw Image onto Reference Shapes', Proc of IEEE First Workshop on Multimedia Signal, pp.1-6, June, 1997 
    3. Mary Jo Creaney-Stockton, Beng., MSc., 'Isolated Word Recognition using Reduced Connectivity Neural Networks With Non-Linear Time Alignment Methods', Dept of Electrical and Electronic Engineering Univ. of Newcastle-Upon-Tyne, August, 1996 
    4. 이상원, 박인정, '잡음환경에서 음성-영상 정보의 통합 처리를 사용한 숫자음 인식에 관한 연구', 전자공학회논문지, 제38권 CI편, 제3호, pp.61-67, 2001년 5월 
    5. Doh-Suk Kim,Soo-Young Lee, Rhee M. Kil, 'Auditory Processing of Speech Signals for Robust Speech Recognition in Real-World Noisy Environments', IEEE Trans. on Speech and Audio Processing, vol.7, no.1, pp. 55-69, January 1999 
    6. C.Bregler, S.Manke, H.Hild, and A.Waibel, 'Bimodal sensor integration on the example of speech-reading', Proc. of IEEE Int. Conf. on Neural Networks, San Francisco, 1993 
    7. A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, K. J. Lang, 'Phoneme Recognition Using Time-Delay Neural Networks', IEEE Trans. on Acoustics, Speech and Signal Processing. vol.37, no.3, pp. 328-339, March 1989 
    8. Haffiner,P., and Waibel, A. 'Multi-State Time Delay Neural Networks for Continuous Speech Recognition'. In Advances in Neural Information Processing Systems 4, Morgan Kaufmann Publishers, 1992 
    9. Joe Tebelskis,'Speech Recognition using Neural Networks', CMU-CS-95-142, May 1995 
    10. Kaynak, M.N.; Qi Zhi; Check, A.D.; SEngupta,K.; Ko Chi Chung; 'Audio-visual modeling for bimodal speech recognition,' Systems, Man, and Cybernetics, 2001 IEEE Int. Conf. on , vol. 1, pp. 181-186, 2001 
    11. Gemello, R.; Albesano, D.; Mana, F.; Moisa, L.; 'Multi-source neural networks for speech recognition: a review of recent results', Neural Networks, 2000. IJCNN 2000, Proc. of the IEEE - INNS-ENNS Int. Joint Conf. on , vol. 5, pp. 265-270, 2000 
    12. Xiaozheng Zhang; Merserratt, R.M.; Clements, M.; , 'Bimodal fusion in audio-visual speech recognition', Image Processing 2002 Proc. 2002 Int. Conf. on ,vol.1, pp. 964-967, 2002 
    13. Claude C. Chibelushi, Farzin Deravi, 'A Review of Speech-Based Bimodal Recognition,' IEEE Transactions on Multimedia, vol. 4, no. 1, pp. 23-37, March, 2002 

 저자의 다른 논문

  • 김명원 (27)

    1. 1994 "컴퓨터 비전의 처리 기술 및 응용" 정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers 12 (9): 9~19    
    2. 1994 "유전자 알고리즘과 신경 회로망의 결합에 관한 연구 조사" 전자통신동향분석 = Electronics and telecommunications trends 9 (4): 53~61    
    3. 1995 "E-MIND II를 이용한 고립 단어 인식 시스템의 설계" 電子工學會論文誌. Journal of the Korea institute of telematics and electronics. B b32 (11): 1527~1535    
    4. 1996 "대규모 신경망 시뮬레이션을 위한 칩상 학습가능한 단일칩 다중 프로세서의 구현" 電子工學會論文誌. Journal of the Korea institute of telematics and electronics. B b33 (2): 149~158    
    5. 1998 "오류 역전파 학습에서 확률적 가중치 교란에 의한 전역적 최적해의 탐색" 電子工學會論文誌. Journal of the Korean Institute of Telematics and Electronics. C c35 (3): 79~89    
    6. 1998 "퍼지 결정 트리를 이용한 효율적인 퍼지 규칙 생성" 電子工學會論文誌. Journal of the Korean Institute of Telematics and Electronics. C c35 (10): 59~68    
    7. 1999 "SymCSN : 유연한 지식 표현 및 추론을 위한 기호-연결주의 모델" 인지과학 = Korean journal of cognitive science 10 (4): 71~83    
    8. 1999 "퍼지 결정트리를 이용한 패턴분류를 위한 데이터 마이닝 알고리즘" 정보과학회논문지. Journal of KISS (b):software and applications. B 26 (11): 1314~1323    
    9. 1999 "인간의 추론 기능 구현을 위한 뉴로심볼릭 모델" 정보과학회지 = Communications of the Korean Institute of Information Scientists and Engineers 17 (5): 9~19    
    10. 2001 "종족의 분할과 병합을 이용한 효율적 공진화 알고리즘" 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용 28 (2): 168~178    
  • 한문성 (2)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 이용한 콘텐츠
이 논문과 함께 출판된 논문 + 더보기