본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

화자 정규화를 위한 새로운 파워 스펙트럼 Warping 방법
A New Power Spectrum Warping Approach to Speaker Warping

유일수   (성균관대학교UU0000759  ); 김동주   (성균관대학UU0000759  ); 노용완   (성균관대학UU0000759  ); 홍광석   (성균관대학교UU0000759  );
  • 초록

    화자 정규화 방법은 화자 독립 음성인식 시스템에서 음성 인식의 정확성을 높이기 위한 성공적인 방법으로 알려져 왔다. 널리 사용되는 화자 정규화 방법은 maximum likelihood 반의 주파수 warping 방법이다. 본 논문은 주파수 warping 보다 더 좋은 화자 정규화의 성능 개선을 위해 새로운 파워 스펙트럼 warping 방법을 제안한다. 파워 스펙트럼 warping은 멜 주파수 켑스트럼 분석(MFCC) 방법을 이용하며, MFCC 처리 단계에서 필터 뱅크의 파워 스펙트럼을 조절함으로써 화자 정규화를 수행하는 간단한 메커니즘으로 갖는다. 또한 본 논문은 파워 스펙트럼 warping과 주파수 warping 방법을 서로 결합한 hybrid VTN 방법을 제안한다. 본 논문의 실험은 baseline 시스템에 각 화자 정규화 방법을 적용하여 SKKU PBW DB에서 인식 성능을 비교 분석하였다. 실험 결과를 보면 baseline 시스템의 단어 인식 성능을 기준으로 주파수 warping은 2.06%, 파워 스펙트럼 warping은 3.05%, 그리고 hybrid VTN은 4.07%의 단어 에러 율의 감소를 보였다.


    The method of speaker normalization has been known as the successful method for improving the accuracy of speech recognition at speaker independent speech recognition system. A frequency warping approach is widely used method based on maximum likelihood for speaker normalization. This paper propose a new power spectrum warping approach to making improvement of speaker normalization better than a frequency warping. Th power spectrum warping uses Mel-frequency cepstrum analysis(MFCC) and is a simple mechanism to performing speaker normalization by modifying the power spectrum of Mel filter bank in MFCC. Also, this paper propose the hybrid VTN combined the Power spectrum warping and a frequency warping. Experiment of this paper did a comparative analysis about the recognition performance of the SKKU PBW DB applied each speaker normalization approach on baseline system. The experiment results have shown that a frequency warping is 2.06%, the power spectrum is 3.06%, and hybrid VTN is 4.07% word error rate reduction as of word recognition performance of baseline system.


  • 주제어

    Speaker Normalization .   Power spectrum warping .   Frequency warping .   MFCC.  

  • 참고문헌 (8)

    1. L. Lee and R. C. Rose, 'A Frequency Warping Approach to Speaker Normalization', IEEE Trans. on Speech and Audio Processing, Vol.6, NO.1, pp.49-60. Jan., 1998 
    2. L. Welling, H. Ney, S. Kanthak, 'Speaker Adaptive Modeling by Vocal Tract Normalization' , IEEE Transaction on Speech and Audio Processing, Vol. 10, No.6, September 2002 
    3. A. Andreou, T. Kam, and J. Cohen, 'Experiments in Vocal Tract Normalization' , in Proc. CAIP Workshop: Frontiers in Speech Recognition II, 1994 
    4. Michael Seltzer, 'SPHINX Ill Signal Processing Front End Specification' , CMU Speech Group, August 1999 
    5. Y. Linde, A. Duzo, R. M. Gray, 'An Algorithm for Vector Quantizer Design' , IEEE Transaction on COM., Vol. 28, January 1980 
    6. J.S. Youn, K. W. Chung and K.S. Hong, 'A Continuous Digit Speech Recognition Applied Vowel Sequence and VCCV Unit HMM', Proceeding of the Acoustical Society of Korea, Vol. 20, No.2, 2001 
    7. T.D. Rossing, P. Wheeler and F.R. Moore, 'The Science of Sound' , Addition Wesley, 2002 
    8. R. Roth et al, 'Dragon systems' 1994 Large Vocabulary Continuous Speech Recognizer' , in Proc. Spoken Language Systems Technology Workshop, 1995 

 저자의 다른 논문

  • 유일수 (1)

    1. 2003 "음성기술을 이용한 십자말 게임" 정보처리학회논문지. The KIPS transactions. Part B. Part B b10 (2): 213~218    
  • 노용완 (5)

  • Hong, Kwang-Seok (25)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기