본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

Baum-Welch 학습법을 이용한 HMM 기반 대역폭 확장법
HMM-Based Bandwidth Extension Using Baum-Welch Re-Estimation Algorithm

송근배   (삼성전자CC0101996  ); 김석호   (삼성전자CC0101996  );
  • 초록

    본 논문에서는 HMM 기반 통계적인 대역폭 확장(Bandwidth Extension, BWE) 방법의 개선에 대해 다룬다. 이를 위해 우선, HMM 모델 학습을 위한 기존의 Jax의 학습법과 일반적인 Baum-Welch 학습법의 관계를 비교 검토하고, Jax의 학습법의 한계점 및 문제점을 검토한다. 그리고 이를 바탕으로 Baum-Welch학습법을 이용한 새로운 HMM 기반 BWE 방법을 제시한다. 결론적으로, Baum-Welch 학습법은 Jax의 학습법의 일반화된 형태로 볼 수 있으며, 보다 유연하고 적응적인 학습능력을 가진 알고리즘임을 알 수 있다. 따라서 학습 데이터에 대한 보다 정확한 HMM 모델링이 가능하며 아울러, 이와 같이 개선된 HMM 모델을 활용함으로써 BWE 시스템의 성능향상을 가져 올 수 있었다. 실험결과에 의하면, 제시된 새로운 방법이 기존의 Jax의 방법에 비해 실험의 모든 경우에서 우수한 성능을 보임을 알 수 있다. 주어진 실험조건하에서 근제곱평균(root-mean-square, RMS) 로그 스펙트럴 왜곡(Log Spectral Distortion, LSD) 값이 전체적으로 평균 0.52dB 그리고, 최소 0.31dB에서 최대 0.8dB까지 개선되었다.


    This paper contributes to an improvement of the statistical bandwidth extension(BWE) system based on Hidden Markov Model(HMM). First, the existing HMM training method for BWE, which is suggested originally by Jax, is analyzed in comparison with the general Baum-Welch training method. Next, based on this analysis, a new HMM-based BWE method is suggested which adopts the Baum-Welch re-estimation algorithm instead of the Jax's to train HMM model. Conclusionally speaking, the Baum-Welch re-estimation algorithm is a generalized form of the Jax's training method. It is flexible and adaptive in modeling the statistical characteristic of training data. Therefore, it generates a better model to the training data, which results in an enhanced BWE system. According to experimental results, the new method performs much better than the Jax's BWE systemin all cases. Under the given test conditions, the RMS log spectral distortion(LSD) scores were improved ranged from 0.31dB to 0.8dB, and 0.52dB in average.


  • 주제어

    대역폭 확장 .   은닉 마코프 모델 .   가우스 혼합 모델 .   Baum-Welch 학습법.  

  • 참고문헌 (15)

    1. N. Enbom and W. B. Kleijn, 'Bandwidth expansion of speech based on vector quantization of the Mel frequency cepstral coefficients,' IEEE Workshop on Speech Coding, 171-173, June 1999 
    2. S. Jaisirrha and I. Y. Soon, 'Bandwidth Extension of Narrow Band Speech Using Cepstral Linear Prediction,' Joint Conference of the Fourth International Conference on Multimedia 3, 1404-1407, Dec. 2003 
    3. M. Nilsson, S. V. Andersen, and W. B. Kleijn, 'On the mutual information between frequency bands in speech,' ICASSP 3, 1327-1330, June 2000 
    4. P. Jax and P. Vary, 'Artificial Bandwidth Extension of Speech Signals Using MMSE Estimation Based on a Hidden Markov Model,' ICASSP 1, 680-683, April 2003 
    5. T. K. Moon, 'The expectation-maximization algorithm,' IEEE Signal Process. Mag 13 (6), 47-60, Nov. 1996 
    6. Y. Agiomyriannakis and Y. Stylianou, 'Combined estimation/ coding of highband spectral envelopes for speech spectrum expansion,' ICASSP 1, 496-472, May 2004 
    7. S. Chennoukh, A. Gerrits, and R. Sluijter. 'Speech Enhancement via Frequency Bandwidth Extension Using Line Spectral Frequencies,' ICASSP 1, 665-668, May 2001 
    8. Wei-shou Hsu, Robust bandwidth Extension of narrowband speech, M.A. thesis, McGill Univ., Dept. of Electrical & Computer Engineering, 26-29, Nov. 2004 
    9. J. S. Garofolo, L. F. Fisher, J. G. Fiscus, D. S. Pallett, and N. L. Dahlgren, 'DARPA-TIMlT: Acoustic-Phonetic Continuous Speech Corpus,' 1990 
    10. M. Nilsson, H. Gustafsson, S, V, Andersen, and W. B, Kleijn, 'Gaussian mixture model based mutual information estimation between frequency bands in speech,' ICASSP 1, 525-528, June 2002 
    11. K. -Y Park and H. S. Kim, 'Narrowband to Wideband Conversion of Speech Using GMM Based Transformation,' ICASSP 3, 1843-1846, June 2000 
    12. L. R. Rabiner, 'A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,' Proceedings of the IEEE 77 (2), 257-286, Feb. 1989 
    13. P. Jax and P. Vary, 'On artificial bandwidth extension of telephone speech,' Signal Processing 83 (8), 1707-1719, Aug. 2003 
    14. Y. Linde, A. Buzo, R. M. Gray, 'An algorithm for vector quantizer design,' IEEE Trans. Commun. 28 (1), 84-95, 1980 
    15. P. Jax and P. Vary, 'Wideband extension of telephone speech using a hidden Markov model,' IEEE Workshop on Speech Coding, 133-135, Sept. 2000 
  • 이 논문을 인용한 문헌 (1)

    1. Song, Geun-Bae ; Kim, Austin 2008. "Performance Comparison of GMM and HMM Approaches for Bandwidth Extension of Speech Signals" 한국음향학회지= The journal of the acoustical society of Korea, 27(3): 119~128     

 저자의 다른 논문

  • 송근배 (3)

    1. 2006 "음성통신망에서 디지털 오디오 신호 음질개선을 위한 전처리방법" 방송공학회논문지 = Journal of broadcast engineering 11 (2): 200~206    
    2. 2008 "음성신호의 대역폭 확장을 위한 GMM 방법 및 HMM 방법의 성능평가" 한국음향학회지= The journal of the acoustical society of Korea 27 (3): 119~128    
    3. 2008 "BWE 예측기반 대역분할 부호화기에 대한 연구" 한국음향학회지= The journal of the acoustical society of Korea 27 (6): 309~318    
  • 김석호 (3)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드
  • 원문이 없습니다.

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기