본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

통계적 모델 기반의 음성 검출기를 위한 변별적 가중치 학습
Discriminative Weight Training for a Statistical Model-Based Voice Activity Detection

강상익   (인하대학교 전자전기공학부UU0001092  ); 조규행   (인하대학교 전자전기공학부UU0001092  ); 박승섭   (서울대학교 전기컴퓨터공학부UU0000691  ); 장준혁   (인하대학교 전자전기공학부UU0001092  );
  • 초록

    본 논문에서는 음성의 통계적 모델에 기반한 음성검출기의 성능향상을 위해 변별적 가중치 학습(discriminative weight training) 기반의 최적화된 우도비 테스트(Likelihood Ratio Test, LRT)를 제안한다. 먼저, 기존의 통계모델기반의 음성검출기를 분석하고, 이를 기반으로 MCE(minimum classification error)방법을 도입하여, 각 주파수 채널별로 다른 가중치를 가지는 우도비 기반의 음성검출 결정법(decision rule)을 제시한다. 제안된 알고리즘은 비정상(non-stationary)잡음환경에서 기존의 동일 가중치를 가지는 기하 평균 기반의 음성검출기와 비교하였으며, 우수한 성능을 보인다.


    In this paper, we apply a discriminative weight training to a statistical model-based voice activity detection(VAD). In our approach, the VAD decision rule is expressed as the geometric mean of optimally weighted likelihood ratios(LRs) based on a minimum classification error(MCE) method which is different from the previous works in that different weights are assigned to each frequency bin which is considered more realistic. According to the experimental results, the proposed approach is found to be effective for the statistical model-based VAD using the LR test.


  • 주제어

    음성 검출기 .   통계적 모델 .   우도비.  

  • 참고문헌 (10)

    1. J. Sohn and W. Sung, 'A voice activity detector employing soft decision based noise spectrum adaptation: Proc. Int. Conf. Acoustics, Speech, and Sig. Process., 1, 365--368, May 1998 
    2. Y. D. Cho and A. Kondoz, 'Analysis and improvement of a statistical model-based voice activity detector,' IEEE Sig. Process. Lett., 8 (10) 276-278, Oct. 2001 
    3. Y. C. Lee and S. S. Ahn, 'Statistical model-based VAD algorithm with wavelet Transform,' IEICE Trans. Fundamentals., E89-A, (6) 1594-1600, June 2006 
    4. J. -H. Chang, N. S. Kim, and S. K. Mitra, 'Voice activity detection based on multiple statistical models,' IEEE Trans. Sig. Process., 54 (6) 1965-1976, June 2006 
    5. B. -H. Juanq, W. Chou, and C. -H. Lee, 'Mimum classification error rate methods for speech recognition,' IEEE Trans. Speech Audio Processing, 5 (3) 257-265, May 1997 
    6. Y. Ephraim and D. Malah, 'Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator: IEEE Trans. Acoustics, Speech, Sig. Process., ASSP-32, (6) 1190-1121, Dec. 1984 
    7. J. -H. Chang, J. W. Shin, and N. S. Kim, 'Voice activity detector employing generalised gaussian distribution,' Electron. Lett., 40 (24) 1561-1563, Nov. 2004 
    8. J. Ramirez, J. M. Gorriz, J. C. Segura, C. G. Puntonet, and A. J. Rubio, 'Speech/non-speech discrimination based on contextual information integrated bispectrum LRT,' IEEE Sig. Process. Lett., 13 (8) 497-500, Aug. 2006 
    9. J. Sohn, N. S. Kim, and W. Sung, 'A statistical model-based voice activity detection,' IEEE Sig. Process. Lett., 6 (1) 1-3, Jan. 1999 
    10. Y. Kida, T. Kawahara, 'Voice activity detection based on optimally weighted combination of muliple feature,' Interspeech, 2621-2624, Sep, 2005 
  • 이 논문을 인용한 문헌 (2)

    1. Ryu, Kwang-Chun ; Kim, Dong-Kook 2008. "Statistical Voice Activity Defector Based on Signal Subspace Model" 한국음향학회지= The journal of the acoustical society of Korea, 27(7): 372~378     
    2. Kang, Sang-Ick ; Chang, Joon-Hyuk 2008. "Voice Activity Detection Based on Discriminative Weight Training with Feedback" 한국음향학회지= The journal of the acoustical society of Korea, 27(8): 443~449     

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드
  • 원문이 없습니다.

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기