본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

우도비 특징 벡터를 이용한 SVM 기반의 음성 검출기
Voice Activity Detection Based on SVM Classifier Using Likelihood Ratio Feature Vector

조규행   (인하대학교 전자전기공학부UU0001092  ); 강상기   (삼성전자 정보통신총괄 통신연구소CC0101996  ); 장준혁   (인하대학교 전자전기공학부UU0001092  );
  • 초록

    본 논문에서는 기존의 통계적 모델 기반의 음성 검출기의 성능 향상을 위해 이진 분류에 우수한 support vector machine(SVM)을 도입한다. 기존의 통계적 모델 기반 음성 검출기의 경우 음성의 존재와 부재에 대한 가설로부터 각각의 통계적 모델을 세워 입력 데이타에 의해 결정된 각 주파수 채널별 우도비(likelihood ratio)를 단순히 기하 평균을 취하여 문턱값과 비교, 음성 검출 여부를 판단한다. 제안된 음성 검출기는 기존의 기하 평균을 이용한 결정식을 대신하여 분류 오류 확률이 최소화되도록 각 주파수 채널별 우도비를 SVM의 특징 벡터로 적용한다. 제안된 SVM 기반의 통계적 모델 음성 검출기는 기존의 LRT를 이용한 음성 검출기 및 SVM 기반의 음성 검출기들과 비교하여 다양한 잡음 환경에서 우수한 성능을 나타낸다.


    In this paper, we apply a support vector machine(SVM) that incorporates an optimized nonlinear decision rule over different sets of feature vectors to improve the performance of statistical model-based voice activity detection(VAD). Conventional method performs VAD through setting up statistical models for each case of speech absence and presence assumption and comparing the geometric mean of the likelihood ratio (LR) for the individual frequency band extracted from input signal with the given threshold. We propose a novel VAD technique based on SVM by treating the LRs computed in each frequency bin as the elements of feature vector to minimize classification error probability instead of the conventional decision rule using geometric mean. As a result of experiments, the performance of SVM-based VAD using the proposed feature has shown better results compared with those of reported VADs in various noise environments.


  • 주제어

    음성 검출기 .   통계적 모델 .   우도비.  

  • 참고문헌 (14)

    1. K. Srinivasant and Allen Gersho, 'Voice activity detection for cellular networks,' Proc. IEEE Speech Coding Workshop, 85-86, Oct. 1993 
    2. Y. D. Cho and A. Kondoz, 'Analysis and improvement of a statistical model-based voice activity detector,' IEEE Sig. Process. Lett., 8 (10), 276-278, Oct. 2001 
    3. J.-H. Chang, J. W. Shin, and N. S. Kim, 'Voice activity detector employing generalized gaussian distribution,' Electron. Lett., 40 (24), 1561-1563, Nov. 2004 
    4. J. Ramirez, J. M. Gorriz, J. C. Segura, C. G. Puntonet, and A. J. Rubio, 'Speech/non-speech discrimination based on contextual information integrated bispectrum LRT,' IEEE Sig. Process. Lett., 13 (8), 497-500, Aug. 2006 
    5. ITU, 'A silence compression scheme for G.729 optimized for terminals conforming to ITU-T V.70,', ITU-T Rec. G. 729, Annex S, 1996 
    6. J. Sohn, N. S. Kim, and W. Sung, 'A statistical model-based voice activity detection,' IEEE Sig. Process. Lett., 6 (1), 1-3, Jan. 1999 
    7. N. Cristianini and J. Shawe-Taylor, An introduction to support vector machines and other kernel-based learning methods. (Cambridge Univ. Press, 2000) 
    8. V. N Vapnik, 'An overview of statistical learning theory,' IEEE Trans. Neural Networks, 10 (5), 988-999, Sep. 1999 
    9. J. Sohn and W. Sung, 'A voice activity detector employing soft decision based noise spectrum adaptation,' Proc. Int. Conf. Acoustics, Speech, and Sig. Process., 1, 365-368, May 1998 
    10. Y. C. Lee and S. S. Ahn, 'Statistical model-based VAD algorithm with Wavelet Transform,' IEICE Trans. Fundamentals., E89-A (6), 1594-1600, June 2006 
    11. Y. Ephraim and D. Malah, 'Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator,' IEEE Trans. Acoustics, Speech, Sig. Process., ASSP-32 (6), 1190-1121, Dec. 1984 
    12. J.-H. Chang, N. S. Kim, and S. K. Mitra, 'Voice activity detection based on multiple statistical models,' IEEE Trans. Sig. Process., 54 (6), 1965-1976, June 2006 
    13. D. Enqing, L. Guizhong, Z. Yatong, and Z. Xiaodi, 'Applying support vector machines to voice activity detection,' Proc. Int. Conf. Sig. Process., 2, 1124-1127, Aug. 2002 
    14. J. Ramirez, J. M. Gorriz, J. C. Segura, C. G. Puntonet, and A. J. Rubio, 'Speech/Non-speech discrimination based on contextual information integrated bispectrum LRT,' IEEE Sig. Process. Lett., 13 (8), 497-500, Aug. 2006 

 저자의 다른 논문

  • 조규행 (1)

    1. 2008 "SVM의 확률 출력을 이용한 새로운 Global Soft Decision 기반의 음성 향상 기법" 한국음향학회지= The journal of the acoustical society of Korea 27 (2): 75~79    
  • 강상기 (5)

  • 장준혁 (7)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드
  • 원문이 없습니다.

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기