본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

필터뱅크를 이용한 한국어 숫자음 인식 다이얼링 시스템
Korean Digit Speech Recognition Dialing System using Filter Bank

박기영   (전주공업대학 정보통신과UU0001124  ); 최형기   (전북대학교 전자공학과UU0001120  ); 김종교   (전북대학교 전자공학과UU0001120  );
  • 초록

    본 논문은 한국어 숫자음 인식을 HMM과 DTW 프로그램을 사용한 필터 뱅크로 수행하였다. 스펙트럼 분석은 주로 성도의 모양에 의한 음성 신호 특징을 나타낸다. 그리고 음성의 스펙트럼 특징은 일반적으로 정의된 주파수 범위에서 적절하게 집중된 스펙트럼, 즉 필터뱅크를 통과해 나가는 것에 의해 얻을 수 있다. 또한 8 개의 밴드 패스 필터는 인간 귀의 지각적인 청취력에 의해 나누었다. 정의된 주파수 범위는 320-330, 450-460, 640-650, 840-850, 900-1000, 1100-1200, 2000-2100, 3900-4000㎐이고, 샘플링 주파수는 8㎑ 이다. 그리고 프레임 폭은 20㎳, 주기는 10㎳이다. 실험 결과는 한국어 숫자음 음성인식에 대해 필터 뱅크를 사용하는 경우 HMM보다 DTW의 인식율이 더 높은 인식율이 나오는 것을 확인 할 수가 있었다. 필터 뱅크를 이용한 한국어 숫자음 인식율은 24차 밴드패스필터에서 93.3%, 16차 밴드패스필터에서, 89.1%, 8차 밴드 패스필터의 하드웨어 음성 다이얼링 시스템에서 88.9%의 인식율을 나타내었다.


    In this study, speech recognition for Korean digit is performed using filter bank which is programmed discrete HMM and DTW. Spectral analysis reveals speech signal features which are mainly due to the shape of the vocal tract. And spectral feature of speech are generally obtained as the exit of filter banks, which properly integrated a spectrum at defined frequency ranges. A set of 8 band pass filters is generally used since it simulates human ear processing. And defined frequency ranges are 320-330, 450-460, 640-650, 840-850, 900-1000, 1100-1200, 2000-2100, 3900-4000Hz and then sampled at 8kHz of sampling rate. Frame width is 20ms and period is 10ms. Accordingly, we found that the recognition rate of DTW is better than HMM for Korean digit speech in the experimental result. Recognition accuracy of Korean digit speech using filter bank is 93.3% for the 24th BPF, 89.1% for the 16th BPF and 88.9% for the 8th BPF of hardware realization of voice dialing system.


 저자의 다른 논문

  • 박기영 (5)

    1. 1999 "화자 종속 한국어 숫자음 음성 인식 다이얼링 시스템" 電子工學會論文誌. Journal of the Korean Institute of Telematics and Electronics. T t36 (2): 56~62    
    2. 1999 "화자인식 알고리즘을 이용한 보안 시스템 구축" 電子工學會論文誌. Journal of the Korean Institute of Telematics and Electronics. T t36 (4): 17~23    
    3. 2001 "에너지정합방법을 이용한 CS-ACELP 음성부호화기의 잡음특성 개선" 한국통신학회논문지. The Journal of Korea Information and Communications Society. 네트워크 및 서비스 26 (b8): 1070~1077    
    4. 2002 "인지적 청각 특성을 이용한 고립 단어 전화 음성 인식" 電子工學會論文誌. Journal of the Institute of Electronics Engineers of Korea. TE, 전문기술교육 39 (2): 60~65    
    5. 2004 "흉부음 데이터를 이용한 천식 질환 판별" 말소리 49 (): 135~144    
  • 김종교 (24)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기