본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

한국전자통신학회 논문지 = The Journal of the Korea Institute of Electronic Communication Sciences v.13 no.3, 2018년, pp.571 - 578   KCI
본 등재정보는 저널의 등재정보를 참고하여 보여주는 베타서비스로 정확한 논문의 등재여부는 등재기관에 확인하시기 바랍니다.

DNN을 이용한 오디오 이벤트 검출 성능 비교
Comparison of Audio Event Detection Performance using DNN

정석환   (계명대학교 전기전자융합시스템공학과  ); 정용주   (계명대학교 전자공학과  );
  • 초록

    최근 딥러닝 기법이 다양한 종류의 패턴 인식에 있어서 우수한 성능을 보이고 있다. 하지만 소규모의 훈련데이터를 이용한 분류 실험에 있어서 전통적으로 사용되던 머신러닝 기법에 비해서 DNN의 성능이 우수한지에 대해서는 다소 간의 논란이 있어 왔다. 본 연구에서는 오디오 검출에 있어서 전통적으로 사용되어 왔던 GMM, SVM의 성능과 DNN의 성능을 비교하였다. 동일한 데이터에 대해서 인식실험을 수행한 결과, 전반적인 성능은 DNN이 우수하였으나 세그먼트 기반의 F-score에서 SVM이 DNN에 비해 우수한 성능을 보임을 알 수 있었다.


    Recently, deep learning techniques have shown superior performance in various kinds of pattern recognition. However, there have been some arguments whether the DNN performs better than the conventional machine learning techniques when classification experiments are done using a small amount of training data. In this study, we compared the performance of the conventional GMM and SVM with DNN, a kind of deep learning techniques, in audio event detection. When tested on the same data, DNN has shown superior overall performance but SVM was better than DNN in segment-based F-score.


  • 주제어

    피드포워드 뉴럴 네트워크 .   가우시안 믹스쳐 모델 .   기계 학습 .   서포트 벡터 머신.  

  • 참고문헌 (13)

    1. L. Gerosa, G. Valenzise, M. Tagliasacchi, F. Antonacci, and A. Sarti, "Scream and Gunshot Detection in Noisy Environments," In Proc. the IEEE Conf. on Signal Processing, Poznan, Poland, Sept. 2007. 
    2. J. Park, J. Lim, J. Yang, J. Kyung, and M. Hahn, "False Positive Movie Clip Decision in Black-box Using Car Door-Closing Sound Classification," In Proc. the Institute of Electronics Engineers of Korea, vol. 2014, no. 6, 2014, pp. 761-763. 
    3. W. Huang, T. Chiew, H. Li, T. Kok, and J. Biswas, "Scream detection for home applications," In Proc. the IEEE Conf. on Industrial Electronics and Applications, Taichung, Taiwan, June 2010. 
    4. S. Oh, J. Uee, H. Lee, Y. Chung, and D. Park, "Abnormal Sound Detection and Identification in Surveillance System," J. of Korean Institute of Information Scientists and Engineers, vol. 39, no. 2, 2012, pp. 144-152. 
    5. M. Lim, D. Kim, K. Kim, and J. Kim, "Audio Event Classification Using Deep Neural Networks," J. of the Korean Society of Speech Sciences, vol. 7, no. 4, 2015, pp. 27-33. 
    6. D. Wei, J. Li, P. Pham, S. Das, and Shuhui Qu, Florian Metze, "Sound Event Detection for Real Life Audio DCASE Challenge," In Proc. European Signal Processing Conf. on Detection and Classification of Acoustic Scenes and Events, Budapest, Hungary, Sept. 2016. 
    7. Q. Kong and I. Sobieraj, W. Wang and M. Plumbley, "Deep Neural Network Baseline for DCASE Challenge 2016," In Proc. European Signal Processing Conf. on Detection and Classification of Acoustic Scenes and Events, Budapest, Hungary, Sept. 2016. 
    8. S. Bang, "Implementation of Image based Fire Detection System Using Convolution Neural Network," J. of the Korea Institute of Electronic Communication Sciences, vol. 12, no. 2, 2017, pp. 331-336. 
    9. S. Lim and D. Kim, "Semantic Segmentation using Convolutional Neural Network with Conditional Random Field," J. of the Korea Institute of Electronic Communication Sciences, vol. 12, no. 3, 2017, pp. 451-456. 
    10. E. Cakir, G. Parascandolo, T. Heittola, H. Huttunen, and T. Virtanen, "Convolutional Recurrent Neural Networks for Polyphonic Sound Event Detection," EEE/ACM Trans. Audio, Speech, and Language Processing, vol. 25, no. 6, 2017, pp. 1291-1303. 
    11. A. Mesaros, T. Heittola, A. Diment, B. Elizalde, A. Shah, E. Vincent, B. Raj, and T. Virtanen, "DCASE 2017 Challenge setup: Tasks, datasets and baseline system" In Proc. DCASE 2017 - Workshop on Detection and Classification of Acoustic Scenes and Events, Munich, Germany, Nov. 2017. 
    12. Y. Lee and P. Moon, "A Comparison and Analysis of Deep Learning Framework," J. of the Korea Institute of Electronic Communication Sciences, vol. 12, no. 1, 2017, pp. 115-122. 
    13. A. Mesaros, T. Heittola, and T. Virtanen, "Metrics for polyphonic sound event detection," Applied Sciences, vol. 6, no. 6, 2016, pp. 321-337 

 저자의 다른 논문

  • 정용주 (31)

    1. 2000 "PMC 방식에서의 분별적 학습을 이용한 잡음 음성인식에 관한 연구" 한국음향학회지= The journal of the acoustical society of Korea 19 (2): 83~89    
    2. 2001 "Bayesian 적응 방식을 이용한 잡음음성 인식에 관한 연구" 한국음향학회지= The journal of the acoustical society of Korea 20 (2): 21~26    
    3. 2002 "결정적 잡음 모델을 이용한 효율적인 잡음음성 인식 접근 방법" 한국음향학회지= The journal of the acoustical society of Korea 21 (6): 559~565    
    4. 2003 "An Efficient Model Parameter Compensation Method foe Robust Speech Recognition" 말소리 45 (): 107~115    
    5. 2003 "자동차 잡음환경 고립단어 음성인식에서의 VTS와 PMC의 성능비교" 음성과학 = Speech sciences 10 (3): 251~261    
    6. 2004 "방송뉴스 인식에서의 잡음 처리 기법에 대한 고찰" 말소리 50 (): 71~83    
    7. 2004 "직접데이터 기반의 모델적응 방식을 이용한 잡음음성인식에 관한 연구" 음성과학 = Speech sciences 11 (2): 247~257    
    8. 2004 "외국어 발음오류 검출 음성인식기를 위한 MCE 학습 알고리즘" 음성과학 = Speech sciences 11 (4): 43~52    
    9. 2006 "향상된 JA 방식을 이용한 다 모델 기반의 잡음음성인식에 대한 연구" 음성과학 = Speech sciences 13 (2): 75~84    
    10. 2006 "Aurora DB를 이용한 잡음 음성 인식실험을 위한 Segmental K-means 훈련 방식의 기반인식기의 구현" 말소리 57 (): 113~122    

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 이용한 콘텐츠
이 논문과 함께 출판된 논문 + 더보기