본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

Input Variable Importance in Supervised Learning Models

Huh, Myung-Hoe   (Dept. of Statistics, Korea UniversityUU0000159  ); Lee, Yong Goo   (Dept. of Applied Statistics, Chung-Ang UniversityUU0001197  );
  • 초록

    Statisticians, or data miners, are often requested to assess the importances of input variables in the given supervised learning model. For the purpose, one may rely on separate ad hoc measures depending on modeling types, such as linear regressions, the neural networks or trees. Consequently, the conceptual consistency in input variable importance measures is lacking, so that the measures cannot be directly used in comparing different types of models, which is often done in data mining processes, In this short communication, we propose a unified approach to the importance measurement of input variables. Our method uses sensitivity analysis which begins by perturbing the values of input variables and monitors the output change. Research scope is limited to the models for continuous output, although it is not difficult to extend the method to supervised learning models for categorical outcomes.


  • 주제어

    Supervised Learning .   Input Variable Importance .   Linear Regression .   Neural Network .   Regression Tree .   Sensitivity Analysis .   Data Mining.  

  • 참고문헌 (15)

    1. Hastie, T.;Tibshirani, R.;Friedman, J. , The Elements of Statistical Learning / v.,pp.,
    2. Sarle, W.S. , How to measure importance of inputs? Unpublished White Paper / v.,pp.,
    3. A study on variable selection bias in data mining softwares , Song, M.S.;Yoon, Y.J. , Korean Journal of Applied Statistics / v.14,pp.475-486,
         
    4. A comparison on the efficiency of data mining softwares , Han, S.T.;Kang, H.C.;Lee, S.K.;Lee, D.K. , Korean Journal of Applied Statistics / v.15,pp.190-201,
         
    5. A combined multiple regression trees predictor for screening large chemical databases , Lim, Y.B.;Lee, S.Y.;Chung, J.H. , Korean Journal of Applied Statistics / v.14,pp.91-101,
         
    6. A study on unbiased methods in constructing classification trees , Lee, Y.M.;Song, M.S. , Korean Communications in Statistics / v.9,pp.809-824,
         
    7. Model selection for tree-structured regression , Kim, S.H. , Journal of Korean Statistical Society / v.25,pp.1-24,
         
    8. SPSS Inc. , Clementine 7.0 User's Guide / v.,pp.525,
    9. Bayesian analysis for neural network models , Chung, Y.S.;Jung, J.Y.;Kim, C.S. , Korean Communications in Statistics / v.9,pp.155-166,
         
    10. Breiman, L.;Friedman, J.H.;Olshen, R.A.;Stone, C.J. , Classification and Regression Trees / v.,pp.,
    11. Clementine's neural networks technical overview , Watkins, D. , Unpublished White Paper / v.,pp.,
    12. Interpretation of data mining prediction model using decision tree , Kang, H.C.;Han, S.T.;Choi, J.H. , Korean Communications in Statistics / v.7,pp.937-943,
         
    13. Tree-structured classification for high risk dental caries , Lee, T.R.;Moon, H.S. , Journal of Data Science and Classification (Korean Classification Society) / v.1,pp.69-84,
    14. Ripley, R.D. , Pattern Recognition and Neural Network / v.,pp.,
    15. Bootstrap model selection criterion for determining the number of hidden units in neural network model , Hwang, C.H.;Kim, D.H. , Korean Communications in Statistics / v.4,pp.827-832,
         
  • 이 논문을 인용한 문헌 (1)

    1. 2003. "" 한국통계학회 논문집 = Communications of the Korean Statistical Society, 10(3): 627~635     

 저자의 다른 논문

  • 허명회 (61)

    1. 1990 "탐색적 데이터분석(EDA) 기능에 대한 통계팩키지 프로그램의 비교검토" 응용통계연구 = The Korean journal of applied statistics 3 (2): 17~25    
    2. 1991 "설문지 $cdot$ 시험지 문항의 신뢰성 분석" 응용통계연구 = The Korean journal of applied statistics 4 (1): 93~105    
    3. 1991 "우도거리에 의한 결정계수 $R^2$에의한 통합적 접근" 응용통계연구 = The Korean journal of applied statistics 4 (2): 117~127    
    4. 1991 "통계 교육과 상담: 현황과 과거 10년의 변천" 통계학연구 = The Journal of the Korean Statistical Society 20 (): 21~33    
    5. 1996 "Canonical Correlation Biplot" 한국통계학회 논문집 = Communications of the Korean Statistical Society 3 (1): 11~19    
    6. 1997 "다변량 자료의 분산균일성 검정-피트만 방법의 확장-" 한국통계학회 논문집 = Communications of the Korean Statistical Society 4 (1): 41~47    
    7. 1999 "토론 : 통계학 학부전공 프로그램의 비전과 전략에 비추어" 응용통계연구 = The Korean journal of applied statistics 12 (2): 705~709    
    8. 2000 "이중 K-평균 군집화" 응용통계연구 = The Korean journal of applied statistics 13 (2): 343~352    
    9. 2001 "불완전 순위 자료를 위한 몬테칼로 임의순열 검정" 응용통계연구 = The Korean journal of applied statistics 14 (1): 191~199    
    10. 2001 "통계학 용어 - 어떻게 만들어 갈 것인가\ulcorner" 한국통계학회 논문집 = Communications of the Korean Statistical Society 8 (0): 103~108    
  • 이용구 (17)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
  • 한국통계학회 : 저널
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기