본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

응용통계연구 = The Korean journal of applied statistics v.23 no.1, 2010년, pp.13 - 28   피인용횟수: 18

혼합분포에서 최적분류점
Optimal Thresholds from Mixture Distributions

홍종선    (성균관대학교 경제학부   ); 주재선    (한국여성정책연구원 통계패널센터   ); 최진수    (성균관대학교 응용통계연구소  );
  • 초록

    혼합분포를 가정한 신용평가연구에서 부도차주를 정상으로 예측하거나 정상차주를 부도로 예측하는 오류를 최소화하는 분류점을 추정하는 방법을 토론한다. 확률변수 스코어와 정상과 부도상태의 모수공간으로 정의된 확률밀도함수들에 대하여 강력검정과 일반화가능도비검정을 이용하여 최적분류점의 추정방법을 제안하고, ROC와 CAP 곡선에서 분류정확도를 측정하는 정확도(accuarcy)와 진실율(true rate)을 이용하여 이 측도를 최대로 하는 최적분류점을 확률밀도함수의 관계식으로 추정하는 방법을 제안한다. 다양한 정규분포에서 가설검정, 정확도 그러고 진실율을 이용하는 세가지 방법의 최적분류점을 구하고 각최적분류점에 대응하는 제 I 종과 제 II 종 오류합의 크기를 비교하여 효율성을 토론한다.


    Assuming a mixture distribution for credit evaluation studies, we discuss estimating threshold methods to minimize errors that default borrowers are predicted as non defaults or non defaults are regarded as defaults. A method by using statistical hypotheses tests, the most powerful test and generalized likelihood ratio test, for the probability density functions which are defined with the score random variable and the parameter space consisted of only two elements such as the default and non default states is proposed to estimate a threshold. And anther optimal thresholds to maximize classification accuracy measures of the accuracy and the true rate for ROC and CAP curves are estimated as equations related with these probability density functions. Three kinds of optimal thresholds in terms of the hypotheses testing, the accuracy and the true rate are obtained from normal random samples with various means and variances. The sums of the type I and type II errors corresponding to each optimal threshold are obtained and compared. Finally we discuss about their efficiency and derive conclusions.


  • 주제어

    가능도비검정 .   강력검정 .   부도 .   분류점 .   스코어 .   정확도 .   진실율 .   오류 .   판별력.  

  • 참고문헌 (17)

    1. Hanley, A. and McNeil, B. (1982). The meaning and use of the area under a receiver operating characteristics curve, Diagnostic Radiology, 143, 29-36. 
    2. 홍종선, 최진수 (2009). ROC와 CAP 곡선에서의 최적 분류점, <응용통계연구>, 22, 911-922.     
    3. Berry, M. J. A. and Linoff, G. (1999). Data Mining Techniques: For Marketing, Sales, and Customer Support, Morgan Kaufmann Publishers. 
    4. Drummond, C. and Holte, R. C. (2006). Cost curves: An improved method for visualizing classifier performance, Machine Learning, 65, 95-130. 
    5. Engelmann, B., Hayden, E. and Tasche, D. (2003). Measuring the discriminative power of rating systems, Discussion paper, Series 2: Banking and Financial Supervision. 
    6. Fawcett, T. (2003). ROC Graphs: Notes and Practical Considerations for Data Mining Researchers, HP Laboratories, 1501 page Mill Road, Palo Alto, CA 94304. 
    7. Pepe, M. S. (2003). The Statistical Evaluation of Medical Tests for Classifcaiton and Prediction, University Press, Oxford. 
    8. Provost, F. and Fawcett, T. (1997). Analysis and visualization of classifier performance comparison under imprecise class and cost distributions, In: Proceedings of the Third International Conference on Knowledge Discovery and Data Mining, AAAI Press, Menlo park, CA, 43-48. 
    9. Provost, F. and Fawcett, T. (2001). Robust classification for imprecise environments, Machine Learning, 42, 203-231. 
    10. Sobehart, J. R. and Keenan, S. C. (2001). Measuring default accurately, credit risk special report, Risk, 14, 31-33. 
    11. Sobehart, J. R., Keenan, S. C. and Stein, R. M. (2000). Benchmarking quantitative default risk models: A validation methodology, Moodys Investors Service. 
    12. Stein, R. M. (2005). The relationship between default prediction and lending profits: Integrating ROC analysis and loan pricing, Journal of Banking and Finance, 29, 1213-1236. 
    13. Swets, J. A. (1988). Measuring the accuracy of diagnostic systems, American Association for the Advancement of Science, 240, 1285-1293. 
    14. Tasche, D. (2006). Validation of internal rating systems and PD estimates, arXiv.org, eprint arXiv: physics/0606071. 
    15. Tasche, D. (2009). Estimating discriminatory power and PD curves when the number of defaults is small, arXiv.org, eprint arXiv:0905.3928v1. 
    16. Vuk, M. and Curk, T. (2006). ROC curve, lift chart and calibration plot, Metodoloki Zvezki, 3, 89-108. 
    17. Zou, K. H. (2002). Receiver Operating Characteristic Literature Research, On-line bibliography available from: http://www.spl.harvard.edu/pages/ppl/zou/roc.html. 
  • 이 논문을 인용한 문헌 (18)

    1. Hong, Chong-Sun ; Yoo, Hyun-Sang 2010. "Cost Ratios for Cost and ROC Curves" 한국통계학회 논문집 = Communications of the Korean Statistical Society, 17(6): 755~765     
    2. Hong, Chong-Sun ; Joo, Jae-Seon 2010. "Optimal Thresholds from Non-Normal Mixture" 응용통계연구 = The Korean journal of applied statistics, 23(5): 943~953     
    3. Hong, Chong-Sun ; Lin, Mei Hua ; Hong, Sun-Woo 2011. "ROC Function Estimation" 응용통계연구 = The Korean journal of applied statistics, 24(6): 987~994     
    4. Hong, Chong-Sun ; Lee, Hee-Jung 2011. "AROC Curve and Optimal Threshold" 응용통계연구 = The Korean journal of applied statistics, 24(1): 185~191     
    5. Hong, Chong-Sun ; Lee, Won-Yong 2011. "ROC Curve Fitting with Normal Mixtures" 응용통계연구 = The Korean journal of applied statistics, 24(2): 269~278     
    6. Yoo, Hyun-Sang ; Hong, Chong-Sun 2011. "Optimal Criterion of Classification Accuracy Measures for Normal Mixture" 한국통계학회 논문집 = Communications of the Korean Statistical Society, 18(3): 343~355     
    7. Hong, C.S. ; Lin, Meihua ; Hong, S.W. ; Kim, G.C. 2011. "Classification accuracy measures with minimum error rate for normal mixture" Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, 22(4): 619~630     
    8. Hong, C.S. ; Kim, G.C. ; Jeong, J.A. 2012. "Bivariate ROC Curve" 한국통계학회 논문집 = Communications of the Korean Statistical Society, 19(2): 277~286     
    9. Hong, C.S. ; Jung, E.S. ; Jung, D.G. 2013. "Standard Criterion of VUS for ROC Surface" 응용통계연구 = The Korean journal of applied statistics, 26(6): 977~985     
    10. 2013. "" Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, 24(6): 1489~1496     
    11. Hong, Chong Sun ; Kim, Hyomin Alex ; Kim, Dong Kyu 2014. "Alternative Optimal Threshold Criteria: MFR" 응용통계연구 = The Korean journal of applied statistics, 27(5): 773~786     
    12. 2014. "" Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, 25(6): 1521~1530     
    13. 2015. "" Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, 26(1): 255~260     
    14. 2015. "" Communications for statistical applications and methods = 한국통계학회논문집, 22(3): 223~232     
    15. 2015. "" Communications for statistical applications and methods = 한국통계학회논문집, 22(4): 377~387     
    16. Hong, Chong Sun ; Won, Chi Hwan ; Jeong, Dong Gil 2015. "Parameter estimation of linear function using VUS and HUM maximization" Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, 26(6): 1305~1315     
    17. Hong, C.S. ; Won, C.H. 2016. "Parameter estimation for the imbalanced credit scoring data using AUC maximization" 응용통계연구 = The Korean journal of applied statistics, 29(2): 309~319     
    18. Choi, Jin Soo ; Hong, Chong Sun 2016. "Proposition of polytomous discrimination index and test statistics" Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, 27(2): 337~351     

 저자의 다른 논문

  • 홍종선 (89)

    1. 1997 "범주형 자료에서 연관성 측도들의 비교 분석" 한국통계학회 논문집 = Communications of the Korean Statistical Society 4 (3): 645~661    
    2. 1998 "On the Comparison of Two Non-hierarchical Log-linear Models" 한국통계학회 논문집 = Communications of the Korean Statistical Society 5 (3): 847~853    
    3. 1999 "A Simulation Approach for Testing Non-hierarchical Log-linear Models" 한국통계학회 논문집 = Communications of the Korean Statistical Society 6 (2): 357~366    
    4. 1999 "인터넷상에서의 범주형 자료분석 시스템 개발" 응용통계연구 = The Korean journal of applied statistics 12 (1): 83~95    
    5. 1999 "다차원 범주형 자료에 대한 링차트" 응용통계연구 = The Korean journal of applied statistics 12 (1): 225~239    
    6. 1999 "공식통계자료의 표현방법" 응용통계연구 = The Korean journal of applied statistics 12 (2): 657~670    
    7. 1999 "교통사고에 대한 위험 인지도 분석" 大韓交通學會誌 = Journal of Korean Society of Transportation 17 (1): 207~222    
    8. 2000 "다차원 범주형 자료에 대한 링차트 II : 조건부 링차트를 이용한 자료 분석" 응용통계연구 = The Korean journal of applied statistics 13 (1): 163~177    
    9. 2000 "Identification of Multiple Outlying Cells in Multi-way Tables" 한국통계학회 논문집 = Communications of the Korean Statistical Society 7 (3): 687~698    
    10. 2001 "An Identification of Outlying Cells in Contingency Table via Correspondence Analysis Map" 한국통계학회 논문집 = Communications of the Korean Statistical Society 8 (1): 39~49    
  • 주재선 (1)

  • 최진수 (4)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기