본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

Temporal 데이터의 최적의 클러스터 수 결정에 관한 연구
A Study for Determining the Best Number of Clusters on Temporal Data

조영희   (단국대학교 전자계산학과UU0000336  ); 이계성   (단국대학교 전자계산학과UU0000336  ); 전진호   (단국대학교 전자계산학과UU0000336  );
  • 초록

    Temporal 데이터의 클러스터링 방법론 중의 하나로 모델기반 방법론이 있다. 이는 각 클러스터에 대하여 오토마타기반의 모델을 가정하는 것이다. 개별 모델을 추출하기 위해서는 먼저 전체 데이터에 대한 적합한 모델을 찾는 것이 필요하다. 전체에 대한 모델은 데이터집합에 대한 최적의 클러스터의 수를 결정함으로 개별 모델 구축의 준비를 완료한다. 본 연구에서는 클러스터 수를 결정하기 위한 기준인 베이지안 정보기준(BIC : Bayesian Information Criterion) 근사법의 활용도를 검증하고 데이터 크기와 BIC 값의 상관관계를 파악함으로 탐색 효율을 높이는 방안을 제안한다. 실험에서는 인위적 모델을 통하여 생성된 인공적인 여러 형태의 데이터집합을 활용하여 BIC근사 측도의 활용성에 대해 살펴보았다. 실험결과에서 보여주는 것처럼 BIC 근사 측도는 데이터의 크기가 비교적 클 경우에 올바른 파티션의 사이즈를 추정함을 확인하였다.


    A clustering method for temporal data takes a model-based approach. This uses automata based model for each cluster. It is necessary to construct global models for a set of data in order to elicit individual models for the cluster. The preparation for building individual models is completed by determining the number of clusters inherent in the data set. In this paper, BIC(Bayesian Information Criterion) approximation is used to determine the number clusters and confirmed its applicability. A search technique to improve efficiency is also suggested by analyzing the relationship between data size and BIC values. A number of experiments have been performed to check its validity using artificially generated data sets. BIC approximation measure has been confirmed that it suggests best number of clusters through experiments provided that the number of data is relatively large.


  • 주제어

    시계열 데이터 .   클러스터링 .   베이지안정보기준 .   클러스터 수 .   모델기반.  

 저자의 다른 논문

  • 조영희 (6)

    1. 2006 "주가 운동양태 예측을 위한 예측 모델결정에 관한 연구" 한국콘텐츠학회논문지 = The Journal of the Korea Contents Association 6 (6): 26~32    
    2. 2008 "은닉 마코프 모델을 이용한 시계열 데이터의 의미기반 패턴 매칭" 한국콘텐츠학회논문지 = The Journal of the Korea Contents Association 8 (5): 44~51    
    3. 2009 "CRM을 위한 은닉 마코프 모델과 유사도 검색을 사용한 시계열 데이터 예측" 韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information 14 (5): 19~28    
    4. 2010 "다중 유사 시계열 모델링 방법을 통한 예측정확도 개선에 관한 연구" 한국인터넷방송통신학회 논문지 = The journal of the Institute of Internet Broadcasting and Communication 10 (6): 137~143    
    5. 2010 "정보기준과 다중 중심점을 활용한 클러스터별 예측" 한국인터넷방송통신학회 논문지 = The journal of the Institute of Internet Broadcasting and Communication 10 (6): 145~152    
    6. 2011 "마코프 모델에 기반한 시계열 자료의 모델링 및 예측" 韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information 16 (2): 225~233    
  • 이계성 (16)

  • 전진호 (6)

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기