본문 바로가기
HOME> 논문 > 논문 검색상세

논문 상세정보

결함 내성 분산 시스템에서의 동적 검사점 스케쥴링 기법
A Dynamic Checkpoint Scheduling Scheme for Fault Tolerant Distributed Computing Systems

박태순   (세종대학교 컴퓨터공학과UU0000792  );
  • 초록

    분산 시스템에 결함 내성 기능을 제공하는 기법의 하나인, 검사점을 이용한 회복 기법을 효율 적으로 구현하기 위해서는 최적화된 검사점 설정 구간의 선택이 매우 중요한 문제로 인식되고 있다. 본 논문은 분산 시스템내의 각 프로세스 적절한 검사점 설정 구간을 프로세스의 연산 중에서 동적으로 스케 쥴링 하는 기법을 제안한다. 제안된 기법에서는 시스템내에의 각 프로세스가 현 검사점 구간 동안으 검사점 설정 비용과 가능한 롤백 회복 비용을 비교 평가하고, 다음 검사점 설정을 위한 적절한 구간을 계산한다. 대부분의 기존 기법들과는 달리 제안된 기법은 검사점과 롤백 두 가지 비용 모두를 최소화는 구간 값 을 선택하여 , 현 검사점 구간 동안의 통신 형태를 고려한 구간 값을 선택한다. 또한 검사점 설정 구간 선 택을 위한 별도의 통신비용의 요구되지 않으며, 제안된 기법의 기존의 검사점 조정 기법들과 쉽게 통합되어 사용될수 있다.


    The selection of the optimal checkpointing interval has been a very critical issue to implement a checkpointing recovery scheme for the fault tolerant distributed system. This paper presents a new scheme that allows a process to select the proper checkpointing interval dynamically. A process in the system evaluates the cost of checkpointing and possible rollback for each checkpointing interval and selects the proper time interval for the next checkpointing Unlike the other scheme, the overhead incurred by both of the checkpointing and rollback activities are considered for the cost evaluation and current communication pattern is reflected in the selection of the checkpointing interval. Moreover, the proposed scheme requires no extra message communication for the checkpointing interval selection and can easily be incorporated into the existing checkpointing coordination schemes.


  • 주제어

    결합 내성 시스템 .   분산시스템 .   검사점 .   롤백 복구 .   동적 스케쥴링.  

  • 참고문헌 (14)

    1. K.G. Shin, T. Lin, and Y. Lee, 'Optimal checkpointing of real-time tasks,' IEEE Trans. on Computers, Vol. C36, No. 11, pp, 1328-1341, 1987 
    2. A.N. Tantawi and M. Ruschitzka, 'Performance analysis of checkpointing strategies,' ACM Trans. on Computer Systems, Vol. 2, No.2, pp. 123-144, 1984 
    3. A. Ziv and J. Bruck, 'Analysis of checkpointing schemes for multiprocessor systems,' in Proc. of the 13th Symp. on Reliable Distributed Systems, pp. 52-61, 1994 
    4. A.P. Sistla and J.L. Welch, 'Efficient distributed recovery using message logging,' in Proc. of the 8th ACM Symp. on Principles of Distributed Computing, pp. 223-238, 1989 
    5. J.L. Kim and T. Park, 'An efficient algorithm for checkpointing recovery in distributed systems,' IEEE Trans. on Parallel and Distributed Systems, Vol. 4, No.8, pp. 955-960, 1993 
    6. B.L. Randell, P.A. Lee, and P.C. Treleaven, 'Reliability issue in computing system design,' ACM Computing Surveys, Vol. 2, pp. 123-166, 1978 
    7. T. Park and J.L. Kim, 'Domino-effect free checkpointing recovery in distributed systems,' in Proc. of the 7th Int'l Conf. on Parallel and Distributed Computing Systems, pp, 497-502, 1994 
    8. D. Briatico, A. Ciuffoletti, and L. Simoncini, 'A distributed domino-effect free recovery algorithm,' in Proc. of the 4th Symp. on Reliability in Distributed Software and Database Systems, pp, 207-215, 1984 
    9. R. Koo and S. Toueg, 'Checkpointing and rollback-recovery for distributed systems,' IEEE Trans. on Software Engineering, Vol. SE-13, No. 1, pp. 23-31, 1987 
    10. Y. Tamir and C.H. Sequin, 'Error recovery in multicomputers using global checkpoints,' in Proc. of the 14th IEEE Symp. on Fault-Tolerant Computing, pp. 32-41, 1984 
    11. K. Venkatesh, T. Radhakrishan, and H.F. Li, 'Optimal checkpointing and local recording for domino-free rollback recovery,' Information Processing Letters, Vol. 25. pp. 295-303, 1987 
    12. Y.M. Wang and W.K. Fuchs, 'Lazy checkpoint coordination for bounding rollback propagation,' in Proc. of the 12th Symp. on Reliable Distributed Systems, pp. 78-85, 1993 
    13. R.D. Schelichting and F.B. Schneide, 'Fail-stop processors: An approach to designing fault-tolerant computing systems,' ACM Trans. of Computer Systems, Vol. 1, No.3, pp. 222-238, 1983 
    14. B. Bhargava and S. Lian, 'Independent checkpointing and concurrent rollback for recovery in distributed systems - An optimistic approach,' in Proc. of the 7th IEEE Symp. on Reliable Distributed Systems, pp. 3-12, 1988 

 저자의 다른 논문

  • 박태순 (3)

    1. 1999 "인과적 메시지 로그 및 복구를 위한 효율적인 알고리즘" 정보과학회논문지. Journal of KISS (a):computer systems and theory. A 26 (7): 767~777    
    2. 2000 "잠금 해제 지연 일관성 모델을 기반으로 하는 분산 공유 메모리 시스템에서의 효과적인 로깅기법" 정보과학회논문지. Journal of KIISE. 시스템 및 이론 27 (2): 188~199    
    3. 2004 "통신 유형 변형을 이용하여 검사점 생성 개수를 개선한 검사점 Z-Cycle 검출 기법" 정보과학회논문지. Journal of KIISE. 시스템 및 이론 31 (12): 692~703    

 활용도 분석

  • 상세보기

    amChart 영역
  • 원문보기

    amChart 영역

원문보기

무료다운로드
  • NDSL :
유료다운로드

유료 다운로드의 경우 해당 사이트의 정책에 따라 신규 회원가입, 로그인, 유료 구매 등이 필요할 수 있습니다. 해당 사이트에서 발생하는 귀하의 모든 정보활동은 NDSL의 서비스 정책과 무관합니다.

원문복사신청을 하시면, 일부 해외 인쇄학술지의 경우 외국학술지지원센터(FRIC)에서
무료 원문복사 서비스를 제공합니다.

NDSL에서는 해당 원문을 복사서비스하고 있습니다. 위의 원문복사신청 또는 장바구니 담기를 통하여 원문복사서비스 이용이 가능합니다.

이 논문과 함께 출판된 논문 + 더보기