技术特征:
技术总结
本发明提供一种基于检查点的计算机的容错方法。该方法包括:在判断为执行检查点时,暂停用户进程;利用计算机中空闲的计算资源对所述用户进程的进程状态数据进行分块并计算每个分块的hash值,以确定需要保存的分块;在计算分块的hash值的过程中,将已经确定的需要保存的分块和相应的hash值进行保存,以形成用于恢复出错的用户进程的检查点文件。利用本发明的方法能够有效的利用超级计算机中空闲计算资源和并行文件系统的I/O带宽,从而缩短执行检查点和检查点卷回的时间。
技术研发人员:严明玉;张志敏;吴军;龚健;张浩;孙凝晖
受保护的技术使用者:中国科学院计算技术研究所;北京控制工程研究所
技术研发日:2017.05.23
技术公布日:2017.09.22