支持局部永久故障恢复的多核处理器芯片可重构系统的制作方法
【技术领域】
[0001]本发明属于属于计算机技术领域。
【背景技术】
[0002]局部永久故障导致多核处理器芯片功能失效,软件恢复方法难以修复故障区域硬件电路,往往浪费大量的冗余资源进行故障迀移。可重构多核处理器利用片上可重构资源,在故障区域约束条件下通过硬件演化,以最小计算代价和资源开销重构与故障区域功能等效的硬件电路,实现多核处理器局部永久故障的片上恢复,可满足环境苛刻、高可靠性要求的恶劣环境计算、工业控制、移动计算领域的需求,有效提升处理器的可靠性,延长多核处理器的使用寿命。
[0003]多核处理器硬件故障恢复是并行体系结构、容错计算、系统可靠性设计等领域的研究热点。但对于支持局部永久故障恢复的多核处理器芯片可重构,已提出的基于软件和硬件恢复的技术方法性能和可靠性难以满足实际需求,还不能真正有效解决多核处理器的故障修复问题,缺少高可用性的支持局部永久故障恢复的多核处理器芯片可重构方法。
【发明内容】
[0004]本发明的目的是为了解决现有多核处理器芯片的局部故障恢复存在可用性差的问题,本发明提供一种支持局部永久故障恢复的多核处理器芯片可重构系统。
[0005]本发明的支持局部永久故障恢复的多核处理器芯片可重构系统,所述系统包括故障检测模块、故障定位模块和故障恢复模块;
[0006]故障检测模块,用于确定多核处理器中发生局部永久故障的故障核,并对该核进行隔离;
[0007]故障定位模块,采用回读方法,从故障核的配置存储器中读取隔离的临时配置文件,与故障核的全局配置文件进行差异比对,并根据配置文件码流与故障核的资源映射关系获取故障的位置、地址和类型信息,实现对故障点的定位;通过对故障点的定位分析,确定重构布线的约束条件和需要重构的最小电路模块;
[0008]故障恢复模块,用于避开故障点所在位置,采用硬件演化算法生成与需要重构的最小电路模块功能一致的等效模块,获得新的配置码流,基于局部重配置方法将配置文件的差异码流重新下载,实现对故障核的重构,恢复其正常功能,完成多核处理器芯片的局部永久故障恢复。
[0009]所述故障检测模块包括校验器和多核处理器瞬时故障恢复系统;
[0010]校验器,用于根据多核处理器每个核的运算结果,输出诊断故障发生在哪一个核上,确定故障核;
[0011 ]所述多核处理器以锁步模式运行程序;
[0012]多核处理器故障恢复系统,用于对故障核进行瞬时故障恢复,当恢复不成功,则对该故障核进行隔离,进行局部永久故障恢复。
[0013]所述故障定位模块包括外部微控制器、故障定位器、配置文件存储器和配置数据总线;
[0014]外部微控制器,用于控制回读操作,从故障核的配置文件寄存器中读取隔离的临时配置文件;
[0015]故障定位器,用于将故障核的临时配置文件与全局配置文件进行差异比对,并根据配置文件码流与故障核的资源映射关系获取故障的位置、地址和类型信息;通过对故障点的定位分析,确定重构布线的约束条件和需要重构的最小电路模块;
[0016]配置文件存储器,用于存储故障核的全局配置文件和局部配置文件;
[0017]配置数据总线,用于读写内部配置寄存器。
[0018]所述故障恢复模块包括故障恢复器、功能单元库、期间特征库和技术库和参数库;
[0019]功能单元库,用于识别资源使用量和各个功能单元的特征;
[0020]器件特征库,用于存储确定的重构布线的约束条件和需要重构的最小电路模块;
[0021]技术特征库,用于存储硬件演化算法中的功能模型;
[0022]参数库,用于存储硬件演化算法中的参数;
[0023]故障恢复器,用于避开故障点所在位置,采用硬件演化算法生成与需要重构的最小电路模块功能一致的等效模块,获得新的配置码流,基于局部重配置方法将配置文件的差异码流重新下载,注入故障核的配置文件寄存器器中,实现对故障核的重构,恢复其正常功能,完成多核处理器芯片的局部永久故障恢复。
[0024]一种支持局部永久故障恢复的多核处理器芯片可重构方法,所述方法包括如下步骤:
[0025]步骤1:四个处理器核以锁步模式运行程序,当校验器发现比对结果不匹配时,认为检测到故障发生,通过校验器输出诊断故障发生在哪一个核上,确定故障核;
[0026]步骤2:首先对故障核进行瞬时故障恢复;若恢复不成功,转步骤3;
[0027]步骤3:将故障核进行隔离,其余三个核工作在TMR模式下,可保障在故障修复期内处理器扔具有较高的可靠性;
[0028]步骤4:采用回读方法,从可重构硬件的配置存储器中读取隔离的故障核的配置文件,与初始配置文件进行差异比对,并根据配置文件码流与可重构硬件的资源映射关系获取故障的位置、地址和类型信息,实现对故障点的定位;
[0029]步骤5:根据故障点的定位分析,确定重构布线的约束条件和需要重构的最小电路模块,将其存储到器件特征库中;
[0030]步骤6:采用硬件演化算法生成与需要重构的最小电路模块功能一直的等效模块,从而生成新的配置码流;
[0031]步骤7:将新的配置码流重新下载,存入配置文件存储器中,再注入到故障核的配置文件寄存器中,实现对故障核的重构,实现其正常功能。
[0032]所述步骤6中,硬件演化算法包括如下步骤:
[0033]步骤一:确定布局评价方法;
[0034]步骤二:确定算法中的各个参数:编码串长度、群体规模、交叉概率、变异概率和自适应度函数;并将各个参数存入参数库;
[0035]步骤三:确定功能模型,将其存入技术特征库;
[0036]步骤四:在重构布线的约束条件下,对需要重构的最小电路模块进行布局,产生初始布局种群;
[0037]步骤五:计算现有种群的适应度,若满足退出条件,则算法结束,否则,转步骤六;
[0038]步骤六:通过适应度选择种群中适应度高的个体;
[0039]步骤七:使用赌轮盘法选取适应度较高的个体以相应概率进行交叉和变异操作,
转步骤五。
[0040]本发明的有益效果在于,实现了多核处理器芯片的局部永久故障的检测,多核处理器芯片的局部永久故障的定位,多核处理器芯片的局部永久故障的恢复,提高了高可用性。
【附图说明】
[0041]图1为【具体实施方式】中可重构系统的原理示意图。
【具体实施方式】
[0042]【具体实施方式】一:结合图1说明本实施方式,本实施方式所述的支持局部永久故障恢复的多核处理器芯片可重构系统,所述系统包括故障检测模块、故障定位模块和故障恢复模块;
[0043]故障检测模块,用于确定多核处理器中发生局部永久故障的故障核,并对该核进行隔离;
[0044]故障定位模块,采用回读方法,从故障核的配置存储器中读取隔离的临时配置文件,与故障核的全局配置文件进行差异比对,并根据配置文件码流与故障核的资源映射关系获取故障的位置、地址和类型信息,实现对故障点的定位;通过对故障点的定位分析,确定重构布线的约束条件和需要重构的最小电路模块;
[0045]故障恢复模块,用于避开故障点所在位置,采用硬件演化算法生成与需要重构的最小电路模块功能一致的等效模块,获得新的配置码流,基于局部重配置方法将配置文件的差异码流重新下载,实现对故障核的重构,恢复其正常功能,完成多核处理器芯片的局部永久故障恢复。
[0046]本【具体实施方式】以四核处理器芯片为例说明,提供的局部永久故障可重构方法,在处理器核中添加故障检测模块,通过配置总线连接故障定位模块和故障恢复模块,利用最小代价的冗余硬件逻辑细粒度重构发生局部永久故障的处理器,并在故障恢复期内保障多核处理器扔具有较高可靠性,实现片上可重构处理器的局部永久故障的定位、隔离与恢复。
[0047]所述故障检测模块包括校验器和多核处理器瞬时故障恢复系统,原理如图1中所示;
[0048]所述四个处理器核以锁步模式运行程序;
[0049]校验器,用于根据四核处理器每个核的运算结果,输出诊断故障发生在哪一个核上,确定故障核;
[0050]多核处理器故障恢复系统,用于对故障核进行瞬时故障恢复,当恢复不成功,则对该故障核进行隔离,进行局部永久故障恢复。
[0051]所述故障定位模块包括外部微控制器、故障定位器、配置文件存储器和配置数据总线;原理如图1所示。
[0052]外部微控制器,用于控制回读操作,利用交互接口从故障核的配置文件寄存器中读取隔离的临时配置文件;
[0053]故障定位器,用于将故障核的临时配置文件与全局配置文件进行差异比对,并根据配置文件码流与故障核的资源映射关系获取故障的位置、地址和类型信息;通过对故障点的定位分析,确定重构布线的约束条件和需要重构的最小电路模块;
[0054]配置文件存储器,用于存储故障核的全局配置文件和局部配置文件;
[0055]配置数据总线,用于读写内部配置寄存器,从而实现故障核的配置数据回读和部分重构等功能;
[0056]配置文件寄存器,位于故障核内部,用于存储故障核的临时配置文件;
[0057]所述故障恢复模块包括故障恢复器、功能单元库、期间特征库和技术库和参数库;
[0058]功能单元库,用于识别资源使用量和各个功能单元的特征;
[0059]器件特征库,存储对故障核特征的描述,用于存储确定的重构布线的约束条件和需要重构的最小电路模块;
[0060]技术特征库,用于存储硬件演化算法中的功能模型;
[0061 ]参数库,用于存储硬件演化算法中的参数;
[0062]故障恢复器,用于避开故障点所在位置,采用硬件演化算法生成与需要重构的最小电路模块功能一致的等效模块,获得新的配置码流,基于局部重配置方法将配置文件的差异码流重新下载,实现对故障核的重构,恢复其正常功能,完成多核