本发明涉及一种主从一体的内核级调试支撑及异常快速定位方法,属于计算机技术领域。
背景技术:
特殊加速计算部件由于不直接运行操作系统,发生异常和故障时,往往需要开发定制的软件系统来进行维护,如图形处理器(graphicsprocessingunit,gpu)等加速卡。而国产申威众核处理器计算核众多,平台的异构特性使异常和故障定位复杂度大大增加,而增加定制查错软件会带来额外的系统开销和运行成本。
通用的加速计算部件需要通过专门的定制软件来支持加速程序运行和错误定位,如统一计算设备架构(computeunifieddevicearchitecture,cuda)等gpu支撑软件,而类似cuda等软件代码量巨大,系统集成复杂,运行成本较高,效率也受到影响。
技术实现要素:
本发明的目的是提供一种主从一体的内核级调试支撑及异常快速定位方法,其有效提高了计算核错误异常的定位、处理能力以及效率,提升了国产异构众核的系统运行的好用性和可用性。
为达到上述目的,本发明采用的技术方案是:包括以下步骤:
s1、计算核运行过程中发生了异常或故障;
s2、计算核将异常或故障产生对应的中断发向管理核;
s3、管理核收到中断后,停止当前工作,进入中断处理程序;同时,操作系统内核收到中断,快速响应进入错误定位模块,所述错误定位模块用于根据中断的类型和对应的状态寄存器进行树形分类:
s31、如果警告状态寄存器中有错误提示,则所述警告状态寄存器的错误提示为程序异常,错误定位模块将所述程序异常交给程序异常处理模块,所述程序异常处理模块会中断计算核程序并产生对应的信号和错误记录;
s32、如果可纠正错状态寄存器中有错误提示,则所述可纠正错状态寄存器的错误提示为硬件异常,错误定位模块将所述硬件异常交给硬件异常处理模块,所述硬件异常处理模块中断计算核程序并在操作系统内核中进行警告,并通知高层用户管理员;
s33、如果故障状态寄存器中有错误提示,则所述故障状态寄存器的错误提示为硬件故障,错误定位模块将所述硬件故障交给硬件故障处理模块,所述硬件故障处理模块会强制操作系统内核停机,并通知系统管理员。
上述技术方案中进一步改进的方案如下:所述操作系统为linux操作系统。
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明主从一体的内核级调试支撑及异常快速定位方法,其主要应用于国产申威处理器异构众核平台上,通过在操作系统内核集成对计算核错误的快速高效定位和处理模块,将异构处理器平台整个计算核的异常和故障定位处理整合到整个操作系统内核中,在计算核发生异常和故障后,管理核的中断处理程序可以第一时间对发生的错误进行定位和处理,不需要依赖外部的定制软件,不但有效提高了计算核错误异常的定位和处理能力和效率、大大增加系统管理效率,对国产异构众核的系统运行的好用性和可用性有较好的提升,也使软件开发效率提高,降低了成本。
附图说明
附图1为本发明流程示意图;
附图2为本发明局部简图;
附图3为本发明装置简图。
具体实施方式
实施例:一种主从一体的内核级调试支撑及异常快速定位方法,包括以下步骤:
s1、计算核运行过程中发生了异常或故障;
s2、计算核将异常或故障产生对应的中断发向管理核;
s3、管理核收到中断后,停止当前工作,进入中断处理程序;同时,操作系统内核收到中断,快速响应进入错误定位模块,所述错误定位模块用于根据中断的类型和对应的状态寄存器进行树形分类:
s31、如果警告状态寄存器中有错误提示,则所述警告状态寄存器的错误提示为程序异常,错误定位模块将所述程序异常交给程序异常处理模块,所述程序异常处理模块会中断计算核程序并产生对应的信号和错误记录;
s32、如果可纠正错状态寄存器中有错误提示,则所述可纠正错状态寄存器的错误提示为硬件异常,错误定位模块将所述硬件异常交给硬件异常处理模块,所述硬件异常处理模块中断计算核程序并在操作系统内核中进行警告,并通知高层用户管理员;
s33、如果故障状态寄存器中有错误提示,则所述故障状态寄存器的错误提示为硬件故障,错误定位模块将所述硬件故障交给硬件故障处理模块,所述硬件故障处理模块会强制操作系统内核停机,并通知系统管理员。
所述操作系统为linux操作系统。
实施例进一步解释如下:
如图1-3所示,国产异构众核处理器操作系统内核错误定位需要依靠管理核对中断处理程序进行处理,当发生计算核错误时,根据中断信息来判断错误的类型。
计算核运行过程中产生了异常或者故障时,会向管理核发送中断,操作系统内核收到中断,会快速响应并进入到故障定位和处理方法,它由四个模块进行支持,首先是错误定位模块,它负责根据中断的类型进行树形分类并交给不同的错误处理模块进行处理,其错误处理模块为程序异常处理模块、硬件异常处理模块和硬件故障处理模块。中断由计算核硬件部件发出,程序异常处理模块、硬件异常处理模块和硬件故障处理模块在内核中进行实现。
异常快速定位方法步骤如下:
计算核运行过程中发生了异常或故障;硬件根据计算核的异常或错误会产生对应的中断发向管理核;管理核收到中断后,错误定位模块会根据中断的类型和对应的状态寄存器进行树形分类:
如果警告状态寄存器中有错误提示,则该次错误提示为程序异常,错误定位模块将其交给程序异常处理模块,该程序异常处理模块会中断计算核程序并产生对应的信号和错误记录;
如果可纠正错状态寄存器中有错误提示,则该次错误提示为硬件异常,错误定位模块将其交给硬件异常处理模块,该硬件异常处理模块中断计算核程序并在操作系统内核中进行警告,并通知高层用户管理员;
如果故障状态寄存器中有错误提示,则该次错误提示为硬件故障,错误定位模块将其交给硬件故障处理模块,该硬件故障处理模块会强制操作系统内核停机,并通知系统管理员。
根据上面所述流程可以看到,“主从一体的内核级异常快速定位技术”关键点主要体现在管理核的中断处理需要对错误信息进行分类并处理,整个过程均在内核完成,效率较高。
采用上述主从一体的内核级调试支撑及异常快速定位方法时,其通过在操作系统内核集成快错误定位模块,将整个计算核的异常和故障定位处理整合到整个操作系统内核中,不但提高了系统错误定位处理的能力,也是软件开发效率和成本的降低都得到了提高。
为了便于更好的理解本发明,下面将对本文中使用的术语进行简要的解释:
主从一体:申威众核处理器平台由不同体系架构的管理核和计算核组成,主从一体架构可以有效屏蔽芯片异构特性,统一进行内核级异常快速定位技术。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。