本说明书涉及通信,尤其是涉及一种内存故障预测方法、装置、设备及可读存储介质。
背景技术:
1、随着云计算技术的蓬勃兴起,服务器作为支撑云服务的基础设施,其重要性日益凸显。服务器管理的高效性和准确性对于维护人员来说至关重要,这不仅要求服务器管理中心(bmc)能够实时监控并准确识别硬件状态,还要求能快速响应并处理故障信息,确保服务的连续性和稳定性。内存作为服务器的关键组件,其健康状况直接影响着操作系统的运行效率和业务的正常开展。因此,确保内存的可靠性,以及在出现问题时能够迅速定位并采取隔离措施,成为了服务器可靠性工程中不可或缺的一环。
2、一种技术方案中,在内存管理领域,操作系统通过page offline功能来隔离潜在风险区域,防止故障扩大,这项功能依赖于对物理内存地址的精确控制。通常,操作系统下的物理地址(physical address)与内存页帧(page frame)紧密相关,操作系统根据页帧来组织和管理内存,每一页默认大小为4kb。当需要对特定内存区域进行隔离时,操作系统会依据物理地址执行页级别的隔离操作。然而,实现这一过程的前提是能够准确地将内存的实际物理位置信息(如dram的行、列、bank等)与操作系统使用的系统地址相互转换。
3、一种技术方案中,如某些intel平台处理器提供了带外故障收集机制,能够通过bios实现内存位置信息到系统地址的双向解析。这种方式虽然有效,但存在几个显著的局限性:首先,它依赖于复杂的内存地址转换算法,而这些算法又受制于bios的具体配置(如内存交织、numa设置等),增加了实施的复杂度;其次,这种转换方法的通用性不足,对不同处理器平台的适应性差,往往需要cpu制造商提供专门的转换算法支持;如果cpu平台不支持双向转换,此方案则完全失效,限制了其广泛应用的可能性。
技术实现思路
1、有鉴于此,本说明书提供一种内存故障预测方法、装置及电子设备、可读存储介质,以至少改善上述技术问题之一。
2、具体地技术方案如下:
3、本说明书提供了一种内存故障预测方法,应用于计算机设备,所述方法包括:根据内存故障对应的系统物理地址,获取内存故障对应的最小存储单元cell的物理位置信息;建立携有系统物理地址与物理位置信息的故障记录信息,并根据预设规则分组存储故障记录信息;监测各分组的故障记录信息,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集;根据预测得到的目标隔离区的系统物理地址集,隔离目标隔离区的内存空间。
4、作为一种技术方案,所述根据内存故障对应的系统物理地址,获取内存故障对应的最小存储单元cell的物理位置信息,包括:根据内存故障对应的系统物理地址physicaladdress,解析得到对应的地址信息normalizedaddress、接口信息normalizedsocketid、颗粒信息normalizeddieid、通道信息normalizedchannelid,并根据地址信息解析得到对应的库bank信息、行row列column信息,汇总上述信息以获取内存故障对应的最小存储单元cell的物理位置信息。
5、作为一种技术方案,所述建立携有系统物理地址与物理位置信息的故障记录信息,并根据预设规则分组存储故障记录信息,包括:根据物理位置信息包括的接口信息、通道信息、颗粒信息、bank信息、行列信息,定位到发生内存故障的物理位置于内存硬件上的行列位置,建立包括行列位置与系统物理地址的映射关系的故障记录信息,并根据行row位置或列column位置分组存储各故障记录信息。
6、作为一种技术方案,所述监测各分组的故障记录信息,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集,包括:监测各分组的故障记录信息,若存在故障值超过预设阈值的分组,则根据该分组各条故障记录信息关联于分组依据的row位置或列column位置映射的系统物理地址,预测所有映射到同一row位置或列column位置的其他系统物理地址,将所有预测到的系统物理地址和已记入该分组的故障记录信息的系统物理地址作为目标隔离区的系统物理地址集。
7、作为一种技术方案,所述监测各分组的故障记录信息,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集,包括:根据分组包括的故障记录信息的数量为各分组设置故障值,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集。
8、作为一种技术方案,所述监测各分组的故障记录信息,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集,包括:为不同故障类型的内存故障和/或同一物理位置信息不同累计故障次数的故障记录信息设置不同的故障数值,累加同一分组的各项故障记录信息的故障数值得到该分组的故障值,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集。
9、本说明书同时提供了一种内存故障预测装置,应用于计算机设备,所述装置包括:第一模块,用于根据内存故障对应的系统物理地址,获取内存故障对应的最小存储单元cell的物理位置信息;第二模块,用于建立携有系统物理地址与物理位置信息的故障记录信息,并根据预设规则分组存储故障记录信息;第三模块,用于监测各分组的故障记录信息,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集;第四模块,用于根据预测得到的目标隔离区的系统物理地址集,隔离目标隔离区的内存空间。
10、作为一种技术方案,所述根据内存故障对应的系统物理地址,获取内存故障对应的最小存储单元cell的物理位置信息,包括:根据内存故障对应的系统物理地址physicaladdress,解析得到对应的地址信息normalizedaddress、接口信息normalizedsocketid、颗粒信息normalizeddieid、通道信息normalizedchannelid,并根据地址信息解析得到对应的库bank信息、行row列column信息,汇总上述信息以获取内存故障对应的最小存储单元cell的物理位置信息。
11、作为一种技术方案,所述建立携有系统物理地址与物理位置信息的故障记录信息,并根据预设规则分组存储故障记录信息,包括:根据物理位置信息包括的接口信息、通道信息、颗粒信息、bank信息、行列信息,定位到发生内存故障的物理位置于内存硬件上的行列位置,建立包括行列位置与系统物理地址的映射关系的故障记录信息,并根据行row位置或列column位置分组存储各故障记录信息。
12、作为一种技术方案,所述监测各分组的故障记录信息,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集,包括:监测各分组的故障记录信息,若存在故障值超过预设阈值的分组,则根据该分组各条故障记录信息关联于分组依据的row位置或列column位置映射的系统物理地址,预测所有映射到同一row位置或列column位置的其他系统物理地址,将所有预测到的系统物理地址和已记入该分组的故障记录信息的系统物理地址作为目标隔离区的系统物理地址集。
13、作为一种技术方案,所述监测各分组的故障记录信息,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集,包括:根据分组包括的故障记录信息的数量为各分组设置故障值,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集。
14、作为一种技术方案,所述监测各分组的故障记录信息,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集,包括:为不同故障类型的内存故障和/或同一物理位置信息不同累计故障次数的故障记录信息设置不同的故障数值,累加同一分组的各项故障记录信息的故障数值得到该分组的故障值,若存在故障值超过预设阈值的分组,则根据该分组的故障记录信息通过预设算法预测目标隔离区的系统物理地址集。
15、本说明书同时提供了一种电子设备,包括处理器和可读存储介质,所述可读存储介质存储有能够被所述处理器执行的机器可执行指令,处理器执行所述机器可执行指令以实现前述的内存故障预测方法。
16、本说明书同时提供了一种可读存储介质,所述可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述的内存故障预测方法。
17、本说明书提供的上述技术方案至少带来了以下有益效果:
18、根据预设规则对故障记录进行智能分组,并监测各组的故障趋势,一旦检测到某组故障超过设定阈值,即利用先进的算法预测并确定需隔离的内存区域,不仅提高了故障预测的准确性,也提升了内存故障处理的效率和系统的稳定性。