多核处理器故障处理方法、多核处理器及通信设备的制作方法

文档序号:6598646阅读:130来源:国知局
专利名称:多核处理器故障处理方法、多核处理器及通信设备的制作方法
技术领域
本发明涉及通信技术领域,具体涉及一种多核处理器故障处理方法、多核处理器 及通信设备。
背景技术
随着处理器技术的迅速发展,多核处理器越来越被通信设备广泛采用。随着多核 处理器技术的发展,多核处理器功能越来越强大,往往一个多核处理器就可以实现单板上 全部的信息处理功能,同时,多核处理器的内部设计也日趋复杂,这就对多核处理器的可靠 性提出了较高的要求。为了增强多核处理器的可靠性,在通信系统实现中需要对多核处理器的运行状 态,包括各种信号状态,以及其上运行的软件状态进行实时检测,一旦检测到多核处理器出 现故障,就需要对多核处理器采取措施,使出现故障的多核处理器能够自愈。目前,主要采 用对独立模块(例如单核)单独复位的方法使出现故障的多核处理器自愈,即在多核处理 器中,管理模块实时检测各个独立模块,当检测到独立模块出现故障时,管理模块触发发生 故障的独立模块进行复位、重加载,将该独立模块恢复为可用状态,从而使多核处理器恢复 正常工作。在对现有技术的研究和实践过程中,本发明的发明人发现,采用对独立模块单独 复位使出现故障的多核处理器恢复正常工作,恢复时间通常在秒级,无法满足实时性要求 较高的场合。

发明内容
本发明实施例提供一种多核处理器故障处理方法、多核处理器及通信设备。一方面,本发明实施例提供一种多核处理器故障处理方法,包括判断对数据进行处理的主用核是否发生故障;若是,则将备用核切换为主用状态。另一方面,本发明实施例提供一种多核处理器,包括主用核,用于对数据进行处理;备用核,用于判断主用核是否发生故障;若是,则将所述备用核切换为主用状态。另一方面,本发明实施例提供一种通信设备,包括本发明实施例中的多核处理器。从以上技术方案可以看出,本发明实施例具有以下优点本发明实施例中,通过判断多核处理器中主用核是否发生故障,当主用核发生故 障时,则将备用核切换为主用状态,使故障核的数据处理转移到该备用核,从而使多核处理 器恢复正常工作,恢复时间可以达到毫秒级或以下,相对于现有技术,能够满足实时性要求 较高的场合。


图1是本发明实施例中多核处理器故障处理方法的一个实施例的示意图;图2是本发明实施例中多核处理器故障处理方法的另一实施例的示意图;图3是本发明实施例中通信设备的一个实施例的多核处理器的示意图;图4是本发明实施例中通信设备的另一实施例的多核处理器的示意图;图5是图4所示实施例中的备用核的示意图;图6是图4所示实施例中多核处理器的管理模块的示意图。
具体实施例方式本发明实施例提供一种多核处理器故障处理方法、多核处理器及通信设备。以下 分别进行详细说明。请参阅图1,本发明实施例中多核处理器故障处理方法的一个实施例包括110、判断对数据进行处理的主用核是否发生故障,若是,则执行步骤120,否则结 束操作;本发明实施例中,多核处理器包括主用核和备用核,每一对主用核和备用核加载 有相同的代码,多核处理器还可以进一步包括管理模块。本发明实施例可以通过多核处理器中的备用核或管理模块来判断主用核是否发 生故障。管理模块或备用核判断主用核是否发生故障具体可以包括监测主用核的流水线 是否中断,若中断,则判定该主用核发生故障。或者,备用核判断主用核是否发生故障具体也可以包括获取主用核的每个处理 阶段所用到的数据内容和针对该数据内容的阶段处理结果,对该数据内容进行与主用核相 同的阶段处理,即对该数据内容运行该处理阶段对应的程序,再判断自身的阶段处理结果 与主用核发送的阶段处理结果是否一致,若不一致,则备用核判定该主用核发生故障。其中,数据可以为报文或其他形式,本发明实施例对此不作限定。120、将备用核切换为主用状态。当判定主用核发生故障时,管理模块或备用核将备用核切换为主用状态,使故障 核(即发生故障的主用核)的数据处理转移到该备用核,从而使多核处理器恢复正常工作。本发明实施例的执行主体若为备用核,恢复时间可以达到在微秒级;本发明实施 例的执行主体若为管理模块,恢复时间可以达到在毫秒级,均远小于现有技术中的恢复时 间。并且,由于恢复时间较短,从而能够减少数据的丢失,满足可靠性要求较高的场合。将备用核切换为主用状态之后,备用核可以从与主用核共有的缓存队列中获取并 处理后续数据(故障核处理的当前数据的后续数据);备用核也可以先处理故障核还未执 行完所有阶段处理程序的当前数据,再从缓存队列中获取并处理后续数据,从而进一步减 少了数据的丢失。备用核处理故障核对应的当前数据的具体实现方式可以包括备用核处理当前数 据最新保存的阶段处理结果,即对该阶段处理结果继续运行剩余阶段对应的处理程序。本实施例中,多核处理器包括主用核和备用核,通过判断主用核是否发生故障,当 主用核发生故障时,则将备用核切换为主用状态,使故障核的数据处理转移到该备用核,从而使多核处理器恢复正常工作,恢复时间在毫秒级或以下,相对于现有技术,能够满足实时 性要求较高的场合。请参阅图2,本发明实施例中多核处理器故障处理方法的另一实施例包括210、备用核判断对数据进行处理的主用核是否发生故障,若是,则触发步骤220,否则结束操作;本实施例中,由备用核判断主用核是否发生故障。220、备用核将自身切换为主用状态;本实施例中,主用核对数据进行处理的过程分为多个处理阶段,主用核会将每个 处理阶段所用到的数据内容和针对该数据内容的阶段处理结果以消息的形式发送给备用 核,备用核中设置有对应于每个处理阶段的定时器,在预定时间内若没有收到每个处理阶 段的消息,则认为主用核的流水线中断,确定主用核发生故障,若在预定时间内收到每个处 理阶段的消息,则备用核对收到的数据内容进行与主用核相同的处理,若自身的处理结果 与主用核发送的阶段处理结果不一致,则备用核判定主用核发生故障。当备用核判定主用核发生故障时,备用核将自身切换为主用状态,并处理最新保 存的阶段处理结果,再从缓存队列中获取并处理后续数据。230、管理模块对故障核进行故障检测;本实施例中,多核处理器还包括管理模块,在备用核将自身切换为主用状态后,管 理模块可以对故障核进行故障检测。故障检测是指对故障核进行内部资源的有效性检查,包括寄存器读写是否正常, 内部缓存读写是否正常,外部缓存读写是否正常,计算器是否能正确计算,内部通信机制是 否能正常收发消息等,具体执行方式为现有技术,此处不作赘述。240、管理模块判断故障是否为可恢复性故障,若是,则执行步骤250,否则执行步 骤 260 ;管理模块可以根据步骤230中的检测判断故障是可恢复性故障还是不可恢复性 故障,具体执行方式可以为现有技术,此处不作赘述。250、管理模块将故障核恢复为可用状态,结束流程;若是可恢复性故障,管理模块可以将故障核进行复位、重加载,恢复为可用状态, 具体执行方式为现有技术,此处不作赘述。所述故障核在恢复为可用状态之后,可以进入备用状态,监控当前的主用核的运 行状态。260、告警模块发出告警,结束流程。本实施例中的多核处理器还可以包括告警模块,若管理模块判定故障是不可恢复 性故障,则告警模块可以发出告警,以通知网管人员。进一步地,在备用核将自身切换为主用状态后,管理模块还可以从故障核获取并 保存故障核发生故障时的现场资料,以便开发人员分析故障模型并优化技术方案。主用核 在处理数据的过程中,会在运行日志里记录运行信息,包括正常和异常的各种统计以及计 算结果,管理模块可以通过提取日志获取故障核发生故障时的现场资料,具体执行方式可 以采用现有技术,此处不作赘述。此处需要说明的是,步骤230至260,以及从故障核获取并保存故障核发生故障时的现场资料等步骤也可以由备用核来执行。在多核资源紧张的情况下,多核处理器可以采用N 1进行备份,N个主用核对应 一个备用核,1个备用核上加载有对应的N个主用核上的代码。该备用核判断出N个中的任 意1个主用核出现故障时,运行该出现故障的主用核的代码。本实施例中,备用核判断主用核是否发生故障,当主用核发生故障时,将备用核切换为主用状态,使故障核的数据处理转移到该备用核,从而使多核处理器恢复正常工作,恢复时 间在微秒级,丢失数据较少,相对于现有技术,能够满足实时性要求和可靠性要求较高的场合。下面对本发明实施例中的多核处理器进行详细说明。请参阅图3,本发明实施例中 多核处理器包括主用核310,用于对数据进行处理;备用核320,用于判断主用核是否发生故障;若是,则将自身切换为主用状态。备用核320可以通过对主用核的数据处理过程进行实时监测获取主用核的运行 状态,如监测该主用核的流水线是否中断,主用核发送的阶段处理结果与自身的处理结果 是否一致等;若监测到主用核的流水线中断,或主用核发送的阶段处理结果与自身的处理 结果不一致,则备用核320判定该主用核发生故障,并将自身切换为主用状态。此处需要说明的是,本实施例中的多核处理器也还可以包括管理模块,由管理模 块判断主用核是否发生故障,当主用核发生故障时,将备用核切换为主用状态。数据可以为报文或其他形式的数据。备用核在主用核发生故障时,将自身切换为主用状态,使故障核的数据处理转移 到该备用核,从而使多核处理器恢复正常工作,恢复时间在微秒级,满足实时性要求较高的 场合,并且,由于恢复时间较短,从而能够减少数据的丢失,满足可靠性要求较高的场合。备用核将自身切换为主用状态之后,可以从缓存队列中获取并处理后续数据;也 可以先处理最新保存的阶段处理结果,再从缓存队列中获取并处理后续数据,从而进一步 减少数据的丢失。本实施例中,多核处理器包括主用核和备用核,备用核判断对数据进行处理的主 用核是否发生故障,当主用核发生故障时,则将自身切换为主用状态,使故障核的数据处理 转移到该备用核,从而使多核处理器恢复正常工作,恢复时间在微秒级,相对于现有技术, 能够满足实时性要求较高的场合。请参阅图4,本发明另一实施例中多核处理器包括主用核410,用于对数据进行处理;备用核420,用于判断主用核410是否发生故障;若是,则将备用核切换为主用状 态。此外,该多核处理器还可以进一步包括管理模块430,用于在备用核420将自身切 换为主用状态之后,对故障核(发生故障的主用核)410进行故障检测,若该故障是可恢复 性故障,则将故障核410恢复为可用状态。请参阅图5,图4所示实施例中的备用核420可以包括获取单元421,用于获取主用核的每个处理阶段所用到的数据内容和针对该数据 内容的阶段处理结果;处理单元422,用于对获取的数据内容进行与主用核相同的阶段处理;
判断单元423,用于判断处理单元的阶段处理结果与获取单元421获取的阶段处
理结果是否一致;切换单元424,用于判断单元423判定不一致时,将备用核420切换为主用状态。进一步地,本实施例中的多核处理器还可以包括告警模块440,用于若管理模块 430确定故障不是可恢复性故障,则发出告警。请参阅图6,图4所示实施例中的管理模块430可以包括检测单元431,用于在备用核420将自身切换为主用状态之后,对故障核410进行 故障检测;
恢复单元432,用于若检测单元431确定故障是可恢复性故障,则将故障核410恢 复为可用状态,否则触发告警模块440发出告警。进一步地,管理模块430还包括获取保存单元433,用于在备用核420将自身切 换为主用状态之后,从故障核410获取并保存发生故障时的现场资料,以便开发人员分析 故障模型并优化技术方案。故障检测是指对故障核进行内部资源的有效性检查,包括寄存器读写是否正常, 内部缓存读写是否正常,外部缓存读写是否正常,计算器是否能正确计算,内部通信机制是 否能正常收发消息等。故障核410在恢复为可用状态之后,可以进入备用状态,监控当前的主用核的运 行状态。在多核资源紧张的情况下,多核处理器可以采用N 1进行备份,N个主用核对应 一个备用核,1个备用核上加载有对应的N个主用核上的代码。当N个中的任意1个主用核 出现故障时,对应该N个主用核的备用核运行出现故障的主用核的代码。本实施例中,备用核判断主用核是否发生故障,当主用核发生故障时,将自身切换 为主用状态,使故障核的数据处理转移到该备用核,从而使多核处理器恢复正常工作,恢复 时间在微秒级,丢失数据较少,相对于现有技术,能够满足实时性要求和可靠性要求较高的 场合。本发明实施例还提供一种通信设备,包括多核处理器,该多核处理器的具体实现 可以参照图3或图4所示实施例。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储 介质可以包括只读内存(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。以上对本发明实施例所提供的多核处理器故障处理方法、多核处理器及通信设备 进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实 施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术 人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说 明书内容不应理解为对本发明的限制。
权利要求
一种多核处理器故障处理方法,其特征在于,包括判断对数据进行处理的主用核是否发生故障;若是,则将备用核切换为主用状态。
2.根据权利要求1所述的多核处理器故障处理方法,其特征在于,所述备用核判断对 数据进行处理的主用核是否发生故障,若是,则备用核将自身切换为主用状态。
3.根据权利要求2所述的多核处理器故障处理方法,其特征在于,所述备用核判断对 数据进行处理的主用核是否发生故障包括备用核获取主用核的每个处理阶段所用到的数据内容和针对该数据内容的阶段处理 结果,对该数据内容进行与主用核相同的阶段处理,再判断备用核的阶段处理结果与主用 核的阶段处理结果是否一致,若不一致,则备用核判定主用核发生故障。
4.根据权利要求3所述的多核处理器故障处理方法,其特征在于,在所述备用核将自 身切换为主用状态之后还包括从缓存队列中获取故障核处理的当前数据的后续数据并处理。
5.根据权利要求4所述的多核处理器故障处理方法,其特征在于,在从缓存队列中获 取故障核处理的当前数据的后续数据并处理之前还包括所述备用核对该备用核最新保存的阶段处理结果进行后续处理阶段的处理。
6.根据权利要求1所述的多核处理器故障处理方法,其特征在于,在所述将备用核切 换为主用状态之后包括对故障核进行故障检测,若该故障是可恢复性故障,则将所述故障 核恢复为可用状态。
7.根据权利要求6所述的多核处理器故障处理方法,其特征在于,所述故障核在恢复 为可用状态之后,进入备用状态,监控主用核的运行状态。
8.根据权利要求6所述的多核处理器故障处理方法,其特征在于,在所述对故障核进 行故障检测之后还包括若该故障是不可恢复性故障,则发出告警。
9.根据权利要求1所述的多核处理器故障处理方法,其特征在于,在所述将备用核切 换为主用状态之后包括从故障核获取发生故障时的现场资料并保存。
10.一种多核处理器,其特征在于,所述多核处理器包括主用核,用于对数据进行处理;备用核,用于判断主用核是否发生故障;若是,则将所述备用核切换为主用状态。
11.根据权利要求10所述的多核处理器,其特征在于,所述备用核包括获取单元,用于获取主用核的每个处理阶段所用到的数据内容和针对该数据内容的阶 段处理结果;处理单元,用于对获取的数据内容进行与主用核相同的阶段处理;判断单元,用于判断处理单元的阶段处理结果与获取单元获取的阶段处理结果是否一致;切换单元,用于判断单元判定不一致时,将所述备用核切换为主用状态。
12.根据权利要求10所述的多核处理器,其特征在于,所述多核处理器还包括管理模块,用于在所述备用核将自身切换为主用状态之后,对故障核进行故障检测,若 该故障是可恢复性故障,则将所述故障核恢复为可用状态。
13.根据权利要求12所述的多核处理器,其特征在于,还包括告警模块,用于若管理模块确定故障不是可恢复性故障,则发出告警。
14.一种通信设备,包括如权利要求10至13中任一项所述的多核处理器。
全文摘要
本发明实施例公开了一种多核处理器故障处理方法,包括判断对数据进行处理的主用核是否发生故障;若是,则将备用核切换为主用状态。本发明实施例还提供相应的多核处理器及通信设备。本发明实施例将故障核的数据处理转移到备用核,从而使出现故障的多核处理器恢复正常工作,恢复时间在毫秒级或以下,相对于现有技术,能够满足实时性要求较高的场合。
文档编号G06F11/07GK101799776SQ201010115908
公开日2010年8月11日 申请日期2010年2月25日 优先权日2010年2月25日
发明者岳青伦 申请人:上海华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1