专利名称:多处理器计算机系统中的dmi冗余的制作方法
多处理器计算机系统中的DMI冗余
背景技术:
本发明一般涉及多处理器计算机平台领域,尤其涉及用于多处理器计算机系统中 桌面管理接口(DMI)冗余的装置、系统和方法。计算机系统可以具有一个(单)处理器(UP)或多处理器配置。一种类型的多处 理器配置是双处理器(DP)配置。在多处理器配置中,典型地,处理器中的一个被指定成引 导处理器,当计算机系统启动之时,该引导处理器是参与启动过程的唯一处理器。如果该引 导处理器未能启动该计算机系统,除非采取其他措施否则该计算机不会运行。需要这样一 种多处理器计算机系统,它可以确定引导处理器是否正确运作,如果没有,指定另一个处理 器作为引导处理器。
图1示出了相关处理器拓扑结构的实例。图2示出了根据本发明的不同方面的具有双处理器(DP)拓扑结构的多处理器平 台的实例。图3示出了根据本发明的不同方面的具有四处理器拓扑结构的多处理器平台的 另一个实例。图4示出了根据本发明的不同方面的从DP到DP结构转换的流程图的实例。图5示出了根据本发明的不同方面的从DP到单处理器(UP)结构转换的流程图的 实例。
具体实施例方式在下面的描述中,无论是否出现在不同实施例中,给予类似组件相同附图标记。为 了将本发明的实施例以清楚简明的方式示出,附图不需按比例,且特定特征以示意性格式 表示。相对一个实施例描述和/或示出的特征,可以被以相同或类似方式用在一个或多个 其他实施例中和/或结合或替代其他实施例中的特征。根据本发明的多个实施例,揭示了一种方法,包括以下方面通过监视模块来监视 计算机的第一处理器的第一处理器不稳定性;基于所监视到的第一处理器不稳定性确定所 述第一处理器是否稳定;如果确定第一处理器不稳定,通过多路复用器模块将运行优先级 路由到该计算机的第二处理器,其中第一处理器的第一桌面管理接口以及第二处理器的第 二桌面管理接口与多路复用器模块通信,且其中第一处理器和第二处理器通过处理器内连 进行通信;使用第二处理器运行计算机。根据本发明的多个实施例,揭示了一种装置,包括以下方面第一处理器;第二处 理器,配置用于通过内连和第一处理器通信;以及多路复用器,配置用于将第一处理器的第 一桌面管理接口和第二处理器的第二桌面管理接口多路复用到平台控制器集线器。根据本发明的多个实施例,揭示了一种装置,包括以下方面包括插件板的计算 机,该插件板包括第一处理器;第二处理器,配置用于通过内连和第一处理器通信;以及多路复用器,配置用于多路复用连接到平台控制器集线器的第一处理器的第一桌面管理接 口和第二处理器的第二桌面管理接口。这些和其他的特征和特点,以及结构的相关元件及部件和产品系统的组合的操作 方法和功能,通过考虑以下描述和所附的权利要求结合附图将变得更清晰,这一切构成了 说明书的一部分,其中类似的附图标记指定不同附图中的相对应部分。可以清楚地理解,附 图仅仅是为了图示和描述的目的而不是对权利要求的界限的限定。在说明书和权利要求 中,除非特别说明,单数的“一个”和“所述”包含了复数对象。图1示出了相关处理器拓扑结构的实例。两个处理器,105和110通过内连相连, 例如类似英特尔的QuickPath内连(QPI)的点对点处理器内连。处理器105的桌面管理接 口(DMI)连接到平台控制集线器(PCH) 115,而处理器110的DMI未使用。PCH,也称I/O控 制器集线器(ICH)或南桥(Southbridge),是在北桥/南桥(Northbridge/Southbridge)芯 片集计算机结构中执行底板(未示出)的“减缓”能力的芯片。典型地,南桥可以根据未被 直接连接到CPU而与北桥区分开。事实上,北桥将南桥连接到CPU。通过使用控制器集成通 道电路,北桥可以将来自输入/输出(I/O)单元的信号直接链接到CPU,用于数据控制和访 问。在多处理器平台中,处理器可以是可直接路由(route-through enabled)处理器。 直接路由是特定处理器的非核区中的包路由机制。术语“非核区”指多核芯片的除核以外 的组件(例如,核的内连、总线接口等)。内部块(CSI本地逻辑,源地址解码块,全局队列, 等)中的变化被用于确定包的目的地。作为在每个节点处理包的替代,确定目的地节点,并 且“直接路由”或基于目的地地址进行处理。图2示出了根据本发明的不同方面的具有双处理器(DP)拓扑结构的多处理器平 台的实例。在这个实例中,两个处理器205和210可以通过内连连接,诸如点对点处理器内 连。例如,点对点内连可以是QPI ;然而,也可采用其他合适的处理器内连。如图2所示,处 理器205和210均为可直接路由的处理器;然而,这仅仅是示例的平台配置。处理器不需要 是可直接路由的。在最初的配置中,两个处理器205和210之一可以被选为引导处理器。处 理器205的DMI和处理器210的DMI可以被连接到多路复用器MUX215的输入。监控器220 可与MUX215通信且可被配置为监视引导进程的情况。控制器230可与监控器220、MUX215 或两者通信,并配置用于指令MUX215来根据监控器220所监视的情况将非引导处理器指定 为引导处理器。MUX215的输出可与PCH225通信。图3示出了根据本发明的不同方面的具有四处理器拓扑结构的多处理器平台的 另一个实例。在这个实例中,四个处理器305、310、315和320可以通过内连连接,诸如点对 点处理器内连。例如,点对点内连可以是QPI ;然而,也可采用其他合适的处理器内连。如 图3所示,处理器305、310、315和320均为可直接路由的处理器;然而,这仅仅是示例的平 台配置。处理器不需要是可直接路由的。在最初的配置中,四个处理器305、310、315和320 之一可以被选为引导处理器。处理器305、310、315和320的DMI可以被连接到多路复用器 MUX325的输入。监控器330可与MUX325通信且可被配置为监视引导进程的情况。控制器 340可与监控器330、MUX325或两者通信,并配置用于指令MUX325来根据监控器330所监 视的情况将非引导处理器指定为引导处理器。MUX325的输出可与PCH335通信。在某些方面,监控器220、330可以是时钟、监视器时钟(watchdog timer)或基IS- iW S ^! ffj[J zH (baseboard management controller),或离散状态机(discrete state machine)。例如,监视器时钟可以是计算机硬件计时装置,配置用于,如果引导处理器因某 种错误情况,如挂起或冻结,忽视了对监视器的正常服务,则触发系统重启。挂起或冻结发 生在引导处理器、计算机程序或整个系统对用户输入不响应之时。硬件可以导致计算机挂 起,因为它是间歇的或因为它与计算机中的其他硬件不匹配。同样,硬件也可能随时间的过 去因为灰尘或热损坏变得有缺陷。监视器可以直接连接到MUX215、325或控制器230、340 或两者。在某些方面,监控器220、330可以是基板管理控制器(BMC)。BMC是植入计算机底 板的专门的微控制器。BMC是智能平台管理监控(IPMI)结构的智能。BMC管理系统管理软 件和平台硬件之间的接口。计算机系统中安装的不同类型的传感器向BMC报告诸如温度、 散热风扇速度、电源模式、操作系统(OS)状态等参数。BMC监控这些传感器,并且如果任何 参数不在预设限度内包括系统潜在的故障,可向MUX215、325或控制器230、340或两者发 送警报。计算机的用户也可与BMC通信来采取一些纠正的行动,如将系统重启或循环供电 使得挂起的OS再次运行。连接到BMC的物理接口可包括SMBus总线、RS-232串行控制台、 地址和数据线以及智能平台总线(IPMB),使得BMC能够接收来自系统中其他管理控制器的 IPMI请求消息。在某些方面,监控器220、330可以被配置用于通过监控各种系统不稳定性来监控 和确定系统是否稳定。例如,系统不稳定性可以包括指定的引导处理器是否可以正确引导。 其他系统不稳定性可以包括系统在指定的持续时间期间,例如以分钟,日或星期的顺序,是 否能够保持稳定。可以以不同方式来进行确定。例如,系统不稳定性可以由用户手工/通 过使用硬件和/或软件实现的监视器时钟的系统观察的操作来确定,或通过性能数据的系 统层面上的日志来管理。其他参数可以包括确定系统相比期望的状态运行更慢、电的不稳 定性、引导处理器的存储器错误、或DMI或者本地连接到一个或多个处理器的其他平台接 口上的过多错误。在某些方面,弓I导处理器配置可以通过结构基础在一结构上完成。例如,各种跨接 选择,诸如,以预定的方式设置的处理器输入的组合,用于向处理器提供指示以当它重置之 后配置它自己。跨接选择可以由PLD、FPGA、手动切换、或平台上的另一个逻辑装置来控制。 在某些方面,弓I导处理器可以在结构特定基础上被停用。在某些方面,MUX能以几种途径被配置。例如,MUX可以通过PCH集成易管理引擎 (Manageability Engine)、装板的BMC、通过前面板上的用户接口手工,或通过现场可编程 门阵列配置(FPGA)或合成可编程逻辑器件(CPLD),进行配置。图4示出了根据本发明的不同方面的从DP到DP结构转换的流程图的实例。进程 在405开始,监控器220,330被配置用于监测一种情况,例如处理器的运行状态中的不稳定 性。如果没有监测到不稳定性,进程返回405,监测到的不稳定性进入410。在410,平台被 掉电,MUX将DIM从插槽0重路由到插槽1。插槽1中的处理器被配置为引导处理器。在 415,系统以DP模式重启,平台使用插槽1中被重路由的处理器启动。图5示出了根据本发明的不同方面的从DP到单处理器(UP)结构转换的流程图的 实例。进程在505开始,监控器220,330被配置用于监测一种情况,例如处理器的运行状态 中的不稳定性。如果没有监测到不稳定性,进程返回505,监测到的不稳定性进入510。在
6410,平台被掉电,MUX将DIM从插槽0重路由到插槽1。插槽1中的处理器被配置为引导处 理器或传统(legacy)处理器,且插槽0中的处理器停用。在515,系统以UP模式重启,平台 使用插槽1中被重路由的处理器启动。 尽管上面的揭示讨论了当前认为的各种有用实施例,可以理解这些具体内容仅仅 是为了那个目的,所附的权利要求并不被限制在所揭示的实施例中,而是相反,旨在覆盖所 附权利要求的精神和范围之内变化和等效安排。
权利要求
1.一种方法,包括通过监视模块来监视计算机的第一处理器的第一处理器不稳定性;基于所监视到的所述第一处理器不稳定性确定所述第一处理器是否稳定;如果确定所述第一处理器不稳定,通过多路复用器模块将运行优先级路由到所述计算 机的第二处理器,其中所述第一处理器的第一桌面管理接口以及所述第二处理器的第二桌 面管理接口与所述多路复用器模块通信,且其中所述第一处理器和所述第二处理器通过处 理器内连进行通信;以及使用所述第二处理器运行所述计算机。
2.如权利要求1所述的方法,其特征在于,所述第一处理器不稳定性包括所述计算机 中的启动之前或启动之后不稳定性。
3.如权利要求1所述的方法,其特征在于,所述监视模块从以下一组中选择时钟、监 视器时钟或基板管理控制器,和离散状态机。
4.如权利要求2所述的方法,其特征在于,所述启动之前的不稳定性包括电源或时钟 机制的不稳定性。
5.如权利要求2所述的方法,其特征在于,所述启动之后的不稳定性包括选自以下一 组的不稳定性参数计算机运行持续时间,所述第一处理器的存储器错误的预定数量,以及 对用户或计算机活动的计算机响应的预定水平。
6.如权利要求1所述的方法,其特征在于,还包括使用第二处理器启动计算机。
7.如权利要求1所述的方法,其特征在于,所述第一处理器的第一桌面管理接口和所 述第二处理器的第二桌面管理接口被安排为通过所述多路复用器模块连接到平台控制器 集线器。
8.如权利要求1所述的方法,其特征在于,所述计算机包括与所述多路复用器模块通 信的第三处理器和第四处理器。
9.如权利要求1所述的方法,其特征在于,所述确定包括安排所述第一处理器以指令 所述多路复用器模块将运行优先级路由到所述第二处理器。
10.一种装置,包括第一处理器;第二处理器,配置用于通过内连和所述第一处理器通信;以及多路复用器,配置用于将所述第一处理器的第一桌面管理接口和所述第二处理器的第 二桌面管理接口多路复用到平台控制器集线器。
11.如权利要求10所述的装置,其特征在于,还包括监控器,配置用于监视来自所述多路复用器的情况。
12.如权利要求11所述的装置,其特征在于,还包括控制器,配置用于基于所监视的情况选择哪个处理器是用于启动所述计算机的引导处理器。
13.如权利要求10所述的装置,其特征在于,所述内连是点对点处理器内连。
14.如权利要求10所述的装置,其特征在于,所述监控器从以下一组中选择时钟、监 视器时钟或基板管理控制器,和离散状态机。
15.如权利要求11所述的装置,其特征在于,所述情况包括所述计算机中的启动之前或启动之后不稳定性。
16.如权利要求15所述的装置,其特征在于,所述启动之前的不稳定性包括电源或时 钟机制的不稳定性。
17.如权利要求11所述的装置,其特征在于,所述启动之后的不稳定性包括选自以下 一组的不稳定性参数计算机运行持续时间,所述第一处理器的存储器错误的预定数量,以 及对用户或计算机活动的计算机响应的预定水平。
18.一种装置,包括包括插件板的计算机,该插件板包括 第一处理器;第二处理器,配置用于通过内连和第一处理器通信;以及多路复用器,配置用于多路复用连接到平台控制器集线器的第一处理器的第一桌面管 理接口和第二处理器的第二桌面管理接口。
19.如权利要求18所述的装置,其特征在于,还包括 监控器,配置用于监视来自所述多路复用器的情况。
20.如权利要求19所述的装置,其特征在于,还包括控制器,配置用于基于所监视的情况选择哪个处理器是用于启动所述计算机的引导处理器。
全文摘要
根据本发明的不同方面,揭示了一种方法和装置,包括以下方面通过监视模块监视计算机的第一处理器的第一处理器不稳定性;基于所监视到的第一处理器不稳定性确定所述第一处理器是否稳定;如果确定第一处理器不稳定,通过多路复用器模块将运行优先级路由到该计算机的第二处理器,其中第一处理器的第一桌面管理接口以及第二处理器的第二桌面管理接口与多路复用器模块通信,且其中第一处理器和第二处理器通过处理器内连进行通信;使用第二处理器运行计算机。
文档编号G06F11/20GK102110035SQ201010620079
公开日2011年6月29日 申请日期2010年12月21日 优先权日2009年12月22日
发明者B·凯利, M·J·贾斯帕 申请人:英特尔公司