本发明涉及设备检测技术领域,具体地,涉及一种主动式星载计算机健康状态监视优化方法及系统。
背景技术:
目前,大部分具有主备份功能的星载计算机多采用冷备份工作模式,不利于卫星业务平稳运行,因此需要采用双机热备份工作模式为业务运行提供必要的保障。
采用双机热备份工作模式的星载计算机通常其中一台为有权机一台为无权机,双机除了对自身的软硬件故障、接口及总线通讯故障等具有必要的处置措施外,两台计算机之间通过内总线、总线接口或其他通讯接口交互,无权机能够通过以上接口监视有权机的工作健康状态,当发现有权机异常满足一定条件后可通过硬件夺权电路切换控制权。但是,主份计算机(有权机)仍然存在着某些无法被备份计算机(无权机)识别的故障(例如主份计算机与其它通讯单元通讯故障、主份计算机与总线下位机通讯故障等),并且有权机通过对接口芯片(如rs422接口、1553b总线接口等)进行复位以及切换,或者对cpu进行复位等手段后仍然无法恢复正常的失效模式。
因此,有必要针对上述失效模式提出一种有效的、合理可行的星载计算机健康监视优化方法。
技术实现要素:
针对现有技术中的缺陷,本发明的目的是提供一种主动式星载计算机健康状态监视优化方法及系统。
根据本发明提供的一种主动式星载计算机健康状态监视优化方法,包括:
上下位机检测步骤:在有权机检测到与总线上位机、总线下位机通讯故障的状态下,有权机复位接口芯片,并对接口芯片的复位次数进行统计,当复位次数大于第一门限值则主动置健康字为不健康。
较佳的,还包括:
其它星载单元检测步骤:在有权机检测到与总线上位机、总线下位机以外的其它星载单元通讯故障,且通过多次切换接口芯片后仍无法恢复正常通讯的状态下,有权机对切换次数进行统计,当切换次数大于第二门限值则主动置健康字为不健康。
较佳的,还包括:
有权机检测步骤:在有权机自身故障导致热启动复位的状态下,有权机增加在预设时间内对热启动复位次数的统计,当在预设时间内热启动复位次数大于第三门限值则主动置健康字为不健康。
较佳的,有权机与无权机之间通过健康字通讯接口互相可见,健康字由两部分组成:3bit有权机健康标志位、5bit有权机健康心跳计数,两个条件同时健康则表示有权机健康,无权机通过所述健康字通讯接口监视有权机健康状态。
较佳的,在健康字为不健康的状态下,有权机不再更新健康心跳计数。
根据本发明提供的一种主动式星载计算机健康状态监视优化系统,包括:
上下位机检测模块:在有权机检测到与总线上位机、总线下位机通讯故障的状态下,有权机复位接口芯片,并对接口芯片的复位次数进行统计,当复位次数大于第一门限值则主动置健康字为不健康。
较佳的,还包括:
其它星载单元检测模块:在有权机检测到与总线上位机、总线下位机以外的其它星载单元通讯故障,且通过多次切换接口芯片后仍无法恢复正常通讯的状态下,有权机对切换次数进行统计,当切换次数大于第二门限值则主动置健康字为不健康。
较佳的,还包括:
有权机检测模块:在有权机自身故障导致热启动复位的状态下,有权机增加在预设时间内对热启动复位次数的统计,当在预设时间内热启动复位次数大于第三门限值则主动置健康字为不健康。
较佳的,有权机与无权机之间通过健康字通讯接口互相可见,健康字由两部分组成:3bit有权机健康标志位、5bit有权机健康心跳计数,两个条件同时健康则表示有权机健康,无权机通过所述健康字通讯接口监视有权机健康状态。
较佳的,在健康字为不健康的状态下,有权机不再更新健康心跳计数。
与现有技术相比,本发明具有如下的有益效果:
本发明充分考虑并兼顾了主备份星载计算机健康状态监视以及控制权切换的有效性与安全性,进一步提高了星载计算机的可靠性,符合卫星长期在轨运行安全、稳定的使用要求。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为星载计算机有权机状态转移示意图;
图2为星载计算机无权机状态转移示意图;
图3为星载计算机有权机优化后状态转移示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
针对具有主备份功能的星载计算机,两台计算机双热机工作,其中一台为有权机,另一台为无权机,且硬件具备夺权机制,两台计算机之间建立健康字通讯接口(接口的形式和具体内容不限)并互相可见,无权机通过该接口监视有权机健康字。主备份星载计算机具备以下常规的故障处理流程,如图1、图2所示。
有权机具备看门狗故障导致热启动复位能力;
有权机具备与总线下位机通讯故障的接口芯片复位能力;
无权机具备与总线上位机通讯故障的接口芯片复位能力;
有权机具备与其它星载单元通讯故障的复位切换能力;
主备机具备软件异常、cpu捕获异常热启动复位能力;
主备机具备多次热启动复位导致冷启动的处理流程;
主备机具备两位edac导致冷启动的处理流程;
无权机具备监视有权机健康字及夺权的能力。
在以上主备份星载计算机功能基础上,进一步优化,提供的一种主动式星载计算机健康状态监视优化方法,包括:
上下位机检测步骤:在有权机检测到与总线上位机、总线下位机通讯故障的状态下,有权机复位接口芯片,并对接口芯片的复位次数进行统计,当复位次数大于第一门限值则主动置健康字为不健康,如图3中e1.3-e1.8所示。
其它星载单元检测步骤:在有权机检测到与总线上位机、总线下位机以外的其它星载单元通讯故障,且通过多次切换接口芯片后仍无法恢复正常通讯的状态下,有权机对切换次数进行统计,当切换次数大于第二门限值则主动置健康字为不健康,如图3中e1.4-e1.8所示。
有权机检测步骤:在有权机自身故障导致热启动复位的状态下,有权机增加在预设时间内对热启动复位次数的统计,当在预设时间内热启动复位次数大于第三门限值则主动置健康字为不健康,如图3中e1.7-e1.9-e1.1或e1.7-e1.9-e1.0-e1.1所示。
本发明所提供的实施例为某个具有主备份功能的数管计算机,两台计算机a、b机双热机工作,其中一台为有权机一台为无权机(正常情况下a机有权),且无权机具备硬件夺权机制。两台计算机之间通过健康字通讯接口(rs422串口)互相可见,健康字由两部分组成:3bit有权机健康标志位(010b表示健康)、5bit有权机心跳计数(循环累加表示健康),两个条件同时健康则表示有权机健康,无权机通过该接口监视有权机健康状态。该实例中的计算机具备以下常规故障处理流程。
有权机发生看门狗故障将导致本机热启动复位;
有权机与总线下位机发生通讯故障时(所有下位机的长抱环测试错误)自动将本机接口芯片复位;
无权机与总线上位机发生通讯故障时(连续12拍未收到总线消息)自动将本机接口芯片复位;
有权机与其它星载单元发生通讯故障时(连续60拍未收到数据或者收到的数据校验错误)自动切换本机通讯接口;
主备机发生软件异常、cpu捕获异常时将导致本机热启动复位;
主备机热启动复位次数小于10次直接进行热机初始化设置和恢复;
主备机发生10次热启动复位时将导致冷启动处理流程;
主备机发生两位edac将导致冷启动处理流程;
若无权机连续6拍收到有权机健康字为正常,则认为有权机处于健康工作状态,同时清除有权机故障计数;
若无权机连续120拍未收到有权机健康字,或者收到的健康字连续120拍异常,则认为有权机异常,在本机运行正常且允许夺权条件下发送自主夺权指令。
本发明在以上数管计算机常规功能基础上,提出的基于计算机健康字的主动式健康状态监视优化方法,具体如下。
(1)有权机检测到总线下位机通讯故障并复位后,主动对总线芯片复位次数进行统计,当复位次数大于等于5时则主动置本机健康标志为101b,同时不再更新健康心跳;
(2)有权机检测到与其它星载单元通讯故障并切换接口后,主动对切换次数进行统计,当切换次数大于等于5时则主动置本机健康标志为101b,同时不再更新健康心跳;
(3)有权机在短时间内对本机热启动复位次数进行统计,当热启动复位次数在256拍内达到5时则主动置本机健康标志为101b,同时不再更新健康心跳。
通过上注基于计算机健康字的主动式健康状态监视优化方法在某卫星型号的数管计算机中的实现和测试验证,表明该优化方法充分考虑并兼顾了主备份星载计算机健康状态监视以及控制权切换的有效性与安全性,进一步提高了星载计算机的可靠性,符合卫星长期在轨运行安全、稳定的使用要求。
在上述一种主动式星载计算机健康状态监视优化方法的基础上,本发明还提供一种主动式星载计算机健康状态监视优化系统,包括:
上下位机检测模块:在有权机检测到与总线上位机、总线下位机通讯故障的状态下,有权机复位接口芯片,并对接口芯片的复位次数进行统计,当复位次数大于第一门限值则主动置健康字为不健康。
其它星载单元检测模块:在有权机检测到与总线上位机、总线下位机以外的其它星载单元通讯故障,且通过多次切换接口芯片后仍无法恢复正常通讯的状态下,有权机对切换次数进行统计,当切换次数大于第二门限值则主动置健康字为不健康。
有权机检测模块:在有权机自身故障导致热启动复位的状态下,有权机增加在预设时间内对热启动复位次数的统计,当在预设时间内热启动复位次数大于第三门限值则主动置健康字为不健康。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。