一种现场可更换单元通信丢失的处理方法及系统的制作方法

文档序号:7708367阅读:210来源:国知局

专利名称::一种现场可更换单元通信丢失的处理方法及系统的制作方法
技术领域
:本发明涉及具有现场可更换单元(FieldReplaceableUnit,FRU)的系统或设备,尤其涉及一种现场可更换单元通信丢失的处理方法及系统。
背景技术
:先进电4言i十算架4勾(AdvancedTelecomComputingArchitecture,ATCA)标准脱胎于CompactPCI(精简的外围设备互联)标准,CompactPCI标准是电信、航天、工业控制、医疗器械、智能交通和军事装备等领域广泛应用的工业计算技术。ATCA由外围设备互联工业计算机制造商组织(Peripheral定并颁布。ATCA为下一代融合通信及数据网络应用提供了一个高性价比、基于模块化结构、兼容并可扩展的硬件构架,ATCA以模块化的结构形式呈现,以支持具有现代传输需求的科技或应用。ATCA标准包括核心规范PICMG3.0和一系列辅助规范PICMG3.X。核心规范中定义了机械结构、散热管理、电源分配、互联和系统管理,辅助规范则定义了在核心规范中互联的传输方式。PICMG3.0还定义了分层管理结构,机框管理控制器(ShelfManagementController,ShMC)与FRU上的智能平台管理控制器(IntelligentPlatformManagementController,IPMC)通过智能平台管理总线(IntelligentPlatformManagementBus,IPMB)进行通信。ShMC负责完成对ACTA系统中的FRU,如单板、电源、风扇和温度传感器的管理。ShMC能够读取FRU的状态,也可以控制FRU进入不同的状态。例如,如果ShMC检测到机框内温度升高,则可能控制风扇提高转速,当温度进一步升高超过系统安全阈值时,ShMC则可以控制相关FRU下电以保护设备。规范中定义了8种FRU的状态,包括MO(FRUNotInstalled,未安装)、Ml(FRUInactive,未激活)、M2(FRUActivationRequest,激活申请)、M3(FRUActivationinProcess,激活进行中)、M4(FRUActive,已激活)、M5(FRUDeactivationR叫uest,去激活申请)、M6(FRUDeactivationInProgress,去激活进行中)、M7(Communicationlost,通信丢失)。FRU插入ATCA机框后,通过一系列状态转换才进入激活状态M4。同样,在准备拔出机框时,也要通过一系列的去激活状态转换才进入Ml,拔出后可以进入MO。但是,如果在激活或去激活状态未完成的情况下,FRU被拔出机框,则被异常拔出后FRU进入M7状态。假如异常拔出的是前例中使机框内温度升高的FRU,由于FRU通信丟失,其所发送的温度告警将使风扇一直保持较高的转速,以至于降低风扇的使用寿命、增加系统能耗,产生环境噪音,并且长时间高速运转,可能导致风扇损坏。可见,处于M7状态的FRU会对系统运行产生不利影响,甚至导致系统中设备的损坏,该问题亟待解决。
发明内容本发明要解决的技术问题是提供一种现场可更换单元通信丢失的处理方法及系统,避免FRU处于通信丢失状态,对系统造成损害。为解决上述技术问题,本发明的一种现场可更换单元通信丢失的处理方法,包括检测现场可更换单元FRU的通信状态;在检测到FRU通信丢失时,将处于通信丟失状态的FRU置为未安装状态。进一步地,在4企测到FRU通信丢失时,还包括按照所配置的通信丢失等待时长设置并启动通信丟失等待定时器,若在通信丢失等待定时器的定时时间到达时,FRU未恢复通信状态,则进行将处于通信丢失状态的FRU置为未安装状态。进一步地,配置通信丢失等待时长后,还包括5检查FRU的状态,根据所配置的通信丢失等待时长,为处于M7状态的FRU清除、启动或重置通信丢失等待定时器。进一步地,按照所配置的通信丢失等待时长设置并启动通信丢失等待定时器前,还包括判断所配置的通信丟失等待时间是否小于等于0,若该通信丢失等待时间大于0,则执行按照所配置的通信丢失等待时长设置并启动通信丢失等待定时器。进一步地,检测FRU的通信状态的方法为周期性地向FRU发送命令,判断FRU是否正常响应,如果FRU未正常响应,若判定FRU通信丟失;若FRU正常响应,则判断该FRU是否为通信丢失状态,如果是,则判定该FRU恢复通信状态。进一步地,按照所配置的通信丢失等待时长设置并启动通信丢失等待定时器后,若FRU恢复通信状态,恢复FRU为通信丢失前的状态。进一步地,一种现场可更换单元通信丟失的处理系统,包括通信丟失才企测模块和通信丢失处理模块,其中通信丢失检测模块,用于检测FRU的通信状态,在检测到FRU通信丢失时,向通信丟失处理模块发送通信丟失通知消息;通信丟失处理模块,用于在接收到通信丟失通知消息后,将处于通信丢失状态的FRU置为未安装状态。进一步地,通信丢失检测模块,还用于在检测到FRU恢复通信状态时,向通信丟失处理模块发送通信恢复通知消息;通信丢失处理模块,还用于在接收到通信丢失通知消息后,按照所配置的通信丟失等待时长设置并启动通信丟失等待定时器,若在通信丢失等待定时器的定时时间到达时,未接收到通信恢复通知消息,则进行将处于通信丢失状态的FRU置为未安装状态。进一步地,该系统还包括配置动态控制模块,动态控制模块,用于检查FRU的状态,根据所配置的通信丟失等待时长,为处于M7状态的FRU清除、启动或重置通信丢失等待定时器。进一步地,通信丟失处理模块,还用于在按照所配置的通信丟失等待时长设置并启动通信丟失等待定时器前,判断所配置的通信丟失等待时间是否小于等于O,若该通信丢失等待时间大于0,则执行按照所配置的通信丢失等待时长设置并启动通信丢失等待定时器。进一步地,通信丢失检测模块,还用于在向通信丢失处理模块发送通信丟失通知消息或通信恢复通知消息前,判断判断所配置的通信丢失等待时间是否小于等于0,若该通信丟失等待时间大于0,则执行发送通信丢失通知消息或通信恢复通知消息。综上所述,本发明在FRU通信丢失后,若在一等待时间内后通信未恢复,贝'j将FRU从M7状态转为M0状态,从而避免了由于FRU处于通信丢失状态对系统及其他设备造成的损害,本发明实现简单,而且可以配置等待的时长,从而可以依据现场的巡检周期,更为有效的使用该功能。图1为本发明现场可更换单元通信丢失的处理方法的流程图2为本发明现场可更换单元通信丟失的处理系统的架构图3为本发明方法实施步骤的流程图4为本发明通信丢失检测的方法的流程图5为本发明读取配置数据进行动态控制的方法的流程图。具体实施例方式本发明通过在FRU通信丢失时启动通信丢失等待定时器,在通信丢失等待定时器定时时间到达后,如果FRU的通信仍未恢复,则设置FRU为M0未安装状态。下面结合附图对本发明的具体实施方式进行说明。图1所示为本发明现场可更换单元通信丟失的处理方法,包括101:配置模块接收用户的配置数据,配置数据包括通信丢失等待时长及其生效方式,调用配置数据存储模块对配置数据进行保存,通知配置动态控制模块配置数据已更改,并将生效方式发送给配置动态控制模块;通信丟失等待时长包括时长值及时长单位。生效方式包i舌立即生效和重启生效。102:配置动态控制模块接收到配置数据更改的通知后,按照生效方式决定从配置数据存储模块将配置数据读取到内存的时机,读取配置数据后,根据配置数据清除、启动或按照通信丢失等待时长重置已启动的通信丢失等待定时器;103:通信丟失检测模块检测FRU的通信状态,检测到FRU通信丢失时,向通信丢失处理模块发送通信丢失通知消息;检测到FRU通信恢复后,向通信丢失处理模块发送通信恢复通知消息;通信丢失检测模块通过周期性地向IPMC发送命令并检查响应情况实现才企测FRU的通信状态。为减少模块间耦合,可以采用通信丢失检测模块提供通信丢失和恢复通知的注册接口,异常拔板检测模块调用该接口进行注册,通信丟失检测模块按注册情况发送通知。104:通信丢失处理模块接收到通信丢失通知消息后,根据配置动态控制模块读取到内存的配置数据,设置并启动通信丢失等待定时器;105:通信丢失等待定时器的定时时间到达时,通信丢失处理模块未收到通信恢复通知消息,则将FRU置为MO状态,清除通信丢失等待定时器;若通信丟失处理模块接收到通信恢复通知消息,则清除通信丢失等待定时器,通知通信丢失检测模块恢复FRU为通信丢失前的状态。通信丢失处理模块使用ATCA标准中定义的"SetFRUExtracted"命令将FRU置为MO状态,该命令在ShMC中强制实现,在IPMC可选实现。通信丢失处理模块将FRU置为MO状态后,ShMC生成一条事件,记录从M7到MO的转换过程。通信丢失检测模块向通信丟失处理模块发送通信恢复通知消息的同时,8将FRU恢复到通信丟失前的状态(Ml-M6)。本发明的方法同样也适用于其它系统的FRU通信丢失的处理,如包含插卡单元的交换才几和测试仪等。图2所示为本发明现场可更换单元通信丢失的处理系统,包括配置才莫块、配置数据存储模块、配置动态控制模块、通信丟失检测模块和通信丟失处理模块,其中配置模块,包括多个通信丢失处理的参数配置接口,提供用户接口界面,用于接收用户的配置数据,配置数据包括启停标志、通信丢失等待时长和生效方式,实现时启停标志和通信丟失等待时长可以合一,时长值小于等于0时表示停用,大于0时表示启用,通信丢失等待时长包括时长值和时长单位,生效方式包括立即生效和重启生效;还用于调用配置数据存储模块对配置数据进行保存,通知配置动态控制模块配置数据已更改,并将生效方式发送给配置动态控制模块。配置数据存储模块,用于接受配置模块的调用,通信丢失处理的配置数据储存到ShMC的非易失存储器上或ShelfFRU信息中,防止系统重启时配置数据丢失;响应读取的命令,读取ShelfFRU信息中保存的通信丟失处理的配置数据,返回给命令发送方用于更新内存中的配置数据。配置动态控制模块,用于在接收到配置数据更改的通知后,按照生效方式决定从配置数据存储模块将配置数据读取到内存的时机,读取配置数据后,根据配置数据清除或按照通信丟失等待时长重置已启动的通信丟失等待定时器;对于重启生效方式,在重启动过程中调用配置动态控制功能,重新读取配置数据;对于立即生效方式,立即读取配置,如果是停用通信丟失处理功能,则清除已启动的通信丟失等待定时器;如果是启用通信丢失处理功能,则检查当前已处于M7状态的FRU,根据新配置的通信丟失等待时长,为处于M7状态的FRU启动或重置通信丢失等待定时器。通信丢失检测模块,用于实现对FRU通信丢失及恢复的检测,周期性的发送命令检测FRU的通信状态,发现通信丟失置FRU进入M7状态,向通信丢失处理模块发送通信丢失通知消息;发现通信恢复,向通信丢失处理模块发送通信恢复通知消息,置FRU为通信丢失前的状态。通信丟失处理模块,在收到FRU通信丢失通知消息后,依据配置数据启动通信丢失等待定时器,在通信丟失等待定时器的定时时间到达前,若接收到通信恢复通知消息,则清除通信丢失等;f寺定时器,通知通信丢失^^测才莫块恢复FRU通信丢失前的状态;在通信丢失等待定时器的定时时间到达时,若未收到通信恢复通知消息,则将FRU置为MO状态,清除通信丢失等待定时器。图3所示为本发明方法的具体实施步骤,包括步骤300:用户在配置模块中配置通信丟失等待时长及其生效方式;该步骤为用户提供配置接口,用户配置期望的通信丢失等待时长及所配置时长的生效方式。通信丟失等待时长包括时长值及时长单位。通过该配置可以控制FRU通信丟失处理功能的启用和停用,当配置时长值小于等于0时,表示停用FRU通信丢失处理功能,默认时长值为0;大于0时,表示启用FRU通信丢失处理功能,时长值及时间单位表示等待的时长。该配置步骤较为灵活,也可以采用固定的时间单位,只配置时长值。也可以设置启停标志位,启停标志位置为启用时,^没置通信丢失等待时长。生效方式表示所配时长何时生效,包括立即生效和重启ShMC生效两种方式。步骤301:配置模块调用配置数据存储^t块对通信丢失等待时长及其生效方式进行保存,向配置动态控制模块发送配置更改通知消息,通知配置动态控制模块配置数据已更改并携带生效方式;配置数据存储模块将通信丢失等待时长及其生效方式等配置数据保存到ShelfFRU信息的MultiRecordInfoArea部分中。本发明中,定义"SetFRUExtractTime"的IPMI命令,配置才莫块通过向配置数据存储模块发送该命令完成配置数据的存储。"SetFRUExtractTime"命令包含两个参数DATA[O],表示时长值;DATA[l],表示时间单^f立及生效方式。相应地定义"GetFRUExtractTime"的IPMI命令,用于调用配置凄t据存储才莫块读取配置凄i据。"SetFRUExtractTime"和"GetFRUExtractTime"命令的具体定义见表1。表1<table>tableseeoriginaldocumentpage11</column></row><table>字节数据请求1PICMG标识,这里4吏用00h表示这是一个PICMG的扩展命令2FRUDeviceID响应1完成码2PICMG标识,这里使用OOh表示这是一个PICMG的扩展命令3时长值OOh-FFh用户配置的通信丢失等待时长的数值4通信丢失等待时长的时间单位和生效方式异常拔板判定时长的单位Oh表示毫秒lh表示秒2h表示分3h表示时4h表示天5h-Fh保留生效方式Oh表示立即生效lh表示重启ShMC生效2h-Fh保留以上命令在实际实现时可以不使用FRUDeviceID,表示对机框的全局设置。也可以不使用通信丟失等待时长的时长单位,而使用默认单位;通信丢失等待时长的数据宽度等可以依据需要进行修改;定义的命令名称可以依据需要进行修改。步骤302:配置动态控制模块接收到配置更改通知消息后,根据生效方式决定从配置数据存储模块将配置数据读取到内存的时机,如果生效方式为立即生效,则向配置数据存储模块发送"GetFRUExtractTime"命令,读取保存在ShdfFRU信息中的配置数据到内存中;如果生效方式为重启ShMC生效,则在ShMC重新启动过程中将配置数据读取到内容;步骤303:配置动态控制模块读取配置数据后,判断通信丢失等待时长的时长值是否小于等于O,如果是,则表示停用通信丟失处理功能,清除已启动的通信丢失等待定时器;如果为否,则表示启用通信丢失处理功能,检查当前已处于M7状态的FRU,根据通信丢失等待时长,为处于M7状态的FRU启动或重置通信丢失等待定时器;步骤304:通信丢失处理模块判断是否接收到通信丢失通知消息,如果接收到,则执行步骤305;否则,重复执行该步骤;步骤305:通信丟失处理模块接收到通信丢失通知消息后,保存该通知消息中携带的FRU的DeviceID,判断通信丟失等待时长是否《0,如果是,则执行步骤306;否则,执行步骤307;通信丢失处理模块启动后进入阻塞状态,等待通信丟失检测模块的通知消息进行驱动。通信丟失检测模块检测FRU通信丢失向通信丟失处理模块发送通知消息的过程详见步骤401~409。判断读取到内存中的配置参数中通信丢失等待时长是否<0,相当于判断通信丟失处理功能的启停,如果为是,则表示停用;如果为否,则表示启用。步骤306:通信丢失处理模块通知通信丢失检测模块将FRU置为M7状态,通信丢失检测模块执行将FRU置为M7状态;步骤307:通信丟失处理模块按照内存中配置参数的通信丢失等待时长设置通信丟失等待定时器的参数,启动该定时器,开始计时,并以保存的FRU的DeviceID作为该定时器的索引,区分不同FRU对应的定时器,方便控制;步骤308:通信丢失处理模块检测是否接收到通信恢复通知消息,如果未接收到通信恢复通知消息,则执行步骤309;否则,执行步骤311;步骤309:通信丢失处理模块以FRU的DeviceID为索引,检查所有已启动的通信丢失等待定时器的定时时间是否到达,如果;f全测到定时时间已到达的定时器,则执行步骤310;否则,执行步骤308;13步骤310:通信丢失处理模块清除定时时间到达的定时器,在ShMC上置对应FRU为MO状态,FRU的其它状态按未安装处理,如清除告警、回收功率等,结束;步骤311:通信丟失处理模块根据接收到的通信恢复通知消息中携带的FRU的DeviceID清除对应的定时器,通知通信丟失检测模块恢复FRU为通信丟失前的状态。图4所示为通信丟失检测模块;f企测FRU的通信状态并向通信丢失处理模块发送通知消息的流程,包括步骤401:通信丢失检测模块周期性地向IPMC或FRU发送命令,比如发送GetDeviceID命令;通信丢失检测模块通过发送命令并后续检查响应情况,通过双方的通信握手^^r测通信状态。步骤402:通信丢失检测模块接收FRU的响应,判断FRU是否正常响应,如果FRU未正常响应,则执行步骤403;否则,执行步骤406;此步骤中,通信丢失检测模块判断响应的及时性和正确性。超过响应时限和^r测次数后才判断为非正常响应,也就是通信丢失,避免偶然丟包的情况产生误判。响应的时限和检测的次数,可以根据经一验数据固定配置,也可以采用用户配置的方式。步骤403:通信丢失检测模块读取内存中的通信丟失等待时长,判断是否《0,如果是,表示通信丢失处理功能为停用状态,执行步骤404;否贝'J,表示通信丢失处理功能为启用状态,执行步骤405;步骤404:通信丢失检测模块将检测到通信丢失的FRU置为M7状态,其它如告警、功率分配等保持不变,跳转到步骤401;步骤405:通信丢失检测模块向通信丢失处理模块发送通信丢失通知消息,通知通信丢失处理模块已检测到FRU通信丢失,并在该通知消息中携带通信丢失的FRU的DeviceID;步骤406:通信丢失检测模块判断正常响应的FRU的状态是否为M7,如果是,则执行步骤407;否则,跳转到步骤401;步骤407:通信丢失检测模块判断读取到的内存中的通信丢失等待时长的时长值是否小于等于O,如果是,则表示通信丢失处理功能为停用状态,执行步骤408;否则,表示通信丢失检测功能为启用状态,执行步骤409;步骤408:通信丢失检测模块设置检测到的通信恢复的FRU恢复为通信丢失前的状态,跳转到步骤401;步骤409:通信丢失检测模块向通信丢失处理模块发送通信恢复通知消息,通知通信丢失处理模块已检测到FRU通信恢复,并在该通知消息中携带通信恢复的FRU的DeviceID。以上方案以在ShMC上实现为例,同样也可以在IPMC上实现,处理IPMC所管理的多个子FRU的通信丟失,实现方法相同。图5所示为本发明读取配置数据进行动态控制的流程,包括步骤501:配置动态控制模块接收配置模块的更改通知消息;步骤502:配置动态控制模块根据生效方式判断配置是否立即生效,如果生效方式为立即生效,则执行步骤504;如果生效方式为重启ShMC生效,则执行步骤503;步骤503:用户手工输入或操作,重新启动ShMC,在ShMC启动过程中调用配置动态控制模块;步骤504:配置动态控制模块通过"GetFRUExtractTime"命令,将保存在ShdfFRU信息中的配置数据读取到内存;通信丟失处理模块所进行的处理,都依据配置动态控制^^莫块读取到内存中的配置数据完成。步骤505:配置动态控制模块判断通信丢失等待时长的时长值是否《0,如果是,则表示停用通信丢失处理功能,执行步骤506;如果为否,则表示启用通信丢失处理功能,执行步骤507;步骤506:配置动态控制模块清除已启动的通信丢失等待定时器,停用通信丟失处理功能,对于已置为M0状态的FRU不做恢复处理;步骤507:配置动态控制模块检查当前已处于M7状态的所有FRU,根据FRU的DeviceID检查是否存在对应的已启动的通信丟失等待定时器,如果存在,则根据新配置的通信丟失等待时长重置通信等待定时器的参数;如果不存在,则根据新配置的通信丢失等待时长为FRU配置并启动通信丢失等待定时器以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。权利要求1、一种现场可更换单元通信丢失的处理方法,包括检测现场可更换单元FRU的通信状态;在检测到所述FRU通信丢失时,将处于通信丢失状态的FRU置为未安装状态。2、如权利要求l所述的方法,其特征在于,在检测到所述FRU通信丢失时,还包括按照所配置的通信丢失等待时长设置并启动通信丢失等待定时器,若在所述通信丢失等待定时器的定时时间到达时,所述FRU未恢复通信状态,则进行所述将处于通信丢失状态的FRU置为未安装状态。3、如权利要求2所述的方法,其特征在于,配置所述通信丢失等待时长后,还包括检查FRU的状态,根据所配置的通信丟失等待时长,为处于M7状态的FRU清除、启动或重置所述通信丟失等待定时器。4、如权利要求2所述的方法,其特征在于,按照所配置的通信丢失等待时长设置并启动通信丢失等待定时器前,还包括判断所配置的通信丢失等待时间是否小于等于0,若该通信丢失等待时间大于0,则执行所述按照所配置的通信丢失等待时长设置并启动通信丢失等待定时器。5、如权利要求2所述的方法,其特征在于,所述检测FRU的通信状态的方法为周期性地向FRU发送命令,判断FRU是否正常响应,如果FRU未正常响应,若判定所述FRU通信丟失;若所述FRU正常响应,则判断该FRU是否为通信丟失状态,如果是,则判定该FRU恢复通信状态。6、如权利要求5所述的方法,其特征在于,按照所配置的通信丢失等待时长设置并启动通信丢失等待定时器后,若所述FRU恢复通信状态,恢复FRU为通信丟失前的状态。7、一种现场可更换单元通信丢失的处理系统,包括通信丟失检测模块和通信丟失处理模块,其中所述通信丟失检测模块,用于检测FRU的通信状态,在检测到所述FRU通信丢失时,向所述通信丢失处理^t块发送通信丟失通知消息;所述通信丢失处理模块,用于在接收到所述通信丢失通知消息后,将处于通信丢失状态的FRU置为未安装状态。8、如权利要求7所述的系统,其特征在于,所述通信丟失检测模块,还用于在检测到所述FRU恢复通信状态时,向所述通信丟失处理模块发送通信恢复通知消息;所述通信丢失处理模块,还用于在接收到所述通信丢失通知消息后,按照所配置的通信丢失等待时长设置并启动通信丟失等待定时器,若在所述通信丟失等待定时器的定时时间到达时,未接收到所述通信恢复通知消息,则进行所述将处于通信丢失状态的FRU置为未安装状态。9、如权利要求8所述的系统,其特征在于,该系统还包括配置动态控制模块,所述动态控制模块,用于检查FRU的状态,根据所配置的通信丢失等待时长,为处于M7状态的FRU清除、启动或重置所述通信丢失等待定时器。10、如权利要求8所述的系统,其特征在于,所述通信丢失处理模块,还用于在按照所配置的通信丢失等待时长设置并启动通信丟失等待定时器前,判断所配置的通信丢失等待时间是否小于等于O,若该通信丢失等待时间大于0,则执行所述按照所配置的通信丢失等待时长设置并启动通信丢失等待定时器。11、如权利要求8所述的系统,其特征在于,所述通信丢失检测模块,还用于在向所述通信丟失处理模块发送通信丢失通知消息或通信恢复通知消息前,判断判断所配置的通信丢失等待时间是否小于等于O,若该通信丢失等待时间大于0,则执行发送所述通信丢失通知消息或通信恢复通知消息。全文摘要本发明公开了一种现场可更换单元通信丢失的处理方法,包括检测现场可更换单元FRU的通信状态;在检测到FRU通信丢失时,将处于通信丢失状态的FRU置为未安装状态。本发明在FRU通信丢失后,若在一等待时间内后通信未恢复,则将FRU从M7状态转为M0状态,从而避免了由于FRU处于通信丢失状态对系统及其他设备造成的损害,本发明实现简单,而且可以配置等待的时长,从而可以依据现场的巡检周期,更为有效的使用该功能。文档编号H04L29/00GK101626362SQ20091014239公开日2010年1月13日申请日期2009年6月8日优先权日2009年6月8日发明者张景涛,东徐,牛恒武,勇蔡申请人:中兴通讯股份有限公司南京分公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1