一种实现融媒体灾备系统全自动延时切换方法与流程

文档序号:36399966发布日期:2023-12-16 02:16阅读:29来源:国知局
一种实现融媒体灾备系统全自动延时切换方法与流程

本发明属于互联网,具体涉及一种实现融媒体灾备系统全自动延时切换方法。


背景技术:

1、在信息系统容灾实现过程中,目前业内常规的做法是当生产端业务因软硬件故障无法正常运行时,首先由it系统的用户或运维管理人员发现业务应用运行异常后进行上报,然后再通过人工操作的方式拉起灾备端的业务实现容灾切换。但面对逻辑复杂且依赖关系强的业务系统,传统基于人工操作实现的容灾切换存在以下问题:

2、痛点一、时间延迟:在传统的基于人工操作的容灾切换中,人们需要手动进行一系列的操作,包括检测故障、通知相关人员、启动备用系统、启动备端等,这些步骤都需要花费时间。在紧急情况下,时间延迟可能导致业务中断过长或数据丢失过大,进而给信息系统的用户造成声誉和经济的损失。

3、痛点二、人为错误:在手动容灾切换操作过程中容易受到人为和外界因素的影响,例如判断失准、操作步骤遗漏,失误、通信失误等。这些错误可能导致业务被错误地切换到备份系统或备用环境,亦可能因为容灾切换失败导致业务中断、数据丢失、数据冲突或数据错误或其他问题,进一步延长恢复时间,影响业务的正常运行。

4、痛点三、依赖人员可用性:传统容灾切换依赖于相关人员的可用性和反应速度。如果关键人员无法及时参与切换过程,容灾计划可能无法按时执行,从而增加风险。

5、痛点四、缺乏自动化和监控:传统方式通常缺乏自动化工具和监控机制,无法及时感知故障并触发切换。这意味着需要人工不断监测系统状态,增加了管理和维护的工作量。

6、痛点五、缺乏多样化的告警功能:传统容灾系统只提供有限的告警功能或仅依赖于传统的告警方式(如简单的邮件通知、短信通知),可能会导致问题不能及时被发现。例如,某个关键系统或服务出现故障时,如果没有及时有效的告警通知,管理人员和工程师可能会在较长时间内不知晓,从而延误故障的诊断和修复。

7、综上所述,传统基于人工操作实现的容灾切换存在时间延迟、人为错误、依赖人员可用性、缺乏自动化和监控以及缺乏多样化告警等问题。

8、针对上述问题,本发明根据融媒体实际业务场景增加了更为自主、灵活、可控的灾备延迟切换模式和阻断机制,提供一种可实现业务自动切换,具有延迟执行容灾预案和多功能告警功能的实现融媒体灾备系统全自动延时切换方法,并显著地降低了因容灾软件误判后系统误切换概率,提高了容灾的效率和可靠性。


技术实现思路

1、本发明所要解决的技术问题是提供一种实现融媒体灾备系统全自动延时切换方法,可实现业务自动切换,具有延迟执行容灾预案和多功能告警功能,并可以显著地降低因容灾软件误判后系统误切换概率,提高了容灾的效率和可靠性。

2、为解决上述技术问题,本发明采用以下技术方案:

3、一种实现融媒体灾备系统全自动延时切换方法,包括容灾系统自动切换方法、延迟执行切换预案方法、告警方法和防止容灾误切换方法;其中,

4、容灾系统自动切换方法,其步骤包括:步骤一,在容灾执行系统建立规则实现数据的实时复制和业务的容灾切换;步骤二,建立业务容灾切换规则,容灾切换规则包括条件检测模块、延迟执行模块和切换预案;步骤三,在容灾管理系统的监控模块对生产站点的应用、数据库和网络进行监控;步骤四,创建预案编排容灾切换时应用启动的先后顺序;步骤五,创建触发容灾切换的条件阈值并关联到切换预案。

5、延迟执行切换预案方法,包括:条件检测模块检测到故障发生的条件已经达到预设阈值时,进入延迟执行的倒计时阶段;在倒计时期间,容灾管理人员会接收到通知,并根据实际情况决定中断或继续执行自动切换预案。

6、告警方法,包括:容灾管理系统通过对接第三方的短信平台或语音通知平台的api接口实现短信或语音信息的发送。

7、防止容灾误切换方法,其步骤包括:步骤一,建立完善的监控和告警系统,实时监测主系统和备份系统的状态和性能;步骤二,在告警触发后,容灾系统会先等待一段预定的延迟时间,以确保故障不是瞬时性的或暂时性的;步骤三,在延迟执行预案的过程中,阻止预案的自动执行。

8、进一步地,在容灾系统自动切换方法的步骤一中,实时复制的内容包括源端主机和目标端主机的ip地址、要复制的目录和文件,进行实时复制时,会对源端和目标端主机同一个目录下的每个文件的md5值进行比较,如果md5值相同,则不需要进行同步,如果md5值不同,则先进行全量的同步,然后再进行增量的同步。

9、进一步地,所述容灾系统自动切换方法的步骤二中还包括通过shell或者bat脚本停止源端应用或启动目标端的应用,容灾系统会通过指标监控方法、心跳检测方法和人工干预方法来判断容灾切换的时机。

10、更进一步地,指标监控方法,包括:容灾系统会监控生产系统的性能指标和状态,当检测系统的指标超出预设的阈值或出现故障时,可以自动切换到备用系统。

11、心跳检测方法,包括:生产系统会与容灾仲裁系统和灾备系统之间建立心跳连接,每隔3秒交换一次信息,如果灾备系统和容灾仲裁系统连续3次接收不到的生产系统回应,容灾系统会认为生产系统发生故障,并启动切换过程,由灾备系统接管业务运行。

12、人工干预方法,包括:容灾系统需要人工干预来强制进行切换,容灾系统管理人员通过容灾系统的切换按钮进行切换。

13、进一步地,容灾系统自动切换方法的步骤三具体为:在生产站点部署一台或多台探针服务器,其次在应用和数据库系统安装代理程序,代理程序会定期收集应用和数据库的健康状态发送到探针服务器,探针服务器还通过ping工具和tcp端口检测工具判断当前网络的健康状态,探针服务器将应用、数据库和网络状态信息发送到容灾管理系统,容灾管理系统以收集到的信息作为判断是否需要进行切换的依据。

14、进一步地,容灾系统自动切换方法的步骤四具体为:容灾管理系统会按照web应用、中间件、数据库的先后启动顺序进行预案阶段编排并创建预案,它们的编排顺序是,首先依次关闭生产站点的web应用、中间件和数据库,再依次启动灾备站点的数据库、中间件和web应用。

15、进一步地,在容灾系统自动切换方法的步骤五中,阈值是对生产站点应用、数据库和网络检测的结果进行“与”运算,定义系统正常运行时的值为真,系统运行异常时的值为假,将系统状态、应用状态、数据库状态和网络状态用数学符号表示为:系统状态=应用状态&数据库状态&网络状态,如果系统状态的结果为正常,则表示系统正常运行;如果系统状态的结果为异常,则表示系统发生故障。

16、进一步地,所述告警方法具体包括:当触发自动切换规则进入延迟执行阶段时,容灾管理系统会立即向第三方短信或语音平台发送指令推送“进入执行自动切换预案倒计时阶段”的告警信息到指定联系人手机号,容灾管理人员在接收到告警信息时,可以选择中断自动执行预案,此时,容灾管理平台会推送“自动切换预案已被中断执行”的信息发送给相关人员;如果容灾管理人员没有中断执行预案,倒计时完成后,容灾管理平台会推送“自动切换预案已执行”的信息发送给相关人员。

17、进一步地,在防止容灾误切换方法的步骤一中,通过设置合适的阈值和规则,当主系统发生故障或不可用时,系统会生成相应的告警,告警可以通过邮件、短信或即时通知的方式通知相关人员。

18、在防止容灾误切换方法的步骤二中,延迟时间可以用于进一步验证故障,观察故障的持续时间和趋势,如果故障持续时间超过了预设的阈值,才会继续执行预案。

19、在防止容灾误切换方法的步骤三中,如果在延迟期间,监测到主系统状态恢复正常或性能改善,系统可以取消或延迟预案的执行,避免误切换。

20、本发明提供的实现融媒体灾备系统全自动延时切换方法,具有如下有益效果:

21、1.高可用性和业务连续性,在遇到硬件故障、网络中断或其他灾难性事件时,自动切换能够快速地将业务流量和数据转移到备用系统上,从而确保业务连续性,减少停机时间,避免损失和影响。

22、2.提高服务质量和用户体验,容灾自动切换可以实现对用户完全透明的切换过程,用户在灾难发生时几乎察觉不到服务中断。

23、3.提升系统管理效率,自动切换技术能够实现智能监控和自动诊断,可以在系统出现故障或异常时立即做出响应,从而减轻管理员的工作负担,提高系统管理效率。

24、4.支持多地域部署和异地容灾,容灾自动切换还支持多地域部署,能够在多个地理位置上分布业务和数据,从而进一步提高整体的稳定性和可靠性。

25、5.降低误切换率,自动容灾切换通过事先定义和配置正确的切换逻辑和规则,可以减少人为错误的可能性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1