一种数据空间节点的故障切换方法和装置与流程

文档序号:22387093发布日期:2020-09-29 17:49阅读:133来源:国知局
一种数据空间节点的故障切换方法和装置与流程

本发明涉及数据集群领域,更具体地,特别是指一种数据空间节点的故障切换方法和装置。



背景技术:

现有技术的大数据平台提供海量异构数据的统一管理和处理能力,不同来源、不同归属的数据通过统一的平台进行汇集。dataspace(数据空间)的大数据空间管理功能,可以保证不同部门或组织的数据所有者对数据拥有独享权利,也支持将自己的数据共享给其他部门或组织。目前dataspace中,dataspace没有高可用故障转移机制,只有单节点dataspace服务器,当主节点dataspace故障之后无法对资源进行管理,租户和用户也将无法登陆,在此期间不能为客户提供不间断服务,服务中断也会给客户造成一定量损失,只能等待dataspace节点恢复之后客户才能管理资源,这对于客户而言是灾难性的。

针对现有技术中数据空间节点的可用性差、故障无预警的问题,目前尚无有效的解决方案。



技术实现要素:

有鉴于此,本发明实施例的目的在于提出一种数据空间节点的故障切换方法和装置,能够提升数据空间可用性,保证故障期间数据零丢失,进而提升服务质量和客户体验。

基于上述目的,本发明实施例的第一方面提供了一种数据空间节点的故障切换方法,包括执行以下步骤:

响应于作为主节点的第一数据空间节点正常处理客户业务,而使用作为从节点的第二数据空间节点同步第一数据空间节点的业务数据;

使用分别附接到第一数据空间节点和第二数据空间节点的监控组件持续监控主节点和从节点工作状态,并在主节点工作状态显示第一数据空间节点发生故障时告警;

响应于接到告警而将第一数据空间节点置为从节点并将第二数据空间节点置为主节点,并使用作为主节点的第二数据空间节点处理客户业务;

响应于作为主节点的第二数据空间节点正常处理客户业务,而使用内存服务器同步第二数据空间节点的业务数据;

响应于作为从节点的第一数据空间节点恢复正常而依次同步内存服务器和作为主节点的第二数据空间节点的业务数据。

在一些实施方式中,客户业务包括不同访问者对数据空间的存储和/或数据资源的请求;业务数据包括为不同访问者分配和/或回收共享和/或独立的存储和/或数据资源的认证和记录。

在一些实施方式中,持续监控主节点和从节点工作状态包括:使用监控组件持续监控第一数据空间节点和第二数据空间节点的信息的以下至少之一:内存、处理器、磁盘;

在主节点工作状态显示第一数据空间节点发生故障时告警包括:根据主节点工作状态生成日志文件,并使用日志文件判断是否发生故障并进一步告警。

在一些实施方式中,将第一数据空间节点置为从节点并将第二数据空间节点置为主节点包括:

手动通过命令行强制将第一数据空间节点置为从节点并将第二数据空间节点置为主节点;或

由第一数据空间节点的监控组件通知分布式协调系统,并由分布式协调系统强制将第一数据空间节点置为从节点并将第二数据空间节点置为主节点。

在一些实施方式中,还包括:在同步内存服务器和第二数据空间节点的业务数据后,还将第一数据空间节点置为主节点并将第二数据空间节点置为从节点。

本发明实施例的第二方面提供了一种数据空间节点的故障切换装置,包括:

处理器;和

存储器,存储有处理器可运行的程序代码,程序代码在被运行时执行以下步骤:

响应于作为主节点的第一数据空间节点正常处理客户业务,而使用作为从节点的第二数据空间节点同步第一数据空间节点的业务数据;

使用分别附接到第一数据空间节点和第二数据空间节点的监控组件持续监控主节点和从节点工作状态,并在主节点工作状态显示第一数据空间节点发生故障时告警;

响应于接到告警而将第一数据空间节点置为从节点并将第二数据空间节点置为主节点,并使用作为主节点的第二数据空间节点处理客户业务;

响应于作为主节点的第二数据空间节点正常处理客户业务,而使用内存服务器同步第二数据空间节点的业务数据;

响应于作为从节点的第一数据空间节点恢复正常而依次同步内存服务器和作为主节点的第二数据空间节点的业务数据。

在一些实施方式中,客户业务包括不同访问者对数据空间的存储和/或数据资源的请求;业务数据包括为不同访问者分配和/或回收共享和/或独立的存储和/或数据资源的认证和记录。

在一些实施方式中,持续监控主节点和从节点工作状态包括:使用监控组件持续监控第一数据空间节点和第二数据空间节点的信息的以下至少之一:内存、处理器、磁盘;

在主节点工作状态显示第一数据空间节点发生故障时告警包括:根据主节点工作状态生成日志文件,并使用日志文件判断是否发生故障并进一步告警。

在一些实施方式中,将第一数据空间节点置为从节点并将第二数据空间节点置为主节点包括:

手动通过命令行强制将第一数据空间节点置为从节点并将第二数据空间节点置为主节点;或

由第一数据空间节点的监控组件通知分布式协调系统,并由分布式协调系统强制将第一数据空间节点置为从节点并将第二数据空间节点置为主节点。

在一些实施方式中,步骤还包括:在同步内存服务器和第二数据空间节点的业务数据后,还将第一数据空间节点置为主节点并将第二数据空间节点置为从节点。

本发明具有以下有益技术效果:本发明实施例提供的数据空间节点的故障切换方法和装置,通过响应于作为主节点的第一数据空间节点正常处理客户业务,而使用作为从节点的第二数据空间节点同步第一数据空间节点的业务数据;使用分别附接到第一数据空间节点和第二数据空间节点的监控组件持续监控主节点和从节点工作状态,并在主节点工作状态显示第一数据空间节点发生故障时告警;响应于接到告警而将第一数据空间节点置为从节点并将第二数据空间节点置为主节点,并使用作为主节点的第二数据空间节点处理客户业务;响应于作为主节点的第二数据空间节点正常处理客户业务,而使用内存服务器同步第二数据空间节点的业务数据;响应于作为从节点的第一数据空间节点恢复正常而依次同步内存服务器和作为主节点的第二数据空间节点的业务数据的技术方案,能够提升数据空间可用性,保证故障期间数据零丢失,进而提升服务质量和客户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的数据空间节点的故障切换方法的流程示意图;

图2为本发明提供的数据空间节点的故障切换方法的框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。

需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。

基于上述目的,本发明实施例的第一个方面,提出了一种能够提升数据空间可用性,保证故障期间数据零丢失的故障切换方法的一个实施例。图1示出的是本发明提供的数据空间节点的故障切换方法的流程示意图。

所述的数据空间节点的故障切换方法,如图1所示,包括执行以下步骤:

步骤s101:响应于作为主节点的第一数据空间节点正常处理客户业务,而使用作为从节点的第二数据空间节点同步第一数据空间节点的业务数据;

步骤s103:使用分别附接到第一数据空间节点和第二数据空间节点的监控组件持续监控主节点和从节点工作状态,并在主节点工作状态显示第一数据空间节点发生故障时告警;

步骤s105:响应于接到告警而将第一数据空间节点置为从节点并将第二数据空间节点置为主节点,并使用作为主节点的第二数据空间节点处理客户业务;

步骤s107:响应于作为主节点的第二数据空间节点正常处理客户业务,而使用内存服务器同步第二数据空间节点的业务数据;

步骤s109:响应于作为从节点的第一数据空间节点恢复正常而依次同步内存服务器和作为主节点的第二数据空间节点的业务数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

在一些实施方式中,客户业务包括不同访问者对数据空间的存储和/或数据资源的请求;业务数据包括为不同访问者分配和/或回收共享和/或独立的存储和/或数据资源的认证和记录。

在一些实施方式中,持续监控主节点和从节点工作状态包括:使用监控组件持续监控第一数据空间节点和第二数据空间节点的信息的以下至少之一:内存、处理器、磁盘。在主节点工作状态显示第一数据空间节点发生故障时告警包括:根据主节点工作状态生成日志文件,并使用日志文件判断是否发生故障并进一步告警。

在一些实施方式中,将第一数据空间节点置为从节点并将第二数据空间节点置为主节点包括:

手动通过命令行强制将第一数据空间节点置为从节点并将第二数据空间节点置为主节点;或

由第一数据空间节点的监控组件通知分布式协调系统,并由分布式协调系统强制将第一数据空间节点置为从节点并将第二数据空间节点置为主节点。

在一些实施方式中,方法还包括:在同步内存服务器和第二数据空间节点的业务数据后,还将第一数据空间节点置为主节点并将第二数据空间节点置为从节点。

根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时,执行本发明实施例公开的方法中限定的上述功能。上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

下面根据如图2所示的具体实施例进一步阐述本发明的具体实施方式。

dataspace通常是有两个服务器组成,一个处于master(主节点),另一个处于stanby(从节点),active处理来自客户端的业务请求,而stanby不对外提供服务,仅同步stanby的状态,以便保证能快速切换状态。

另外,增加一个监控组件,部署在dataspacemaster和dataspacestanby所在节点上,分别监控对应节点上的master服务,监控节点的资源使用率等信息,将这些信息作为评估节点健康状态的信息,记录到日志文件中,提供给用户查看,以此实现dataspacemaster的故障告警,根据日志文件的信息来判断故障发生的原因。

在主节点dataspacemaster服务故障时,从节点dataspacestanby服务切换为master,数据会同步到内存服务器中,防止这个时间段的数据丢失,等待备用节点成为主节点,数据会同步内存服务器,能保证数据零丢失,实现自动故障转移,实现dataspace的高可用。

数据同步有三:dataspace通过数据同步将集群上所有的数据目录加载进来,并为对应的资源分别添加策略,保证数据的隔离与访问权限;master和stanby数据同步;master节点数据实时同步到内存服务器。

dataspace通过管理票据,实现对用户认证的控制。dataspace为用户提供加票据并提供给用户下载票据,用户可以使用获得的票据完成身份认证以请求资源。

监控组件通过zookeeper(分布式协调系统)监控dataspace的节点状态、内存、cpu、资源分配等信息,将这些信息记录在日志文件中,同步到stanby上,保证主备信息一致性,另一方面也能帮助用户定位故障提供便利,以此达到故障预警的目的。监控主备认证信息同步,确保切换之后,用户认证信息一致。

当主节点master出现故障,监控组件将master节点信息写入zookeeper,通过监控信息通知stanby的监控组件,强制关闭master的active状态,并上报到日志,同时发出告警指示通知管理人员,并自动完成故障切换,把stanby的节点状态变成active成为master。也可以替代性地通过命令行手动强制切换主备状态,使备用dataspace成为主用节点,并保持两个节点的数据同步,使认证信息一致。

当主节点发生故障,切换过程会有时延,这段期间主服务器的数据是无法同步到备用服务器,它能同步到内存服务器,当切换之后,内存服务的数据又会同步回主用服务器,保证数据零丢失,增强企业安全性。

从上述实施例可以看出,本发明实施例提供的数据空间节点的故障切换方法,通过响应于作为主节点的第一数据空间节点正常处理客户业务,而使用作为从节点的第二数据空间节点同步第一数据空间节点的业务数据;使用分别附接到第一数据空间节点和第二数据空间节点的监控组件持续监控主节点和从节点工作状态,并在主节点工作状态显示第一数据空间节点发生故障时告警;响应于接到告警而将第一数据空间节点置为从节点并将第二数据空间节点置为主节点,并使用作为主节点的第二数据空间节点处理客户业务;响应于作为主节点的第二数据空间节点正常处理客户业务,而使用内存服务器同步第二数据空间节点的业务数据;响应于作为从节点的第一数据空间节点恢复正常而依次同步内存服务器和作为主节点的第二数据空间节点的业务数据的技术方案,能够提升数据空间可用性,保证故障期间数据零丢失,进而提升服务质量和客户体验。

需要特别指出的是,上述数据空间节点的故障切换方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于数据空间节点的故障切换方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的,本发明实施例的第二个方面,提出了一种能够提升数据空间可用性,保证故障期间数据零丢失的故障切换装置的一个实施例。数据空间节点的故障切换装置包括:

处理器;和

存储器,存储有处理器可运行的程序代码,程序代码在被运行时执行以下步骤:

响应于作为主节点的第一数据空间节点正常处理客户业务,而使用作为从节点的第二数据空间节点同步第一数据空间节点的业务数据;

使用分别附接到第一数据空间节点和第二数据空间节点的监控组件持续监控主节点和从节点工作状态,并在主节点工作状态显示第一数据空间节点发生故障时告警;

响应于接到告警而将第一数据空间节点置为从节点并将第二数据空间节点置为主节点,并使用作为主节点的第二数据空间节点处理客户业务;

响应于作为主节点的第二数据空间节点正常处理客户业务,而使用内存服务器同步第二数据空间节点的业务数据;

响应于作为从节点的第一数据空间节点恢复正常而依次同步内存服务器和作为主节点的第二数据空间节点的业务数据。

在一些实施方式中,客户业务包括不同访问者对数据空间的存储和/或数据资源的请求;业务数据包括为不同访问者分配和/或回收共享和/或独立的存储和/或数据资源的认证和记录。

在一些实施方式中,持续监控主节点和从节点工作状态包括:使用监控组件持续监控第一数据空间节点和第二数据空间节点的信息的以下至少之一:内存、处理器、磁盘。在主节点工作状态显示第一数据空间节点发生故障时告警包括:根据主节点工作状态生成日志文件,并使用日志文件判断是否发生故障并进一步告警。

在一些实施方式中,将第一数据空间节点置为从节点并将第二数据空间节点置为主节点包括:

手动通过命令行强制将第一数据空间节点置为从节点并将第二数据空间节点置为主节点;或

由第一数据空间节点的监控组件通知分布式协调系统,并由分布式协调系统强制将第一数据空间节点置为从节点并将第二数据空间节点置为主节点。

在一些实施方式中,步骤还包括:在同步内存服务器和第二数据空间节点的业务数据后,还将第一数据空间节点置为主节点并将第二数据空间节点置为从节点。

从上述实施例可以看出,本发明实施例提供的数据空间节点的故障切换装置,通过响应于作为主节点的第一数据空间节点正常处理客户业务,而使用作为从节点的第二数据空间节点同步第一数据空间节点的业务数据;使用分别附接到第一数据空间节点和第二数据空间节点的监控组件持续监控主节点和从节点工作状态,并在主节点工作状态显示第一数据空间节点发生故障时告警;响应于接到告警而将第一数据空间节点置为从节点并将第二数据空间节点置为主节点,并使用作为主节点的第二数据空间节点处理客户业务;响应于作为主节点的第二数据空间节点正常处理客户业务,而使用内存服务器同步第二数据空间节点的业务数据;响应于作为从节点的第一数据空间节点恢复正常而依次同步内存服务器和作为主节点的第二数据空间节点的业务数据的技术方案,能够提升数据空间可用性,保证故障期间数据零丢失,进而提升服务质量和客户体验。

需要特别指出的是,上述数据空间节点的故障切换装置的实施例采用了所述数据空间节点的故障切换方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述数据空间节点的故障切换方法的其他实施例中。当然,由于所述数据空间节点的故障切换方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述数据空间节点的故障切换装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。

应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1