1.本发明涉及服务器集群领域,特别涉及一种服务器集群监控方法、计算设备及存储介质。
背景技术:2.随着云计算技术的发展,容器技术使用越来越广泛,很多企业都开始使用容器技术来部署应用提升提高资源利用率和部署效率。为了更好的使用容器技术提供服务,越来越多的企业通过部署服务器集群来对外提供服务。现有的服务器集群中通常包括具有主从架构模式,并且包括多个数据节点,当服务器集群中的主节点出现故障不能够提供服务时,从服务器集群中的其他从节点中选择一个作为主节点,以便服务器集群正常提供服务。
3.但现有技术中,服务器集群中旧的主节点发生故障时提供服务所产生的数据,未能及时备份到从节点时,从节点成为主节点,这部分数据就会丢失。并且主节点变化,新的主节点不能自动开始提供服务,需要人工再次配置;人工处理故障的过程中服务器集群暂停提供服务,造成业务暂停。
4.为此,需要一种新的服务器集群监控方法。
技术实现要素:5.为此,本发明提供一种服务器集群监控方法,以力图解决或者至少缓解上面存在的问题。
6.根据本发明的一个方面,提供一种服务器集群监控方法,适于在监控服务器中执行,监控服务器对服务器集群进行监控,服务器集群包括主节点和多个从节点,方法包括步骤:获取并存储服务器集群的第一集群信息,第一集群信息包括第一主节点信息;经过预定时间后获取服务器集群的第二集群信息,第二集群信息包括第二主节点信息,并将第二集群信息与第一集群进行比较,判断第二集群信息的第二主节点信息与第一集群信息的第一主节点信息是否相同;若第二主节点信息与第一主节点信息不同,则根据第二主节点信息构建第二服务接口,以便服务器集群的第二主节点根据第二服务接口向用户提供服务。
7.可选地,在根据本发明的方法中,还包括步骤:判断服务器集群的第一主节点是否出现故障;若第一主节点出现故障,则注销根据第一主节点信息构建的第一服务接口。
8.可选地,在根据本发明的方法中,服务器集群根据域名信息向用户提供服务,根据第二主节点信息构建第二服务接口包括步骤:根据第二主节点的ip地址构建第二服务接口,以便用户通过域名信息向服务器集群发送服务请求时,服务器集群调用第二服务接口确定第二主节点的ip地址,根据第二主节点的ip地址将服务请求发送到第二主节点。
9.可选地,在根据本发明的方法中,还包括步骤:将第二集群信息进行存储,以便判断服务器集群是否发生变化。
10.可选地,在根据本发明的方法中,第一集群信息还包括第一从节点信息,第二集群信息还包括第二从节点信息,方法还包括步骤:若第二主节点信息与第一主节点信息相同,
则判断第二集群信息的第二从节点信息与第一集群信息的第一从节点信息是否相同;若第二从节点信息与第一从节点信息不同,则将第二集群信息进行存储,以便判断服务器集群是否发生变化。
11.可选地,在根据本发明的方法中,若第二从节点信息与第一从节点信息不同,则将第二集群信息进行存储包括步骤:根据第二从节点信息和第一从节点信息是否有下线的从节点;若有下线的从节点则判断下线的从节点是否出现故障;若下线的从节点出现故障,则将第二集群信息进行存储。
12.可选地,在根据本发明的方法中,服务器集群中主节点适于接受到服务请求后,将服务请求中的数据发送到从节点,以便从节点发送确认信息,并将数据进行存储,主节点还适于在接受到大于预定数目个从节点的确定信息后,对数据进行存储。
13.可选地,在根据本发明的方法中,预定数目为服务器集群中从节点数目的一半。
14.可选地,在根据本发明的方法中,第一主节点出现故障时,服务器集群中的一个从节点作为主节点提供服务。
15.根据本发明的另一个方面,提供了一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的服务器集群监控方法。
16.根据本发明的再一个方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,该指令当由计算设备执行时,使得计算设备执行根据本发明的服务器集群监控方法。
17.本发明中的服务器集群监控方法中,监控服务器对服务器集群的集群信息进行监控,通过比对两次不同时间节点的集群信息是否相同,从而判断服务器集群中是否主节点发生故障,若主节点发生故障,则为新的主节点构建服务服务接口,以便服务器集群根据服务接口提供服务。本发明能够缩短服务器集群发生停止提供服务的时间,快速构建服务接口以便新的主节点提供服务,降低主节点发生故障对业务的影响。
附图说明
18.为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本发明公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
19.图1示出了根据本发明一个示范性实施例的监控服务器监控服务器集群的示意图;
20.图2示出了根据本发明一个示范性实施例的计算设备200的结构框图;
21.图3示出了根据本发明一个示范性实施例的服务器集群监控方法300的流程示意图;
22.图4示出了根据本发明的一个示范性实施例的监控服务器获取第二集群信息的示意图;
23.图5示出了根据本发明一个示范性实施例的恢复时间目标的示意图;以及
24.图6示出了根据本发明一个示范性实施例的恢复点目标的示意图。
具体实施方式
25.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。相同的附图标记通常指代相同的部件或元素。
26.图1示出了根据本发明一个示范性实施例的监控服务器监控服务器集群的示意图。如图1所示,监控服务器120监控服务器集群110。服务器集群110包括主节点111和从节点112~117。服务器集群110中,主节点111通过服务接口向用户提供服务。本发明对服务器集群所提供的服务的服务类型不做限制。
27.图1中监控服务器120和服务器集群110中的各节点均可实现为一种计算设备。图2示出了根据本发明一个示范性实施例的计算设备200的结构框图。如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
28.取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μp)、微控制器(μc)、数字信息处理器(dsp)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(alu)、浮点数单元(fpu)、数字信号处理核心(dsp核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
29.取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个程序222以及程序数据228。在一些实施方式中,程序222可以布置为在操作系统上由一个或者多个处理器204利用程序数据228执行根据本发明的方法300的指令223。
30.计算设备200还可以包括储存接口总线234。储存接口总线234实现了从储存设备232(例如,可移除储存器236和不可移除储存器238)经由总线/接口控制器230到基本配置202的通信。操作系统220、程序222以及数据224的至少一部分可以存储在可移除储存器236和/或不可移除储存器238上,并且在计算设备200上电或者要执行程序222时,经由储存接口总线234而加载到系统存储器206中,并由一个或者多个处理器204来执行。
31.计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个a/v端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外围接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个i/o端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为以便经由一个或者多个通信端口264与一
个或者多个其他计算设备200通过网络通信链路的通信。
32.网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(rf)、微波、红外(ir)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
33.在根据本发明的计算设备200中,程序222包括服务器集群监控方法300的多条程序指令,这些程序指令可以指示处理器204执行本发明的计算设备200中运行的服务器集群监控方法300中的部分步骤,以便计算设备200中的各部分通过执行本发明的服务器集群监控方法300来对服务器集群进行监控。
34.计算设备200可以实现为服务器,例如文件服务器240、数据库250、服务器、应用程序服务器等,这些电子设备可以是诸如个人数字助理(pda)、无线网络浏览设备、应用专用设备、或者可以包括上面任何功能的混合设备。可以实现为包括桌面计算机和笔记本计算机配置的个人计算机,也在一些实施例中,计算设备200被配置为执行服务器集群监控方法300。
35.图3示出了根据本发明一个示范性实施例的服务器集群监控方法300的流程示意图。本发明中的服务器集群监控方法300适于在监控服务器120中执行。首先执行步骤s310,获取并存储服务器集群的第一集群信息,第一集群信息包括第一主节点信息和第一从节点信息。
36.根据如图1所示的当前监控服务器监控服务器集群的示意图,监控服务器120监控服务器集群110,服务器集群110包括主节点111和从节点112~117。第一集群信息为监控服务器在获取第一集群信息时的服务器集群的集群信息。监控服务器可以在任意时间获取服务器集群的集群信息,此时的服务器集群的集群信息为第一集群信息,其主节点为第一主节点,第一主节点的信息为第一主节点信息,包括主节点的ip地址。服务器节点中的其他节点为从节点,这些从节点信息为第一从节点信息,第一从节点信息包括服务器节点中的多个从节点的从节点信息。每个从节点的从节点信息包括从节点的ip地址。
37.根据本发明的一个实施例,如图1所示,服务器集群110的集群信息为第一集群信息,其中,第一主节点为主节点111。第一集群信息包括第一主节点信息和第一从节点信息。第一主节点信息包括主节点111的ip地址。第一从节点信息包括从节点112~117的ip地址。
38.随后,执行步骤s320,经过预定时间后获取服务器集群的第二集群信息,第二集群信息包括第二主节点信息,并将第二集群信息与第一集群进行比较,判断第二集群信息的第二主节点信息与第一集群信息的第一主节点信息是否相同。
39.根据本发明的一个实施例,监控服务器获取完毕第一节点信息,经过预定时间后,获取第二集群信息。第二集群信息为监控服务器在获取第二集群信息时的服务器集群的集群信息,此时的服务器集群的集群信息为第二集群信息,其主节点为第二主节点,第二主节点的信息为第二主节点信息,包括主节点的ip地址。服务器节点中的其他节点为从节点,这些从节点信息为第二从节点信息,第二从节点信息包括服务器节点中的多个从节点的从节
点信息。每个从节点的从节点信息包括从节点的ip地址。本发明对预定时间不做显示,预定时间可根据具体业务需要进行设置,如设置为5秒。
40.如在预定时间内,服务器集群中主节点和从节点均没有发生故障,第一集群信息与第二集群信息相同,则存储第二集群信息,在预定时间后进行下一次的获取服务器集群的集训信息,持续对服务器集群进行监控,判断服务器集群中是否有发生故障的节点。
41.根据本发明的一个实施例,第一主节点出现故障时,服务器集群中的一个从节点作为主节点提供服务。此时新的主节点和其他从节点构成新的服务器集群。这个新的服务器集群的集群信息为第二集群信息,其中新的主节点为第二主节点,其节点信息为第二主节点信息,剩余的从节点的信息为第二从节点信息。监控服务器获取服务器集群的第二集群信息,判断第二集群信息是否与第一集群信息是否相同,则能够判断服务器集群中是否有节点发生故障,退出服务器集群。
42.监控服务器判断第二集群信息是否与第一集群信息是否相同时,先判断第二集群信息中第二主节点信息与第一集群信息中的第一主节点信息是否相同,若不相同,则判断是第一主节点出现了故障。
43.若第二主节点信息与第一主节点信息相同,则接着判断第二节点信息中的第二从节点信息与第一集群信息中的第一丛节点信息是否相同,若不相同,则可判断出有新从节点加入服务器集群,或原来的从节点发生故障,退出服务器集群。
44.图4示出了根据本发明的一个示范性实施例的监控服务器获取第二集群信息的示意图。在预定时间内,服务器集群110中主节点111发生故障,从节点112成为主节点412,与其他的从节点113~117构成新的服务器集群410。服务器集群410的集群信息为第二集群信息,其中,第二主节点为主节点412。第二集群信息包括第二主节点信息和第二从节点信息。第二主节点信息包括主节点412的ip地址。第二从节点信息包括从节点113~117的ip地址。
45.监控服务器将第二集群信息和第一集群信息进行比对,先判断第二主节点信息与第一主节点信息是否相同。
46.图5示出了根据本发明一个示范性实施例的恢复时间目标的示意图。恢复时间目标(rto:recovery time objective)是指信息系统从灾难状态恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力。如图5所示,在时间t0前,服务器集群正常运行。时间t1时发生了故障,直到时间t2服务器集群才恢复正常运行。t1—t2时间段内为系统中断的时间,即rto,为了rto时达到最小,本发明中对服务器集群进行持续不断的监控,获取服务器集群的集群信息,并对相邻两次集群信息进行充分对比,当确定主节点发生故障时,为新的主节点根据其主节点信息构建服务接口,以便其迅速上线提供服务。
47.随后执行步骤s330,若第二主节点信息与第一主节点信息不同,则根据第二主节点信息构建第二服务接口,以便服务器集群的第二主节点根据第二服务接口向用户提供服务。
48.根据本发明的一个实施例,主节点111的ip地址更改为主节点412的ip地址时,监控服务器判断第二主节点信息与第一主节点信息不同。
49.监控服务器根据第二主节点信息构建第二服务器接口前,还判断服务器集群的第一主节点111是否出现故障,若第一主节点111出现故障,则注销根据第一主节点信息构建的第一服务接口。
50.监控服务器判断第一主节点111是否发生故障的目的在于,再次检查第一主节点111,以便确保不是网络抖动带来的误操作,提高系统可靠性。根据本发明的一个实施例,服务器集群发生误操作的概率为1%,监控服务器发生误判的概率为1%,则系统的可靠性即为99.99%。
51.服务器集群根据域名信息向用户提供服务。用户需要服务器集群提供服务时,需要通过域名信息访问服务器集群,域名信息包括服务器集群的域名。根据第二主节点信息构建第二服务接口时,根据第二主节点的ip地址构建第二服务接口,以便用户通过域名信息向服务器集群发送服务请求时,服务器集群调用第二服务接口确定第二主节点的ip地址,根据第二主节点的ip地址将服务请求发送到第二主节点。
52.根据本发明的一个实施例,服务器集群110中第一主节点为主节点111,根据第一主节点信息构建有第一服务接口,第一主节点信息包括主节点111的ip地址。用户通过域名信息访问服务器集群时,向服务器集群发送服务请求。服务器集群根据第一服务接口,确定接收和处理服务请求的主节点为第一主节点,第一主节点即主节点111通过第一服务器接口接收服务请求,并进行处理。而第一主节点出现故障,下线时,根据第一主节点信息所构建的第一服务接口不能继续使用,因此,需要构建第二服务接口。
53.服务器集群410中第二主节点为主节点412,根据第二主节点信息构建有第二服务接口。用户通过域名信息访问服务器集群时,向服务器集群发送服务请求。服务器集群根据第二服务接口,确定接收和处理服务请求的主节点为第二主节点,第二主节点即主节点412通过第二服务器接口接收服务请求,并进行处理。
54.根据本发明的一个实施例,服务器集群构建第二服务接口后,将第二集群信息进行存储,以便后续判断服务器集群是否发生变化。
55.根据本发明的一个实施例,若第二主节点信息与第一主节点信息相同,则判断第二集群信息的第二从节点信息与第一集群信息的第一从节点信息是否相同,若第二从节点信息与第一从节点信息不同,则将第二集群信息进行存储,以便判断服务器集群是否发生变化。
56.在判断第二从节点信息与第一从节点信息不同时,根据第二从节点信息和第一从节点信息是否有下线的从节点。具体的,判断是否有仅出现在第一从节点信息中的ip地址,若有,则判断该ip地址所属的从节点为下线的从节点。
57.接着,若有下线的从节点则判断下线的从节点是否出现故障,再次对从节点的下线进行判断,防止网络抖动带来的误操作,提高系统可靠性。最后,若下线的从节点出现故障,则将第二集群信息进行存储。
58.图6示出了根据本发明一个示范性实施例的恢复点目标的示意图。恢复点目标rpo(recovery point obejective)是指业务系统所允许的在灾难过程中的最大数据丢失量,用来衡量容灾系统的数据冗余备份能力。如图6所示,在时间t0前,数据处于有效。时间t0为数据处于有效的最后时候,在时间t0之前数据均进行了备份。时间t0之后的时间t1发生了故障,导致在t0—t1时间段内未备份的时间内数据发生丢失。
59.为了使rpo达到最小,本发明中服务器集群采用数据备份确认的方法。具体的:服务器集群中主节点适于接受到服务请求后,将服务请求中的数据发送到从节点,以便从节点发送确认信息,并将数据进行存储,主节点还适于在接受到大于预定数目个从节点的确
定信息后,对数据进行存储。其中,预定数目为服务器集群中从节点数目的一半。
60.为了使服务器的从节点充分备份主节点的数据,主节点在存储和处理数据前,先让从节点对数据进行备份。从节点在接受到数据,进行存储后向主节点发送确定信息。在服务器集群中一半以上数目的从节点备份完毕数据后,主节点再进行数据的存储和处理,从而保证主节点发生故障时,不会造成数据的丢失。
61.本发明中的服务器集群监控方法中,监控服务器对服务器集群的集群信息进行监控,通过比对两次不同时间节点的集群信息是否相同,从而判断服务器集群中是否主节点发生故障,若主节点发生故障,则为新的主节点构建服务服务接口,以便服务器集群根据服务接口提供服务。本发明能够缩短服务器集群发生停止提供服务的时间,快速构建服务接口以便新的主节点提供服务,降低主节点发生故障对业务的影响。
62.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
63.a9、如a8所述的方法,其中,所述第一主节点出现故障时,所述服务器集群中的一个从节点作为主节点提供服务。
64.类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。
65.本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
66.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间,以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
67.此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
68.此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
69.这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、cd-rom、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
70.在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明多系统运行方法。
71.以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
72.如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
73.尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。