一种基于飞腾平台的高性能计算资源监控实现方法与流程

文档序号:31703509发布日期:2022-10-01 09:39阅读:135来源:国知局
一种基于飞腾平台的高性能计算资源监控实现方法与流程

1.本发明属于高性能计算领域,具体涉及一种基于飞腾平台的高性能计算资源监控实现方法。


背景技术:

2.高性能计算指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境,有许多类型的hpc系统,其范围从标准计算机的大型集群,到高度专用的硬件,大多数基于集群的hpc系统使用高性能网络互连,比如那些来自infiniband或myrinet的网络互连,基本的网络拓扑和组织可以使用一个简单的总线拓扑,在性能很高的环境中,网状网络系统在主机之间提供较短的潜伏期,所以可改善总体网络性能和传输速率。
3.目前针对高性能计算的监测工具难以满足精确的多节点监控要求,同时监测工具的占用量会对应用程序的正常运行造成影响,无法监控整个计算机集群的运行健康情况,导致应用程序性能发挥存在一定的局限性,因此针对上述不足,本发明提供了一种基于飞腾平台的高性能计算资源监控实现方法。


技术实现要素:

4.(一)要解决的技术问题
5.本发明要解决的技术问题是如何提供一种基于飞腾平台的高性能计算资源监控实现方法,以解决现有监测工具难以满足精确的多节点监控要求,监测工具的占用量会对应用程序的正常运行造成影响,无法监控整个计算机集群的运行健康情况,导致应用程序性能发挥存在一定局限性的问题。
6.(二)技术方案
7.为了解决上述技术问题,本发明提出一种基于飞腾平台的高性能计算资源监控实现方法,该方法基于监控系统,该监控系统包括用户登录模块、控制端、开启指令发送模块、收集指令发送模块、腾云s系列服务器、存储单元、无线传输模块、监控中心、分析处理单元、实时监控单元以及计算节点确定模块,其中,分析处理单元包括运行特征参数采集模块、微处理器、参数库、计算模块、数值比较模块、类型区分单元和整理记录模块;该方法具体包括以下步骤:
8.s1、通过用户登录模块输入账号密码信息后登录进入到该监控系统,通过计算节点确定模块确定高性能计算集群中的计算节点,并且在相应的计算节点上开启可监控模式;用户通过控制端由开启指令发送模块向腾云s系列服务器发送监控开启指令,腾云s系列服务器向实时监控单元转发监控开启指令,实时监控单元接收到监控开启指令后,开始对计算节点的设备资源进行监控与数据提取,同时监听控制端的其它指令;
9.s2、达到了指定的时间间隔后,用户通过控制端由收集指令发送模块向腾云s系列服务器发送监控数据的收集指令,腾云s系列服务器向实时监控单元转发收集指令,实时监
控单元接收到收集指令后,将在该时间段内的监控数据发送至分析处理单元;
10.s3、通过分析处理单元内部的运行特征参数采集模块计算获得计算节点的运行特征参数,将运行特征参数发送微处理器中,由微处理器将这些特征参数先发送至参数库内部进行保存;
11.s4、微处理器将运行特征参数发送至计算模块,通过计算模块计算收集到的运行特征参数的平均值或方差值,将计算结果作为运行特征值,通过数值比较模块将运行特征值与预先设置的参照标准进行对比,并计算两者的比值,类型区分单元根据比值判断该计算节点的程序为计算密集型应用还是约束型应用,通过整理记录模块将每个高性能计算节点的程序所属的类型进行整理记录并发送至存储单元内部进行保存;
12.s5、监控中心需要查看时,通过无线传输模块调取存储单元内部数据即可。
13.进一步地,所述用户登录模块的输出端通过导线与控制端的输入端电性连接。
14.进一步地,所述计算节点确定模块通过无线与实时监控单元实现双向连接,所述实时监控单元的输入端通过导线与腾云s系列服务器的输出端电性连接。
15.进一步地,所述控制端的输出端通过导线分别与腾云s系列服务器、开启指令发送模块和收集指令发送模块的输入端电性连接。
16.进一步地,所述开启指令发送模块和收集指令发送模块的输出端通过导线与腾云s系列服务器的输入端电性连接。
17.进一步地,所述实时监控单元的输出端通过导线与分析处理模块的输入端电性连接,所述分析处理模块的输出端通过导线与腾云s系列服务器的输入端电性连接。
18.进一步地,所述分析处理单元包括运行特征参数采集模块,所述运行特征参数采集模块的输出端通过导线与微处理器的输入端电性连接,且微处理器通过无线与参数库实现双向连接。
19.进一步地,所述无线传输模块的输入端通过导线与腾云s系列服务器的输出端电性连接,所述无线传输模块通过无线与监控中心实现双向连接。
20.进一步地,所述腾云s系列服务器通过无线与存储单元实现双向连接,所述分析处理单元通过腾云s系列服务器将整理的数据发送至存储单元内部进行保存。
21.进一步地,所述微处理器的输出端通过导线与计算模块的输入端电性连接,且计算模块的输出端通过导线与数值比较模块的输入端电性连接,所述数值比较模块的输出端通过导线与类型区分单元的输入端电性连接,所述类型区分单元的输出端通过导线与整理记录模块的输入端电性连接,且整理记录模块的输出端通过导线与微处理器的输入端电性连接,所述类型区分单元包括计算密集型应用模块和约束型应用模块。
22.(三)有益效果
23.本发明提出一种基于飞腾平台的高性能计算资源监控实现方法,本发明提供了一种基于飞腾平台的高性能计算资源监控实现方法。具备以下有益效果:该基于飞腾平台的高性能计算资源监控实现方法,通过对高性能计算应用软件运行特征的采集与处理,能够迅速且精确的得出应用程序对高性能计算硬件资源的需求量,同时也可以监控计算机集群的运行健康情况,有效实现了对高性能计算资源监控的完全覆盖,最大限度的发挥应用程序的性能,同时占用量低且不会影响应用程序的正常运行。
附图说明
24.图1为本发明系统的结构原理框图;
25.图2为本发明分析处理单元的结构原理框图;
26.图3为本发明类型区分单元的结构原理框图。
具体实施方式
27.为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
28.为实现以上目的,本发明通过以下技术方案予以实现:一种基于飞腾平台的高性能计算资源监控实现方法,该方法基于监控系统,该监控系统包括用户登录模块、控制端、开启指令发送模块、收集指令发送模块、腾云s系列服务器、存储单元、无线传输模块、监控中心、分析处理单元、实时监控单元以及计算节点确定模块,其中,分析处理单元包括运行特征参数采集模块、微处理器、参数库、计算模块、数值比较模块、类型区分单元和整理记录模块;
29.该方法具体包括以下步骤:
30.s1、通过用户登录模块输入账号密码信息后登录进入到该监控系统,通过计算节点确定模块确定高性能计算集群中的计算节点,并且在相应的计算节点上开启可监控模式;用户通过控制端由开启指令发送模块向腾云s系列服务器发送监控开启指令,腾云s系列服务器向实时监控单元转发监控开启指令,实时监控单元接收到监控开启指令后,开始对计算节点的设备资源进行监控与数据提取,同时监听控制端的其它指令;
31.s2、达到了指定的时间间隔后,用户通过控制端由收集指令发送模块向腾云s系列服务器发送监控数据的收集指令,腾云s系列服务器向实时监控单元转发收集指令,实时监控单元接收到收集指令后,将在该时间段内的监控数据发送至分析处理单元;
32.s3、通过分析处理单元内部的运行特征参数采集模块计算获得计算节点的运行特征参数,将运行特征参数发送微处理器中,由微处理器将这些特征参数先发送至参数库内部进行保存,以防丢失;
33.s4、微处理器将运行特征参数发送至计算模块,通过计算模块计算收集到的运行特征参数的平均值或方差值,将计算结果作为运行特征值,通过数值比较模块将运行特征值与预先设置的参照标准进行对比,并计算两者的比值,类型区分单元根据比值判断该计算节点的程序为计算密集型应用还是约束型应用,通过整理记录模块将每个高性能计算节点的程序所属的类型进行整理记录并发送至存储单元内部进行保存;
34.s5、监控中心需要查看时,通过无线传输模块调取存储单元内部数据即可。
35.优选地,所述步骤s1中用户登录模块的输出端通过导线与控制端的输入端电性连接,所述计算节点确定模块通过无线与实时监控单元实现双向连接,所述实时监控单元的输入端通过导线与腾云s系列服务器的输出端电性连接。
36.优选地,所述控制端的输出端通过导线分别与腾云s系列服务器、开启指令发送模块和收集指令发送模块的输入端电性连接。
37.优选地,所述开启指令发送模块和收集指令发送模块的输出端通过导线与腾云s系列服务器的输入端电性连接。
38.优选地,所述实时监控单元的输出端通过导线与分析处理模块的输入端电性连接,所述分析处理模块的输出端通过导线与腾云s系列服务器的输入端电性连接。
39.优选地,所述分析处理单元包括运行特征参数采集模块,所述运行特征参数采集模块的输出端通过导线与微处理器的输入端电性连接,且微处理器通过无线与参数库实现双向连接。
40.优选地,所述腾云s系列服务器通过无线与存储单元实现双向连接。
41.优选地,所述微处理器的输出端通过导线与计算模块的输入端电性连接,且计算模块的输出端通过导线与数值比较模块的输入端电性连接,所述数值比较模块的输出端通过导线与类型区分单元的输入端电性连接,所述类型区分单元的输出端通过导线与整理记录模块的输入端电性连接,且整理记录模块的输出端通过导线与微处理器的输入端电性连接,所述类型区分单元包括计算密集型应用模块和约束型应用模块。
42.优选地,所述无线传输模块的输入端通过导线与腾云s系列服务器的输出端电性连接,所述无线传输模块通过无线与监控中心实现双向连接。
43.实施例1:
44.请参阅图1-3,本发明实施例提供一种技术方案:一种基于飞腾平台的高性能计算资源监控实现方法,通过对高性能计算应用软件运行特征的采集与处理,能够迅速且精确的得出应用程序对高性能计算硬件资源的需求量,同时也可以监控计算机集群的运行健康情况,有效实现了对高性能计算资源监控的完全覆盖,最大限度的发挥应用程序的性能,同时占用量低且不会影响应用程序的正常运行,具体包括以下步骤:
45.s1、首先通过用户登录模块登录账号密码信息后进入到系统内部,通过计算节点确定模块确定高性能计算集群中的计算节点,并且在相应的计算节点上开启可监控模式,用户通过控制端由开启指令发送模块向腾云s系列服务器发送监控开启指令,实时监控单元接收到开启指令后,并开始对设备资源进行监控与数据提取,同时在端口监听控制端的其它指令;
46.s2、达到了指定的时间间隔后,用户通过控制端由收集指令发送模块向腾云s系列服务器发送监控数据的收集指令,实时监控单元接收到收集指令后,将在该时间段内的监控数据发送至分析处理单元内部;
47.s3、通过分析处理单元内部的运行特征参数采集模块采集节点上监控到的运行特征参数,将运行特征参数发送微处理器中,由微处理器将这些特征参数先发送至参数库内部进行保存,以防丢失,微处理器由一片或少数几片大规模集成电路组成的中央处理器,这些电路执行控制部件和算术逻辑部件的功能,微处理器能完成取指令、执行指令,以及与外界存储器和逻辑部件交换信息等操作,是微型计算机的运算控制部分。它可与存储器和外围电路芯片组成微型计算机;
48.s4、然后微处理器将运行特征参数发送至计算模块,通过计算模块计算收集到的运行特征参数的平均值或方差值,将计算结果作为运行特征值,通过数值比较模块将运行特征值与预先设置的参照标准进行对比,并计算两者的比值,通过类型区分单元根据比值判断该节点程序为计算密集型应用还是约束型应用,通过整理记录模块将每个高性能计算节点程序所属的类型进行整理记录并发送至存储单元内部进行保存;
49.s5、监控中心需要查看时,则通过无线传输模块将存储单元内部数据发送至监控
中心即可。
50.本发明实施例中,步骤s1中用户登录模块的输出端通过导线与控制端的输入端电性连接,计算节点确定模块通过无线与实时监控单元实现双向连接,实时监控单元的输入端通过导线与腾云s系列服务器的输出端电性连接。
51.本发明实施例中,控制端的输出端通过导线分别与腾云s系列服务器、开启指令发送模块和收集指令发送模块的输入端电性连接。
52.本发明实施例中,开启指令发送模块和收集指令发送模块的输出端通过导线与腾云s系列服务器的输入端电性连接。
53.本发明实施例中,步骤s2中实时监控单元的输出端通过导线与分析处理模块的输入端电性连接,分析处理模块的输出端通过导线与腾云s系列服务器的输入端电性连接。
54.本发明实施例中,步骤s3中分析处理单元包括运行特征参数采集模块,运行特征参数采集模块的输出端通过导线与微处理器的输入端电性连接,且微处理器通过无线与参数库实现双向连接。
55.本发明实施例中,步骤s3中微处理器的输出端通过导线与计算模块的输入端电性连接,且计算模块的输出端通过导线与数值比较模块的输入端电性连接,数值比较模块的输出端通过导线与类型区分单元的输入端电性连接,类型区分单元的输出端通过导线与整理记录模块的输入端电性连接,且整理记录模块的输出端通过导线与微处理器的输入端电性连接,类型区分单元包括计算密集型应用模块和约束型应用模块。
56.本发明实施例中,步骤s5中无线传输模块的输入端通过导线与腾云s系列服务器的输出端电性连接,无线传输模块通过无线与监控中心实现双向连接。
57.本发明提供了一种基于飞腾平台的高性能计算资源监控实现方法。具备以下有益效果:该基于飞腾平台的高性能计算资源监控实现方法,通过对高性能计算应用软件运行特征的采集与处理,能够迅速且精确的得出应用程序对高性能计算硬件资源的需求量,同时也可以监控计算机集群的运行健康情况,有效实现了对高性能计算资源监控的完全覆盖,最大限度的发挥应用程序的性能,同时占用量低且不会影响应用程序的正常运行。
58.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1