数据采集方法及装置与流程

文档序号:26759426发布日期:2021-09-25 05:19阅读:288来源:国知局
数据采集方法及装置与流程

1.本技术涉及数据处理技术领域,特别涉及一种数据采集方法。本技术同时涉及一种数据采集装置,一种计算设备,以及一种计算机可读存储介质。


背景技术:

2.随着视频业务的发展,视频提供方为了提高对用户的视频观看体验,尽量减少用户在观看视频过程中出现的卡顿、花屏、掉线等情况,通常提前将直播的音视频数据推送到接近用户的cdn节点上,使得用户就近取得音视频数据,从而提升用户访问的速度和观看的稳定性,因此,需要及时采集cdn节点的状态数据,以便基于状态数据确定cdn服务的稳定性,然而,由于cdn节点数量众多,采集数据的类型也众多,可能出现采集效率低下的问题。


技术实现要素:

3.有鉴于此,本技术实施例提供了一种数据采集方法。本技术同时涉及一种数据采集装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的采集效率低下的缺陷。
4.根据本技术实施例的第一方面,提供了一种数据采集方法,包括:
5.确定待采集数据节点以及所述待采集数据节点对应的待采集数据类型;
6.基于所述待采集数据节点以及所述待采集数据类型,确定各个待采集数据类型对应的待采集数据节点的节点数量;
7.基于所述节点数量,确定所述各个待采集数据类型对应的采集周期;
8.根据所述采集周期,从所述待采集数据节点采集对应的待采集数据类型的数据。
9.根据本技术实施例的第二方面,提供了一种数据采集装置,包括:
10.确定模块,被配置为确定待采集数据节点以及所述待采集数据节点对应的待采集数据类型;
11.确定数量模块,被配置为基于所述待采集数据节点以及所述待采集数据类型,确定各个待采集数据类型对应的待采集数据节点的节点数量;
12.确定周期模块,被配置为基于所述节点数量,确定所述各个待采集数据类型对应的采集周期;
13.采集模块,被配置为根据所述采集周期,从所述待采集数据节点采集对应的待采集数据类型的数据。
14.根据本技术实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述数据采集方法的步骤。
15.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,所述计算机指令被处理器执行时实现所述数据采集方法的步骤。
16.本技术提供的数据采集方法,通过确定待采集数据节点以及所述待采集数据节点
对应的待采集数据类型;基于所述待采集数据节点以及所述待采集数据类型,确定各个待采集数据类型对应的待采集数据节点的节点数量;基于所述节点数量,确定所述各个待采集数据类型对应的采集周期;根据所述采集周期,从所述待采集数据节点采集对应的待采集数据类型的数据。实现了基于不同待采集数据类型对应的待采集数据节点的节点数量,动态地调整待采集数据类型的采集周期,以便保障数据采集的时效性,并提高数据采集效率。
附图说明
17.图1是本技术一实施例提供的一种数据采集方法的流程图;
18.图2是本技术一实施例提供的一种数据采集方法中的聚合后的数据示意图;
19.图3是本技术一实施例提供的一种数据采集方法的架构示意图;
20.图4是本技术一实施例提供的一种应用于直播场景的数据采集方法的处理流程图;
21.图5是本技术一实施例提供的一种应用于点播场景的数据采集方法的处理流程图;
22.图6是本技术一实施例提供的一种数据采集装置的结构示意图;
23.图7是本技术一实施例提供的一种计算设备的结构框图。
具体实施方式
24.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
25.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
26.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
27.首先,对本技术一个或多个实施例涉及的名词术语进行解释。
28.cdn(content delivery network,内容分发网络):是构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。cdn的关键技术主要有内容存储和分发技术。
29.cdn节点:处于网络边缘(不同地域如省份、城市)的分发内容的服务器节点。用于进行内容存储,位于用户接入点,是面向最终用户的内容提供设备,可缓存静态web内容和
流媒体内容,实现内容的边缘传播和存储,以便用户的就近访问。
30.icmp(internet control message protocol,因特网控制报文协议):是tcp/ip协议簇的一个子协议,用于在ip主机、路由器之间传递控制消息。其中,控制消息是指网络通不通、主机是否可达、路由是否可用等网络本身的消息。
31.snmp(simple network management protocol,简单网络管理协议):是用于在ip网络管理网络节点(服务器、工作站、路由器、交换机等)的一种标准协议,它是一种应用层协议。可以用于采集节点流量以计算带宽。
32.http(hypertext transfer protocol,超文本传输协议):是一个简单的请求

响应协议,它通常运行在tcp之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应,可以用于判断设备节点的http服务是否正常。
33.tcp(transmission control protocol,tcp):是一种面向连接的、可靠的、基于字节流的传输层通信协议传输控制协议,可以用于判断http节点在传输层的通信状态是否正常。
34.带宽:网络带宽,指在单位时间(一般指的是1秒钟)内传输的数据量。
35.直播源站:接收主播音视频数据的中心服务器。
36.在本技术中,提供了一种数据采集方法,本技术同时涉及一种数据采集装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
37.图1示出了根据本技术一实施例提供的一种数据采集方法的流程图,具体包括以下步骤:
38.步骤102:确定待采集数据节点以及所述待采集数据节点对应的待采集数据类型。
39.其中,所述待采集数据节点,可以是任意的设备节点,比如交换机节点、内容分发节点、终端节点、服务器节点等,在此不做限制。实际应用中,待采集数据节点中可以存储任意的数据,比如,状态数据、资源数据、指标数据等,在此不做限制,这些数据可以作为待采集数据被采集,而且这些数据还可以进一步分为不同的数据类型,比如状态数据可以分为:网络状态数据、通讯状态数据等,资源数据可以分为:视频资源数据、文本资源数据、音频资源数据等,指标数据可以分为:性能指标数据、服务指标数据等,在此不做限制。
40.具体实施时,由于待采集数据节点是可变的,因此,需要在进行数据采集前,先确定有哪些待采集数据节点,以及需要从这些待采集数据节点采集哪些数据类型(即待采集数据类型)的数据,以便基于这些信息,从待采集数据节点进行数据采集。
41.在直播的场景下,由于直播平台对于网络的要求十分高,为了尽量减少卡顿、花屏、掉线等情况,可以借助cdn节点,提前将直播的音视频数据推送到接近用户的cdn节点上,使得用户就近从cdn节点取得音视频数据,从而提升用户访问的速度和观看的稳定性。
42.通过cdn节点缓存数据,还可以减轻直播源站的带宽和访问压力,因此,直播平台可以接入大量的cdn节点,通过cdn节点承担接收上行的音视频数据、接收就近观众的请求以提供观看服务的任务,因此,cdn提供服务的稳定性直接影响着用户的体验,一旦cdn的网络健康状态变差,甚至出现掉线情况,监控系统必须及时捕捉,并将故障信息提供给调度层,将对应的故障节点下线,将该节点上的流量转移到相近的节点上,这样才能保证服务的质量、用户的体验。
43.而如何保证及时、可靠地采集大量cdn节点的网络状态数据,并以结构化的形式将
数据通过网络高效地传输给其他系统(如调度系统),是管理大量cdn节点的难题,并且由于cdn节点数量多,不便于集中部署、发布,所以可以由多个采集节点主动向cdn节点发起通用网络协议的请求收集数据。
44.基于此,本技术中的待采集数据节点,可以是cdn节点,而待采集数据,可以是cdn节点的状态数据,进一步的,待采集数据(状态数据)的待采集数据类型可以是:icmp、snmp、http、tcp、带宽等数据类型,其中,icmp用于判断网络通不通、主机是否可达等;snmp用于采集cdn节点的流量以计算带宽;http,用于判断cdn节点的http服务是否正常;tcp用于判断cdn节点在传输层的通信状态是否正常;带宽用于判断cdn节点的网络访问量。
45.实际应用中,为了便于对待采集数据节点以及待采集数据节点对应的待采集数据类型进行管理,本技术实施例提供的一种可选实施方式中,所述确定待采集数据节点以及所述待采集数据节点对应的待采集数据类型,具体采用如下方式实现:
46.从预设位置获取所述待采集数据节点的采集配置信息,基于所述采集配置信息确定所述待采集数据节点以及所述待采集数据节点对应的待采集数据类型。
47.其中,所述预设位置,用于存储待采集数据节点的采集配置信息,实际应用中,该预设位置可以指向独立于采集节点(对待采集数据节点进行数据采集的节点)的配置模块,并在配置模块中维护存储于预设位置的采集配置信息;此外,该预设位置也可以指向采集节点中的任一存储位置,而当存在多个采集节点的情况下,该预设位置可以指向任一采集节点的任一存储位置,也可以指向每个采集节点中的该任一位置,即采集配置信息可以部署在独立于采集节点的配置模块,也可以部署在任一采集节点,或部署在每个采集节点中,在此不做限制。
48.其中,采集配置信息中可以包括需要采集哪些节点(待采集数据节点),以及针对每个待采集数据节点需要采集哪些类型的数据(待采集数据类型)。具体实施时,这些待采集配置信息可以根据采集需求进行配置。比如,新增待采集数据节点d时,可以将该待采集数据节点d以及该待采集数据节点d对应的待采集数据类型4,添加至采集配置信息中;而若无需对待采集数据节点c进行数据采集时,则将待采集数据节点c以及对应的待采集数据类型从采集配置信息中删除即可,这样就保证了在有新的待采集数据节点(比如cdn节点)加入时,不需要人工干预采集,就可以及时对该待采集数据节点(比如cdn节点)进行监控,相应地,当有待采集数据节点(比如cdn节点)不再需要监控时,采集节点将会自动避免对该节点的数据采集,回收采集对应节点所消耗的资源。
49.以采集节点对数据进行采集为例,在独立于采集节点的配置模块的预设位置ad存储的采集配置信息中包括3个待采集数据节点,分别为:待采集数据节点a,待采集数据节点b以及待采集数据节点c;此外,采集配置信息中还包括待采集数据节点a的待采集数据类型1和待采集数据类型2;待采集数据节点b的待采集数据类型1、待采集数据类型2和待采集数据类型3;以及待采集数据节点c的待采集数据类型1和待采集数据类型3。进一步的,在预设位置ad获取到该采集配置信息之后,基于该采集配置信息,即可确定待采集数据节点以及待采集数据节点对应的待采集数据类型。
50.步骤104:基于所述待采集数据节点以及所述待采集数据类型,确定各个待采集数据类型对应的待采集数据节点的节点数量。
51.由于在实际场景中通常待采集数据节点的节点数量众多,并且待采集数据类型的
类型数量也众多,因此,在上述确定待采集数据节点以及待采集数据类型的情况下,对各个待采集数据类型对应的待采集数据节点的节点数量进行统计,以便通过节点数量进一步确定各个待采集数据类型的采集周期,以便更充分合理地利用采集节点的采集性能。
52.沿用上例,在确定待采集数据节点以及待采集数据节点对应的待采集数据类型的情况下,则可以进一步统计待采集数据类型1对应的待采集数据节点的节点数量为3,待采集数据类型2对应的待采集数据节点的节点数量为2,待采集数据类型3对应的待采集数据节点的节点数量为2。
53.步骤106:基于所述节点数量,确定所述各个待采集数据类型对应的采集周期。
54.在上述确定节点数量的基础上,考虑到节点数量不固定的问题,为了进一步提高采集效率,可以基于节点数量确定各个待采集数据类型对应的采集周期,实际应用中,基于节点数量,确定所述各个待采集数据类型对应的采集周期的确定方式是多种多样的,比如:待采集数据类型对应的待采集数据节点的节点数量越大,表明采集该待采集数据类型对应的数据需要占用的采集资源越大,因此,可以适当增加该采集数据类型的采集周期。此外,待采集数据类型对应的待采集数据节点的节点数量越大,可能表明该待采集数据类型可能越重要,因此,可以适当减少该采集数据类型的采集周期。
55.另外,还可以预先建立节点数量和采集周期的对应关系,以便基于上述统计的待采集数据类型的节点数量以及预先建立的对应关系,确定待采集数据类型对应的采集周期。
56.或者,还可以通过计算公式1:p
i
=n
i
/m,计算采集周期,其中,i为待采集数据类型,p
i
为待采集数据类型i对应的采集周期,m为采集节点的性能参考值(性能参数),n
i
为针对待采集数据类型i的待采集数据节点的节点数量。基于此,不仅可以最大限度的利用采集节点的采集性能,还可以动态地根据待采集数据节点的节点数量调整采集周期。
57.实际应用中,上述性能参考值可以通过压力测试得出,具体的,可以是在只采集某一种类型数据的情况下,单位时间内可以完成的最大数据采集数量。
58.进一步,由于每种待采集数据类型的重要程度或需求周期不同,为了使采集周期更合乎待采集数据类型的使用需要,且最大限度地利用采集节点的机器性能,提高采集效率,本技术实施例提供的一种可选实施方式中,所述基于所述节点数量,确定所述各个待采集数据类型对应的采集周期,具体采用如下方式实现:
59.确定所述各个待采集数据类型对应的类型系数;
60.根据所述节点数量、所述类型系数以及当前设备的性能参数,计算所述待采集数据类型对应的采集周期,其中,所述节点数量与所述采集周期成正比。
61.具体的,所述类型系数,可以理解为待采集数据类型对应的采集系数,该类型系数,可以根据待采集数据类型的重要程度或需求周期等方面的不同进行预先设置,该类型系数越大,表明该待采集数据类型的需求周期越大或该待采集数据类型对应的数据越不重要;该类型系数越小,表明该待采集数据类型的需求周期越小或该待采集数据类型对应的数据越重要。
62.进一步的,除需要考虑待采集数据类型对应的待采集数据节点的节点数量以及待采集数据类型的类型系数之外,还需要考虑采集节点(当前设备)的性能参数,该性能参数越大,表明采集节点采集数据的能力越强,即可以在单位时间采集的数据量/采集次数越
大,该性能参数越小,表明采集节点采集数量的能力越弱,即可以在单位时间采集的数据量/采集次数越小。
63.因此,为了最大限度地利用采集节点的机器性能,提升采集效率,可以采用如下公式2计算采集周期:
64.p
i
=k
i
*n
i
/m
ꢀꢀ
公式2
65.其中,i为待采集数据类型,p
i
为待采集数据类型i对应的采集周期,m为采集节点的性能参数,k
i
为待采集数据类型i的类型系数,n
i
为针对待采集数据类型i的待采集数据节点的节点数量。
66.步骤108:根据所述采集周期,从所述待采集数据节点采集对应的待采集数据类型的数据。
67.在上述确定待采集数据类型对应的采集周期的基础上,则可以根据采集周期,从所述待采集数据节点采集对应的待采集数据类型的数据。比如,待采集数据类型1的采集周期为30秒,则每隔30秒从待采集数据节点上采集该待采集数据类型1。
68.进一步的,本技术实施例提供的一种可选实施方式中,所述根据所述采集周期,从所述待采集数据节点采集对应的待采集数据类型的数据,具体采用如下方式实现:
69.按照所述采集周期以及所述待采集数据类型的优先级,从所述待采集数据节点采集对应的待采集数据类型的数据。
70.具体实施时,为了保障可以优先采集更为重要的数据,保障重要数据的采集效率,可以针对各种待采集数据类型预先设置优先级,以便按照优先级从待采集数据节点采集对应的待采集数据类型的数据。
71.实际应用中,采集节点在执行采集任务时,会充分利用机器(采集节点)的多核性能,由多个线程同时发起采集任务,发起采集任务之前或发起采集任务之时,可以为不同待采集数据类型配置不同的优先级,其中,待采集数据类型的优先级越高,表明需要对该待采集数据类型的数据优先进行采集,则通过多线程优先采集优先级高的待采集数据类型的数据,比如待采集数据类型包括:icmp类型以及snmp类型,其中icmp类型的优先级为高,而snmp类型的优先级为低,则优先采集icmp类型的数据。
72.具体实施时,本技术实施例提供的一种可选实施方式中,所述从所述待采集数据节点采集对应的待采集数据类型的数据,具体采用如下方式实现:
73.向所述待采集数据节点发送采集对应的待采集数据类型的数据的采集请求;
74.接收所述待采集数据节点基于所述采集请求返回的所述数据;
75.相应的,所述向所述待采集数据节点发送采集对应的待采集数据类型的数据的采集请求之后,还包括:
76.在所述待采集数据类型对应的预设采集时长内未接收到对应的数据的情况下,返回执行向所述待采集数据节点发送采集对应的待采集数据类型的数据的采集请求。
77.其中,所述采集请求,是指采集待采集数据类型的数据的采集请求,待采采集数据节点在接收到采集请求之后,则获取该采集请求对应的数据,并将该数据返回至采集节点。
78.实际应用中,可能由于网络连接断开或网络拥塞等问题,导致待采集数据节点长时间未返回数据,采集节点空等或采集数据不成功,因此,可以根据历史采集情况,预先设置针对每种待采集数据类型的数据的最长采集时长(即预设采集时长),若在预设采集时长
内未接收到所述数据,表明此次采集不成功,则重新对该数据进行采集,即返回执行上述向所述待采集数据节点发送采集对应的待采集数据类型的数据的采集请求,实现了针对不同类型数据的采集任务配置了超时时间,并通过超时重试的机制,当待采集数据节点(比如cdn节点)没有在超时时间内相应,就会立即发起新的采集任务。
79.若在预设采集时长内接收到所述数据,表明此次采集成功,不做处理即可。
80.进一步的,还可以针对采集超时的情况,设置最大超时次数,以避免在未解决超时问题的情况下,不断浪费计算资源进行数据采集,本技术实施例提供的一种可选实施方式中,所述在所述待采集数据类型对应的预设采集时长内未接收到对应的数据的情况下,返回执行向所述待采集数据节点发送采集对应的待采集数据类型的数据的采集请求,包括:
81.在所述待采集数据类型对应的预设采集时长内未接收到对应的数据的情况下,将所述采集的超时次数加一;
82.判断所述超时次数是否到达预设次数;
83.若否,返回执行所述向所述待采集数据节点发送采集对应的待采集数据类型的数据的采集请求;
84.若是,确定针对所述待采集数据节点采集失败,并记录针对所述待采集数据节点的采集失败信息。
85.其中,所述超时次数,是指从所述待采集数据节点采集对应的待采集数据类型的数据的超时次数,该超时次数的初始值为0,在超时的情况下,将超时次数加一。
86.所述预设次数,是指预先设置的最大超时次数;实际应用中,当采集出现超时的情况下,可能是由于网络闪断等问题导致的短时间采集失败,因此问题修复时间短或可自动修复等;也可能是由于待采集数据节点宕机等问题导致的长时间采集失败,因此,问题修复时间长或需人工修复等。
87.当超时次数未达到预设次数的情况下,则重新执行向所述待采集数据节点发送采集对应的待采集数据类型的数据的采集请求,即重试采集;当超时次数达到预设次数的情况下,则确定从所述待采集数据节点采集失败,并记录针对所述待采集数据节点的采集失败信息。
88.其中,采集失败信息,包括采集失败的待采集数据节点的节点标识,采集时间、待采集数据类型等信息。并在记录该采集失败信息的基础上,还可以基于该采集失败信息进行采集失败通知,以便对待采集数据节点进行修复。
89.以初始的超时次数为0,预设采集时长为3秒,预设次数为3次为例,向待采集数据节点a发送针对待采集数据类型1的数据的采集请求,在3秒内接收到待采集数据节点a返回的针对待采集数据类型1的数据,则将采集的超时次数加1,则超时次数为1,超时次数小于预设次数3,则返回执行向待采集数据节点a发送针对待采集数据类型1的数据的采集请求,若在3秒内仍未接收到待采集数据节点a返回的针对待采集数据类型1的数据,则将超时次数再加一,则超时次数为2,该超时次数仍小于预设次数3次,则返回执行向待采集数据节点a发送针对待采集数据类型1的数据的采集请求,并接收到该待采集数据节点a基于采集请求返回的待采集数据类型1的数据,则不再重试采集。
90.进一步的,本技术实施例提供的一种可选实施方式中,所述从所述待采集数据节点采集对应的待采集数据类型的数据之后,还包括:
91.按照预设聚合策略,对采集的数据进行聚合并上报。
92.实际应用中,由于按照待采集数据类型对数据进行采集,因此采集的数据较为零散,因此,可以在采集数据之后,对采集的数据进行聚合并上报,以便对采集的数据进行分析管理。
93.其中,所述预设聚合策略,是指对采集的数据进行汇总(聚合)的策略,比如按照节点标识的维度进行聚合或按照待采集数据类型的维度进行聚合,此外,还可以将上述聚合作为第一次聚合,且该预设聚合策略中除上述聚合策略之外,还可以包括第二次聚合策略,比如根据数据量聚合或是根据采集时间聚合等,在此不做限制。
94.实际应用中,第二次聚合策略,可以根据当前的网络传输状况、系统当前时间段的忙闲情况等因素,在保证数据需求方时效性需求的前提下,动态地调节聚合数据量或聚合时间的数值,以实现调节负载、节省资源的目的。
95.具体的,以待采集数据节点为cdn节点为例,可以先根据相同的cdn节点(通过节点标识区分cdn节点,比如cnd_1,cdn_2

cdn_n等),将不同待采集数据类型(比如icmp、snmp、http、tcp、bandwidth等数据类型)的数据进行第一次聚合,并按照1000条的数据量进行二次聚合并上报,即满1000条数据量上报一次,具体的聚合后的数据如图2(a)所示。
96.此外,还可以根据相同待采集数据类型,将不同cdn节点的数据进行第一次聚合,并且按照聚合时间区间,将2020

01

01 10:10:00~2020

01

01 10:10:03时间段内采集的数据进行第二次聚合并上报,具体的聚合后的数据如图2(b)所示。
97.具体实施时,在对采集的数据进行聚合之后,将采集的数据进行上报,这可以理解为将采集的数据上报(发送或上传等)至数据收拢服务或数据收拢节点,将采集的数据进行聚合上报,可以在单次上报中传输尽可能多的数据,降低数据收拢服务的流量压力,并提升传输效率。
98.进一步的,数据收拢服务或数据收拢节点用于对采集的数据进行收集,以便各个数据需求方从数据收拢服务或数据收拢节点拉取相应的数据并进行相应处理。
99.具体的,以待采集节点为cdn节点为例,采集节点对cdn节点的数据进行采集、聚合以及使用的示意图如图3所示,其中,资源管理用于对待采集的cdn节点进行配置,而采集节点在对cdn节点进行数据采集之前,先从资源管理获取待采集的cdn列表,cdn列表中包括待采集的cdn节点(比如节点标识)以及每个待采集的cdn节点需要采集的数据类型(即待采集数据类型),以便采集节点基于cdn列表采集节点对应的状态数据,并在采集完成后,对采集的数据进行聚合并上报至数据收拢服务,以便调度、数据存储、监控和/或其他服务/系统/平台,从数据收拢服务拉取聚合的数据进行相应的处理,其中,调度服务/系统/平台可以基于拉取的数据对cdn节点进行流量调度,数据存储服务/系统/平台(比如数据平台)用于对拉取的数据进行数据存储,以便后续对数据进行跟踪或分析,而监控服务/系统/平台用于对拉取的数据进行监控,以确定cdn节点是否存在异常状态并进行告警处理。
100.进一步的,本技术实施例提供的一种可选实施方式中,所述待采集数据节点包括:内容分发节点,所述数据包括:状态数据,相应地,所述数据采集方法,还包括:
101.基于采集的状态数据对内容分发节点的状态进行状态分析;
102.在分析结果为异常的情况下,针对异常的内容分发节点发送告警通知。
103.实际应用中,采集内容分发节点(cdn节点)的状态数据的目的是为了对cdn节点的
状态进行分析,具体的,基于状态数据对内容分发节点的状态进行状态分析,可以理解为将采集的状态数据与预先设置的正常状态下的状态数据阈值区间进行对比,若获取的状态数据处于预设的状态数据阈值区间,表明内容分发节点的节点状态为正常(即分析结果为正常),不做处理即可,若获取的状态数据处于预设的状态数据阈值区间之外,表明该内容分发节点的节点状态为异常(即分析结果为异常),需要针对异常的内容分发节点发送告警通知。
104.比如,对cdn节点的网络状态、通讯状态等进行分析,且在分析结果为异常的情况下,需要针对出现异常的内容分发节点(即故障节点)进行告警通知,具体的,该告警通知中可以包括:异常的内容分发节点的标识信息、以及异常的状态数据等信息,以便接收方可以基于该告警信息尽快对故障节点进行故障修复。
105.除了上述基于采集的状态数据进行告警处理之外,还可以基于状态数据对内容分发节点进行调度处理,以便尽快根据状态数据调整内容分发节点的状态,提高用户的访问体验,本技术实施例提供的一种可选实施方式中,所述待采集数据节点包括:内容分发节点,所述数据包括:状态数据;
106.相应地,所述从所述待采集数据节点采集对应的待采集数据类型的数据之后,还包括:
107.根据所述状态数据中的网络状态数据,对所述内容分发节点进行流量调度;和/或
108.在所述状态数据中的通讯状态数据异常的情况下,对所述内容分发节点进行移除处理。
109.具体的,所述网络状态数据包括snmp、带宽等数据,通讯状态数据包括:icmp、tcp数据等。
110.所述流量调度,可以理解为将访问量大的内容分发节点的访问量调度至访问量小的内容分发节点中。比如网络状态数据中的带宽大于预设带宽阈值时,表明对应的内容分发节点的流量很大,则可以将针对该内容分发节点的流量转移至其他带宽较小的内容分发节点中。
111.所述移除处理,可以理解为将cdn节点从对外服务中进行移除,即使通讯异常的cdn节点不对外提供访问服务。比如,某一内容分发节点的通讯状态数据异常,表明该内容分发节点不能正常通讯,为了避免影响用户的访问体验,则将该内容分发节点进行移除处理。
112.综上所述,本技术提供的数据采集方法,通过确定待采集数据节点以及所述待采集数据节点对应的待采集数据类型;基于所述待采集数据节点以及所述待采集数据类型,确定各个待采集数据类型对应的待采集数据节点的节点数量;基于所述节点数量,确定所述各个待采集数据类型对应的采集周期;根据所述采集周期,从所述待采集数据节点采集对应的待采集数据类型的数据。实现了基于不同待采集数据类型对应的待采集数据节点的节点数量,动态地调整待采集数据类型的采集周期,以便保障数据采集的时效性,并提高数据采集效率。
113.下述结合附图4,以本技术提供的数据采集方法在直播场景的应用为例,对所述数据采集方法进行进一步说明。其中,图4示出了本技术一实施例提供的一种应用于直播场景的数据采集方法的处理流程图,具体包括以下步骤:
114.步骤402:通过采集节点从cdn节点采集数据。
115.具体的,采集方式可以参考上述方法实施例,在此不做赘述。其中,cdn节点数量为至少一个,采集的数据可以包括::icmp、snmp、http、tcp、带宽等状态数据,其中,icmp用于判断网络通不通、主机是否可达等;snmp用于采集cdn节点的流量以计算带宽;http,用于判断cdn节点的http服务是否正常;tcp用于判断cdn节点在传输层的通信状态是否正常;带宽用于判断cdn节点的网络访问量。
116.步骤404:通过采集节点聚合数据并将数据上报至数据收拢服务。
117.具体的,采集节点将从cdn节点采集的数据进行聚合处理,具体的,可以根据cdn节点id(标识)以及数据数量(比如1000条进行聚合),此外,还可以根据数据类型(即上述方法实施例中的待采集数据类型)、数据采集时间聚合,并将聚合后的数据上报至数据收拢服务。
118.步骤406:通过数据收拢服务聚合数据。
119.具体的,数据收拢服务可以根据不同的数据需求方(比如调度、数据平台、或其他系统或服务)的数据需求,在上述数据聚合(第一次数据聚合)的基础上,进行第二次数据聚合,形成结构化的数据。
120.步骤408:通过数据收拢服务定时将结构化的数据从存储中缓存到内存中。
121.具体的,可以预设周期,将上述第二次聚合后的数据从存储中缓存到内存中,以便增加针对该结构化数据的获取效率。
122.步骤410:在数据需求方向数据收拢服务发送拉取请求的情况下,通过数据收拢服务基于所述拉取请求向数据需求方返回对应的数据。
123.实际应用中,数据需求方(比如调度、数据平台、或其他系统或服务)可以定期向数据收拢服务发送拉取请求。
124.综上所述,本技术提供的数据采集方法,通过对从cdn节点进行数据采集,并对采集到的数据进行数据集合并存储于内存中,提高了数据存储的效率,也便于数据需求方从内存中拉取相应的数据,加快了数据需求方的拉取速率。
125.下述结合附图5,以本技术提供的数据采集方法在点播场景的应用为例,对所述数据采集方法进行进一步说明。其中,图5示出了本技术一实施例提供的一种应用于点播场景的数据采集方法的处理流程图,具体包括以下步骤:
126.步骤502:从预设位置获取内容分发节点的采集配置信息,基于所述采集配置信息确定所述内容分发节点以及所述内容分发节点对应的待采集数据类型。
127.具体的,在视频点播的场景下,待采集的数据类型可以包括:访问量类型、加载时长类型、码率类型等数据类型,通过这些数据即可对内容分发节点的视频点播状态进行监控和分析。
128.步骤504:基于所述内容分发节点以及所述待采集数据类型,确定针对各个待采集数据类型对应的内容分发节点的节点数量。
129.步骤506:确定所述各个待采集数据类型对应的类型系数。
130.步骤508:根据所述节点数量、所述类型系数以及当前设备的性能参数,计算所述待采集数据类型对应的采集周期。
131.其中,所述节点数量与所述采集周期成正比。
132.步骤510:根据所述采集周期,向所述内容分发节点发送采集对应的待采集数据类型的数据的采集请求。
133.步骤512:在所述待采集数据类型对应的预设采集时长内未接收到对应的数据的情况下,将所述采集的超时次数加一。
134.步骤514:判断所述超时次数是否到达预设次数。
135.步骤516:在未到达预设次数的情况下,返回上述步骤510。
136.在到达预设次数的情况下,不再对超时的内容分发节点进行数据采集。
137.步骤518:在所述待采集数据类型对应的预设采集时长内接收到对应的数据的情况下,按照预设聚合策略,对采集的数据进行聚合并上报。
138.综上所述,本技术提供的数据采集方法,通过确定内容分发节点以及所述内容分发节点对应的待采集数据类型;基于所述内容分发节点以及所述待采集数据类型,确定针对各个待采集数据类型对应的内容分发节点的节点数量;基于所述节点数量,确定所述各个待采集数据类型对应的采集周期;根据所述采集周期,从所述内容分发节点采集对应的待采集数据类型的数据。实现了基于不同待采集数据类型对应的内容分发节点的节点数量,动态地调整待采集数据类型的采集周期,以便保障数据采集的时效性,并提高数据采集效率。
139.与上述方法实施例相对应,本技术还提供了数据采集装置实施例,图6示出了本技术一实施例提供的一种数据采集装置的结构示意图。如图6所示,该装置包括:
140.确定模块602,被配置为确定待采集数据节点以及所述待采集数据节点对应的待采集数据类型;
141.确定数量模块604,被配置为基于所述待采集数据节点以及所述待采集数据类型,确定各个待采集数据类型对应的待采集数据节点的节点数量;
142.确定周期模块606,被配置为基于所述节点数量,确定所述各个待采集数据类型对应的采集周期;
143.采集模块608,被配置为根据所述采集周期,从所述待采集数据节点采集对应的待采集数据类型的数据。
144.可选地,所述确定周期模块606,进一步被配置为:
145.确定所述各个待采集数据类型对应的类型系数;
146.根据所述节点数量、所述类型系数以及当前设备的性能参数,计算所述待采集数据类型对应的采集周期,其中,所述节点数量与所述采集周期成正比。
147.可选地,所述采集模块608,进一步被配置为:
148.向所述待采集数据节点发送采集对应的待采集数据类型的数据的采集请求;
149.接收所述待采集数据节点基于所述采集请求返回的所述数据;
150.相应的,所述数据采集装置,还包括:
151.在所述待采集数据类型对应的预设采集时长内未接收到对应的数据的情况下,返回执行所述采集模块608。
152.可选地,所述采集模块608,进一步被配置为:
153.在所述待采集数据类型对应的预设采集时长内未接收到对应的数据的情况下,将所述采集的超时次数加一;
154.判断所述超时次数是否到达预设次数;
155.若否,返回执行所述向所述待采集数据节点发送采集对应的待采集数据类型的数据的采集请求。
156.可选地,所述采集模块608,进一步被配置为:
157.按照所述采集周期以及所述待采集数据类型的优先级,从所述待采集数据节点采集对应的待采集数据类型的数据。
158.可选地,所述确定模块602,进一步被配置为:
159.从预设位置获取所述待采集数据节点的采集配置信息,基于所述采集配置信息确定所述待采集数据节点以及所述待采集数据节点对应的待采集数据类型。
160.可选地,所述数据采集装置,还包括:
161.聚合模块,被配置为按照预设聚合策略,对采集的数据进行聚合并上报。
162.可选地,所述待采集数据节点包括:内容分发节点,所述数据包括:状态数据;
163.相应地,所述数据采集装置,还包括:
164.调度模块,被配置为根据所述状态数据中的网络状态数据,对所述内容分发节点进行流量调度;和/或
165.移除模块,被配置为在所述状态数据中的通讯状态数据异常的情况下,对所述内容分发节点进行移除处理。
166.可选地,所述待采集数据节点包括:内容分发节点,所述数据包括:状态数据,相应地,所述数据采集装置,还包括:
167.分析模块,被配置为基于采集的状态数据对内容分发节点的状态进行状态分析;
168.发送模块,被配置为在分析结果为异常的情况下,针对异常的内容分发节点发送告警通知。
169.综上所述,本技术提供的数据采集装置,通过确定待采集数据节点以及所述待采集数据节点对应的待采集数据类型;基于所述待采集数据节点以及所述待采集数据类型,确定各个待采集数据类型对应的待采集数据节点的节点数量;基于所述节点数量,确定所述各个待采集数据类型对应的采集周期;根据所述采集周期,从所述待采集数据节点采集对应的待采集数据类型的数据。实现了基于不同待采集数据类型对应的待采集数据节点的节点数量,动态地调整待采集数据类型的采集周期,以便保障数据采集的时效性,并提高数据采集效率。
170.上述为本实施例的一种数据采集装置的示意性方案。需要说明的是,该数据采集装置的技术方案与上述的数据采集方法的技术方案属于同一构思,数据采集装置的技术方案未详细描述的细节内容,均可以参见上述数据采集方法的技术方案的描述。
171.图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
172.计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域
网(wlan)无线接口、全球微波互联接入(wi

max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
173.在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
174.计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
175.其中,处理器720执行所述计算机指令时实现所述的数据采集方法的步骤。
176.上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据采集方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据采集方法的技术方案的描述。
177.本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,所述计算机指令被处理器执行时实现如前所述数据采集方法的步骤。
178.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据采集方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据采集方法的技术方案的描述。
179.上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
180.所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
181.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
182.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
183.以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1