流计算方法、流计算装置、流计算系统及介质与流程

文档序号：20617111发布日期：2020-05-06 20:17阅读：140来源：国知局

本发明涉及数据处理领域，尤其涉及流计算方法、流计算装置、流计算系统及计算机可读存储介质。

背景技术：

在传统的数据处理流程中，总是先收集数据，然后将数据放到数据库中。当人们需要得到答案或进行相关的处理时，可以通过数据库对数据做查询操作。这样看起来虽然非常合理，但是结果却非常的紧凑，尤其是在面对一些实时搜索应用环境中的某些具体问题时，并不能很好地解决问题。这就引出了一种新的数据计算结构——流计算方式。在流计算过程中，为提高数据处理的准确性，需要使每条输入消息只影响最终结果一次，即使出现机器故障或软件崩溃，也要保证不会有数据被重复处理。

传统的流计算过程中，只能基于flink(弗林克，一种开源流处理框架)实现仅一次处理。但flink框架较为复杂，无法解决简单独立的java或c++程序的仅一次处理，而且必须使用特点的下游组件，无法支持数据库等其它下游组件。这样存在流计算的兼容性较差的缺点。

技术实现要素：

本发明的主要目的在于提供一种流计算方法、流计算装置、流计算系统及计算机可读存储介质，旨在达成提升流计算的兼容性的效果。

为实现上述目的，本发明提供一种流计算方法，所述流计算方法包括以下步骤：

流计算系统读取源端数据；

将所述源端数据写入目标端，以在所述目标端中生产带编号的消息，其中，所述编号与所述消息一一对应，且所述编号单调递增；

应用端对所述编号进行去重，并根据去重后的所述编号在所述目标端中读取所述编号对应的所述消息。

可选地，所述将所述源端数据写入目标端，以在所述目标端中生产带编号的消息的步骤之后，还包括：

判断所述源端数据是否写入失败；

在所述源端数据写入失败时，执行所述将所述源端数据写入目标端的步骤。

可选地，所述应用端根据所述编号在所述目标端中读取所述编号对应的所述消息的步骤包括：

获取当前读取动作对应的第一编号和前一次读取动作对应的第二编号；

在所述第一编号大于所述第二编号时，读取所述第一编号对应的消息。

可选地，所述获取当前读取动作对应的第一编号和前一次读取动作对应的第二编号的步骤之后，还包括：

在所述第一编号小于或等于所述第二编号时，忽略所述第一编号，并执行下一次读取动作。

可选地，所述流计算方法还包括：

所述流计算系统异常重启后，读取所述目标端中最后一条所述消息对应的所述编号；

根据所述编号确定读取源端数据时的起始点，并基于所述启示点执行所述流计算系统读取源端数据的步骤。

可选地，所述应用端对所述编号进行去重，并根据去重后的所述编号在所述目标端中读取所述编号对应的所述消息的步骤之后，还包括：

获取每一所述消息的业务时间戳及/或业务字段；

根据所述业务时间戳及/或所述业务字段对所述消息进行排序；

所述应用端根据所述排序顺序对所述消息进行处理。

此外，为实现上述目的，本发明还提供一种流计算装置，所述流计算装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的流计算装置的控制程序，所述流计算装置的控制程序被所述处理器执行时实现如上所述的流计算方法的步骤。

此外，为实现上述目的，本发明还提供一种流计算系统，所述流计算系统包括数据源端，目标端和应用端，所述流计算系统设置为将数据源端的源端数据读取并写入所述目标端的消息列队，以使应用端根据消息编号在所述消息列队中读取消息。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有流计算装置的控制程序，所述流计算装置的控制程序被处理器执行时实现如上所述的流计算方法的步骤。

本发明实施例提出的一种流计算方法、流计算装置及计算机可读存储介质，流计算系统先读取源端数据，然后将所述源端数据写入目标端，以在所述目标端中生产带编号的消息，其中，所述编号与所述消息一一对应，且所述编号单调递增，并应用端根据所述编号在所述目标端中读取所述编号对应的所述消息，由于所述编号与消息一一对应且单调递增，因此可以根据所述标号进行下游去重，以避免同一输入对输出造成多次影响，同时，由于流计算系统根据消息编号实现仅一次处理，从而达成提升流计算的兼容性的效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图；

图2为本发明流计算方法一实施例的流程示意图；

图3为本发明另一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为解决上述缺陷，本发明实施例主要提供一种流计算方法，其主要解决方案为：

流计算系统读取源端数据；

将所述源端数据写入目标端，以在所述目标端中生产带编号的消息，其中，所述编号与所述消息一一对应，且所述编号单调递增；

应用端对所述编号进行去重，并根据去重后的所述编号在所述目标端中读取所述编号对应的所述消息。

由于所述编号与消息一一对应且单调递增，因此可以根据所述标号进行下游去重，以避免同一输入对输出造成多次影响，同时，由于流计算系统根据消息编号实现仅一次处理，从而达成提升流计算的兼容性的效果。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端可以是计算机或者服务器等终端设备。

如图1所示，该终端可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)、鼠标等，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及流计算装置的控制程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；处理器1001可以用于调用存储器1005中存储的流计算装置的控制程序，并执行以下操作：

流计算系统读取源端数据；

将所述源端数据写入目标端，以在所述目标端中生产带编号的消息，其中，所述编号与所述消息一一对应，且所述编号单调递增；

应用端对所述编号进行去重，并根据去重后的所述编号在所述目标端中读取所述编号对应的所述消息。