一种基于概率的数据流处理方法及系统

文档序号:29864750发布日期:2022-04-30 12:25阅读:61来源:国知局
一种基于概率的数据流处理方法及系统

1.本发明涉及数据处理技术领域,更具体地说,特别涉及一种基于概率的数据流处理方法及系统。


背景技术:

2.随着社会科技的飞速发展,当今已经进入了大数据时代。每天都有源源不断地来自教育、医疗、交通、电信等诸多领域的数据在网络中传输与存储。以传感器设备和智能终端设备为代表的信息数据自动化设备已经可以较为精确的对现实世界进行感知、测绘与监控。为了充分挖掘这些设备产生的数据背后的信息,需要一个系统来将这些信息串联起来,以实现对这些设备的智能化识别、定位、监控管理与跟踪。
3.面向海量数据的不确定性,复杂事件流数据处理受到越来越多人们的关注。其中概率数据库管理系统可以对不确定事件数据进行复杂事件查询处理,但是它们无法在实时更新的流上进行复杂事件处理。此外,还有一些其他的不确定事件数据建模的方法,但是这类方法都不具备对动态不确定数据处理的能力。针对复杂事件处理,国外研究的比较有代表性的系统有sase、cascadia、lahar等,但是每个系统都有一些各自的不足,例如sase没有考虑数据的不确定性,cascadia和lahar考虑了不确定数据处理,但是cascadia没有对概率事件检测与概率计算作相关研究,而lahar对于复杂事件检测也只基于特定的概率事件模型。总体来看,不确定数据处理在国内外已经有一些研究成果,但是相关技术还是不太成熟,存在较多的不足。亟待解决的问题主要是如何从实时、海量的不确定数据流中高效、准确的推理出复杂事件以及如何在相关规则和输入事件流存在概率属性的情况下运行复杂事件的智能推理。


技术实现要素:

4.本发明的目的在于提供一种基于概率的数据流处理方法及系统,以克服现有技术所存在的缺陷。
5.为了达到上述目的,本发明采用的技术方案如下:
6.一种基于概率的数据流处理方法,包括以下步骤:
7.s1、对读取的传感器数据进行预处理;
8.s2、将预处理后的数据存入数据湖中,并根据传感器时间戳与事件的发生时间段将数据湖中的数据分为多个数据池;
9.s3、根据任务或场景提取关联规则,并在所述关联规则中加入概率属性;
10.s4、基于专家知识或可信度阈值对所述规则进行评估,若评估结果达到预期值则将所述规则更新至知识库中,否则重新执行步骤s3;
11.s5、将读取的传感器数据抽象为带概率的数据流;
12.s6、利用所述知识库中的规则,在推断引擎中采用预设的推理机制对所述带概率的数据流进行推理;
13.s7、输出所述推理的结果。
14.进一步地,所述步骤s1具体为,对读取的传感器数据进行清洗和过滤预处理,以去除冗余数据、数据缺失和光滑噪声。
15.进一步地,所述步骤s3中提取关联规则的方法为:针对采集的多传感器同一时段各属性特征与目标事件类型之间采用数据挖掘c4.5或cart算法挖掘其中的综合特征,形成规则集;针对同一时间简单事件序列采用apriori或fp-growth类似算法从事务数据中提取出关联规则。
16.进一步地,所述步骤s3中在所述关联规则中加入概率属性的公式表示为:
17.if[e1(w1)&e2(w2)&

&en(wn)]then[h(cf)]
[0018]
其中,ei(i=1,2,

,n)表示条件,wi表示ei在此规则中的重要程度,h为结论,cf为该规则的可信度或规则强度。
[0019]
进一步地,所述步骤s4中在所述规则更新至知识库之前还包括对所述规则进行冲突检测的步骤。
[0020]
进一步地,所述步骤s6中的推断引擎为有向无环图,其中,以原始事件或低层次的复杂事件为有向无环图的节点,以规则作为有向无环图的边,在推理过程中通过节点记录检测到的事件,通过边判断该事件能否与附近节点相连,直至完成所有节点的标记。
[0021]
进一步地,所述步骤s6中的推理机制为贝叶斯网络。
[0022]
本发明还提供一种上述的基于概率的数据流处理方法的系统,包括:
[0023]
数据处理中间件模块,用于对读取的传感器数据进行预处理;
[0024]
数据存储模块,用于将预处理后的数据存入数据湖中,并根据传感器时间戳与事件的发生时间段将数据湖中的数据分为多个数据池;
[0025]
规则提取模块,用于根据任务或场景提取关联规则,并在所述关联规则中加入概率属性;
[0026]
评估更新模块,用于基于专家知识或可信度阈值对所述规则进行评估,若评估结果达到预期值则将所述规则更新至知识库中,否则重新执行;
[0027]
数据流模块,用于将读取的传感器数据抽象为带概率的数据流;
[0028]
推理模块,用于利用所述知识库中的规则,在推断引擎中采用预设的推理机制对所述带概率的数据流进行推理;
[0029]
输出模块,用于输出所述推理的结果。
[0030]
与现有技术相比,本发明的优点在于:本发明引入数据湖的概念,可以对异构、海量和分散的传感器数据进行存储,还通过带有概率属性的规则表示方法来表示不确定数据,最后采用基于贝叶斯网络对复杂事件概率流进行处理,更适应复杂场景,进而实现了基于概率的数据流处理。
附图说明
[0031]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]
图1是本发明基于概率的数据流处理方法的流程图。
[0033]
图2是本发明基于概率的数据流处理系统的原理图。
具体实施方式
[0034]
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
[0035]
参阅图1所示,本实施例公开了一种基于概率的数据流处理方法,包括以下步骤:
[0036]
步骤s1、数据预处理,具体为:对读取的传感器数据进行预处理。该步骤主要通过数据处理中间件模块来完成。数据处理中间件模块是位于底层读写器和上层具体应用之间的支撑性模块。该模块首先接收传感器读写器读到的传感器数据(传感器电子标签数据),然后经过简单的数据的清洗和过滤后以支持上层应用。其中数据清洗和过滤可以去除传感器中存在的冗余数据、数据缺失和光滑噪声等。
[0037]
具体的,对于冗余数据,采用检测去重;对于噪声数据,系统提供聚类、分箱、回归函数进行平滑处理;对于缺失数据,可以采用人工填写、忽略元组以及补充的方式处理。
[0038]
步骤s2、传感器数据存储,由于传感器数据包含系统感知的丰富信息,是后续数据分析应用的基础,因此有必要对传感器的原始进行存储,针对传感器数据量大且复杂问题,本实施例引入数据湖、数据池的概念对数据进行管理。具体步骤为:
[0039]
首先将步骤s1预处理后的数据存入数据湖中,然后根据传感器时间戳与事件的发生时间段将数据湖中的数据细分为一个一个的数据池,从而方便的发现数据之间的相关关系。
[0040]
步骤s3、根据任务或场景提取关联规则,并在所述关联规则中加入概率属性。
[0041]
具体的,规则的表示方式方法多种多样,本实施例考虑到传感器类型的多样性和复杂性,采用了一种改进的产生式规则表示方法,即在标准的产生式规则的前提下引入了概率属性来表示传感器数据的不确定性。采用公式可以表示为:
[0042]
if[e1(w1)&e2(w2)&

&en(wn)]then[h(cf)]
[0043]
其中,ei(i=1,2,

,n)表示条件,wi表示ei在此规则中的重要程度,即权值,h为结论,cf为该规则的可信度或规则强度。当wi=1,且cf=1时,上述公式就变成了“非模糊产生式规则”,即标准的产生式规则,因此,采用加权模糊产生式规则可以使规则库统一化。
[0044]
在上式中,对于通过数据挖掘等智能化方法获取的知识,wi可以通过相应的算法自动获取,可以根据不同的场景采取不同的算法,例如c4.5、cart、apriori、fp-growth等算法;而对于从领域专家获取的经验性知识,一般具有模糊性、不确定性等特点,需要采用相应的技术手段来确定wi的取值。由于模糊逻辑在处理不确定性问题中所表现出的固有优势,因此,可通过引入现有技术中模糊逻辑的有关理论和技术来表达知识的模糊性和不确定性,从而确定wi的取值。
[0045]
此外,针对不同的任务、场景,需要提取的规则知识也不尽相同。例如针对系统中采集的多传感器同一时段各属性特征与目标事件类型之间可以采用数据挖掘c4.5、cart等算法挖掘其中的综合特征,形成规则集。针对同一时间简单事件序列同样可以采用类似算法像apriori、fp-growth从事务数据中提取出关联规则。
[0046]
步骤s4、基于专家知识或可信度阈值对所述规则进行评估,若评估结果达到预期
值则将所述规则更新至知识库中,否则重新执行步骤s3。
[0047]
具体的,在此之前还包括对所述规则进行冲突检测的步骤,避免重复或者冗余的规则。
[0048]
步骤s5、将读取的传感器数据抽象为带概率的数据流。
[0049]
具体的,传感器数据一般是以流的形式快速连续地产生地,所以一般将传感器数据看作一个数据流。而普通的传感器数据流可以看作基本事件组成地一个数据流,一个基本事件由一个四元组event《eventid,readerid,tagid,timestamp》组成,其中eventid为事件的id,readerid为检测到事件的阅读器的id,tagid为识别到的对象上电子标签的id,也可直接看作为对象id,timestamp为事件发生的时间戳。在本实施例中,将传感器数据数据抽象为一个带概率的数据流。与确定传感器数据不同,不确定数据的在基本事件的信息之外,还有与事件相对应的概率参数,表示实际情况中这次观测到的事件客观发生的可能性大小。当然从阅读器读到的原始传感器数据中抽取出带概率的数据流是个复杂的问题,需要经过清洗、过滤和概率抽取等步骤进行处理,然后将不确定数据抽象为一个带概率的数据流。
[0050]
本实施例中,不确定数据的概率参数通过使用贝叶斯网络获得。将多传感器数据构成相关概率表,一方面结合传感器数据之间的关联关系,另一方面,结合现象的经验推理,去估计事件发生的概率。
[0051]
步骤s6、利用所述知识库中的规则,在推断引擎中采用预设的推理机制对所述带概率的数据流进行推理。
[0052]
本实施例中,推断引擎采用有向图的处理方法。使用有向无环图进行建模处理,该模型涉及两部分,即事件的检测以及节点间的有向连接。网络中的节点代表原始事件或者低层次的复杂事件,也可以表示合成信息,边表示事件之间的规则。在检测的过程中,节点记录检测到的事件,通过边来判断该事件能否与附近节点相连,当所有节点都被标记时,一个复杂事件检测过程完成。
[0053]
本实施例中,推理机制使用贝叶斯网络进行事件概率推理。贝叶斯网络即是一种概率网络,其是一种基于概率推理的图形化网络,可以对事件网络中的任意的节点进行推理。因此,通过建立贝叶斯网络可以推理出概率流中的概率事件的概率分布。很多时候两个相邻的概率事件是不一定有依赖关系的,如前一时刻的概率事件是检测到物体数量的变化而不是物体位置的改变,那么它和下一时刻检测到物体位置变化就没有关系。因此,前后时刻事件是不一定有关联的。而本实施例采用地概率事件模型不仅满足简单的马尔科夫模型,而是比马尔科夫模型更复杂的贝叶斯网模型,从而使推断引擎能更加接近现实情况。
[0054]
步骤s7、输出所述推理的结果,可以通过终端或界面输出,同时本实施例也可以根据外界系统的需求输出响应结果。
[0055]
参阅图2所示,本发明还提供一种上述的基于概率的数据流处理方法的系统,包括:数据处理中间件模块1,用于对读取的传感器数据进行预处理;数据存储模块2,用于将预处理后的数据存入数据湖中,并根据传感器时间戳与事件的发生时间段将数据湖中的数据分为多个数据池;规则提取模块3,用于根据任务或场景提取关联规则,并在所述关联规则中加入概率属性;评估更新模块4,用于基于专家知识或可信度阈值对所述规则进行评估,若评估结果达到预期值则将所述规则更新至知识库中,否则重新执行;数据流模块5,用
于将读取的传感器数据抽象为带概率的数据流;推理模块6,用于利用所述知识库中的规则,在推断引擎中采用预设的推理机制对所述带概率的数据流进行推理;输出模块7,用于输出所述推理的结果。
[0056]
虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1