一种海量数据的信息处理方法及装置的制造方法
【专利摘要】本发明公开了一种海量数据的信息处理方法及装置,解决目前在对数据相关性获取的过程中,存在无法获取数据序列变量和事件变量之间相关性的问题。本发明实施例中,分别从每一个数据源获取数据序列以及事件信息集合;将获取的数据源的数据序列和事件信息集合输入预设的海量数据信息处理模型,从而输出数据序列与事件信息集合中任意时间信息之间的相关性结果。采用本发明技术方案,基于多个数据源的事件信息,采用预设的海量数据信息处理模型即可获取每一种事件信息与数据序列的关联性,无须人工判定,有效节约了人力资源,并保证了获取的结果的准确性。
【专利说明】
-种海量数据的信息处理方法及装置
技术领域
[0001] 本发明设及数据处理领域,尤其设及一种海量数据的信息处理方法及装置。
【背景技术】
[0002] 目前,对获取到的数据进行处理,W确定不同类型数据之间的相关性,对于行业发 展有着至关重要的作用。例如,在医学领域,探究人体疾病的诱发原因时,常常需要关联分 析患者的疾病和生活习惯之间的相关性,如分析吸烟习惯和患肺癌的相关性;又如,在金融 领域,也常常需要关联分析不同股票的价格波动的相关性。
[0003] 在现有技术中,数据之间的相关性分析仅局限于同类型数据之间,如是否吸烟和 是否患肺癌,都属于事件类型,两支股票价格均为随时间变化的数据序列,该数据序列中包 含取值为整数、小数或者空的数据。然而,随着科技的迅猛发展,不同业务之间的相互交叉 也越来越频繁,使得挖掘数据序列变量和事件变量之间的相关性也变成越来越重要。
[0004] 目前,针对两个事件类型变量之间相关性,主要采用卡方检验(chi-squared test)方法获取;而针对两个数据序列之间的相关性,主要通过皮尔逊相关系数 任earson' S correlation coefficient)方法获取,上述两种方式均不能相互使用,因此, 目前仅能获取不同数据序列之间的相关性,或者不同事件信息集合之间的相关性,而针对 数据序列和事件信息集合之间的相关性的获取,需要通过人工实现,缺乏定性定量的分析 技术方法。
[0005] 由此可见,目前在对数据相关性获取的过程中,存在无法获取数据序列变量和事 件变量之间相关性的问题。
【发明内容】
[0006] 本发明实施例提供一种海量数据的信息处理方法及装置,用W解决目前在对数据 相关性获取的过程中,存在无法获取数据序列变量和事件变量之间相关性的问题。
[0007] 本发明实施例提供的具体技术方案如下:
[0008] 第一方面,提供一种海量数据的信息处理方法,包括:从至少一个数据源获取数据 序列和事件信息集合;其中,第一数据源的所述数据序列中包含所述第一数据源在η个采 集周期内所采集的数据,第一数据源为所述至少一个数据源中的任一数据源,所述第一数 据源的所述事件信息集合中包含所述第一数据源在所述η个采集周期内发生的事件的事 件信息,所述事件信息包括所述事件的事件类型,W及所述事件发生的起始时间和结束时 间;η为大于等于2的整数;通过海量数据信息处理模型将获取的所述数据序列和所述事件 信息集合进行处理,得到所述数据序列和所述事件信息集合中任一事件信息之间的相关性 结果;其中,所述海量数据信息处理模型用于根据所述至少一个数据源获取数据序列和事 件信息集合,确定所述数据序列和所述事件信息集合中任一事件信息之间的相关性结果。
[0009] 结合第一方面,在第一种可能的实现方式中,对于所述至少一个数据源中的每一 个数据源,均执行如下操作:在第一数据源的事件信息集合中,对所述第一数据源对应的第 一采集周期内的事件信息进行筛选,获取筛选事件信息,所述筛选事件信息为所述事件信 息集合中满足第一预设筛选条件的事件信息,将所述筛选事件信息存储至筛选事件信息集 合中;其中,所述第一采集周期为所述η个采集周期中的任一采集周期;从所述第一数据 源对应的η个采集周期内的数据序列中,选取筛选数据,其中,所述筛选数据为所述数据序 列中满足第二预设筛选条件的数据;根据所述筛选事件信息集合中包含的所述至少一个数 据源的筛选事件信息的事件类型,对所述筛选事件信息集合中包含的筛选事件信息进行分 类,获取每一种事件类型对应的筛选事件信息;从所述每一个数据源的筛选数据中,选取第 一事件类型对应的筛选事件信息的起始时间和结束时间之间的筛选数据;其中,所述第一 事件类型为所述筛选事件信息集合中包含的事件类型中的任一事件类型;根据获取的所述 第一事件类型对应的筛选事件信息的起始时间和结束时间之间的筛选数据,获取所述第一 事件类型的相关性指标;根据所述相关性指标获取所述数据序列和所述第一事件类型之间 的相关性结果。
[0010] 结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,在所述第 一数据源的事件信息集合中,对所述第一数据源对应的第一采集周期内的任一事件信息, 执行如下操作:根据所述第一事件信息的第一事件发生的起始时间和结束时间,确定所述 第一事件所对应的时间窗;其中,所述第一事件信息为所述第一数据源的事件信息集合中, 所述第一数据源对应的第一采集周期内的任一事件信息;当判定在所述第一事件所对应的 时间窗内,没有除所述第一事件之外的其他事件发生时,确定所述第一事件信息为所述筛 选事件信息并获取所述筛选事件信息。
[0011] 结合第一方面的第一种可能的实现方式或者第二种可能的实现方式,在第Ξ种可 能的实现方式中,从所述第一数据源对应的所述第一采集周期内的数据序列中,选取所述 第一数据源的每一个筛选事件信息的起始时间和结束时间之间的数据,将选取的所述数据 作为第一数据源对应的第一采集周期的筛选数据;W及从除所述第一采集周期之外的其 他采集周期中,选取在所述每一个筛选事件信息的所述起始时间和所述结束时间之间的数 据,并根据获取的数据确定所述第一数据源对应的所述其他采集周期的筛选数据;将所述 第一数据源对应的第一采集周期的筛选数据,W及所述第一数据源对应的所述其他采集周 期的筛选数据,确定为所述第一数据源的筛选数据。
[0012] 结合第一方面的第一种可能的实现方式至第Ξ种可能的实现方式中的任一种,在 第四种可能的实现方式中,对于事件类型为所述第一事件类型的第一筛选事件信息,根据 所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包 含的第一空类型筛选数据和第一非空类型筛选数据,获取所述第一筛选事件信息的第一特 性值和第二特性值;其中,所述第一特性值用于表征所述第一采集周期内的所述第一筛选 事件信息的起始时间和结束时间之间,所述第一空类型筛选数据的出现概率,所述第二特 性值用于表征所述第一采集周期内的所述第一筛选事件信息的起始时间和结束时间之间, 所述第一非空类型筛选数据的平均值;所述第一筛选事件信息为事件类型为所述第一事件 类型的任一筛选事件信息;对于事件类型为所述第一事件类型的第一筛选事件信息,根据 所述其他采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包 含的第二空类型筛选数据和第二非空类型筛选数据,获取所述第一筛选事件信息的第Ξ特 性值和第四特性值;其中,所述第Ξ特性值用于表征所述η个采集周期内的所述第一筛选 事件信息的起始时间和结束时间之间,所述第二空类型筛选数据的出现概率,所述第四特 性值用于表征所述η个采集周期内的所述第一筛选事件信息的起始时间和结束时间之间, 所述第二非空类型的所述筛选数据的平均值;对于事件类型为所述第一事件类型的第一筛 选事件信息,获取所述第一筛选事件信息的第一特性值和第Ξ特性值的差值,将所述差值 确定为所述第一筛选事件信息的第一增量值;W及获取所述第一筛选事件信息的第二特性 值和第四特性值的差值,将所述差值确定为所述第一筛选事件信息的第二增量值;其中,所 述第一增量值用于表征在所述第一采集周期内,所述第一筛选事件信息的起始时间和结束 时间之间,所述第一空类型筛选数据的出现概率相对于所述η个采集周期内的所述起始时 间和结束时间之间所述第二空类型筛选数据的出现概率的增量,所述第二增量值用于表征 在所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之间,第一非空类 型筛选数据的平均值相对于所述η个采集周期内的所述起始时间和结束时间之间第二非 空类型筛选数据的平均值的增量;分别获取事件类型为所述第一事件类型的每一个筛选事 件信息的第一增量值和第二增量值;根据获取的所述每一个筛选事件信息的第一增量值和 第二增量值,确定所述第一事件类型的相关性指标。
[0013] 结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,从所述第 一采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第 一空类型筛选数据;并根据所述第一空类型筛选数据,所述第一筛选事件信息所对应的时 间窗,采用指示函数,获取所述第一筛选事件信息的第一特性值;从所述第一采集周期内, 所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第一非空类型筛选 数据;并根据所述第一非空类型筛选数据,所述第一筛选事件信息所对应的时间窗,采用指 示函数,获取所述筛选事件信息的第二特性值。
[0014] 结合第一方面的第四种可能的实现方式,在第六种可能的实现方式中,从所述其 他采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第 二空类型筛选数据;并根据所述第二空类型筛选数据,所述其他采集周期内的第一筛选事 件信息的起始时间和结束时间之间的筛选数据的数目,采用指示函数,获取所述筛选事件 信息的第Ξ特性值;从所述其他采集周期内,所述第一筛选事件信息的起始时间和结束时 间之间的筛选数据中,选取第二非空类型筛选数据;并根据所述第二非空类型筛选数据,所 述其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数据,所述其他 采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数据的数目,采用指示 函数,获取所述筛选事件信息的第四特性值。
[0015] 结合第一方面的第四种可能的实现方式至第六种可能的实现方式,在第屯种可能 的实现方式中,根据事件类型为所述第一事件类型的所有筛选事件信息的第一增量值,确 定所述第一事件类型的第一相关性指标;其中,第一相关性指标用于表征空类型数据的出 现概率与发生对应于所述第一事件类型的事件相关;或者,从事件类型为所述第一事件类 型的所述筛选事件信息的第二增量值中,选取大于预设阔值的第二增量值,并根据选取的 大于预设阔值的第二增量值,确定所述第一事件类型的第二相关性指标;其中,所述第二相 关性指标用于表征当发生对应于所述第一事件类型的事件时,数据取值增大的概率;或者, 从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取小于预设阔值 的第二增量值,并根据选取的小于预设阔值的第二增量值,确定所述第一事件类型的第Ξ 相关性指标;其中,所述第Ξ相关性指标用于表征当发生对应于所述第一事件类型的事件 时,数据取值减小的概率;或者,从事件类型为所述第一事件类型的所述筛选事件信息的第 二增量值中,选取大于所述预设阔值的第二增量值,并根据选取的大于预设阔值的第二增 量值,W及事件类型为所述第一事件类型的所述筛选事件信息的第二增量值,确定所述第 一事件类型的第四相关性指标;其中,所述第四相关性指标用于表征当发生对应于所述第 一事件类型的事件时,数据平均值的增大量;或者,从事件类型为所述第一事件类型的所述 筛选事件信息的第二增量值中,选取小于所述预设阔值的第二增量值,并根据选取的小于 预设阔值的第二增量值,W及事件类型为所述第一事件类型的所述筛选事件信息的第二增 量值,确定所述第一事件类型的第五相关性指标;其中,所述第五相关性指标用于表征当发 生对应于所述第一事件类型的事件时,数据平均值的减小量。
[0016] 结合第一方面的第屯种可能的实现方式,在第八种可能的实现方式中,若所述第 一事件类型的第四相关性指标大于第一预设增大平均值阔值,且所述第一事件类型的第二 相关性指标与所述第一事件类型的第Ξ相关性指标的差值大于差值阔值,则确定所述相关 性结果为,所述第一事件类型和所述数据序列相关,且对应于所述第一事件类型的事件发 生,将引起所述数据序列中的数据取值增大,增大量为所述第四相关性指标;否则,若所述 第一事件类型的第五相关性指标小于第二预设增大平均值阔值,且所述第一事件类型的第 二相关性指标与所述第一事件类型的第Ξ相关性指标的差值大于所述差值阔值,则确定所 述相关性结果为,第一事件类型和所述数据序列相关,且对应于所述第一事件类型的事件 发生,将引起所述数据序列中的数据取值减小,减小量为所述第一事件类型的第五相关性 指标;若所述第一事件类型的第五相关性指标大于第二预设增大平均值阔值,或者所述第 一事件类型的第二相关性指标与所述第一事件类型的第Ξ相关性指标的差值小于所述差 值阔值,则当所述第一事件类型的第一相关性指标大于预设概率阔值时,确定所述相关性 结果为,所述第一事件类型和所述数据序列相关,且对应于所述第一事件类型的事件发生 将引起数据序列中空类型数据的出现概率增大。
[0017] 第二方面,提供一种海量数据的信息处理装置,包括:数据序列和事件信息集合获 取单元,从至少一个数据源获取数据序列和事件信息集合;其中,第一数据源的所述数据序 列中包含所述第一数据源在η个采集周期内所采集的数据,第一数据源为所述至少一个数 据源中的任一数据源,所述第一数据源的所述事件信息集合中包含所述第一数据源在所述 η个采集周期内发生的事件的事件信息,所述事件信息包括所述事件的事件类型,W及所述 事件发生的起始时间和结束时间;η为大于等于2的整数;相关性结果获取单元,用于通过 海量数据信息处理模型将所述数据序列和事件信息集合获取单元获取的所述数据序列和 所述事件信息集合进行处理,得到所述数据序列和所述事件信息集合中任一事件信息之间 的相关性结果;其中,所述海量数据信息处理模型用于根据所述至少一个数据源获取数据 序列和事件信息集合,确定所述数据序列和所述事件信息集合中任一事件信息之间的相关 性结果。
[0018] 结合第二方面,在第一种可能的实现方式,所述相关性结果获取单元,具体用于: 对于所述至少一个数据源中的每一个数据源,均执行如下操作:在第一数据源的事件信息 集合中,对所述第一数据源对应的第一采集周期内的事件信息进行筛选,获取筛选事件信 息,所述筛选事件信息为所述事件信息集合中满足第一预设筛选条件的事件信息,将所述 筛选事件信息存储至筛选事件信息集合中;其中,所述第一采集周期为所述η个采集周期 中的任一采集周期;从所述第一数据源对应的η个采集周期内的数据序列中,选取筛选数 据,其中,所述筛选数据为所述数据序列中满足第二预设筛选条件的数据;根据所述筛选事 件信息集合中包含的所述至少一个数据源的筛选事件信息的事件类型,对所述筛选事件信 息集合中包含的筛选事件信息进行分类,获取每一种事件类型对应的筛选事件信息;从所 述每一个数据源的筛选数据中,选取第一事件类型对应的筛选事件信息的起始时间和结束 时间之间的筛选数据;其中,所述第一事件类型为所述筛选事件信息集合中包含的事件类 型中的任一事件类型;根据获取的所述第一事件类型对应的筛选事件信息的起始时间和结 束时间之间的筛选数据,获取所述第一事件类型的相关性指标;根据所述相关性指标获取 所述数据序列和所述第一事件类型之间的相关性结果。
[0019] 结合第二方面的第一种可能的实现方式,在第二种可能的实现方式,所述相关性 获取单元单元,具体用于:在所述第一数据源的事件信息集合中,对所述第一数据源对应的 第一采集周期内的任一事件信息,执行如下操作:根据所述第一事件信息的第一事件发生 的起始时间和结束时间,确定所述第一事件所对应的时间窗;其中,所述第一事件信息为 所述第一数据源的事件信息集合中,所述第一数据源对应的第一采集周期内的任一事件信 息;当判定在所述第一事件所对应的时间窗内,没有除所述第一事件之外的其他事件发生 时,确定所述第一事件信息为所述筛选事件信息并获取所述筛选事件信息。
[0020] 结合第二方面的第一种可能的实现方式或第二种可能的实现方式,在第Ξ种可能 的实现方式中,所述相关性结果获取单元,具体用于:从所述第一数据源对应的所述第一采 集周期内的数据序列中,选取所述第一数据源的每一个筛选事件信息的起始时间和结束时 间之间的数据,将选取的所述数据作为第一数据源对应的第一采集周期的筛选数据;W及 从除所述第一采集周期之外的其他采集周期中,选取在所述每一个筛选事件信息的所述起 始时间和所述结束时间之间的数据,并根据获取的数据确定所述第一数据源对应的所述其 他采集周期的筛选数据;将所述第一数据源对应的第一采集周期的筛选数据,W及所述第 一数据源对应的所述其他采集周期的筛选数据,确定为所述第一数据源的筛选数据。
[0021] 结合第二方面的第一种可能的实现方式至第Ξ种可能的实现方式中任一种,在第 四种可能的实现方式中,所述相关性结果获取单元,具体用于:对于事件类型为所述第一事 件类型的第一筛选事件信息,根据所述第一采集周期内,所述第一筛选事件信息的起始时 间和结束时间之间的筛选数据中包含的第一空类型筛选数据和第一非空类型筛选数据,获 取所述第一筛选事件信息的第一特性值和第二特性值;其中,所述第一特性值用于表征所 述第一采集周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第一空类型 筛选数据的出现概率,所述第二特性值用于表征所述第一采集周期内的所述第一筛选事件 信息的起始时间和结束时间之间,所述第一非空类型筛选数据的平均值;所述第一筛选事 件信息为事件类型为所述第一事件类型的任一筛选事件信息;对于事件类型为所述第一事 件类型的第一筛选事件信息,根据所述其他采集周期内,所述第一筛选事件信息的起始时 间和结束时间之间的筛选数据中包含的第二空类型筛选数据和第二非空类型筛选数据,获 取所述第一筛选事件信息的第Ξ特性值和第四特性值;其中,所述第Ξ特性值用于表征所 述η个采集周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第二空类型 筛选数据的出现概率,所述第四特性值用于表征所述η个采集周期内的所述第一筛选事件 信息的起始时间和结束时间之间,所述第二非空类型的所述筛选数据的平均值;对于事件 类型为所述第一事件类型的第一筛选事件信息,获取所述第一筛选事件信息的第一特性值 和第Ξ特性值的差值,将所述差值确定为所述第一筛选事件信息的第一增量值;W及获取 所述第一筛选事件信息的第二特性值和第四特性值的差值,将所述差值确定为所述第一筛 选事件信息的第二增量值;其中,所述第一增量值用于表征在所述第一采集周期内,所述第 一筛选事件信息的起始时间和结束时间之间,所述第一空类型筛选数据的出现概率相对于 所述η个采集周期内的所述起始时间和结束时间之间所述第二空类型筛选数据的出现概 率的增量,所述第二增量值用于表征在所述第一采集周期内,所述第一筛选事件信息的起 始时间和结束时间之间,第一非空类型筛选数据的平均值相对于所述η个采集周期内的所 述起始时间和结束时间之间第二非空类型筛选数据的平均值的增量;分别获取事件类型为 所述第一事件类型的每一个筛选事件信息的第一增量值和第二增量值;根据获取的所述每 一个筛选事件信息的第一增量值和第二增量值,确定所述第一事件类型的相关性指标。
[0022] 结合第二方面的第四种可能的实现方式,在第五种可能的实现方式中,所述相关 性结果获取单元,具体用于:从所述第一采集周期内,所述第一筛选事件信息的起始时间和 结束时间之间的筛选数据中,选取第一空类型筛选数据;并根据所述第一空类型筛选数据, 所述第一筛选事件信息所对应的时间窗,采用指示函数,获取所述第一筛选事件信息的第 一特性值;从所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的 筛选数据中,选取第一非空类型筛选数据;并根据所述第一非空类型筛选数据,所述第一筛 选事件信息所对应的时间窗,采用指示函数,获取所述筛选事件信息的第二特性值。
[0023] 结合第二方面的第四种可能的实现方式,在第六种可能的实现方式中,所述相关 性结果获取单元,具体用于:从所述其他采集周期内,所述第一筛选事件信息的起始时间和 结束时间之间的筛选数据中,选取第二空类型筛选数据;并根据所述第二空类型筛选数据, 所述其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数据的数目, 采用指示函数,获取所述筛选事件信息的第Ξ特性值;从所述其他采集周期内,所述第一筛 选事件信息的起始时间和结束时间之间的筛选数据中,选取第二非空类型筛选数据;并根 据所述第二非空类型筛选数据,所述其他采集周期内的第一筛选事件信息的起始时间和结 束时间之间的筛选数据,所述其他采集周期内的第一筛选事件信息的起始时间和结束时间 之间的筛选数据的数目,采用指示函数,获取所述筛选事件信息的第四特性值。
[0024] 结合第二方面的第四种可能的实现方式至第六种可能的实现方式中的任一种,在 第屯种可能的实现方式中,所述相关性结果获取单元,具体用于:根据事件类型为所述第一 事件类型的所有筛选事件信息的第一增量值,确定所述第一事件类型的第一相关性指标; 其中,第一相关性指标用于表征空类型数据的出现概率与发生对应于所述第一事件类型的 事件相关;或者,从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选 取大于预设阔值的第二增量值,并根据选取的大于预设阔值的第二增量值,确定所述第一 事件类型的第二相关性指标;其中,所述第二相关性指标用于表征当发生对应于所述第一 事件类型的事件时,数据取值增大的概率;或者,从事件类型为所述第一事件类型的所述筛 选事件信息的第二增量值中,选取小于预设阔值的第二增量值,并根据选取的小于预设阔 值的第二增量值,确定所述第一事件类型的第Ξ相关性指标;其中,所述第Ξ相关性指标用 于表征当发生对应于所述第一事件类型的事件时,数据取值减小的概率;或者,从事件类型 为所述第一事件类型的所述筛选事件信息的第二增量值中,选取大于所述预设阔值的第二 增量值,并根据选取的大于预设阔值的第二增量值,W及事件类型为所述第一事件类型的 所述筛选事件信息的第二增量值,确定所述第一事件类型的第四相关性指标;其中,所述第 四相关性指标用于表征当发生对应于所述第一事件类型的事件时,数据平均值的增大量; 或者,从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取小于所 述预设阔值的第二增量值,并根据选取的小于预设阔值的第二增量值,W及事件类型为所 述第一事件类型的所述筛选事件信息的第二增量值,确定所述第一事件类型的第五相关性 指标;其中,所述第五相关性指标用于表征当发生对应于所述第一事件类型的事件时,数据 平均值的减小量。
[0025] 结合第二方面的第屯种可能的实现方式,在第八种可能的实现方式中,所述相关 性结果获取单元,具体用于:若所述第一事件类型的第四相关性指标大于第一预设增大平 均值阔值,且所述第一事件类型的第二相关性指标与所述第一事件类型的第Ξ相关性指标 的差值大于差值阔值,则确定所述相关性结果为,所述第一事件类型和所述数据序列相关, 且对应于所述第一事件类型的事件发生,将引起所述数据序列中的数据取值增大,增大量 为所述第四相关性指标;否则,若所述第一事件类型的第五相关性指标小于第二预设增大 平均值阔值,且所述第一事件类型的第二相关性指标与所述第一事件类型的第Ξ相关性指 标的差值大于所述差值阔值,则确定所述相关性结果为,第一事件类型和所述数据序列相 关,且对应于所述第一事件类型的事件发生,将引起所述数据序列中的数据取值减小,减小 量为所述第一事件类型的第五相关性指标;若所述第一事件类型的第五相关性指标大于第 二预设增大平均值阔值,或者所述第一事件类型的第二相关性指标与所述第一事件类型的 第Ξ相关性指标的差值小于所述差值阔值,则当所述第一事件类型的第一相关性指标大于 预设概率阔值时,确定所述相关性结果为,所述第一事件类型和所述数据序列相关,且对应 于所述第一事件类型的事件发生将引起数据序列中空类型数据的出现概率增大。
[00%] 本发明实施例中,分别从每一个数据源获取数据序列W及事件信息集合;将获取 的数据源的数据序列和事件信息集合输入预设的海量数据信息处理模型,从而输出数据序 列与事件信息集合中任意时间信息之间的相关性结果。采用本发明技术方案,基于多个数 据源的事件信息,采用预设的海量数据信息处理模型即可获取每一种事件信息与数据序列 的关联性,无须人工判定,有效节约了人力资源,并保证了获取的结果的准确性。
【附图说明】
[0027] 图1为本发明实施例中海量数据的信息处理系统架构图;
[0028] 图2为本发明实施例中海量数据的信息处理流程图;
[0029] 图3为本发明实施例中相关性结果获取流程图;
[0030] 图4为本发明实施例中海量数据的信息处理;
[0031] 图5为本发明实施例中具体应用场景下海量数据的信息处理流程;
[0032] 图6为本发明实施例中海量数据的信息处理装置结构示意图;
[0033] 图7为本发明实施例中海量数据的信息处理设备结构示意图。
【具体实施方式】
[0034] 为了解决目前在对数据相关性获取的过程中,存在无法获取数据序列变量和事件 变量之间相关性的问题。本发明实施例中,分别从每一个数据源获取数据序列W及事件信 息集合;将获取的数据源的数据序列和事件信息集合输入预设的海量数据信息处理模型, 从而输出数据序列与事件信息集合中任意时间信息之间的相关性结果。采用本发明技术方 案,基于多个数据源的事件信息,采用预设的海量数据信息处理模型即可获取每一种事件 信息与数据序列的关联性,无须人工判定,有效节约了人力资源,并保证了获取的结果的准 确性。
[0035] 参阅图1所示,为本发明实施例中海量数据的信息处理系统架构图,该海量数据 的信息处理系统包括信息处理设备,该信息处理设备用于将获取到的数据源的数据序列W 及事件信息集合进行处理,W确定事件信息集合和数据序列之间的相关性,该信息处理设 备可W具备用户交互界面,W便于向用户呈现相关性判断结果;该信息处理设备还可W不 具备用户交互界面,该信息处理设备与具备用户交互界面的客户端相连接,W通过该客户 端向用户呈现相关性判断结果;此外,上述海量数据的信息处理系统中还可W包含多个数 据源,用于向信息处理设备提供待处理的数据序列W及事件信息集合;可选的,上述海量数 据的信息处理系统中还可W包含采集设备,用于采集数据源提供的待处理的数据序列W及 事件信息集合,并将采集到的信息发送至信息处理设备。
[0036] 下面结合说明书附图,对本发明实施例作进一步详细描述。
[0037] 参阅图2所示,本发明实施例中,海量数据的信息处理过程,包括:
[0038] 步骤200 :从至少一个数据源获取数据序列和事件信息集合;其中,第一数据源的 数据序列中包含第一数据源在η个采集周期内所采集的数据,第一数据源为至少一个数据 源中的任一数据源,第一数据源的事件信息集合中包含第一数据源在η个采集周期内发生 的事件的事件信息,该事件信息包括事件的事件类型,W及该事件发生的起始时间和结束 时间;η为大于等于2的整数。
[0039] 步骤210 :通过海量数据信息处理模型将获取的数据序列和事件信息集合进行处 理,得到该数据序列和该事件信息集合中任一事件信息之间的相关性结果;其中,海量数据 信息处理模型用于根据至少一个数据源获取数据序列和事件信息集合,确定数据序列和事 件信息集合中任一事件信息之间的相关性结果。
[0040] 在步骤200中,采集设备分别将从每一个数据源获取的数据序列和事件信息集合 发送至信息处理设备,使信息处理设备直接获取每一个数据源的数据序列和事件信息集 合;或者,采集设备将所有采集到的数据序列和事件信息发送至信息处理设备,信息处理设 备根据每一个数据序列和事件信息集合所携带的数据源标识,对所有数据序列和事件信息 集合进行分类,W确定哪个数据序列和哪个事件信息集合对应于同一个数据源。当采用后 一种技术方案时,信息处理设备对获取的事件信息集合和数据序列进行关联关系匹配,W 确定对应于同一个数据源的数据序列和事件信息集合,建立数据序列和事件信息集合在时 空域中的匹配关系,从而便于后期获取单个数据源对应的相关参数。基于此,信息处理设备 可W获取多个数据序列和多个事件信息集合,每一个数据序列对应一个数据源,每一个事 件信息集合也对应一个数据源,此外,信息处理设备可W获取一个数据序列和一个事件信 息集合,该数据序列中包含所有数据源的数据,事件信息集合中包含所有数据源的事件信 息,且在该筛选信息集合中,筛选事件信息均W其自身对应的数据源的不同而分类,即每一 个分类中仅包含同一个数据源的筛选事件信息。w下w第二种方式为例,详细介绍获取数 据序列和事件信息集合之间相关性的方法。
[0041] 信息处理设备从每一个数据源获取到数据序列和事件信息集合,如任意一数据源 用k表示,1《k《K,K为数据源的总数目,该数据源k的数据序列用义1"=[名"],=心.表 示,i表示时间窗的标识,表示数据源k在第i个时间窗中的变量值,该义的值为空 (NULL)类型或者为非空类型(包含整数和小数);该数据源k的事件信息集合用eW表示, 巧"={ef V··,ef,,ef},ef i表示数据源k上发生的任一事件的事件信息,该事件信息 包括该任一事件的开始时间(由e. start表示),结束时间(由e. end表示),W及事件类 型(由e. type表示)。
[0042] 其中,上述时间窗为信息处理设备在本地预设的一个时间段,如该时间窗为30分 钟,且每一个时间窗的时间长度相等,此外该时间窗与数据源本地预设的时间窗的时间段 长度相等;通过该时间窗将一个采集周期划分为多个时间段。
[0043] 由于时间窗为数据源本地预设的参数,因此,当数据源本地没有预设时间窗的情 况下,可选的,信息处理设备在本地也不设置时间窗。
[0044] 在步骤210中,信息处理设备在本地预先建立海量数据信息处理模型,用于对输 入的数据源的数据序列和事件信息集合进行处理,W确定数据序列与事件信息集合中包含 的事件信息之间的相关性结果。
[0045] 参阅图3所示,在步骤210中,通过海量数据信息处理模型将获取的数据序列和事 件信息集合进行处理的过程,包括:
[0046] 步骤al :对于上述至少一个数据源中的每一个数据源,均执行如下操作:在第一 数据源的事件信息集合中,对第一数据源对应的第一采集周期内的事件信息进行筛选,获 取筛选事件信息,该筛选事件信息为上述事件信息集合中满足第一预设筛选条件的事件信 息,将该筛选事件信息存储至筛选事件信息集合中;其中,第一采集周期为η个采集周期中 的任一采集周期;从第一数据源对应的η个采集周期内的数据序列中,选取筛选数据,其 中,该筛选数据为数据序列中满足第二预设筛选条件的数据。
[0047] 本发明实施例中,信息处理设备在本地预设筛选事件信息集合,该筛选事件信息 集合为空;对每一个数据源的事件信息集合中的事件信息进行筛选,获取满足预设筛选条 件的事件信息,并将获取的事件信息作为筛选事件信息存储至上述筛选事件信息集合中。 其中,该预设筛选条件为在事件对应的时间窗内,不存在其他事件发生。
[0048] 具体的,W信息处理设备对第一数据源的事件信息集合中进行事件信息筛选为 例,该第一数据源为信息处理设备获取到的所有数据源中的任一数据源,则信息处理设备 获取第一数据源的筛选事件信息的过程为:对于第一数据源的事件信息集合中的第一事件 信息,该第一事件信息为第一数据源的所有事件信息中的任一事件信息,第一事件信息包 含发生第一事件的起始时间和结束时间;信息处理设备根据第一事件发生的起始时间和结 束时间,确定该第一事件所对应的时间窗;当判定在该第一事件所对应的时间窗内,没有除 该第一事件之外的其他事件发生时,确定该第一事件满足上述预设筛选条件;当判定在该 第一事件所对应的时间窗内,除该第一事件之外,还存在其他事件时,确定该第一事件不满 足预设筛选条件,此时,不将该第一事件存储至筛选事件信息集合中;信息处理设备将第一 数据源的所有事件信息均采用上述方式进行筛选处理,w获取第一数据源的所有筛选事件 信息。例如,针对第一数据源的第一事件ei,该第一事件ei对应的时间窗为曰,若在该时间 窗a中,第一数据源上仅发生了第一事件ei,此时,将第一事件ei的第一事件信息作为筛选 事件信息存储至筛选事件信息集合中;若在该时间窗a中,第一数据源上除了发生第一事 件ei W外,还发生了第二事件e 2,此时,不将第一事件ei存储至筛选事件信息集合中。信息 处理设备对于获取的每一个数据源的事件信息,均执行上述操作,W获取所有数据源的筛 选事件信息。
[0049] 在上述过程中,若信息处理设备在本地设置时间窗时,还可W设置时间窗的关联 函数f(t),该关联函数f(t)用于表示时间窗的标识,即已知任意一事件发生的起始时间和 结束时间,即可获取该任意一事件对应的时间窗标识;例如,对于第一数据源上发生的第一 事件e,Πι= f (e. start),η 2= f (e. end),η 1和η 2均为第一事件e对应的时间窗标识,η 1 和Π 2可W相等,也可W不相等。例如,当W-天为一个周期,一个小时为一个时间窗时,10 : 00~11 :00为时间窗10,11 :00~12 :00为时间窗11,若第一事件e的起始时间为10 :30, 结束时间为11 :30,则第一事件e对应的时间窗ni为时间窗10,时间窗η 2为时间窗11,此 时ni和η 2不相等;若第一时间e的起始时间为10 :30,结束时间为10 :40,则第一事件e对 应的时间窗ni为时间窗10,时间窗η 2为时间窗10,此时η 1和η 2相等。采用该技术方案,获 取每一个事件信息对应的时间窗标识,便于后期进行筛选事件信息的判断。
[0050] 进一步的,当信息处理设备在本地没有预设时间窗时,在获取每一个数据源的筛 选事件信息时,仅W事件信息的起始时间和结束时间为基准进行筛选即可,如对于第一数 据源的事件信息集合中的第一事件信息,该第一事件信息为第一数据源的所有事件信息中 的任一事件信息,第一事件信息包含发生第一事件的起始时间和结束时间;信息处理设备 判定在第一事件发生的起始时间和结束时间之间,没有除该第一事件之外的其他事件发生 时,确定该第一事件满足上述预设筛选条件;当判定在该第一事件发生的起始时间和结束 时间之间,除该第一事件之外,还存在其他事件时,确定该第一事件不满足预设筛选条件, 此时,不将该第一事件存储至筛选事件信息集合中;信息处理设备将第一数据源的所有事 件信息均采用上述方式进行筛选处理,W获取第一数据源的所有筛选事件信息。
[0051] 采用该技术方案,将在第一事件的时间窗内仅发生第一事件的第一事件信息作为 筛选事件信息,避免当在第一事件的时间窗内发生多个事件时,无法判定该时间窗对应的 数据是由哪一个事件的发生造成的,保证了最终获取的结果的准确性。
[0052] 在上述步骤al中,信息处理设备在本地预设筛选数据集合,W第一数据源的第一 筛选事件信息为例,该第一筛选事件信息为第一数据源的所有筛选事件信息中的任一筛选 事件信息,获取筛选数据集合中筛选数据的过程包括:在第一采集周期内,确定第一筛选事 件信息的起始时间和结束时间;根据该第一筛选事件信息的起始时间和结束时间,选取第 一数据源的数据序列中,该起始时间和结束时间之间的数据。例如,第一数据源对应的第一 采集周期内,第一筛选事件信息的起始时间为周一 10 :〇〇~11 :〇〇,此时,从第一数据源的 数据序列中,选取周一 10 :〇〇~11 :〇〇之间的数据,将该数据作为第一周期内的筛选数据。
[0053] 进一步的,根据该第一筛选事件信息的起始时间和结束时间,从第一数据源的数 据序列中,获取除上述第一采集周期之外的其他采集周期内,该第一筛选事件信息的起始 时间和结束时间之间的数据;若除上述第一采集周期之外的其他采集周期内,存在任意一 采集周期,在该任意一采集周期内的第一筛选事件信息的起始时间和结束时间之间没有任 何事件发生,则保留该任意一采集周期的第一筛选事件信息的起始时间和结束时间之间的 数据,并将保留的数据作为第一数据源对应的其他采集周期内的筛选数据,保存至筛选数 据集合中;否则,剔除掉该任意一采集周期内的第一筛选事件信息的起始时间和结束时间 之间的数据。
[0054] 例如,对于第一数据源,一个采集周期为7天,在第一采集周期内,第一数据源发 生了事件ei,该事件ei的起始时间为10 :00,结束时间为11 :00,除第一采集周期之外,还包 括第二采集周期、第Ξ采集周期和第四采集周期,在第二采集周期的10 :〇〇~11 :〇〇之间, 发生了事件62,由于仅需要保留在上述10 :00~11 :00之间没有任何事件发生的该时间段 的数据,因此,此时将剔除第二采集周期的10 :〇〇~11 :〇〇之间的数据;在第立采集周期的 10 :00~11 :00之间,仅发生了事件ei,由于仅需要保留在上述10 :00~11 :00之间没有 任何事件发生的该时间段的数据,因此,此时将剔除第Ξ采集周期的10 :00~11 :00之间 的数据;在第四采集周期的10 :〇〇~11 :〇〇之间,没有发生任何事件,由于仅需要保留在上 述10 :00~11 :00之间没有任何事件发生的该时间段的数据,因此,此时将第四采集周期 的10 :00~11 :00之间的数据作为筛选数据,存储至筛选事件集合中。
[0055] 进一步的,信息处理设备对筛选事件信息集合中的每一个筛选事件信息,均执行 上述操作,W获取所有数据源的筛选数据。
[0056] 采用上述技术方案,针对每一个数据源,信息处理设备将除上述第一采集周期W 外的其他采集周期内,在特定时间段中存在事件发生的数据剔除,仅保留在该特定时间段 内不存在任何事件发生的该特定时间段内的数据,便于后期确定该特定时间段内数据变化 是否与上述第一采集周期发生的事件相关,避免其他事件对判断结果造成的干扰,提高了 最终获取的判断结果的准确性。
[0057] 步骤a2 :根据筛选事件信息集合中包含的至少一个数据源的筛选事件信息的事 件类型,对筛选事件信息集合中包含的筛选事件信息进行分类,获取每一种事件类型对应 的筛选事件信息。
[0058] 本发明实施例中,信息处理设备获取该筛选事件信息集合中包含的每一个筛选事 件信息的事件类型,根据事件类型对所有的筛选事件信息进行分类,使每一个分类中包含 对应于同一个事件类型的筛选事件信息。例如,针对事件ei、02、和04,事件ei的事件类 型为小区不可用告警,事件62的事件类型为网络中断告警,事件e 3的事件类型为网络中断 告警,事件θ4的事件类型为小区不可用告警,则事件e 1和事件e 2的事件类型相同,属于同 一个分类,事件和事件e 4的事件类型相同,属于同一个分类。
[0059] 步骤a3 :从每一个数据源的筛选数据中,获取第一事件类型对应的筛选事件信息 的起始时间和结束时间之间的筛选数据;其中,第一事件类型为筛选事件信息集合中包含 的事件类型中的任一事件类型。
[0060] 步骤a4 :根据获取的第一事件类型对应的筛选事件信息的起始时间和结束时间 之间的筛选数据,获取第一事件类型的相关性指标。
[0061] 本发明实施例中,W事件类型为第一事件类型的第一筛选事件信息为例,该第一 事件类型为分类后得到的所有事件类型中的任一种事件类型,第一筛选事件信息为事件类 型为第一事件类型的任一筛选时间信息,详细描述相关性指标的获取:
[0062] 对于事件类型为第一事件类型的第一筛选事件信息,信息处理设备根据上述第一 采集周期内,每一个筛选事件信息的起始时间和结束时间之间的筛选数据中包含的第一空 类型筛选数据和第一非空类型筛选数据,获取第一筛选事件信息的第一特性值和第二特性 值;其中,第一特性值用于表征上述第一采集周期内的所述第一筛选事件信息的起始时间 和结束时间之间,第一空类型筛选数据的出现概率,第二特性值用于表征上述第一采集周 期内的所述第一筛选事件信息的起始时间和结束时间之间,第一非空类型筛选数据的平均 值;对于事件类型为第一事件类型的第一筛选事件信息,根据其他采集周期内,第一筛选事 件信息的起始时间和结束时间之间的筛选数据中包含的第二空类型筛选数据和第二非空 类型筛选数据,获取第一筛选事件信息的第Ξ特性值和第四特性值;其中,第Ξ特性值用于 表征η个采集周期内的第一筛选事件信息的起始时间和结束时间之间,第二空类型筛选数 据的出现概率,第四特性值用于表征η个采集周期内的第一筛选事件信息的起始时间和结 束时间之间,第二非空类型筛选数据的平均值;对于事件类型为第一事件类型的第一筛选 事件信息,获取第一筛选事件信息的第一特性值和第Ξ特性值的差值,将该差值确定为上 述第一筛选事件信息对应的第一增量值;W及获取第一筛选事件信息的第二特性值和第四 特性值的差值,将该差值确定为上述第一筛选事件信息对应的第二增量值;其中,第一增量 值用于表征在所述第一采集周期内,第一筛选事件信息的起始时间和结束时间之间,所述 第一空类型筛选数据的出现概率相对于所述η个采集周期内的所述起始时间和结束时间 之间所述第二空类型筛选数据的出现概率的增量,所述第二增量值用于表征在所述第一采 集周期内,所述第一筛选事件信息的起始时间和结束时间之间,第一非空类型筛选数据的 平均值相对于所述η个采集周期内的所述起始时间和结束时间之间第二非空类型筛选数 据的平均值的增量。
[0063] 针对事件类型为第一事件类型的筛选事件信息,均采用上述方法获取相应的第一 增量值和第二增量值,因此,信息处理设备获取事件类型为第一事件类型的所有筛选事件 信息分别对应的第一增量值和第二增量值;根据所有数据源的筛选事件信息中,事件类型 为第一事件类型的各个筛选事件信息分别对应的所有第一增量值和所有第二增量值,确定 该任意一事件类型对应的相关性指标。
[0064] 在步骤a4中,第一筛选事件信息的第二特性值获取:从第一数据源对应的第一采 集周期内,第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第一空类型 筛选数据;并根据第一空类型筛选数据,第一筛选事件信息所对应的时间窗标识,采用指示 函数,获取该筛选事件信息的第一特性值;例如,针对第一数据源的第一筛选事件信息e, 针对该第一筛选事件信息e,其对应的选取的数据序列为',该第一筛选事件信息e的起 始时间对应的时间窗标识为ni,结束时间对应的时间窗标识为n2,ni《η《η 2;则第一筛选 事件信息e的第一特性值可W采用如下公式获取: 阳0化]
[0066]其中,ewLLrati。为第一筛选事件信息e的第一特性值;η 1为第一筛选事件信息e 的起始时间对应的时间窗标识;Π 2为第一筛选事件信息e的结束时间对应的时间窗标识; 1(曲为指示函数。
[0067] 第一筛选事件信息的第二特性值的获取:信息处理设备从第一筛选事件信息的起 始时间和结束时间之间筛选数据中,选取第一非空类型数据;并根据第一非空类型数据,该 第一筛选事件信息所对应的时间窗标识,采用指示函数,获取该第一筛选事件信息的第二 特性值。例如,上述第一筛选事件信息e的第二特性值可W采用如下公式获取:
[0068]
[0069] 其中,e、m。。。为第一筛选事件信息e的第二特性值;η 1为第一筛选事件信息e的起 始时间对应的时间窗标识;Π 2为第一筛选事件信息e的结束时间对应的时间窗标识;1怕) 为指示函数。
[0070] 第一筛选事件信息的第Ξ特性值的获取:信息处理设备从筛选数据集合中,选取 第一筛选事件信息的起始时间和结束时间之间的第二空类型筛选数据;并根据选取的第二 空类型筛选数据,该筛选数据集合中包含的其他采集周期内,第一筛选事件信息的起始时 间和结束时间之间的筛选数据的数目,采用指示函数,获取第一筛选事件信息的第Ξ特性 值;例如,在上述第一筛选事件信息e的其他采集周期内,该第一筛选事件信息e的起始时 间和结束时间之间的筛选数据记为名产,1《η'《N,N为第一筛选事件信息的起始时间和 结束时间之间的筛选数据的数目,则第一筛选事件信息e的第Ξ特性值可W采用如下公式 获取:
[0071]
阳0巧其中,ew。^f。tl。b。w为事件信息e的第ミ特性值;N为其他采集周期内,第一筛选事 件信息的起始时间和结束时间之间的筛选数据的数目;1(曲为指示函数。
[0073] 第一筛选事件信息的第四特性值的获取:信息处理设备从筛选数据集合中,选取 第一数据源对应的其他采集周期内第一筛选事件信息的起始时间和结束时间之间的第二 非空类型筛选数据;并根据选取的第二非空类型筛选数据,其他采集周期内的第一筛选事 件信息的起始时间和结束时间之间的筛选数据,W及筛选数据集合中,其他采集周期内的 第一筛选事件信息的起始时间和结束时间之间的筛选数据的数目,采用指示函数,获取该 第一筛选事件信息的第四特性值。例如,上述第一筛选事件信息e的第四特性值可W采用 如下公式获取:
[0074]
[007引其中,ex me。。^。^为第一筛选事件信息e的第四特性值;N为其他采集周期内,第一 筛选事件信息的起始时间和结束时间之间的筛选数据的数目;1(曲为指示函数。
[0076] 信息处理设备根据上述第一筛选事件信息e的第一特性值和第一筛选事件信息e 的第Ξ特性值,可W采用如下公式获取第一筛选事件信息e的第一增量值:
[0077]
阳〇7引其中,ewLLrati。meremeM为第一筛选事件信息e的第一增量值;e NULLrati。为第一筛选 事件信息e的第一特性值;为第一筛选事件信息e的第Ξ特性值。
[0079] 基于上述第一事件信息e的第二特性值和第一事件信息e的第四特性值,可W采 用如下公式获取第一事件信息e的第二增量值:
[0080]
[00川其中,emeatiMrement为第一事件信息e的第二增量值;e x_mea。为第一事件信息e的第 二特性值;e、。。。。>。5。为第一事件信息e的第四特性值。
[0082] 信息处理设备根据对应于第一事件类型的每一个筛选事件信息的第一增量值和 第二增量值,确定第一事件类型对应的相关性指标,其中,该相关性指标包含五个相关性指 标,其中:
[0083] 第一相关性指标的获取:信息处理设备确定事件类型为第一事件类型的筛选事件 信息;并分别获取确定的每一个筛选事件信息对应的第一增量值;W及根据获取的每一个 筛选事件信息对应的第一增量信息,确定该第一事件类型对应的第一相关性指标;其中,第 一相关性指标用于表征空类型数据的出现概率与发生对应于该第一事件类型的事件相关, 该第一相关性指标为大于等于-1且小于等于1的值,该第一相关性指标越大,表明当存在 第一(记为C)类型事件发生时,数据序列中数据类型为空的概率越大;例如,上述第一事件 类型C对应的第一相关性指标可W采用如下公式获取:
[0084]
[00财其中,f。。。1。"_。1^。为第一事件类型0对应的第一相关性指标;6为筛选事件信 息,且筛选事件信息e的事件类型为C ;E*为筛选事件信息集合;e. type为事件类型;W。为 筛选事件信息e的权重值,该值为根据具体情况预先设定的值;fgti。为筛选事件 信息e对应的第一增量值。
[0086] 第二相关性指标的获取:信息处理设备确定事件类型为第一事件类型的筛选事件 信息;并分别获取确定的每一个筛选事件信息对应的第二增量值;选取获取的所有第二增 量值中大于预设阔值的第二增量值,并根据选取的所有大于预设阔值的第二增量值,确定 上述第一事件类型对应的第二相关性指标;其中,第二相关性指标用于表征当发生对应于 上述第一事件类型的事件时,数据取值增大的概率;例如,上述第一事件类型C对应的第二 相关性指标可W采用如下公式获取:
[0087]
[00蝴其中,心。^。。。。为第一事件类型0对应的第二相关性指标;6为筛选事件信息,且 筛选事件信息e的事件类型为C ;E*为筛选事件信息集合;e. type -事件类型;W。为筛选事 件信息e的权重值,该值为根据具体情况预先设定的值;em。。。。。,。。。。1为筛选事件信息e对应 的第二增量值;1(曲为指示函数。
[0089] 第Ξ相关性值指标的获取:信息处理设备确定事件类型为第一事件类型的筛选事 件信息;并分别获取确定的每一个筛选事件信息对应的第二增量值;选取获取的所有第二 增量值中小于预设阔值的第二增量值,并根据选取的所有小于预设阔值的第二增量值,确 定上述第一事件类型对应的第Ξ相关性指标;其中,第Ξ相关性指标用于表征当发生对应 于上述第一事件类型的事件时,数据取值减小的概率;例如,上述第一事件类型C对应的第 Ξ相关性指标可W采用如下公式获取:
[0090]
[00川其中,Tdfw f。。。。为第一事件类型C对应的第;相关性指标;e为筛选事件信息,且 筛选事件信息e的事件类型为C ;E*为筛选事件信息集合;e. type为事件类型;W。为筛选事 件信息e的权重值,该值为根据具体情况预先设定的值;em。。。。。,。。。。1为筛选事件信息e对应 的第二增量值;1(曲为指示函数。
[0092] 第四相关性指标的获取:信息处理设备确定事件类型为第一事件类型的筛选事件 信息;并分别获取确定的每一个筛选事件信息对应的第二增量值;选取获取的所有第二增 量值中大于预设阔值的第二增量值,并根据选取的所有大于预设阔值的第二增量值,W及 获取的每一个筛选事件信息对应的第二增量值,确定上述第一事件类型对应的第四相关性 指标;其中,第四相关性指标用于表征当发生对应于上述第一事件类型的事件时,数据平均 值的增大量;例如,上述第一事件类型C对应的第四相关性指标可W采用如下公式获取:
[0093]
[0094] 其中,Tme。。1。^。。1_。+为第一事件类型〇对应的第四相关性指标;6为筛选事件信息, 且筛选事件信息e的事件类型为C ;E*为筛选事件信息集合;e. type为事件类型;W。为筛选 事件信息e的权重值,该值为根据具体情况预先设定的值;em。。。1。。,。。1。。1为筛选事件信息6对 应的第二增量值;1(曲为指示函数。
[0095] 第五相关性指标的获取:信息处理设备确定事件类型为第一事件类型的筛选事件 信息;并分别获取确定的每一个筛选事件信息对应的第一增量值;取获取的所有第二增量 值中小于所述预设阔值的第二增量值,并根据选取的所有小于预设阔值的第二增量值,W 及获取的每一个筛选事件信息对应的第二增量值,确定第一事件类型对应的第五相关性指 标;其中,第五相关性指标用于表征当发生对应于第一事件类型的事件时,数据平均值的减 小量;例如,上述第一事件类型C对应的第五相关性指标可W采用如下公式获取:
[0096]
[0097] 其中,Tmean_mcrement_c为第一事件类型G对应的第五相关性指标;e为筛选事件信息, 且筛选事件信息e的事件类型为C ;E*为筛选事件信息集合;e. type为事件类型;W。为筛选 事件信息e的权重值,该值为根据具体情况预先设定的值;em。。。1。。,。。1。。1为筛选事件信息6对 应的第二增量值;1(曲为指示函数。
[0098] 采用上述技术方案,信息处理设备能够获取每一个事件类型对应的各种类型相关 性指标,并根据该各种类型相关性指标来确定数据序列中的数据变化与哪一种事件类型相 关,有效保证了最终得到的判断结果的准确性。
[0099] 步骤a5 :根据上述相关性指标获取数据序列和第一事件类型之间的相关性结果。
[0100] 本发明实施例中,若第一事件类型对应的第四相关性指标大于第一预设增大平均 值阔值,且该第一事件类型对应的第二相关性指标与该第一事件类型对应的第Ξ相关性 指标的差值大于差值阔值,则确定该第一事件类型和对应的数据序列相关,且对应于上述 第一事件类型的事件发生,将引起该数据序列中的数据取值增大,增大量为第四相关性指 标; 阳101] 否则,若上述第一事件类型对应的第五相关性指标小于第二预设增大平均值阔 值,且该第一事件类型对应的第二相关性指标与该第一事件类型对应的第Ξ相关性指标的 差值大于上述差值阔值,则确定该第一事件类型和相应的数据序列相关,且对应于该第一 事件类型的事件发生,将引起上述数据序列中的数据取值减小,减小量为第五相关性指标; 若上述第一事件类型对应的第五相关性指标大于第二预设增大平均值阔值,或者该第一事 件类型对应的第二相关性指标与该第一事件类型对应的第Ξ相关性指标的差值小于上述 差值阔值,则当上述第一事件类型对应的第一相关性指标大于预设概率阔值时,确定上述 第一事件类型和相应的数据序列相关,且对应于该第一事件类型的事件发生将引起数据序 列中空类型数据的概率增大。 阳102] 进一步的,当信息处理设备在本地没有预设时间窗时,信息处理设备能够根据每 一个筛选事件信息的起始时间和结束时间,采用上述方式获取上述第一事件类型对应的各 个相关性指标,在此不再寶述。 阳103] 基于上述技术方案,参阅图4所示,针对任意一数据源k的事件信息集合E,该事件 信息集合E对应的数据序列为X,采用步骤200进行数据时空域关联匹配,采用步骤al至步 骤曰3进行数据序列X和事件信息集合E之间的特征构建与提取,采用步骤曰4至步骤曰5,进 行相关性指标和相关性结果确定。
[0104] 例如,在通信应用领域,当某一基站对应的某一特定KPI (Key Per化rmance Indicator ;企业关键绩效指标)指标较差时,需要查看该基站的话统指标,W及ΚΡΙ指标较 差的时间段内是否存在告警。如果存在告警,则可W定位到硬件问题,或者硬件资源不够等 原因,无须关注其他的射频方面原因;如果ΚΡΙ指标较差的时间段内没有告警,将从射频方 面深入分析ΚΡΙ指标较差的原因。基于上述过程,采用本发明技术方案时,即为将基站作为 一个数据源,由信息处理设备收集不同基站对应的话统指标,并根据待分析ΚΡΙ的定义公 式,计算各个基站的ΚΡΙ数据序列X,其中,时间窗和采集周期均由数据源决定,如W 30分钟 为时间窗,且采集周期为屯天;将告警作为事件信息集合中的变量,将每一个告警作为一个 事件信息e,告警的名称记为e. type,告警的起始时间记为e. start,告警的结束时间记为 e. end。同时根据告警定位的设备信息,将每个事件信息e和相应的基站关联起来。采用本 发明技术方案,确定事件信息集合E与数据序列X之间的相关程度,从物理上确定各种类型 告警与上述KPI是否强相关,W及每一种类型的告警均会引起该KPI指标如何变化和变化 幅度。
[0105] 又例如,电商平台基于对用户的网络行为和节假日之间的相关性分析,针对不同 节假日进行不同的营销活动策划,如中秋节和月饼类产品为强相关关系,因此,电商平台在 中秋节期间将进行月饼类产品的促销。基于上述问题,采用本发明技术方案时,即信息处理 设备将用户针对不同关键字在每一个时间窗内的捜索数量作为数据序列X中的数据变量, 将节假日作为事件信息集合E中的事件,采集周期为一个月,节假日的类型作为e. type,节 假日的起始时间记为e. start,节假日的结束时间记为e. end。采用本发明技术方案,确定 事件信息集合E与数据序列X之间的相关程度,物理确定关键字与各类节假日的相关程度。
[0106] 采用本发明技术方案,基于数据序列和事件集合中所包含的变量,确定两者之间 的相关性,无须人工确定两者之间的相关性,有效节约了人力资源,提高了相关性确定的效 率;并且,信息处理设备能够定量确定两者之间相关性指标,避免了现有技术中依靠人为确 定相关性指标所造成的误差,提高了所确定的相关性指标的准确性。
[0107] 基于上述技术方案,参阅图5所示,信息处理设备基于上述五种类型的相关性指 标,确定任意一事件类型与数据序列的相关性的过程,具体包括:
[0108] 步骤500 :信息处理设备判断上述任意一事件类型对应的相关性指标是否满足, 第四相关性能指标大于第一预设增大平均值阔值,且第二相关性能指标与第Ξ相关性能指 标的差值大于差值阔值(即a且T rauy。。。e-Tdrw r。。。。> b),当满足时,执 行步骤510 ;否则,执行步骤520。
[0109] 步骤510 :信息处理设备确定该任意一事件类型和对应的数据序列相关,且对应 于上述任意一事件类型的事件发生,将引起该数据序列中的数据取值增大,增大量为第四 相关性指标。
[0110] 步骤520 :信息处理设备判断上述任意一事件类型的相关性能指标是否满足,第 五相关性指标小于第二预设增大平均值阔值,且该任意一事件类型对应的第二相关性指标 与该任意一事件类型对应的第Ξ相关性指标的差值大于上述差值阔值(即。< C 且b)诺满足,执行步骤530 ;否则,执行步骤540。 阳111] 本发明实施例中,上述C =-a。
[0112] 步骤530 :信息处理设备确定该任意一事件类型和相应的数据序列相关,且对应 于该任意一事件类型的事件发生,将引起上述数据序列中的数据取值减小,减小量为第五 相关性指标。
[0113] 步骤540 :信息处理设备判断上述任意一事件类型对应的第一相关性指标是否大 于预设概率阔值(即町。^_^。,1。_1。"。1。。。1_。> d),若是,则执行步骤550 ;否则,结束当前操作。
[0114] 步骤550 :信息处理设备确定上述任意一事件类型和相应的数据序列相关,且对 应于该任意一事件类型的事件发生将引起数据序列中空类型的数据概率增大。
[0115] 基于上述技术方案,参阅图6所示,本发明实施例中还提供一种信息处理装置,包 括数据序列和事件信息集合获取单元60,相关性结果获取单元61,其中:
[0116] 数据序列和事件信息集合获取单元60,用于从至少一个数据源获取数据序列和事 件信息集合;其中,第一数据源的所述数据序列中包含所述第一数据源在η个采集周期内 所采集的数据,第一数据源为所述至少一个数据源中的任一数据源,所述第一数据源的所 述事件信息集合中包含所述第一数据源在所述η个采集周期内发生的事件的事件信息,所 述事件信息包括所述事件的事件类型,W及所述事件发生的起始时间和结束时间;η为大 于等于2的整数;
[0117] 相关性结果获取单元61,用于通过海量数据信息处理模型将所述数据序列和事件 信息集合获取单元60获取的所述数据序列和所述事件信息集合进行处理,得到所述数据 序列和所述事件信息集合中任一事件信息之间的相关性结果;其中,所述海量数据信息处 理模型用于根据所述至少一个数据源获取数据序列和事件信息集合,确定所述数据序列和 所述事件信息集合中任一事件信息之间的相关性结果。
[0118] 可选的,所述相关性结果获取单元61,用于对于所述至少一个数据源中的每一个 数据源,均执行如下操作:在第一数据源的事件信息集合中,对所述第一数据源对应的第一 采集周期内的事件信息进行筛选,获取筛选事件信息,所述筛选事件信息为所述事件信息 集合中满足第一预设筛选条件的事件信息,将所述筛选事件信息存储至筛选事件信息集合 中;其中,所述第一采集周期为所述η个采集周期中的任一采集周期;从所述第一数据源对 应的η个采集周期内的数据序列中,选取筛选数据,其中,所述筛选数据为所述数据序列中 满足第二预设筛选条件的数据;根据所述筛选事件信息集合中包含的所述至少一个数据源 的筛选事件信息的事件类型,对所述筛选事件信息集合中包含的筛选事件信息进行分类, 获取每一种事件类型对应的筛选事件信息;从所述每一个数据源的筛选数据中,选取第一 事件类型对应的筛选事件信息的起始时间和结束时间之间的筛选数据;其中,所述第一事 件类型为所述筛选事件信息集合中包含的事件类型中的任一事件类型;根据获取的所述第 一事件类型对应的筛选事件信息的起始时间和结束时间之间的筛选数据,获取所述第一事 件类型的相关性指标;根据所述相关性指标获取所述数据序列和所述第一事件类型之间的 相关性结果。
[0119] 可选的,所述相关性获取单元单元61,具体用于:在所述第一数据源的事件信息 集合中,对所述第一数据源对应的第一采集周期内的任一事件信息,执行如下操作:根据所 述第一事件信息的第一事件发生的起始时间和结束时间,确定所述第一事件所对应的时间 窗;其中,所述第一事件信息为所述第一数据源的事件信息集合中,所述第一数据源对应的 第一采集周期内的任一事件信息;当判定在所述第一事件所对应的时间窗内,没有除所述 第一事件之外的其他事件发生时,确定所述第一事件信息为所述筛选事件信息并获取所述 筛选事件信息。
[0120] 可选的,所述相关性结果获取单元61,具体用于:从所述第一数据源对应的所述 第一采集周期内的数据序列中,选取所述第一数据源的每一个筛选事件信息的起始时间和 结束时间之间的数据,将选取的所述数据作为第一数据源对应的第一采集周期的筛选数 据;W及从除所述第一采集周期之外的其他采集周期中,选取在所述每一个筛选事件信息 的所述起始时间和所述结束时间之间的数据,并根据获取的数据确定所述第一数据源对应 的所述其他采集周期的筛选数据;将所述第一数据源对应的第一采集周期的筛选数据,W 及所述第一数据源对应的所述其他采集周期的筛选数据,确定为所述第一数据源的筛选数 据。 阳121] 可选的,所述相关性结果获取单元61,具体用于:对于事件类型为所述第一事件 类型的第一筛选事件信息,根据所述第一采集周期内,所述第一筛选事件信息的起始时间 和结束时间之间的筛选数据中包含的第一空类型筛选数据和第一非空类型筛选数据,获取 所述第一筛选事件信息的第一特性值和第二特性值;其中,所述第一特性值用于表征所述 第一采集周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第一空类型筛 选数据的出现概率,所述第二特性值用于表征所述第一采集周期内的所述第一筛选事件信 息的起始时间和结束时间之间,所述第一非空类型筛选数据的平均值;所述第一筛选事件 信息为事件类型为所述第一事件类型的任一筛选事件信息;对于事件类型为所述第一事件 类型的第一筛选事件信息,根据所述其他采集周期内,所述第一筛选事件信息的起始时间 和结束时间之间的筛选数据中包含的第二空类型筛选数据和第二非空类型筛选数据,获取 所述第一筛选事件信息的第Ξ特性值和第四特性值;其中,所述第Ξ特性值用于表征所述 η个采集周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第二空类型筛 选数据的出现概率,所述第四特性值用于表征所述η个采集周期内的所述第一筛选事件信 息的起始时间和结束时间之间,所述第二非空类型的所述筛选数据的平均值;对于事件类 型为所述第一事件类型的第一筛选事件信息,获取所述第一筛选事件信息的第一特性值和 第Ξ特性值的差值,将所述差值确定为所述第一筛选事件信息的第一增量值;W及获取所 述第一筛选事件信息的第二特性值和第四特性值的差值,将所述差值确定为所述第一筛选 事件信息的第二增量值;其中,所述第一增量值用于表征在所述第一采集周期内,所述第一 筛选事件信息的起始时间和结束时间之间,所述第一空类型筛选数据的出现概率相对于所 述η个采集周期内的所述起始时间和结束时间之间所述第二空类型筛选数据的出现概率 的增量,所述第二增量值用于表征在所述第一采集周期内,所述第一筛选事件信息的起始 时间和结束时间之间,第一非空类型筛选数据的平均值相对于所述η个采集周期内的所述 起始时间和结束时间之间第二非空类型筛选数据的平均值的增量;分别获取事件类型为所 述第一事件类型的每一个筛选事件信息的第一增量值和第二增量值;根据获取的所述每一 个筛选事件信息的第一增量值和第二增量值,确定所述第一事件类型的相关性指标。
[0122] 可选的,所述相关性结果获取单元61,具体用于:从所述第一采集周期内,所述第 一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第一空类型筛选数据;并 根据所述第一空类型筛选数据,所述第一筛选事件信息所对应的时间窗,采用指示函数,获 取所述第一筛选事件信息的第一特性值;从所述第一采集周期内,所述第一筛选事件信息 的起始时间和结束时间之间的筛选数据中,选取第一非空类型筛选数据;并根据所述第一 非空类型筛选数据,所述第一筛选事件信息所对应的时间窗,采用指示函数,获取所述筛选 事件信息的第二特性值。
[0123] 可选的,所述相关性结果获取单元61,具体用于:从所述其他采集周期内,所述第 一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第二空类型筛选数据;并 根据所述第二空类型筛选数据,所述其他采集周期内的第一筛选事件信息的起始时间和结 束时间之间的筛选数据的数目,采用指示函数,获取所述筛选事件信息的第Ξ特性值;从所 述其他采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选 取第二非空类型筛选数据;并根据所述第二非空类型筛选数据,所述其他采集周期内的第 一筛选事件信息的起始时间和结束时间之间的筛选数据,所述其他采集周期内的第一筛选 事件信息的起始时间和结束时间之间的筛选数据的数目,采用指示函数,获取所述筛选事 件信息的第四特性值。
[0124] 可选的,所述相关性结果获取单元61,具体用于:根据事件类型为所述第一事件 类型的所有筛选事件信息的第一增量值,确定所述第一事件类型的第一相关性指标;其中, 第一相关性指标用于表征空类型数据的出现概率与发生对应于所述第一事件类型的事件 相关;或者,从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取大 于预设阔值的第二增量值,并根据选取的大于预设阔值的第二增量值,确定所述第一事件 类型的第二相关性指标;其中,所述第二相关性指标用于表征当发生对应于所述第一事件 类型的事件时,数据取值增大的概率;或者,从事件类型为所述第一事件类型的所述筛选事 件信息的第二增量值中,选取小于预设阔值的第二增量值,并根据选取的小于预设阔值的 第二增量值,确定所述第一事件类型的第Ξ相关性指标;其中,所述第Ξ相关性指标用于表 征当发生对应于所述第一事件类型的事件时,数据取值减小的概率;或者,从事件类型为所 述第一事件类型的所述筛选事件信息的第二增量值中,选取大于所述预设阔值的第二增量 值,并根据选取的大于预设阔值的第二增量值,W及事件类型为所述第一事件类型的所述 筛选事件信息的第二增量值,确定所述第一事件类型的第四相关性指标;其中,所述第四相 关性指标用于表征当发生对应于所述第一事件类型的事件时,数据平均值的增大量;或者, 从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取小于所述预设 阔值的第二增量值,并根据选取的小于预设阔值的第二增量值,W及事件类型为所述第一 事件类型的所述筛选事件信息的第二增量值,确定所述第一事件类型的第五相关性指标; 其中,所述第五相关性指标用于表征当发生对应于所述第一事件类型的事件时,数据平均 值的减小量。
[0125] 可选的,所述相关性结果获取单元61,具体用于:若所述第一事件类型的第四相 关性指标大于第一预设增大平均值阔值,且所述第一事件类型的第二相关性指标与所述第 一事件类型的第Ξ相关性指标的差值大于差值阔值,则确定所述相关性结果为,所述第一 事件类型和所述数据序列相关,且对应于所述第一事件类型的事件发生,将引起所述数据 序列中的数据取值增大,增大量为所述第四相关性指标;否则,若所述第一事件类型的第五 相关性指标小于第二预设增大平均值阔值,且所述第一事件类型的第二相关性指标与所述 第一事件类型的第Ξ相关性指标的差值大于所述差值阔值,则确定所述相关性结果为,第 一事件类型和所述数据序列相关,且对应于所述第一事件类型的事件发生,将引起所述数 据序列中的数据取值减小,减小量为所述第一事件类型的第五相关性指标;若所述第一事 件类型的第五相关性指标大于第二预设增大平均值阔值,或者所述第一事件类型的第二相 关性指标与所述第一事件类型的第Ξ相关性指标的差值小于所述差值阔值,则当所述第一 事件类型的第一相关性指标大于预设概率阔值时,确定所述相关性结果为,所述第一事件 类型和所述数据序列相关,且对应于所述第一事件类型的事件发生将引起数据序列中空类 型数据的出现概率增大。
[01%] 基于上述技术方案,参阅图7所示,本发明实施例中还提供一种海量数据的信息 处理设备,包括收发器70,存储器71,W及处理器72,其中:
[0127] 收发器70,用于接收至少一个数据源发送的数据序列W及事件信息集合;其中, 第一数据源的所述数据序列中包含所述第一数据源在η个采集周期内所采集的数据,第一 数据源为所述至少一个数据源中的任一数据源,所述第一数据源的所述事件信息集合中包 含所述第一数据源在所述η个采集周期内发生的事件的事件信息,所述事件信息包括所述 事件的事件类型,W及所述事件发生的起始时间和结束时间;
[0128] 存储器71,用于存储应用程序,W及预设的筛选事件信息集合和筛选数据集合;
[0129] 处理器72,用于运行存储器71中存储的应用程序,执行如下操作:
[0130] 通过海量数据信息处理模型将所述数据序列和事件信息集合获取单元获取的所 述数据序列和所述事件信息集合进行处理,得到所述数据序列和所述事件信息集合中任一 事件信息之间的相关性结果;其中,所述海量数据信息处理模型用于根据所述至少一个数 据源获取数据序列和事件信息集合,确定所述数据序列和所述事件信息集合中任一事件信 息之间的相关性结果。 阳131] 可选的,所述处理器72,具体用于:对于所述至少一个数据源中的每一个数据源, 均执行如下操作:在第一数据源的事件信息集合中,对所述第一数据源对应的第一采集周 期内的事件信息进行筛选,获取筛选事件信息,所述筛选事件信息为所述事件信息集合中 满足第一预设筛选条件的事件信息,将所述筛选事件信息存储至筛选事件信息集合中;其 中,所述第一采集周期为所述η个采集周期中的任一采集周期;从所述第一数据源对应的η 个采集周期内的数据序列中,选取筛选数据,其中,所述筛选数据为所述数据序列中满足第 二预设筛选条件的数据;根据所述筛选事件信息集合中包含的所述至少一个数据源的筛选 事件信息的事件类型,对所述筛选事件信息集合中包含的筛选事件信息进行分类,获取每 一种事件类型对应的筛选事件信息;从所述每一个数据源的筛选数据中,选取第一事件类 型对应的筛选事件信息的起始时间和结束时间之间的筛选数据;其中,所述第一事件类型 为所述筛选事件信息集合中包含的事件类型中的任一事件类型;根据获取的所述第一事件 类型对应的筛选事件信息的起始时间和结束时间之间的筛选数据,获取所述第一事件类型 的相关性指标;根据所述相关性指标获取所述数据序列和所述第一事件类型之间的相关性 结果。
[0132] 可选的,所述处理器72,具体用于:在所述第一数据源的事件信息集合中,对所述 第一数据源对应的第一采集周期内的任一事件信息,执行如下操作:根据所述第一事件信 息的第一事件发生的起始时间和结束时间,确定所述第一事件所对应的时间窗;其中,所 述第一事件信息为所述第一数据源的事件信息集合中,所述第一数据源对应的第一采集周 期内的任一事件信息;当判定在所述第一事件所对应的时间窗内,没有除所述第一事件之 外的其他事件发生时,确定所述第一事件信息为所述筛选事件信息并获取所述筛选事件信 息。
[0133] 可选的,所述处理器72,具体用于:从所述第一数据源对应的所述第一采集周期 内的数据序列中,选取所述第一数据源的每一个筛选事件信息的起始时间和结束时间之间 的数据,将选取的所述数据作为第一数据源对应的第一采集周期的筛选数据;W及从除所 述第一采集周期之外的其他采集周期中,选取在所述每一个筛选事件信息的所述起始时间 和所述结束时间之间的数据,并根据获取的数据确定所述第一数据源对应的所述其他采集 周期的筛选数据;将所述第一数据源对应的第一采集周期的筛选数据,W及所述第一数据 源对应的所述其他采集周期的筛选数据,确定为所述第一数据源的筛选数据。
[0134] 可选的,所述处理器72,具体用于:对于事件类型为所述第一事件类型的第一筛 选事件信息,根据所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之 间的筛选数据中包含的第一空类型筛选数据和第一非空类型筛选数据,获取所述第一筛选 事件信息的第一特性值和第二特性值;其中,所述第一特性值用于表征所述第一采集周期 内的所述第一筛选事件信息的起始时间和结束时间之间,所述第一空类型筛选数据的出现 概率,所述第二特性值用于表征所述第一采集周期内的所述第一筛选事件信息的起始时间 和结束时间之间,所述第一非空类型筛选数据的平均值;所述第一筛选事件信息为事件类 型为所述第一事件类型的任一筛选事件信息;对于事件类型为所述第一事件类型的第一筛 选事件信息,根据所述其他采集周期内,所述第一筛选事件信息的起始时间和结束时间之 间的筛选数据中包含的第二空类型筛选数据和第二非空类型筛选数据,获取所述第一筛选 事件信息的第Ξ特性值和第四特性值;其中,所述第Ξ特性值用于表征所述η个采集周期 内的所述第一筛选事件信息的起始时间和结束时间之间,所述第二空类型筛选数据的出现 概率,所述第四特性值用于表征所述η个采集周期内的所述第一筛选事件信息的起始时间 和结束时间之间,所述第二非空类型的所述筛选数据的平均值;对于事件类型为所述第一 事件类型的第一筛选事件信息,获取所述第一筛选事件信息的第一特性值和第Ξ特性值的 差值,将所述差值确定为所述第一筛选事件信息的第一增量值;W及获取所述第一筛选事 件信息的第二特性值和第四特性值的差值,将所述差值确定为所述第一筛选事件信息的第 二增量值;其中,所述第一增量值用于表征在所述第一采集周期内,所述第一筛选事件信息 的起始时间和结束时间之间,所述第一空类型筛选数据的出现概率相对于所述η个采集周 期内的所述起始时间和结束时间之间所述第二空类型筛选数据的出现概率的增量,所述第 二增量值用于表征在所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间 之间,第一非空类型筛选数据的平均值相对于所述η个采集周期内的所述起始时间和结束 时间之间第二非空类型筛选数据的平均值的增量;分别获取事件类型为所述第一事件类型 的每一个筛选事件信息的第一增量值和第二增量值;根据获取的所述每一个筛选事件信息 的第一增量值和第二增量值,确定所述第一事件类型的相关性指标。
[0135] 可选的,所述处理器72,具体用于:从所述第一采集周期内,所述第一筛选事件信 息的起始时间和结束时间之间的筛选数据中,选取第一空类型筛选数据;并根据所述第一 空类型筛选数据,所述第一筛选事件信息所对应的时间窗,采用指示函数,获取所述第一筛 选事件信息的第一特性值;从所述第一采集周期内,所述第一筛选事件信息的起始时间和 结束时间之间的筛选数据中,选取第一非空类型筛选数据;并根据所述第一非空类型筛选 数据,所述第一筛选事件信息所对应的时间窗,采用指示函数,获取所述筛选事件信息的第 二特性值。
[0136] 可选的,所述处理器72,具体用于:从所述其他采集周期内,所述第一筛选事件信 息的起始时间和结束时间之间的筛选数据中,选取第二空类型筛选数据;并根据所述第二 空类型筛选数据,所述其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的 筛选数据的数目,采用指示函数,获取所述筛选事件信息的第Ξ特性值;从所述其他采集周 期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第二非空类 型筛选数据;并根据所述第二非空类型筛选数据,所述其他采集周期内的第一筛选事件信 息的起始时间和结束时间之间的筛选数据,所述其他采集周期内的第一筛选事件信息的起 始时间和结束时间之间的筛选数据的数目,采用指示函数,获取所述筛选事件信息的第四 特性值。
[0137] 可选的,处理器72,具体用于:根据事件类型为所述第一事件类型的所有筛选事 件信息的第一增量值,确定所述第一事件类型的第一相关性指标;其中,第一相关性指标用 于表征空类型数据的出现概率与发生对应于所述第一事件类型的事件相关;或者,从事件 类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取大于预设阔值的第二 增量值,并根据选取的大于预设阔值的第二增量值,确定所述第一事件类型的第二相关性 指标;其中,所述第二相关性指标用于表征当发生对应于所述第一事件类型的事件时,数据 取值增大的概率;或者,从事件类型为所述第一事件类型的所述筛选事件信息的第二增量 值中,选取小于预设阔值的第二增量值,并根据选取的小于预设阔值的第二增量值,确定所 述第一事件类型的第Ξ相关性指标;其中,所述第Ξ相关性指标用于表征当发生对应于所 述第一事件类型的事件时,数据取值减小的概率;或者,从事件类型为所述第一事件类型的 所述筛选事件信息的第二增量值中,选取大于所述预设阔值的第二增量值,并根据选取的 大于预设阔值的第二增量值,W及事件类型为所述第一事件类型的所述筛选事件信息的第 二增量值,确定所述第一事件类型的第四相关性指标;其中,所述第四相关性指标用于表 征当发生对应于所述第一事件类型的事件时,数据平均值的增大量;或者,从事件类型为所 述第一事件类型的所述筛选事件信息的第二增量值中,选取小于所述预设阔值的第二增量 值,并根据选取的小于预设阔值的第二增量值,W及事件类型为所述第一事件类型的所述 筛选事件信息的第二增量值,确定所述第一事件类型的第五相关性指标;其中,所述第五相 关性指标用于表征当发生对应于所述第一事件类型的事件时,数据平均值的减小量。
[0138] 可选的,所处理器72,具体用于:若所述第一事件类型的第四相关性指标大于第 一预设增大平均值阔值,且所述第一事件类型的第二相关性指标与所述第一事件类型的第 Ξ相关性指标的差值大于差值阔值,则确定所述相关性结果为,所述第一事件类型和所述 数据序列相关,且对应于所述第一事件类型的事件发生,将引起所述数据序列中的数据取 值增大,增大量为所述第四相关性指标;否则,若所述第一事件类型的第五相关性指标小于 第二预设增大平均值阔值,且所述第一事件类型的第二相关性指标与所述第一事件类型的 第Ξ相关性指标的差值大于所述差值阔值,则确定所述相关性结果为,第一事件类型和所 述数据序列相关,且对应于所述第一事件类型的事件发生,将引起所述数据序列中的数据 取值减小,减小量为所述第一事件类型的第五相关性指标;若所述第一事件类型的第五相 关性指标大于第二预设增大平均值阔值,或者所述第一事件类型的第二相关性指标与所述 第一事件类型的第Ξ相关性指标的差值小于所述差值阔值,则当所述第一事件类型的第一 相关性指标大于预设概率阔值时,确定所述相关性结果为,所述第一事件类型和所述数据 序列相关,且对应于所述第一事件类型的事件发生将引起数据序列中空类型数据的出现概 率增大。
[0139] 综上所述,本发明实施例中,从至少一个数据源获取数据序列和事件信息集合;其 中,第一数据源的数据序列中包含第一数据源在η个采集周期内所采集的数据,第一数据 源为至少一个数据源中的任一数据源,第一数据源的事件信息集合中包含第一数据源在η 个采集周期内发生的事件的事件信息,该事件信息包括事件的事件类型,W及该事件发生 的起始时间和结束时间;对于上述至少一个数据源中的每一个数据源,均执行如下操作: 在第一数据源的事件信息集合中,对第一数据源对应的第一采集周期内的事件信息进行筛 选,获取筛选事件信息,筛选事件信息为事件信息集合中满足预设筛选条件的事件信息,将 该筛选事件信息存储至筛选事件信息集合中;其中,第一采集周期为η个采集周期中的任 一采集周期;从第一数据源对应的第一采集周期内的数据序列中,选取第一数据源的筛选 事件信息集合中包含的每一个筛选事件信息的起始时间和结束时间之间的数据;W及从除 第一采集周期之外的其他采集周期中,选取在每一个筛选事件信息的起始时间和结束时间 之间没有任何事件发生的时间段,并获取除第一采集周期之外的其他采集周期中每一个筛 选事件信息的起始时间和结束时间之间的数据,并从获取的数据中选取在上述时间段之间 的数据,将选取的数据确定为第一数据源的筛选数据,存储至筛选数据集合中;根据筛选事 件信息集合中包含的至少一个数据源的筛选事件信息的事件类型,对筛选事件信息集合中 包含的筛选事件信息进行分类,获取每一种事件类型对应的筛选事件信息;从每一个数据 源对应的第一采集周期内的数据中,选取第一事件类型对应的筛选事件信息的起始时间和 结束时间之间的数据,W及从每一个数据源的筛选数据中,选取第一事件类型对应的筛选 事件信息的起始时间和结束时间之间的筛选数据;其中,第一事件类型为筛选事件信息集 合中包含的事件类型中的任意一种事件类型;根据获取的第一事件类型对应的筛选事件信 息的起始时间和结束时间之间的数据,W及获取的第一事件类型对应的筛选事件信息的起 始时间和结束时间之间的筛选数据,获取第一事件类型的相关性指标;根据上述相关性指 标,确定第一事件类型与数据序列的相关性。采用本发明技术方案,基于多个数据源对应的 事件信息,获取筛选事件信息集合中每一个筛选事件信息对应的不同周期的相应数据,确 定每一种事件类型与数据序列的关联性,无须人工判定,有效节约了人力资源,并保证了获 取的结果的准确性。
[0140] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序 产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实 施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机 可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产 品的形式。 阳141] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程 图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一 流程和/或方框、W及流程图和/或方框图中的流程和/或方框的结合。可提供运些计算 机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理 器W产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生 用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能 的装置。
[0142] 运些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备W特 定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指 令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或 多个方框中指定的功能。
[0143] 运些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计 算机或其他可编程设备上执行一系列操作步骤W产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图 一个方框或多个方框中指定的功能的步骤。
[0144] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造 性概念,则可对运些实施例作出另外的变更和修改。所W,所附权利要求意欲解释为包括优 选实施例W及落入本发明范围的所有变更和修改。
[0145] 显然,本领域的技术人员可W对本发明实施例进行各种改动和变型而不脱离本发 明实施例的精神和范围。运样,倘若本发明实施例的运些修改和变型属于本发明权利要求 及其等同技术的范围之内,则本发明也意图包含运些改动和变型在内。
【主权项】
1. 一种海量数据的信息处理方法,其特征在于,包括: 从至少一个数据源获取数据序列和事件信息集合;其中,第一数据源的所述数据序列 中包含所述第一数据源在η个采集周期内所采集的数据,第一数据源为所述至少一个数据 源中的任一数据源,所述第一数据源的所述事件信息集合中包含所述第一数据源在所述η 个采集周期内发生的事件的事件信息,所述事件信息包括所述事件的事件类型,以及所述 事件发生的起始时间和结束时间;η为大于等于2的整数; 通过海量数据信息处理模型将获取的所述数据序列和所述事件信息集合进行处理,得 到所述数据序列和所述事件信息集合中任一事件信息之间的相关性结果;其中,所述海量 数据信息处理模型用于根据所述至少一个数据源获取数据序列和事件信息集合,确定所述 数据序列和所述事件信息集合中任一事件信息之间的相关性结果。2. 如权利要求1所述的方法,其特征在于,所述通过海量数据信息处理模型将获取的 所述数据序列和所述事件信息集合进行处理,包括: 对于所述至少一个数据源中的每一个数据源,均执行如下操作:在第一数据源的事件 信息集合中,对所述第一数据源对应的第一采集周期内的事件信息进行筛选,获取筛选事 件信息,所述筛选事件信息为所述事件信息集合中满足第一预设筛选条件的事件信息,将 所述筛选事件信息存储至筛选事件信息集合中;其中,所述第一采集周期为所述η个采集 周期中的任一采集周期;从所述第一数据源对应的η个采集周期内的数据序列中,选取筛 选数据,其中,所述筛选数据为所述数据序列中满足第二预设筛选条件的数据; 根据所述筛选事件信息集合中包含的所述至少一个数据源的筛选事件信息的事件类 型,对所述筛选事件信息集合中包含的筛选事件信息进行分类,获取每一种事件类型对应 的筛选事件信息; 从所述每一个数据源的筛选数据中,选取第一事件类型对应的筛选事件信息的起始时 间和结束时间之间的筛选数据;其中,所述第一事件类型为所述筛选事件信息集合中包含 的事件类型中的任一事件类型; 根据获取的所述第一事件类型对应的筛选事件信息的起始时间和结束时间之间的筛 选数据,获取所述第一事件类型的相关性指标; 根据所述相关性指标获取所述数据序列和所述第一事件类型之间的相关性结果。3. 如权利要求2所述的方法,其特征在于,在第一数据源的事件信息集合中,对所述第 一数据源对应的第一采集周期内的事件信息进行筛选,获取筛选事件信息,具体包括: 在所述第一数据源的事件信息集合中,对所述第一数据源对应的第一采集周期内的任 一事件信息,执行如下操作: 根据所述第一事件信息的第一事件发生的起始时间和结束时间,确定所述第一事件所 对应的时间窗;其中,所述第一事件信息为所述第一数据源的事件信息集合中,所述第一数 据源对应的第一采集周期内的任一事件信息; 当判定在所述第一事件所对应的时间窗内,没有除所述第一事件之外的其他事件发生 时,确定所述第一事件信息为所述筛选事件信息并获取所述筛选事件信息。4. 如权利要求2或3所述的方法,其特征在于,从所述第一数据源对应的η个采集周期 内的数据序列中,选取筛选数据,具体包括: 从所述第一数据源对应的所述第一采集周期内的数据序列中,选取所述第一数据源的 每一个筛选事件信息的起始时间和结束时间之间的数据,将选取的所述数据作为第一数据 源对应的第一采集周期的筛选数据;以及 从除所述第一采集周期之外的其他采集周期中,选取在所述每一个筛选事件信息的所 述起始时间和所述结束时间之间的数据,并根据获取的数据确定所述第一数据源对应的所 述其他采集周期的筛选数据; 将所述第一数据源对应的第一采集周期的筛选数据,以及所述第一数据源对应的所述 其他采集周期的筛选数据,确定为所述第一数据源的筛选数据。5. 如权利要求2至4任一所述的方法,其特征在于,所述根据获取的所述第一事件类型 对应的筛选事件信息的起始时间和结束时间之间的筛选数据,获取所述第一事件类型的相 关性指标,具体包括: 对于事件类型为所述第一事件类型的第一筛选事件信息,根据所述第一采集周期内, 所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包含的第一空类型筛选 数据和第一非空类型筛选数据,获取所述第一筛选事件信息的第一特性值和第二特性值; 其中,所述第一特性值用于表征所述第一采集周期内的所述第一筛选事件信息的起始时间 和结束时间之间,所述第一空类型筛选数据的出现概率,所述第二特性值用于表征所述第 一采集周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第一非空类型筛 选数据的平均值;所述第一筛选事件信息为事件类型为所述第一事件类型的任一筛选事件 信息; 对于事件类型为所述第一事件类型的第一筛选事件信息,根据所述其他采集周期内, 所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包含的第二空类型筛选 数据和第二非空类型筛选数据,获取所述第一筛选事件信息的第三特性值和第四特性值; 其中,所述第三特性值用于表征所述η个采集周期内的所述第一筛选事件信息的起始时间 和结束时间之间,所述第二空类型筛选数据的出现概率,所述第四特性值用于表征所述η 个采集周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第二非空类型的 所述筛选数据的平均值; 对于事件类型为所述第一事件类型的第一筛选事件信息,获取所述第一筛选事件信息 的第一特性值和第三特性值的差值,将所述差值确定为所述第一筛选事件信息的第一增量 值;以及获取所述第一筛选事件信息的第二特性值和第四特性值的差值,将所述差值确定 为所述第一筛选事件信息的第二增量值;其中,所述第一增量值用于表征在所述第一采集 周期内,所述第一筛选事件信息的起始时间和结束时间之间,所述第一空类型筛选数据的 出现概率相对于所述η个采集周期内的所述起始时间和结束时间之间所述第二空类型筛 选数据的出现概率的增量,所述第二增量值用于表征在所述第一采集周期内,所述第一筛 选事件信息的起始时间和结束时间之间,第一非空类型筛选数据的平均值相对于所述η个 采集周期内的所述起始时间和结束时间之间第二非空类型筛选数据的平均值的增量; 分别获取事件类型为所述第一事件类型的每一个筛选事件信息的第一增量值和第二 增量值; 根据获取的所述每一个筛选事件信息的第一增量值和第二增量值,确定所述第一事件 类型的相关性指标。6. 如权利要求5所述的方法,其特征在于,根据所述第一采集周期内,所述第一筛选事 件信息的起始时间和结束时间之间的筛选数据中包含的第一空类型筛选数据和第一非空 类型筛选数据,获取所述第一筛选事件信息的第一特性值和第二特性值,具体包括: 从所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数 据中,选取第一空类型筛选数据;并根据所述第一空类型筛选数据,所述第一筛选事件信息 所对应的时间窗,采用指示函数,获取所述第一筛选事件信息的第一特性值; 从所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数 据中,选取第一非空类型筛选数据;并根据所述第一非空类型筛选数据,所述第一筛选事件 信息所对应的时间窗,采用指示函数,获取所述筛选事件信息的第二特性值。7. 如权利要求5所述的方法,其特征在于,根据所述其他采集周期内,所述第一筛选事 件信息的起始时间和结束时间之间的筛选数据中包含的第二空类型筛选数据和第二非空 类型筛选数据,获取所述第一筛选事件信息的第三特性值和第四特性值,具体包括: 从所述其他采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数 据中,选取第二空类型筛选数据;并根据所述第二空类型筛选数据,所述其他采集周期内的 第一筛选事件信息的起始时间和结束时间之间的筛选数据的数目,采用指示函数,获取所 述筛选事件信息的第三特性值; 从所述其他采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数 据中,选取第二非空类型筛选数据;并根据所述第二非空类型筛选数据,所述其他采集周期 内的第一筛选事件信息的起始时间和结束时间之间的筛选数据,所述其他采集周期内的第 一筛选事件信息的起始时间和结束时间之间的筛选数据的数目,采用指示函数,获取所述 筛选事件信息的第四特性值。8. 如权利要求5-7任一项所述的方法,其特征在于,根据获取的所述每一个筛选事件 信息的第一增量值和第二增量值,确定所述第一事件类型的相关性指标,具体包括: 根据事件类型为所述第一事件类型的所有筛选事件信息的第一增量值,确定所述第一 事件类型的第一相关性指标;其中,第一相关性指标用于表征空类型数据的出现概率与发 生对应于所述第一事件类型的事件相关;或者, 从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取大于预设 阈值的第二增量值,并根据选取的大于预设阈值的第二增量值,确定所述第一事件类型的 第二相关性指标;其中,所述第二相关性指标用于表征当发生对应于所述第一事件类型的 事件时,数据取值增大的概率;或者, 从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取小于预设 阈值的第二增量值,并根据选取的小于预设阈值的第二增量值,确定所述第一事件类型的 第三相关性指标;其中,所述第三相关性指标用于表征当发生对应于所述第一事件类型的 事件时,数据取值减小的概率;或者, 从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取大于所述 预设阈值的第二增量值,并根据选取的大于预设阈值的第二增量值,以及事件类型为所述 第一事件类型的所述筛选事件信息的第二增量值,确定所述第一事件类型的第四相关性指 标;其中,所述第四相关性指标用于表征当发生对应于所述第一事件类型的事件时,数据平 均值的增大量;或者, 从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中,选取小于所述 预设阈值的第二增量值,并根据选取的小于预设阈值的第二增量值,以及事件类型为所述 第一事件类型的所述筛选事件信息的第二增量值,确定所述第一事件类型的第五相关性指 标;其中,所述第五相关性指标用于表征当发生对应于所述第一事件类型的事件时,数据平 均值的减小量。9. 如权利要求8所述的方法,其特征在于,根据所述相关性指标获取所述数据序列和 所述第一事件类型之间的相关性结果,具体包括: 若所述第一事件类型的第四相关性指标大于第一预设增大平均值阈值,且所述第一 事件类型的第二相关性指标与所述第一事件类型的第三相关性指标的差值大于差值阈值, 则确定所述相关性结果为,所述第一事件类型和所述数据序列相关,且对应于所述第一事 件类型的事件发生,将引起所述数据序列中的数据取值增大,增大量为所述第四相关性指 标; 否则,若所述第一事件类型的第五相关性指标小于第二预设增大平均值阈值,且所述 第一事件类型的第二相关性指标与所述第一事件类型的第三相关性指标的差值大于所述 差值阈值,则确定所述相关性结果为,第一事件类型和所述数据序列相关,且对应于所述第 一事件类型的事件发生,将引起所述数据序列中的数据取值减小,减小量为所述第一事件 类型的第五相关性指标;若所述第一事件类型的第五相关性指标大于第二预设增大平均值 阈值,或者所述第一事件类型的第二相关性指标与所述第一事件类型的第三相关性指标的 差值小于所述差值阈值,则当所述第一事件类型的第一相关性指标大于预设概率阈值时, 确定所述相关性结果为,所述第一事件类型和所述数据序列相关,且对应于所述第一事件 类型的事件发生将引起数据序列中空类型数据的出现概率增大。10. -种海量数据的信息处理装置,其特征在于,包括: 数据序列和事件信息集合获取单元,从至少一个数据源获取数据序列和事件信息集 合;其中,第一数据源的所述数据序列中包含所述第一数据源在η个采集周期内所采集的 数据,第一数据源为所述至少一个数据源中的任一数据源,所述第一数据源的所述事件信 息集合中包含所述第一数据源在所述η个采集周期内发生的事件的事件信息,所述事件信 息包括所述事件的事件类型,以及所述事件发生的起始时间和结束时间;η为大于等于2的 整数; 相关性结果获取单元,用于通过海量数据信息处理模型将所述数据序列和事件信息集 合获取单元获取的所述数据序列和所述事件信息集合进行处理,得到所述数据序列和所述 事件信息集合中任一事件信息之间的相关性结果;其中,所述海量数据信息处理模型用于 根据所述至少一个数据源获取数据序列和事件信息集合,确定所述数据序列和所述事件信 息集合中任一事件信息之间的相关性结果。11. 如权利要求10所述的装置,其特征在于,所述相关性结果获取单元,具体用于: 对于所述至少一个数据源中的每一个数据源,均执行如下操作:在第一数据源的事件 信息集合中,对所述第一数据源对应的第一采集周期内的事件信息进行筛选,获取筛选事 件信息,所述筛选事件信息为所述事件信息集合中满足第一预设筛选条件的事件信息,将 所述筛选事件信息存储至筛选事件信息集合中;其中,所述第一采集周期为所述η个采集 周期中的任一采集周期;从所述第一数据源对应的η个采集周期内的数据序列中,选取筛 选数据,其中,所述筛选数据为所述数据序列中满足第二预设筛选条件的数据;根据所述筛 选事件信息集合中包含的所述至少一个数据源的筛选事件信息的事件类型,对所述筛选事 件信息集合中包含的筛选事件信息进行分类,获取每一种事件类型对应的筛选事件信息; 从所述每一个数据源的筛选数据中,选取第一事件类型对应的筛选事件信息的起始时间和 结束时间之间的筛选数据;其中,所述第一事件类型为所述筛选事件信息集合中包含的事 件类型中的任一事件类型;根据获取的所述第一事件类型对应的筛选事件信息的起始时间 和结束时间之间的筛选数据,获取所述第一事件类型的相关性指标;根据所述相关性指标 获取所述数据序列和所述第一事件类型之间的相关性结果。12. 如权利要求11所述的装置,其特征在于,所述相关性获取单元单元,具体用于: 在所述第一数据源的事件信息集合中,对所述第一数据源对应的第一采集周期内的任 一事件信息,执行如下操作:根据所述第一事件信息的第一事件发生的起始时间和结束时 间,确定所述第一事件所对应的时间窗;其中,所述第一事件信息为所述第一数据源的事件 信息集合中,所述第一数据源对应的第一采集周期内的任一事件信息;当判定在所述第一 事件所对应的时间窗内,没有除所述第一事件之外的其他事件发生时,确定所述第一事件 信息为所述筛选事件信息并获取所述筛选事件信息。13. 如权利要求11或12所述的装置,其特征在于,所述相关性结果获取单元,具体用 于: 从所述第一数据源对应的所述第一采集周期内的数据序列中,选取所述第一数据源的 每一个筛选事件信息的起始时间和结束时间之间的数据,将选取的所述数据作为第一数据 源对应的第一采集周期的筛选数据;以及从除所述第一采集周期之外的其他采集周期中, 选取在所述每一个筛选事件信息的所述起始时间和所述结束时间之间的数据,并根据获取 的数据确定所述第一数据源对应的所述其他采集周期的筛选数据;将所述第一数据源对应 的第一采集周期的筛选数据,以及所述第一数据源对应的所述其他采集周期的筛选数据, 确定为所述第一数据源的筛选数据。14. 如权利要求11-13任一所述的装置,其特征在于,所述相关性结果获取单元,具体 用于: 对于事件类型为所述第一事件类型的第一筛选事件信息,根据所述第一采集周期内, 所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包含的第一空类型筛选 数据和第一非空类型筛选数据,获取所述第一筛选事件信息的第一特性值和第二特性值; 其中,所述第一特性值用于表征所述第一采集周期内的所述第一筛选事件信息的起始时间 和结束时间之间,所述第一空类型筛选数据的出现概率,所述第二特性值用于表征所述第 一采集周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第一非空类型筛 选数据的平均值;所述第一筛选事件信息为事件类型为所述第一事件类型的任一筛选事件 信息;对于事件类型为所述第一事件类型的第一筛选事件信息,根据所述其他采集周期内, 所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中包含的第二空类型筛选 数据和第二非空类型筛选数据,获取所述第一筛选事件信息的第三特性值和第四特性值; 其中,所述第三特性值用于表征所述η个采集周期内的所述第一筛选事件信息的起始时间 和结束时间之间,所述第二空类型筛选数据的出现概率,所述第四特性值用于表征所述η 个采集周期内的所述第一筛选事件信息的起始时间和结束时间之间,所述第二非空类型的 所述筛选数据的平均值;对于事件类型为所述第一事件类型的第一筛选事件信息,获取所 述第一筛选事件信息的第一特性值和第三特性值的差值,将所述差值确定为所述第一筛选 事件信息的第一增量值;以及获取所述第一筛选事件信息的第二特性值和第四特性值的差 值,将所述差值确定为所述第一筛选事件信息的第二增量值;其中,所述第一增量值用于表 征在所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之间,所述第一 空类型筛选数据的出现概率相对于所述η个采集周期内的所述起始时间和结束时间之间 所述第二空类型筛选数据的出现概率的增量,所述第二增量值用于表征在所述第一采集周 期内,所述第一筛选事件信息的起始时间和结束时间之间,第一非空类型筛选数据的平均 值相对于所述η个采集周期内的所述起始时间和结束时间之间第二非空类型筛选数据的 平均值的增量;分别获取事件类型为所述第一事件类型的每一个筛选事件信息的第一增量 值和第二增量值;根据获取的所述每一个筛选事件信息的第一增量值和第二增量值,确定 所述第一事件类型的相关性指标。15. 如权利要求14所述的装置,其特征在于,所述相关性结果获取单元,具体用于: 从所述第一采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数 据中,选取第一空类型筛选数据;并根据所述第一空类型筛选数据,所述第一筛选事件信息 所对应的时间窗,采用指示函数,获取所述第一筛选事件信息的第一特性值;从所述第一采 集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数据中,选取第一非 空类型筛选数据;并根据所述第一非空类型筛选数据,所述第一筛选事件信息所对应的时 间窗,采用指示函数,获取所述筛选事件信息的第二特性值。16. 如权利要求14所述的装置,其特征在于,所述相关性结果获取单元,具体用于: 从所述其他采集周期内,所述第一筛选事件信息的起始时间和结束时间之间的筛选数 据中,选取第二空类型筛选数据;并根据所述第二空类型筛选数据,所述其他采集周期内的 第一筛选事件信息的起始时间和结束时间之间的筛选数据的数目,采用指示函数,获取所 述筛选事件信息的第三特性值;从所述其他采集周期内,所述第一筛选事件信息的起始时 间和结束时间之间的筛选数据中,选取第二非空类型筛选数据;并根据所述第二非空类型 筛选数据,所述其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数 据,所述其他采集周期内的第一筛选事件信息的起始时间和结束时间之间的筛选数据的数 目,采用指示函数,获取所述筛选事件信息的第四特性值。17. 如权利要求14-16任一项所述的装置,其特征在于,所述相关性结果获取单元,具 体用于: 根据事件类型为所述第一事件类型的所有筛选事件信息的第一增量值,确定所述第一 事件类型的第一相关性指标;其中,第一相关性指标用于表征空类型数据的出现概率与发 生对应于所述第一事件类型的事件相关;或者,从事件类型为所述第一事件类型的所述筛 选事件信息的第二增量值中,选取大于预设阈值的第二增量值,并根据选取的大于预设阈 值的第二增量值,确定所述第一事件类型的第二相关性指标;其中,所述第二相关性指标用 于表征当发生对应于所述第一事件类型的事件时,数据取值增大的概率;或者,从事件类型 为所述第一事件类型的所述筛选事件信息的第二增量值中,选取小于预设阈值的第二增量 值,并根据选取的小于预设阈值的第二增量值,确定所述第一事件类型的第三相关性指标; 其中,所述第三相关性指标用于表征当发生对应于所述第一事件类型的事件时,数据取值 减小的概率;或者,从事件类型为所述第一事件类型的所述筛选事件信息的第二增量值中, 选取大于所述预设阈值的第二增量值,并根据选取的大于预设阈值的第二增量值,以及事 件类型为所述第一事件类型的所述筛选事件信息的第二增量值,确定所述第一事件类型的 第四相关性指标;其中,所述第四相关性指标用于表征当发生对应于所述第一事件类型的 事件时,数据平均值的增大量;或者,从事件类型为所述第一事件类型的所述筛选事件信息 的第二增量值中,选取小于所述预设阈值的第二增量值,并根据选取的小于预设阈值的第 二增量值,以及事件类型为所述第一事件类型的所述筛选事件信息的第二增量值,确定所 述第一事件类型的第五相关性指标;其中,所述第五相关性指标用于表征当发生对应于所 述第一事件类型的事件时,数据平均值的减小量。18.如权利要求17所述的装置,其特征在于,所述相关性结果获取单元,具体用于: 若所述第一事件类型的第四相关性指标大于第一预设增大平均值阈值,且所述第一事 件类型的第二相关性指标与所述第一事件类型的第三相关性指标的差值大于差值阈值,则 确定所述相关性结果为,所述第一事件类型和所述数据序列相关,且对应于所述第一事件 类型的事件发生,将引起所述数据序列中的数据取值增大,增大量为所述第四相关性指标; 否则,若所述第一事件类型的第五相关性指标小于第二预设增大平均值阈值,且所述第一 事件类型的第二相关性指标与所述第一事件类型的第三相关性指标的差值大于所述差值 阈值,则确定所述相关性结果为,第一事件类型和所述数据序列相关,且对应于所述第一事 件类型的事件发生,将引起所述数据序列中的数据取值减小,减小量为所述第一事件类型 的第五相关性指标;若所述第一事件类型的第五相关性指标大于第二预设增大平均值阈 值,或者所述第一事件类型的第二相关性指标与所述第一事件类型的第三相关性指标的差 值小于所述差值阈值,则当所述第一事件类型的第一相关性指标大于预设概率阈值时,确 定所述相关性结果为,所述第一事件类型和所述数据序列相关,且对应于所述第一事件类 型的事件发生将引起数据序列中空类型数据的出现概率增大。
【文档编号】G06F17/30GK105989032SQ201510054747
【公开日】2016年10月5日
【申请日】2015年1月31日
【发明人】王平辉, 潘璐伽, 范伟
【申请人】华为技术有限公司