一种数据处理方法、装置、设备及存储介质与流程

文档序号:20487955发布日期:2020-04-21 21:49阅读:208来源:国知局
一种数据处理方法、装置、设备及存储介质与流程
本发明实施例涉及大数据处理
技术领域
,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
:随着科技的发展,尤其是人工智能与大数据技术的发展,我们进入信息化时代。通过大数据技术收集、处理并分析海量数据,探索数据中存在的潜在规律,并利用该规律进行有效的预测与研判,可以达到智能化的要求。然而,随着计算机网络技术的普及,网络数据总量呈爆发式增长,并具有典型的特征,如海量的数据规模、快速的数据流转、多样的数据类型、巨大的数据价值,同时,数据还具有异构性、动态性和复杂性。这些特征使数据可能存在记录不一致、不精确、不完整或者过时等问题,对于描述同一实体的数据也可能出现冲突的情况。换言之,数据可能是不可信的。实际中,用户通常会对某一事件的数据进行收集、整理及分析,进而了解事件的发展情况,并依据数据的分析结果对事件的发展进行预判。而数据的不可信性会使用户对事件的了解出现误导,出现有害的结果,甚至对经济、社会造成严重的损失。技术实现要素:本发明实施例提供了一种数据处理方法、装置、设备及存储介质,可以建立良好、可信的数据环境,便于用户依据可信的数据做出正确决策。第一方面,本发明实施例提供了一种数据处理方法,该方法包括:获取黑名单中的数据;从要素库中读取追溯数据;其中,所述追溯数据包括多个数据字段,以及各个所述数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;判断所述黑名单中的数据是否包含所述追溯数据;若是,为所述追溯数据确定第一可信度分值;若否,获取所述追溯数据的各个所述数据字段,以及对应的所述数据源、所述数据字段编码、所述出现次数以及所述末次出现的时间信息;确定各个所述数据字段对应的所述数据源、所述出现次数以及所述末次出现的时间信息的权重和分数;根据所述权重和所述分数,为不在所述黑名单中的追溯数据确定第二可信度分值。第二方面,本发明实施例还提供了一种数据处理装置,该装置包括:数据获取模块,用于获取黑名单中的数据;追溯数据读取模块,用于从要素库中读取追溯数据;其中,所述追溯数据包括多个数据字段,以及各个所述数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;判断模块,用于判断黑名单中的数据是否包含所述追溯数据;第一可信度分值确定模块,用于若是,为所述追溯数据确定第一可信度分值;信息获取模块,用于若否,获取所述追溯数据的各个所述数据字段,以及对应的所述数据源、所述数据字段编码、所述出现次数以及所述末次出现的时间信息;确定权重和分数模块,用于确定各个所述数据字段对应的所述数据源、所述出现次数以及所述末次出现的时间信息的权重和分数;第二可信度分值确定模块,用于根据所述权重和所述分数,为不在所述黑名单中的追溯数据确定第二可信度分值。第三方面,本发明实施例还提供了一种计算机设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的一种数据处理方法。第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的一种数据处理方法。本发明通过获取黑名单中的数据;从要素库中读取追溯数据;其中,追溯数据包括多个数据字段,以及各个数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;判断黑名单中的数据是否包含追溯数据;若是,为追溯数据确定第一可信度分值;若否,获取追溯数据的各个数据字段,以及对应的数据源、数据字段编码、出现次数以及末次出现的时间信息;确定各个数据字段对应的数据源、出现次数以及末次出现的时间信息的权重和分数;根据权重和分数,为不在黑名单中的追溯数据确定第二可信度分值,解决了数据无可信度分值的空白问题,实现了为数据确定可信度分值,使用户判断数据是否可信时有依据,方便用户依据数据的可信度分值做出正确的决策的效果。附图说明图1a是本发明实施例一提供的一种数据处理方法的流程图;图1b是本发明实施例一提供的基于黑名单确定对象数据的第一目标可信度分值的流程图;图1c是本发明实施例一提供的基于黑名单确定关联数据或者关系数据的第一目标可信度分值的流程图;图1d是本发明实施例一提供的基于非黑名单确定对象数据的第二目标可信度分值的流程图;图1e是本发明实施例一提供的基于非黑名单确定关联数据或者关系数据的第二目标可信度分值的流程图;图2是本发明实施例二提供的一种数据处理方法的流程图;图3是本发明实施例三提供的一种数据处理装置的结构示意图;图4是本发明实施例四提供的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。实施例一图1a是本发明实施例一提供的一种数据处理方法的流程图,本实施例可适用于的为网络数据进行可信度打分的情况,该方法可以由数据处理装置来执行,该装置可以通过软件,和/或硬件的方式实现,所述装置可以集成在处理器中,如图1a所示,该方法具体包括:步骤110、获取黑名单中的数据。其中,黑名单中的数据可以是由采集的用户设置的黑名单信息、网络消费的不良记录信息或者违法乱纪人员的信息组成的。数据可以由数据字段编码和数据字段组成,其中,数据字段编码可以是依据姓名、性别、年龄等描述属性生成的数据字段编码,数据字段可以是数据字段编码对应的数据内容。步骤120、从要素库中读取追溯数据;其中,追溯数据包括多个数据字段,以及各个数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息。其中,要素库是综合各类数据建立的对象数据(如公民姓名、手机号、身份证号等)、关联数据和关系数据的公共数据集合。追溯数据包括多个数据字段,以及各个数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息。追溯数据可以分为对象数据、关联数据和关系数据。其中,对象数据可以是同一主体的多个描述属性组成的,例如,一个对象数据可以是:数据字段编码为姓名,对应的数据字段为张三;数据字段编码为性别,对应的数据字段为张三的性别如男;数据字段编码为年龄,对应的数据字段为张三的年龄如28岁等,同时还可以有该对象数据的数据源、出现次数和末次出现的时间信息。关联数据可以是同一主体的建立关联的不同对象数据,例如,一个关联数据可以是:数据字段编码为手机号,对应的数据字段为张三的手机号如123456789101;数据字段编码为身份证号,对应的数据字段为张三的手机号关联的身份证号如120235199101011232,同时还可以有该关联数据的数据源、出现次数和末次出现的时间信息。关系数据可是不同主体的建立关系的同一对象数据,可以是地址关系、通信关系、好友关系等,例如,一个关系数据可以是:数据字段编码为手机号,对应的数据字段为张三的手机号如123456789101;数据字段编码为手机号,对应的数据字段为与张三的手机号通信的手机号如123456789102,同时还可以有该关系数据的数据源、出现次数和末次出现的时间信息。步骤130、判断黑名单中的数据是否包含追溯数据。在本发明实施例的一个实施方式中,可选的,判断黑名单中的数据是否包含追溯数据,包括:判断追溯数据中数据字段编码对应的数据字段是否在黑名单中。示例性的,追溯数据可以是:数据字段编码为姓名,对应的数据字段为张三;数据字段编码为性别,对应的数据字段为张三的性别如男;数据字段编码为年龄,对应的数据字段为张三的年龄如28岁等,同时还可以有该追溯数据的数据源、出现次数和末次出现的时间信息。可以判断黑名单中是否存在数据字段编码为姓名,对应的数据字段为张三;数据字段编码为性别,对应的数据字段为张三的性别如男;数据字段编码为年龄,对应的数据字段为张三的年龄如28岁的数据。步骤140、若是,为追溯数据确定第一可信度分值。其中,如果黑名单中存在与追溯数据一致的数据,可以确定追溯数据的第一可信度分值,示例性的,第一可信度分值可以是0,可以表示该追溯数据是黑名单中的数据,如果黑名单是由违法乱纪人员的信息组成的,当用户在生活中发现某人的追溯数据的第一可信度分值为0时,可以选择报警。当然,第一可信度分值也可以是其他可以表示该追溯数据是黑名单中的数据的可信度分值,本发明不做具体限定。在本发明实施例的一个实施方式中,可选的,为追溯数据确定第一可信度分值,包括:为追溯数据中的各个数据字段确定第一目标可信度分值;根据各个数据字段的第一目标可信度分值,确定追溯数据的第一可信度分值。具体的,如果黑名单中存在与追溯数据一致的数据,可以将该追溯数据中的各个数据字段编码对应的数据字段的第一目标可信度分值确定为0,表示该数据字段是黑名单中的数据。可以根据各个数据字段的第一目标可信度分值,确定追溯数据的第一可信度分值,例如,对于同一条追溯数据中的各个数据字段的第一目标可信度分值均为0时,可以确定追溯数据的第一可信度分值为0。在本发明实施例的一个实施方式中,可选的,该方法,还包括:将第一可信度分值对应的追溯数据采用第一标记进行标识。其中,第一标记可以是表示第一可信度分值是通过黑名单确定的,也可以表示该追溯数据是黑名单中的数据。示例性的,图1b是本发明实施例一提供的基于黑名单确定对象数据的第一目标可信度分值的流程图,如图1b所示,可以先获取黑名单中的数据,数据可以是黑名单中的属性规则表中的数据;然后可以从要素库中读取追溯数据;对于每一条追溯数据中的每一个数据字段编码对应的数据字段,判断黑名单中是否包含该数据字段,此时,数据字段编码和数据字段表示对象数据的描述属性;若包含,可以为该数据字段确定第一目标可信度分值,该数据字段也可以采用第一标记进行标识;若不包含,可以对该数据字段不进行处理;最后,将所有的第一目标可信度分值和第一标记对应的追溯数据保存,可以输出至分布式文件系统(hadoopdistributedfilesystem,hdfs),可以供要素对象库提取进行合并去重。具体的,表1为基于黑名单确定对象数据的第一目标可信度分值示例表,如表1所示,追溯数据为w*_o*_z*_0*,追溯数据中的数据字段编码为*020005,数据字段为13320135546,该数据字段的第一目标可信度分值为0,第一标记为m0,其中m0表示该数据字段的确定模型为通过黑名单中的属性规则表确定第一目标可信度分值。表1追溯数据数据字段编码数据字段第一目标可信度分值第一标记w*_o*_z*_0**020005133201355460m0示例性的,图1c是本发明实施例一提供的基于黑名单确定关联数据或者关系数据的第一目标可信度分值的流程图,如图1c所示,可以先获取黑名单中的数据,数据可以是黑名单中的对象规则表中的数据;然后可以从要素库中读取追溯数据;对于每一条追溯数据中的每一个数据字段编码对应的数据字段,判断黑名单中是否包含该数据字段,此时,数据字段编码和数据字段表示关联数据的同一主体的不同对象数据,或者关系数据的不同主体的同一对象数据;若黑名单中包含关联数据的该主体的某一对象数据,或者,若黑名单中包含关系数据的某一主体的对象数据,可以为该数据字段确定第一目标可信度分值,该数据字段也可以采用第一标记进行标识;若不包含,可以对该数据字段不进行处理;最后,将所有的第一目标可信度分值和第一标记对应的追溯数据保存,可以输出至hdfs,可以供要素对象库提取进行合并去重。具体的,表2为基于黑名单确定关联数据或者关系数据的第一目标可信度分值示例表,如表2所示,以追溯数据为关系数据为例说明(关联数据与关系数据的第一目标可信度分值确定过程是一样的),关系数据中其中一个主体的对象数据的数据字段编码为0060001,数据字段为0200000000;另一个主体的对象数据的数据字段编码为0060002,数据字段为4294967295。如果数据字段编码0060001,数据字段0200000000;或者,数据字段编码0060002,数据字段4294967295,在黑名单的对象规则表中,则该关系数据的第一目标可信度分值为0,第一标记为m1,其中m1表示该关系数据的确定模型为通过黑名单中的对象规则表确定第一目标可信度分值。表2数据字段编码数据字段第一目标可信度分值第一标记006000102000000000m1006000242949672950m1步骤150、若否,获取追溯数据的各个数据字段,以及对应的数据源、数据字段编码、出现次数以及末次出现的时间信息。其中,如果黑名单中不存在与追溯数据一致的数据,获取该追溯数据的各个数据字段,以及对应的数据源、数据字段编码、出现次数以及末次出现的时间信息。步骤160、确定各个数据字段对应的数据源、出现次数以及末次出现的时间信息的权重和分数。示例性的,对于数据源的分数,可以是该领域的多个专家可以通过经验确定的,可以是对于一些可靠数据源的确定一个较高的分数,如对于12306铁路网站数据源确定分数为0.9;对于一些不可靠数据源的确定一个较低的分数,如对于微博数据源确定分数为0.5。示例性的,对于出现次数的分数,可以是分段函数表示的,可以是根据出现次数的大小,确定的对应分数,如出现次数为1,分数为0.3;现次数为2,分数为0.6;现次数为3,分数为0.8。示例性的,对于末次出现的时间信息的分数,可以是分段函数表示的,可以是根据末次出现的时间信息距离当前时间信息的时间间隔,确定对应的分数,如末次出现的时间信息距离当前时间信息的时间间隔为三个月以内,分数为1;时间间隔为三至六个月,分数为0.8;时间间隔为六个月至一年,分数为0.6;时间间隔为一年以上,分数为0.1。示例性的,对于所有的数据源,其权重可以是一样的;所有的出现次数,权重可以是一样的;对于所有的末次出现的时间信息,其权重也可以是一样的。可以先计算所有追溯数据的所有数据源的分数的均值和标准差;通过计算标准差与均值的比值作为未归一化的数据源的权重;再计算所有追溯数据的所有出现次数的分数的均值和标准差;通过计算标准差与均值的比值作为未归一化的出现次数的权重;然后计算所有追溯数据的所有末次出现的时间信息的分数的均值和标准差;通过计算标准差与均值的比值作为未归一化的末次出现的时间信息的权重;最后,计算未归一化的数据源的权重、未归一化的出现次数的权重、以及未归一化的末次出现的时间信息的权重的算术和作为权重和;分别计算未归一化的数据源的权重、未归一化的出现次数的权重、以及未归一化的末次出现的时间信息的权重与权重和的比值,分别作为数据源的权重,出现次数的权重,以及末次出现的时间信息的权重。步骤170、根据权重和分数,为不在黑名单中的追溯数据确定第二可信度分值。在本发明实施例的一个实施方式中,可选的,根据权重和分数,为不在黑名单中的追溯数据确定第二可信度分值,包括:根据权重和分数,为不在黑名单中的追溯数据中的各个数据字段确定第二目标可信度分值;根据各个数据字段的第二目标可信度分值,确定追溯数据的第二可信度分值。示例性的,各个数据字段的第二目标可信度分值可以是通过计算数据字段对应的数据源的分数与权重的乘积,加上数据字段对应的出现次数的分数与权重的乘积,加上数据字段对应的末次出现的时间信息的分数与权重的乘积,得到的。根据各个数据字段的第二目标可信度分值,确定追溯数据的第二可信度分值,可以是追溯数据中所有数据字段对应的第二目标可信度分值的平均值。在本发明实施例的一个实施方式中,可选的,该方法,还包括:将第二可信度分值对应的追溯数据采用第二标记进行标识。其中,第二标记可以是表示第二可信度分值不是通过黑名单确定的,也可以表示该追溯数据不是黑名单中的数据。示例性的,图1d是本发明实施例一提供的基于非黑名单确定对象数据的第二目标可信度分值的流程图,如图1d所示,对于黑名单中不包含的追溯数据,可以从要素库中,获取追溯数据的各个数据字段,以及对应的数据源、数据字段编码、出现次数以及末次出现的时间信息,此时,数据字段编码和数据字段表示对象数据的描述属性;确定各个数据字段对应的数据源、出现次数以及末次出现的时间信息的权重和分数;根据权重和分数,为不在黑名单中的追溯数据中的各个数据字段确定第二目标可信度分值;该追溯数据中的各个数据字段也可以采用第二标记进行标识;最后,将所有的第二目标可信度分值和第二标记对应的追溯数据保存,可以输出至hdfs,可以供要素对象库提取进行合并去重。具体的,表3为基于非黑名单确定对象数据的第二目标可信度分值示例表,如表3所示,追溯数据为w*_o*_z*_0*,追溯数据中的数据字段编码为*020005,数据字段为13820135546,该数据字段对应的数据源、出现次数以及末次出现的时间信息的权重分别为0.34171、0.25784和0.400440,数据字段对应的数据源、出现次数以及末次出现的时间信息的分数分别为0.9、0.8和1,该数据字段的第二目标可信度分值可以是0.9*0.34171+0.6*0.25784+1*0.400440,即为0.862683,第二标记可以为m2,其中m2表示该数据字段的确定模型为通过非黑名单确定第二目标可信度分值。表3其中,表4为出现次数的分数和末次出现的时间信息的分数的示例表,可以根据表4确定出现次数的分数和末次出现的时间信息的分数。例如,当出现次数为58时,58处于最小值51与最大值100之间,可以确定出现次数为58的分数为0.8;当末次出现的时间信息距离当前的时间信息的时间间隔为352天,352处于最小值181与最大值360之间,可以确定末次出现的时间信息的分数为0.6。第二目标可信度分值的计算公式可以是:第二目标可信度分值=数据源的权重*数据源的分数+出现次数的权重*出现次数的分数+末次出现的时间信息的权重*末次出现的时间信息的分数。表4示例性的,图1e是本发明实施例一提供的基于非黑名单确定关联数据或者关系数据的第二目标可信度分值的流程图,如图1e所示,对于黑名单中不包含的追溯数据,可以从要素库中,获取追溯数据的各个数据字段,以及对应的数据源、数据字段编码、出现次数以及末次出现的时间信息,此时,数据字段编码和数据字段表示关联数据的同一主体的不同对象数据,或者关系数据的不同主体的同一对象数据;确定各个数据字段对应的数据源、出现次数以及末次出现的时间信息的权重和分数;根据权重和分数,为不在黑名单中的追溯数据中的各个数据字段确定第二目标可信度分值;该追溯数据中的各个数据字段也可以采用第二标记进行标识;最后,将所有的第二目标可信度分值和第二标记对应的追溯数据保存,可以输出至hdfs,可以供要素对象库提取进行合并去重。本实施例的技术方案,通过获取黑名单中的数据;从要素库中读取追溯数据;其中,追溯数据包括多个数据字段,以及各个数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;判断黑名单中的数据是否包含追溯数据;若是,为追溯数据确定第一可信度分值;若否,获取追溯数据的各个数据字段,以及对应的数据源、数据字段编码、出现次数以及末次出现的时间信息;确定各个数据字段对应的数据源、出现次数以及末次出现的时间信息的权重和分数;根据权重和分数,为不在黑名单中的追溯数据确定第二可信度分值,解决了数据无可信度分值的空白问题,实现了为数据确定可信度分值,使用户判断数据是否可信时有依据,方便用户依据数据的可信度分值做出正确的决策的效果。实施例二图2是本发明实施例二提供的一种数据处理方法的流程图,本实施例是对上述技术方案的进一步细化,本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。步骤210、获取黑名单中的数据。步骤220、从要素库中读取追溯数据;其中,追溯数据包括多个数据字段,以及各个数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息。步骤230、判断黑名单中的数据是否包含追溯数据。可选的,判断黑名单中的数据是否包含追溯数据,包括:判断追溯数据中数据字段编码对应的数据字段是否在黑名单中。步骤240、若是,为追溯数据中的各个数据字段确定第一目标可信度分值;根据各个数据字段的第一目标可信度分值,确定追溯数据的第一可信度分值。步骤250、将第一可信度分值对应的追溯数据采用第一标记进行标识。步骤260、若否,获取追溯数据的各个数据字段,以及对应的数据源、数据字段编码、出现次数以及末次出现的时间信息。步骤270、确定各个数据字段对应的数据源、出现次数以及末次出现的时间信息的权重和分数。步骤280、根据权重和分数,为不在黑名单中的追溯数据中的各个数据字段确定第二目标可信度分值;根据各个数据字段的第二目标可信度分值,确定追溯数据的第二可信度分值。步骤290、将第二可信度分值对应的追溯数据采用第二标记进行标识。步骤300、对各条追溯数据中的相同数据字段的合并去重,以及对相同追溯数据的合并去重。其中,合并去重是指对于重复的数据按照一定的规则,将最有价值的数据保留,而替换其他重复的数据。例如,可以将可信度最高的数据替换其他重复的数据。在本发明实施例的一个实施方式中,可选的,对各条追溯数据中的相同数据字段的合并去重,包括:针对不在黑名单中的各条追溯数据,若存在相同数据字段,将第二目标可信度分值最高的数据字段,以及对应的数据源、数据字段编码、出现次数和末次出现的时间信息,分别替换追溯数据中其他相同的数据字段,以及其他相同的数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;若数据字段的第二目标可信度分值相同,将数据源的权重最高的数据字段,以及对应的数据源、数据字段编码、出现次数和末次出现的时间信息,分别替换追溯数据中第二目标可信度分值相同的其他数据字段,以及其他数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;若数据字段的数据源的权重相同,将末次出现的时间信息最靠近当前时间的数据字段,以及对应的数据源、数据字段编码、出现次数和末次出现的时间信息,分别替换追溯数据中数据源的权重相同的其他数据字段,以及数据源的权重相同的其他数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息。其中,对各条追溯数据中的相同数据字段的合并去重,可以是通过第二目标可信度分值、数据源的权重、以及末次出现的时间信息三个维度来分析数据字段。避免了现有技术中仅通过末次出现的时间信息合并去重数据的不可靠性,丰富了数据合并去重的实现方式。具体的,可以是按照选取第二目标可信度分值最高对应的数据字段;或者,第二目标可信度分值相同时,选取数据源的权重最高对应的数据字段;或者,数据源的权重相同时,选择末次出现的时间信息最靠近当前时间对应的数据字段。用选取的数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息,替换其他相同的数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息。在本发明实施例的一个实施方式中,可选的,对相同追溯数据的合并去重,包括:对于不在黑名单中的相同的追溯数据,选取第二可信度分值最高的追溯数据,替换其他相同的追溯数据;若追溯数据的第二可信度分值相同,选取数据源的权重最高的数据字段对应的追溯数据,替换其他相同的追溯数据;若数据字段的数据源的权重相同,选取末次出现的时间信息最靠近当前时间的数据字段对应的追溯数据,替换其他相同的追溯数据。其中,对相同追溯数据的合并去重,可以是通过第二可信度分值、数据源的权重、以及末次出现的时间信息三个维度来分析追溯数据,是对整条追溯数据的分析。具体的,可以是按照选取第二可信度分值最高对应的追溯数据;或者,第二可信度分值相同时,选取数据源的权重最高的数据字段对应的追溯数据;或者,数据源的权重相同时,选择末次出现的时间信息最靠近当前时间的数据字段对应的追溯数据。用选取的追溯数据替换其他相同的追溯数据。需要说明的是,追溯数据也可以包含数据源、数据字段编码、出现次数和末次出现的时间信息,可以是与追溯数据中数据字段的数据源、数据字段编码、出现次数和末次出现的时间信息一致的。可选的,对于合并去重后的相同追溯数据,可以只保留一条追溯数据,删除其他相同的追溯数据,节省存储空间,可以使用户在实际应用中避免阅读大量重复数据。本实施例的技术方案,通过获取黑名单中的数据;从要素库中读取追溯数据;其中,追溯数据包括多个数据字段,以及各个数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;判断黑名单中的数据是否包含追溯数据;若是,为追溯数据中的各个数据字段确定第一目标可信度分值;根据各个数据字段的第一目标可信度分值,确定追溯数据的第一可信度分值;将第一可信度分值对应的追溯数据采用第一标记进行标识;若否,获取追溯数据的各个数据字段,以及对应的数据源、数据字段编码、出现次数以及末次出现的时间信息;确定各个数据字段对应的数据源、出现次数以及末次出现的时间信息的权重和分数;根据权重和分数,为不在黑名单中的追溯数据中的各个数据字段确定第二目标可信度分值;根据各个数据字段的第二目标可信度分值,确定追溯数据的第二可信度分值;将第二可信度分值对应的追溯数据采用第二标记进行标识;对各条追溯数据中的相同数据字段的合并去重,以及对相同追溯数据的合并去重,解决了数据无可信度分值的空白问题以及存在大量重复数据的问题,实现了为数据确定可信度分值,使用户判断数据是否可信时有依据,方便用户依据数据的可信度分值做出正确的决策,同时,对相同的数据进行合并去重可以避免存在大量重复不可信数据造成数据冗余的效果。实施例三图3是本发明实施例三提供的一种数据处理装置的结构示意图。结合图3,该装置包括:数据获取模块310,追溯数据读取模块320,判断模块330,第一可信度分值确定模块340,信息获取模块350,确定权重和分数模块360和第二可信度分值确定模块370。其中,数据获取模310,用于获取黑名单中的数据;追溯数据读取模块320,用于从要素库中读取追溯数据;其中,追溯数据包括多个数据字段,以及各个数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;判断模块330,用于判断黑名单中的数据是否包含追溯数据;第一可信度分值确定模块340,用于若是,为追溯数据确定第一可信度分值;信息获取模块350,用于若否,获取追溯数据的各个数据字段,以及对应的数据源、数据字段编码、出现次数以及末次出现的时间信息;确定权重和分数模块360,用于确定各个数据字段对应的数据源、出现次数以及末次出现的时间信息的权重和分数;第二可信度分值确定模块370,用于根据权重和分数,为不在黑名单中的追溯数据确定第二可信度分值。可选的,该装置,还包括:第一标识模块,用于将第一可信度分值对应的追溯数据采用第一标记进行标识;第二标识模块,用于将第二可信度分值对应的追溯数据采用第二标记进行标识。可选的,判断模块330,包括:判断单元,用于判断追溯数据中数据字段编码对应的数据字段是否在黑名单中。可选的,第一可信度分值确定模块340,包括:第一目标可信度分值确定单元,用于为追溯数据中的各个数据字段确定第一目标可信度分值;第一可信度分值确定单元,用于根据各个数据字段的第一目标可信度分值,确定追溯数据的第一可信度分值;相应的,第二可信度分值确定模块370,包括:第二目标可信度分值确定单元,用于根据权重和分数,为不在黑名单中的追溯数据中的各个数据字段确定第二目标可信度分值;第二可信度分值确定单元,用于根据各个数据字段的第二目标可信度分值,确定追溯数据的第二可信度分值。可选的,该装置,还包括:合并去重模块,用于对各条追溯数据中的相同数据字段的合并去重,以及对相同追溯数据的合并去重。可选的,合并去重模块,包括:第一合并去重单元,用于针对不在黑名单中的各条追溯数据,若存在相同数据字段,将第二目标可信度分值最高的数据字段,以及对应的数据源、数据字段编码、出现次数和末次出现的时间信息,分别替换追溯数据中其他相同的数据字段,以及其他相同的数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;若数据字段的第二目标可信度分值相同,将数据源的权重最高的数据字段,以及对应的数据源、数据字段编码、出现次数和末次出现的时间信息,分别替换追溯数据中第二目标可信度分值相同的其他数据字段,以及其他数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;若数据字段的数据源的权重相同,将末次出现的时间信息最靠近当前时间的数据字段,以及对应的数据源、数据字段编码、出现次数和末次出现的时间信息,分别替换追溯数据中数据源的权重相同的其他数据字段,以及数据源的权重相同的其他数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息。可选的,合并去重模块,包括:第二合并去重单元,用于对于不在黑名单中的相同的追溯数据,选取第二可信度分值最高的追溯数据,替换其他相同的追溯数据;若追溯数据的第二可信度分值相同,选取数据源的权重最高的数据字段对应的追溯数据,替换其他相同的追溯数据;若数据字段的数据源的权重相同,选取末次出现的时间信息最靠近当前时间的数据字段对应的追溯数据,替换其他相同的追溯数据。本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行方法相应的功能模块和有益效果。实施例四图4是本发明实施例四提供的一种计算机设备的结构示意图,如图4所示,该设备包括:一个或多个处理器410,图4中以一个处理器410为例;存储器420;所述设备还可以包括:输入装置430和输出装置440。所述设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图4中以通过总线连接为例。存储器420作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种数据处理方法对应的程序指令/模块(例如,附图3所示的数据获取模块310,追溯数据读取模块320,判断模块330,第一可信度分值确定模块340,信息获取模块350,确定权重和分数模块360和第二可信度分值确定模块370)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例的一种数据处理方法,即:获取黑名单中的数据;从要素库中读取追溯数据;其中,所述追溯数据包括多个数据字段,以及各个所述数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;判断所述黑名单中的数据是否包含所述追溯数据;若是,为所述追溯数据确定第一可信度分值;若否,获取所述追溯数据的各个所述数据字段,以及对应的所述数据源、所述数据字段编码、所述出现次数以及所述末次出现的时间信息;确定各个所述数据字段对应的所述数据源、所述出现次数以及所述末次出现的时间信息的权重和分数;根据所述权重和所述分数,为不在所述黑名单中的追溯数据确定第二可信度分值。存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。输入装置430可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的一种数据处理方法:获取黑名单中的数据;从要素库中读取追溯数据;其中,所述追溯数据包括多个数据字段,以及各个所述数据字段对应的数据源、数据字段编码、出现次数和末次出现的时间信息;判断所述黑名单中的数据是否包含所述追溯数据;若是,为所述追溯数据确定第一可信度分值;若否,获取所述追溯数据的各个所述数据字段,以及对应的所述数据源、所述数据字段编码、所述出现次数以及所述末次出现的时间信息;确定各个所述数据字段对应的所述数据源、所述出现次数以及所述末次出现的时间信息的权重和分数;根据所述权重和所述分数,为不在所述黑名单中的追溯数据确定第二可信度分值。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、rf等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如”c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1