数据识别方法、装置、电子设备及存储介质与流程

文档序号:23860585发布日期:2021-02-05 16:22阅读:52来源:国知局
数据识别方法、装置、电子设备及存储介质与流程

[0001]
本申请涉及知识图谱领域,尤其涉及智能办公领域。


背景技术:

[0002]
大数据处理的便利性体现在方方面面,以智能办公的应用场景为例,办公环境日趋复杂,存在海量的数据待分析,比如,多个项目组的协同工作、每个项目组中的各职能部门及人员的分布、每个项目组所对接的兄弟智能部门及该项目组在办公环境的数据拓扑结构中所处的节点位置、该项目组的职能及人员更新等等这些数据海量存在,导致如何从海量的数据中获取到有价值的数据是重中之重,这对办公是否高效提供了数据基础,也就是说,如何通过大数据处理识别出有价值的数据,以提高办公效率(示例性的,如何提高办公环境中“以事找人”或“以人找事”的搜索处理效率)是要解决的技术问题。


技术实现要素:

[0003]
本申请提供了一种数据识别处理方法、装置、电子设备及存储介质。
[0004]
根据本申请的一方面,提供了一种数据识别处理方法,包括:
[0005]
获取包含第一类实体及第二类实体的多源数据;
[0006]
从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据;
[0007]
响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。
[0008]
根据本申请的另一方面,提供了一种数据识别处理装置,包括:
[0009]
数据获取模块,用于获取包含第一类实体及第二类实体的多源数据;
[0010]
数据提取模块,用于从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据;
[0011]
识别模块,用于响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。
[0012]
根据本申请的另一方面,提供了一种电子设备,包括:
[0013]
至少一个处理器;以及
[0014]
与该至少一个处理器通信连接的存储器;其中,
[0015]
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。
[0016]
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。
[0017]
采用本申请,可以获取包含第一类实体及第二类实体的多源数据;从所述多源数
据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据。可以响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。由于可以对第二类实体进行特征提取及编码处理,得到待识别的数据,及通过已训练好的识别模型对该待识别的数据进行识别,以从该第二类实体中筛选出有意义或需要被关注的目标实体数据(如所需的目标第二类实体),因此,可以从海量的数据中精准的识别到有价值的目标实体数据,从而提高了智能化办公场景下的办公效率。
[0018]
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0019]
附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0020]
图1是根据本申请实施例的数据识别处理方法的流程示意图;
[0021]
图2是根据本申请实施例的知识图谱中第一类实体与第二类实体的示意图;
[0022]
图3是根据本申请实施例的一应用示例中识别模型的架构示意图;
[0023]
图4是根据本申请实施例的一应用示例中识别模型训练流程示意图;
[0024]
图5是根据本申请实施例的一应用示例中基于识别模型实现数据识别处理方法的流程示意图;
[0025]
图6是根据本申请实施例的数据识别处理装置的组成结构示意图;
[0026]
图7是用来实现本申请实施例的数据识别处理方法的电子设备的框图。
具体实施方式
[0027]
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
[0029]
另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
[0030]
大数据处理存在便利性,但是随着海量的数据待分析的需求,在诸如办公场景中对有效数据的识别及筛选变得尤为重要,如果需要花费大量的精力及人力成本去对数据进行识别,以筛选得到准确、及时的有效信息,这个过程十分繁琐且低效。在办公场景中,虽然
可以通过构建知识库的方式来提高效率,但是,构建知识库的方式需要人工完成,而不同的人对同一知识实体的理解是有限的,即使进行构建了知识实体(如人实体、事实体)构成的知识库(比如人实体与事实体关联性构成的知识图谱),也会存在一定的误差,所以带来巨大的人力成本。如果采用模式匹配等方法来识别知识实体,随着知识实体数据规模的不断更新,数据量扩大后难以在该知识图谱生成全面的关联词典和规则,导致将该该知识图谱应用个多种应用场景的通用及兼容性降低,扩展能力弱。
[0031]
采用本申请,对有效数据识别处理中,通过分析结构化数据中多种纬度的统计特征(包含数值型、文本型,类别型特征等),结合对第一类实体(人实体)相关的第二类实体(事实体)的人工标注方式所形成的数据标签,构建训练样本对识别模型进行训练,以得到训练好的识别模型,使用该训练好的识别模型可以从多源的结构化数据中识别出有意义的事实体,且可以对识别到的来自于多源数据的事实体进行概念消歧及同义替换。进而,识别出有意义的事实体后,还可以对该知识图谱进行数据更新,以完善知识图谱已有的以“人<—>事”为核心的数据。
[0032]
本申请的适用场景包括:多种智能办公环境,如智能办公环境中的办公人员或项目管理,基于智能办公环境中的智能物流或仓储等等。基于该知识图谱及知识图谱更新后的数据在搜索场景中,用户通过事实体精准地定位到与该事实体相关的人实体,如项目涉及的所有人员,反之亦然,从而达到高效的“以事找人”或“以人找事”的目的,在复杂及多职能且不断更新的办公环境中大大提高了搜索处理效率,达到精准定位到要搜索的人或要搜索的事的技术效果。
[0033]
根据本申请的实施例,提供了一种数据识别处理方法,图1是根据本申请实施例的数据识别处理方法的流程示意图,该方法可以应用于数据识别处理装置,例如,该装置可以部署于终端或服务器或其它处理设备执行的情况下,可以执行特征提取及编码处理、从第二类实体中识别出有意义或需要被关注的目标实体数据等等。其中,终端可以为用户设备(ue,user equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(pda,personal digital assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示,包括:
[0034]
s101、获取包含第一类实体及第二类实体的多源数据。
[0035]
一示例中,第一类实体可以为人实体,第二类实体可以为与人实体相关的事实体。多源数据可以为结构化数据,也可以为非结构化数据。
[0036]
s102、从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据。
[0037]
一示例中,对所述第二类实体根据不同数据类型进行特征提取,可以分别得到数值型特征及非数值型特征。对于数值型特征可以直接用于计算机运算,无需处理,而对于非数值型特征,需要进行离散化编码并转换为向量特征后才可以用于计算机运算,对该非数值型特征进行离散化的编码处理得到的处理结果以及非数值型特征作为该待识别的数据。
[0038]
其中,所述非数值型特征包括:文本型特征、组合型特征、时间格式的特征中的至少一种。
[0039]
s103、响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所
述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。
[0040]
一示例中,在对多数据来源的结构化数据进行数据收集,得到包含上述人实体及上述事实体的数据后,可以提取出事实体。将事实体的特征进行离散化处理(如通过离散化的编码处理来实现特征向量化,这样计算机才可以处理,否则计算机无法识别及处理)后,结合已经训练好的识别模型(如二分类模型)对提取的事实体进行识别预测,以识别出该提取的事实体是否为所需的有效数据,有效数据即为该有意义或需要被关注的目标实体数据(如目标事实体数据)。比如,诸多事实体数据中,一个100个人的项目组,相比一个10个人的项目组来说,是更为有意义或需要被关注,但是数据众多需要从中得到更为有意义或需要被关注的该目标事实体数据,通过本步骤的已训练好的识别模型,就可以直接输出得到该目标事实体数据。
[0041]
采用本申请,可以获取包含第一类实体及第二类实体的多源数据;从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据。可以响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。由于可以对第二类实体进行特征提取及编码处理,得到待识别的数据,及通过已训练好的识别模型对该待识别的数据进行识别,以从该第二类实体中筛选出有意义或需要被关注的目标实体数据(如所需的目标第二类实体),因此,可以从海量的数据中精准的识别到有价值的目标实体数据,从而提高了智能化办公场景下的办公效率。
[0042]
在一个搜索场景中,可以建立第二类实体(如事实体)与第一类实体(如人实体)的关联结果,响应第一搜索操作,解析出所述第一搜索操作中的第一关键词包含所述第一类实体,根据所述关联结果,得到与所述第一类实体对应的第二类实体,从而实现了在搜索场景中的高效搜索处理,如一个网页页面或客户端界面等的搜索入口输入上述事实体(事实体用于表征事信息或事属性等),得到与该事实体相关的人实体的搜索结果。
[0043]
在另一个搜索场景中,还可以建立第二类实体(如事实体)与第一类实体(如人实体)的关联结果,响应第二搜索操作,解析出所述第二搜索操作中的第二关键词包含所述第二类实体,根据所述关联结果,得到与所述第二类实体对应的第一类实体,从而实现了在搜索场景中的高效搜索处理,如一个网页页面或客户端界面等的搜索入口输入上述人实体(人实体用于表征人员信息或人员属性等),得到与该人实体相关的事实体的搜索结果。
[0044]
上述第一搜索操作中的第一关键词(第一关键词包含第一类实体),或者第二搜索操作中的第二关键词(第二关键词包含第二类实体),可以是基于电子设备(如笔记本电脑或平板电脑等便携终端、如手机等移动终端)的操作界面输入的搜索词,具体的输入方式本实施例不做限定。
[0045]
一实施方式中,可以根据关联结果对关系图谱(如知识图谱)中的数据进行数据更新。比如,知识图谱中可以包括上述第一类实体(如人实体)以及第二类实体(如事实体)。其中,该人实体又可以分别包括人员姓名、岗位、职级等;事实体可以包括项目名称、项目属性等。可以根据关联结果在线更新该知识图谱,即更新知识图谱中人实体及事实体的关系,以完善该以“人<—>事”为核心的该知识图谱。
[0046]
一示例中,上述关联结果为第一类实体以及第二类实体之间具备的关系(第一类
实体与第二类实体之间的关系可以是负责、协同、参与等,这里不做限定),也就是人实体和事实体之间的关系,从而基于该关联结果可以建立以“人<—>事”为核心的上述知识图谱,以基于该知识图谱及知识图谱更新后的数据在搜索场景中达到高效的“以事找人”或“以人找事”的目的,在复杂及多职能且不断更新的办公环境中大大提高了搜索处理效率,达到精准定位到要搜索的人或要搜索的事的技术效果,并最终构建了智能化的办公环境,大大提高了包括该搜索处理效率在内的办公效率。
[0047]
图2是根据本申请实施例的知识图谱中第一类实体与第二类实体的示意图,如图2所示,第二类实体可以为项目a,第一类实体有2个分别为人员1和人员2;第一类实体与第二类实体之间的关系可以分别为负责和协同,比如,图2中项目a与人员1之间的关系为负责,项目a与人员2之间的关系为协同。另外,第一类实体还可以具备自身的属性信息,比如,图2中人员1具备的属性信息可以包括:姓名1、职级1、岗位1。当然,虽然图中未示出,但是第二类实体也可以具备自身的属性信息,比如可以是项目a的名称、部门名等等。基于图2所示的办公环境中人<—>事为核心的上述知识图谱中的一个示例性说明如下:
[0048]
为了基于该知识图谱在搜索场景中达到高效的“以人找事”的目的,举例来说,假设第二关键词包含的第二类实体为“项目a”,也就是想要确定公司内部“项目a”项目的负责人时,可以通过知识图谱,以“项目a”的相关信息进行搜索,比如可以是“项目a”的实体名,和/或是项目a的发布时间信息等等。其中,第二关键词中可以包含一个或多个与第二类实体相关的字段。比如,可以是一个项目的项目名称,也可以是某个产品团队的团队名称,还可以是某项产品的平台型号,这里不做穷举。
[0049]
一实施方式中,还包括采用如下一种或多种方式对所述第二类实体进行概念消岐处理,得到针对同一个所述第二类实体的统一概念描述。
[0050]
方式一:根据配置数据库(如基于知识图谱构建的知识库体系)中已存储的多个不同用词描述,且所述多个不同用词描述对应于同一个所述第二类实体的关联性,对所述第二类实体进行概念消岐处理;
[0051]
方式二:根据已训练好的相似度模型(如已训练好的词向量模型)对多个所述第二类实体进行相似度比对,根据比对结果对所述第二类实体进行概念消岐处理。
[0052]
采用本实施方式,可以根据该知识库体系或该已训练好的词向量模型进行事实体的概念消歧,使得同一个事实体有统一的描述,同时,为了方便查找,如基于知识库体系,还可以为该同一个事实体的不同叫法起一个对应的“别名”,比如对于“paddle”存储有四种针对同一个事实体的不同描述,进行概念消岐处理后可以分别存储相应的别名,并指向该同一个事实体,如,paddlepaddle->paddle,飞桨->paddle,飞桨平台->paddle,以便于后续可以高效的执行相应的查询处理。
[0053]
一实施方式中,还包括构建训练样本数据及构建识别模型,将所述训练样本数据输入所述识别模型进行训练,得到所述已训练好的识别模型。
[0054]
一示例中,训练样本数据包括:包含第一类实体及第二类实体的多源数据,及对所述第一类实体及所述第二类实体进行预先分类识别所得到的分类数据标签。
[0055]
一示例中,识别模型至少包括:用于特征向量化处理的转换层(如embedding层)、用于特征拼接的连接层(如stacking层)、用于特征交叉组合的残差层(如mutiple residual units层)、用于分类预测的分类识别层(如scoring层)。
[0056]
应用示例:
[0057]
应用本申请实施例一处理流程包括如下内容:
[0058]
一、解析多源的结构化数据
[0059]
可以从大量的多源结构化数据中分析事实体的属性,然后进行事实体的属性统一,可以达到对事实体进行有效地特征抽取的目的。其中,主要是对结构化数据(如包含agroup、icafe等数据)为基础进行的特征提取处理。
[0060]
其中,agroup数据中事实体的主要属性包括:空间的名称,空间的描述,空间的创建时间,空间的更新时间,空间关联的卡片信息,空间参与人、的相关信息,空间上传的文件信息等;icafe数据中事实体的主要属性包括:空间的名称,空间的描述,空间的创建人信息,空间的创建时间以及更新时间,空间下创建的卡片信息,空间下执行的计划信息,空间关联的邮件组信息等。
[0061]
二、实体特征抽取及构建
[0062]
1、实体特征抽取
[0063]
为了更好地描述事实体,对多源数据进行特征统一化,主要抽取了以下的事实体特征,并分析了该特征对于识别出事实体是否为有效事实体数据的意义。
[0064]
(1)event_name:事的名称。
[0065]
(2)event_desc:事的描述,主要是对事具体的描述,例如就企业知识实体而言,含有“测试”、“反馈”、“个人”等这种关键词的就不是有意义的事。
[0066]
(3)event_department:事所属的部门名称,事的名称一般与部门的名称有直接关系,有意义。
[0067]
(4)event_create_time:事的创建时间,考虑到事实体的时效性问题,有意义。
[0068]
(5)event_update_time:事的最近一次更新时间,考虑到事实体的时效性问题,同时与事实体的创建时间也有关系,有意义。
[0069]
(6)event_creator_attr:事的创建人属性,主要包含人的级别(position),角色(role),一般意上来说,级别高的人创建的事实体越有可能成为知识实体,有意义。
[0070]
(7)event_rel_users_attr:事的参与人属性(多个,主要关注position和role)。一般有意义的事实体应由不同的人(级别+角色)来完成,有意义。
[0071]
(8)event_rel_users_cnt:事的参与人个数,参与人越多的事实体越有可能成为企业知识实体,即个数越多,越有意义。
[0072]
(9)event_rel_issues_cnt:事的关联任务个数,有意义。
[0073]
(10)event_rel_files_cnt:事的关联文件(wiki、mrd、word、ppt、excel等)总数,有意义。
[0074]
2、对事实体的特征进行离散化编码处理。
[0075]
(1)对于数值型特征,直接使用。比如event_rel_users_cnt特征,event_rel_issues_cnt特征,以及event_rel_files_cnt特征。
[0076]
(2)对于时间格式的特征,转换成秒级时间戳值,再使用。比如event_create_time特征,event_update_time特征。
[0077]
(3)对于文本型特征,比如event_name,先利用切词工具对其切词,一般event_name长度较短,保留5个词即可(不足5个需要进行padding),然后对每个词做hash并模
1000001(hash并模1000001,指特征值先hash再模10000001)得到其类别特征值;event_desc,一般较长,所以需要切词后保留20个词(不足20个需要进行padding),同理需要对每个词做hash并模1000001得到其类别特征值;event_department,直接做hash并模1000001得到类别型特征。类别型特征最后需要embedding。
[0078]
(4)对于组合型特征:event_creator_attr,position(低中高3种级别)和role(管理、研发、产品、测试、运维、设计等角色),one-hot编码后,然后在维度上进行拼接;event_rel_users_attr,具有多个(保留不超过10个,不足的话进行padding)并列的position+role特征,进行one-hot编码后,然后在维度上进行拼接。不需要embedding。
[0079]
三、用于分类的识别模型(二分类模型)
[0080]
图3是根据本申请实施例的一应用示例中识别模型的架构示意图,如图3所示的一识别模型的架构包括如下内容:
[0081]
embedding层:将稀疏的类别型特征转换成稠密的embedding向量特征,主要是指经one-hot编码后的稀疏特征向量转换成稠密的embedding向量。
[0082]
stacking层:把不同的embedding向量特征和数值特征拼接在一起,形成新的包含全部特征的特征向量。也称作连接(concatenate)层。
[0083]
mutiple residual units层:两层的残差网络,可以对上述特征向量在各个纬度进行充分的交叉组合,使识别模型的非线性学习能力增强,并在解决识别模型训练过程中梯度消失和过拟合也有良好的表现。
[0084]
scoring层:用于拟合优化目标,对应本应用实例涉及的二分类问题,可以采用逻辑回归结构来实现。
[0085]
四、实体概念消歧方案
[0086]
原始的结构化数据中,存在大量字面意思不一样,但是实际所描述的含义是一样的事实体,因此,有必要进行事实体的概念消歧处理。提供了两种方案,一种是以知识库体系为基础,另外一种事以词向量模型为基础。
[0087]
1、以知识库体系为基础:
[0088]
就知识库体系而言,类似(k-v数据对的形式存在),其存储格式如下:
[0089]
event_name_1->[alia_name_1,alia_name_2,
……
,alia_name_n]
[0090]
比如paddle->[paddlepaddle,飞桨,飞桨项目,飞桨平台]
[0091]
则在进行事实体消歧处理的过程中,对k

v数据对进行逆向存储,比如paddle->[paddlepaddle,飞桨,飞桨项目,飞桨平台]应解析成:paddlepaddle->paddle,飞桨->paddle,飞桨平台->paddle,桨项目->paddle]一共四个键值对。通过k-v数据对,可以找到事实体的准确实体名称后,并存储对应该事实体相应的别名。
[0092]
2、就词向量模型而言,基于词向量模型实现事实体的概念消歧处理主要是借助相似度来完成。
[0093]
加载已经预训练好的词向量模型(如借助开源预训练得到的词向量模型),计算两个事实体之间相应词向量的相似度。假设事实体a对应的词向量为x=(x1,x2,

,xn),事实体b对应的词向量为y=(y1,y2,

,yn),那么事实体a与事实体b的相似度simlarity(a,b),通过如下公式(1)运算得到,该相似度大于0.9的事实体可以视为同一个事实体,还可以对该相似度进行归一化(0-1之间)处理,以压缩数据量。
[0094][0095]
分别基于知识库体系及词向量模型为基础进行事实体的概念消歧处理,主要包括:检索事实体的名称是否存储在知识库体系中,如果在的话,那么可以得到事实体对应的有意义名称,并保存事实体相应的别名;如果不在知识库体系中,那么对剩余的事实体计算相似度,把相似度值高的(如阈值定位0.9)进行同一归类,以达到对事实体概念消岐的目的。
[0096]
五、针对第二类实体(如事实体)与第一类实体(如人实体)的关联结果的识别方法
[0097]
通过上述用于分类的识别模型识别出有意义的事实体后,还可以进一步挖掘事实体与人实体间的关联结果,主要是核心的事实体(即上述有意义的事实体)与人实体间的关系。比如,可以通过分析大量“人<—>事”关系的统计特征,对于挖掘到所有的r∈relations={person
i
,event
j
}(1≤i≤m,1≤j≤n),执行以下过滤规则:
[0098]
(1)若person
i
所属的部门与event
j
所属的部门不一样,则清洗掉该关系(主要是清理掉过期的关系);
[0099]
(2)定义为person
i
在event
j
中的活跃时间,update_time
j
为event
j
的最近一次更新时间,若update_time
j
与之差大于6个月,则清洗掉该关系,同时定义活跃度系数如下:
[0100]
值越小表示在该”事”里活跃度越高。
[0101]
(3)定义为person
i
参与event
j
相关任务的个数,average_task
j
为event
j
里所有参与人的平均任务个数,若里所有参与人的平均任务个数,若则清洗掉该关系。
[0102]
(4)定义为person
i
在event
j
贡献文档的个数,average_file
j
为event
j
里所有参与人的平均贡献文档个数,若里所有参与人的平均贡献文档个数,若则清洗掉该关系。
[0103]
挖掘到核心的事实体与人实体间的关系后,需要通过如下公式(2)对其打分。
[0104][0105]
公式(2)中,score(i,j)表示person
i
对event
j
的得分,level
i
为person
i
的级别,有低中高,分别对应1,2,3。得到每个event下所有的关系打分后,可以对其得分的分布进行softmax归一化,以得到一个概率分布,根据该概率分布来表示事实体与人实体间关系的重要程度。
[0106]
图4是根据本申请实施例的一应用示例中识别模型训练流程示意图,如图4所示,包括:解析多源的结构化数据,获得全量的事实体数据(在办公环境中可以称为企业知识实
体),通过高质搜索query(query即用户在搜索场景中输入的关键词、查询条件等)和人工标注数据来构建训练样本,对包含事实体的结构化数据抽取多维特征及执行特征离散化处理后,构建识别模型网络。取训练样本中85%的数据用于模型训练,取训练样本中15%的数据用于模型验证,训练及验证结束则保持训练好的识别模型。其中,在构建训练样本后还可以包括对事实体进行概念消岐及构建以人<—>事为核心的知识图谱。
[0107]
图5是根据本申请实施例的一应用示例中基于识别模型实现数据识别处理方法的流程示意图,如图5所示,包括:多源结构化数据的定期收集,从多源结构化数据中挖掘事实体数据,提取事实体特征并离散化处理后加载已训练好的识别模型,预测识别模型输出的是否为正确的事实体(有意义的事实体),如果是,则对事实体进行概念消岐、挖掘以人<—>事的关系后更新以人<—>事为核心的知识图谱;如果否,则结束当前流程。
[0108]
采用本应用示例,在办公场景中,可以从多源的结构化数据中识别出事实体数据(办公场景中可以为企业知识实体),将识别出的事实体应用于构建以人<—>事为核心的知识图谱,从而,可以基于该知识图谱为企业用户提供搜索环境下的以事搜人任务,从而可以召回相关事实体与人实体的相关信息,比如搜索操作的关键词为paddle,会推荐出有关参与paddle产品相关人员的具体信息,对召回率和准确率具有显著提升效果。
[0109]
根据本申请的实施例,提供了一种数据识别处理装置,图6是根据本申请实施例的数据识别处理装置的组成结构示意图,如图6所示,包括:数据获取模块41,用于获取包含第一类实体及第二类实体的多源数据;数据提取模块42,用于从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据;识别模块43,用于响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。
[0110]
一实施方式中,还包括第一关联建立模块,用于建立所述第二类实体与所述第一类实体的关联结果;第一解析模块,用于响应第一搜索操作,解析出所述第一搜索操作中的第一关键词包含所述第一类实体;第一搜索模块,用于根据所述关联结果,得到与所述第一类实体对应的第二类实体;其中,所述第一类实体为人实体,所述第二类实体为事实体。
[0111]
一实施方式中,还包括第二关联建立模块,用于建立所述第二类实体与所述第一类实体的关联结果;第二解析模块,用于响应第二搜索操作,解析出所述第二搜索操作中的第二关键词包含所述第二类实体;第二搜索模块,用于根据所述关联结果,得到与所述第二类实体对应的第一类实体;其中,所述第一类实体为人实体,所述第二类实体为事实体。
[0112]
一实施方式中,还包括数据更新模块,用于根据所述关联结果对关系图谱中的数据进行数据更新。
[0113]
一实施方式中,还包括消岐处理模块,用于采用如下一种或多种方式对所述第二类实体进行概念消岐处理,得到针对同一个所述第二类实体的统一概念描述;
[0114]
方式一:根据配置数据库中已存储的多个不同用词描述,且所述多个不同用词描述对应于同一个所述第二类实体的关联性,对所述第二类实体进行概念消岐处理;
[0115]
方式二:根据已训练好的相似度模型对多个所述第二类实体进行相似度比对,根据比对结果对所述第二类实体进行概念消岐处理。
[0116]
一实施方式中,所述数据提取模块,用于对所述第二类实体根据不同数据类型进
行特征提取,分别得到数值型特征及非数值型特征,针对所述非数值型特征进行离散化的编码处理;其中,所述非数值型特征包括:文本型特征、组合型特征、时间格式的特征中的至少一种。
[0117]
一实施方式中,还包括第一构建模块,用于构建训练样本数据,所述训练样本数据包括:包含第一类实体及第二类实体的多源数据,及对所述第一类实体及所述第二类实体进行预先分类识别所得到的分类数据标签;第二构建模块,用于构建识别模型,所述识别模型至少包括:用于特征向量化处理的转换层、用于特征拼接的连接层、用于特征交叉组合的残差层、用于分类预测的分类识别层;训练模块,用于将所述训练样本数据输入所述识别模型进行训练,得到所述已训练好的识别模型。
[0118]
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
[0119]
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
[0120]
如图7所示,是用来实现本申请实施例的数据识别处理方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
[0121]
如图7所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器801为例。
[0122]
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的数据识别处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据识别处理方法。
[0123]
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据识别处理方法对应的程序指令/模块(例如,附图6所示的数据获取模块、数据提取模块、识别模块等模块)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据识别处理方法。
[0124]
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少
一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0125]
数据识别处理方法的电子设备,还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图7中以通过总线连接为例。
[0126]
输入装置803可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
[0127]
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0128]
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0129]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0130]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0131]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(vps)服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0132]
采用本申请,可以获取包含第一类实体及第二类实体的多源数据;从所述多源数据中提取出所述第二类实体,对所述第二类实体进行特征提取及编码处理,将处理结果作为待识别的数据。可以响应数据识别操作,将所述待识别的数据输入已训练好的识别模型,输出所述识别结果,根据所述识别结果从所述第二类实体中筛选出有意义或需要被关注的目标实体数据。由于可以对第二类实体进行特征提取及编码处理,得到待识别的数据,及通过已训练好的识别模型对该待识别的数据进行识别,以从该第二类实体中筛选出有意义或需要被关注的目标实体数据(如所需的目标第二类实体),因此,可以从海量的数据中精准的识别到有价值的目标实体数据,从而提高了智能化办公场景下的办公效率。
[0133]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
[0134]
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1