一种基于事理图谱的预测方法、装置和系统与流程

文档序号:17090346发布日期:2019-03-13 23:23阅读:1005来源:国知局
一种基于事理图谱的预测方法、装置和系统与流程

本发明涉及数据处理技术领域,具体而言,涉及一种基于事理图谱的预测方法、装置和系统。



背景技术:

当前的知识图谱以属性、关系为主要研究对象,属性和关系可以归结为主谓宾(spo)三元组关系。简历知识图谱也不例外。即简历知识图谱以概念和概念之间的关系为研究对象。

事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的,简历也不例外。事件之间在时间顺序上顺承发生、在前后之间的因果关系、在选择下一个事件时多事件的概率性特点、在多事件组成一个事件链的时候形成一个整体事件、以及整体事件与整体事件之间的演化规律和模式等等,是一种十分有价值的知识。

事理图谱(eventevolutionarygraph)是一个事理逻辑知识库,描述事件之间的演化规律和模式。事理图谱定义多种事件间关系,如:顺承关系,因果关系等等。本质上事理图谱是一个事理逻辑知识库,描述了事件之间的演化规律和模式,可以应用在生活中的很多方面,比如事件预测,常识推理,消费意图挖掘,对话生成等等。

然而,现有大多数知识图谱都没有对事件进行提取,尤其是在特定领域知识图谱上,如简历知识图谱。现有部分简历知识图谱通过关键词、模板匹配的方法,在形式上形成了某种程度的简历事件图谱。

上述现有技术中,简历知识图谱通过关键词、模板匹配的方法进行简历事件图谱构建,存在明显的缺陷。其构造方法通常是学者手工编码、人工构造的方式完成。这种方法比较机械化,需要构造者具有特定领域的知识、需要构造大量的关键字、大量的人工模板,一旦用词不同、表达方式不一样,现有的关键词、模板将不再适用,而且长期维护关键词、模板的人工成本很高。



技术实现要素:

本发明的目的在于通过对简历数据库进行数据提取,自动化提取简历数据时间信息,并利用深度神经网络学习、训练出一个事件演化规律的简历事件网络——简历事件图谱,再根据简历事件网络进行事件预测等操作。利用本发明的技术方案可进行进行人才职业规划,向用人机构进行简历推荐,向人才进行意向工作推荐等提供参考,提高了用户操作体验和面试成功率,也减少了筛选和分析的时间。

为了实现上述目的,本发明的技术方案提供了一种基于事理图谱的预测方法,包括:获取简历数据库;对数据库中的简历数据进行数据解析;对解析后的数据进行事件提取,形成简历事件网络;根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。

具体地,通过获取简历数据库,才能更好的获取简历的数据,才能生成更准确的简历事件网络。简历获取的方式有很多,首先可以在一些招聘网、github、论坛、高校网站等利用网络爬取技术进行数据获取。其次可以与猎头公司进行合作,获取文档、json、数据库备份格式的简历。最后是直接与招聘网站如智联招聘、前程无忧等网站进行合作,在后台直接获取简历数据。这些平台的简历数据一般存储在关系型数据库中,属于半结构化数据,可以将这些原始数据复制一份供后续部分使用。

具体地,针对数据库中的简历数据进行数据解析,用于提取简历数据中的信息。其中,一般简历有如下几个模块信息:基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力等。其中已知的有事件可以提取的模块是工作经历、项目经验、自我评价三个模块。所以,需要把这三个模块的信息分割出来。如果是招聘网上获取的简历,这三个模块分割比较简单,在这些网站的后台已经分好了模块,可以直接提取这些模块的信息或者将几个小模块拼凑起来。如果是文档形式的简历,需要按照模板匹配如正则表达式或者通过在线的一些简历解析器进行分割。

本方案中,所述对解析后的数据进行事件提取,形成简历事件网络,包括:对解析后的数据进行句子分割,形成小句子单元;针对所述小句子单元进行依存句法分析,得到事件信息,形成简历事件网络。

具体地,不同邻域事件句子分割方法不同,可以按照逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。也可以只以句号、冒号、换行符进行大句子划分。简历事件句子划分以逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。上述的分割方式并不能限制本发明的保护范围,本领域技术人员应该明了任何能够实现句子分割的方法均应当落入本发明保护范围内。

本方案中,所述针对所述小句子单元进行依存句法分析,得到事件信息,包括:基于最大熵模型和最大生成树模型进行依存句法分析或基于条件随机场模型进行依存句法分析,得到事件信息。

本方案中,所述形成简历事件网络,包括:通过分词技术对事件信息进行分词处理,然后根据训练好的word2vec模型将分词转为向量;将所有分词的向量合并为一个向量;基于门控图神经网络ggnn算法,生成简历事件网络。

本方案中,所述将所有分词的向量合并为一个向量,包括:

基于平均值算法、线性转换算法、拼接算法中的一种或几种,将所有分词的向量合并为一个向量。

本发明第二方面还提供一种基于事理图谱的预测装置,包括:

获取单元,用于获取简历数据库;解析单元,用于对数据库中的简历数据进行数据解析;构建单元,用于对解析后的数据进行事件提取,形成简历事件网络;预测单元,根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。

具体地,通过获取简历数据库,才能更好的获取简历的数据,才能生成更准确的简历事件网络。简历获取的方式有很多,首先可以在一些招聘网、github、论坛、高校网站等利用网络爬取技术进行数据获取。其次可以与猎头公司进行合作,获取文档、json、数据库备份格式的简历。最后是直接与招聘网站如智联招聘、前程无忧等网站进行合作,在后台直接获取简历数据。这些平台的简历数据一般存储在关系型数据库中,属于半结构化数据,可以将这些原始数据复制一份供后续部分使用。

具体地,针对数据库中的简历数据进行数据解析,用于提取简历数据中的信息。其中,一般简历有如下几个模块信息:基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力等。其中已知的有事件可以提取的模块是工作经历、项目经验、自我评价三个模块。所以,需要把这三个模块的信息分割出来。如果是招聘网、github、论坛、高校网站、招聘网上获取的简历,这三个模块分割比较简单,在这些网站的后台已经分好了模块,可以直接提取这些模块的信息或者将几个小模块拼凑起来。如果是文档形式的简历,需要按照模板匹配如正则表达式或者通过在线的一些简历解析器进行分割。

本方案中,所述构建单元,包括:分割单元,用于对解析后的数据进行句子分割,形成小句子单元;分析单元,用于针对所述小句子单元进行依存句法分析,得到事件信息,形成简历事件网络。

具体地,不同邻域事件句子分割方法不同,可以按照逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。也可以只以句号、冒号、换行符进行大句子划分。简历事件句子划分以逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。上述的分割方式并不能限制本发明的保护范围,本领域技术人员应该明了任何能够实现句子分割的方法均应当落入本发明保护范围内。

本方案中,所述分析单元,包括:基于最大熵模型和最大生成树模型进行依存句法分析或基于条件随机场模型进行依存句法分析,得到事件信息。

本方案中,所述构建单元,包括:转化单元,用于通过分词技术对事件信息进行分词处理,然后根据训练好的word2vec模型将分词转为向量;合并单元,用于将所有分词的向量合并为一个向量;计算单元,用于基于门控图神经网络ggnn算法,生成简历事件网络。

本方案中,所述将所有分词的向量合并为一个向量,包括:

基于平均值算法、线性转换算法、拼接算法中的一种或几种,将所有分词的向量合并为一个向量。

本发明第三方面还提供一种人才信息推荐系统,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于事理图谱的预测方法的程序,所述基于事理图谱的预测方法的程序被所述处理器执行时实现如上述的基于事理图谱的预测方法的步骤。

本发明通过对简历数据库进行数据提取,自动化提取简历数据时间信息,并利用深度神经网络学习、训练出一个事件演化规律的简历事件网络——简历事件图谱,再根据简历事件网络进行事件预测等操作,实现了对事件的预测功能。利用本发明的技术方案可进行进行人才职业规划,向用人机构进行简历推荐,向人才进行意向工作推荐等提供参考,提高了用户操作体验和面试成功率,在提供客观、全面的信息的同时,减少了筛选和分析的时间和人工阅读信息所花费的时间。

本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1示出了本发明一种基于事理图谱的预测方法的流程图;

图2示出了本发明依存句法分析示意图;

图3示出了本发明依存句法分析的关系图;

图4示出了形成简历事件网络方法流程图;

图5示出了本发明一种基于事理图谱的预测装置的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于事理图谱的预测方法的流程图。

如图1所示,该实施例的基于事理图谱的预测方法包括以下步骤:

s102,获取简历数据库;

s104,对数据库中的简历数据进行数据解析;

s106,对解析后的数据进行事件提取,形成简历事件网络;

s108,根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。

本实施例中,通过获取简历数据库,才能更好的获取简历的数据,才能生成更准确的简历事件网络。简历获取的方式有很多,首先可以在一些招聘网、github、论坛、高校网站等利用网络爬取技术进行数据获取。其次可以与猎头公司进行合作,获取文档、json、数据库备份格式的简历。最后是直接与招聘网站如智联招聘、前程无忧等网站进行合作,在后台直接获取简历数据。这些平台的简历数据一般存储在关系型数据库中,属于半结构化数据,可以将这些原始数据复制一份供后续部分使用。

本实施例中,针对数据库中的简历数据进行数据解析,用于提取简历数据中的信息。其中,一般简历有如下几个模块信息:基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力等。其中已知的有事件可以提取的模块是工作经历、项目经验、自我评价三个模块。所以,需要把这三个模块的信息分割出来。如果是招聘网、github、论坛、高校网站、招聘网上获取的简历,这三个模块分割比较简单,在这些网站的后台已经分好了模块,可以直接提取这些模块的信息或者将几个小模块拼凑起来。如果是文档形式的简历,需要按照模板匹配如正则表达式或者通过在线的一些简历解析器进行分割。

需要说明的是,在简历数据库的数据解析过程中还需要对不同的名称进行聚合,以获取统一的名称信息。

其中,在简历数据库中还需要实现学校名称的聚合,不同的人写的学校名称可能不一样,比如北京大学,有人写北京大学、北大、或者pekinguniversity。这三个名称说的都是同一个学校,即北京大学,需要聚合为同一个实体。通过爬虫和搜索技术从教育网或其它网站下载一些国内外比较全的学校名称,形成标准学校名称库,然后利用相似度算法如tf-idf(词频-逆向文档)等算法比较简历数据库中学校名称与标准学校名称的相似度,选择相似度最高的一个标准学校名称作为简历数据中的相对应的学校名称,从而达到聚合学校实体的目的。

在简历数据库中还需要实现公司名称的聚合,不同的人写的公司名称也不一样,比如京东商城,有的人简写京东商城、京东、360buy、北京京东世纪贸易有限公司、北京京东商城、360buy京东商城等。通过爬虫以及搜索技术,从一些企业名录网下载比较齐全的公司名称,形成标准公司名称数据库,然后利用相似度算法如tf-idf(词频-逆向文档)等算法比较简历数据库中公司名称与标准公司名称的相似度,选择相似度最高的一个作为简历数据中的对应的公司名称,从而达到聚合公司实体的目的。对于一些有多名称的公司名,如欢聚时代、yy、多玩,指的都是同一个公司,需要构建等价关系使不同的名称指向同一个实体。

本方案中,所述对解析后的数据进行事件提取,形成简历事件网络,包括:对解析后的数据进行句子分割,形成小句子单元;针对所述小句子单元进行依存句法分析,得到事件信息,形成简历事件网络。

需要说明的是,不同邻域事件句子分割方法不同,可以按照逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。也可以只以句号、冒号、换行符进行大句子划分。简历事件句子划分以逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。上述的分割方式并不能限制本发明的保护范围,本领域技术人员应该明了任何能够实现句子分割的方法均应当落入本发明保护范围内。

在提取事件阶段,如图2所示,事件提取主要提取事件的主谓宾(spo),需要用到依存句法分析技术。图3示出了依存句法分析时的关系类型、tag、描述。依存句法分析主要是分析句子的结构。

根据本发明实施例,所述针对所述小句子单元进行依存句法分析,得到事件信息,包括:基于最大熵模型和最大生成树模型进行依存句法分析或基于条件随机场模型进行依存句法分析,得到事件信息。

需要说明的是,基于最大熵模型和最大生成树模型进行依存句法分析,得到事件信息,具体为:

最大熵模型:最大熵模型(maximumentropymodel,以下简称maxent),maxent是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。

最大生成树模型:最大生成树模型(maximumspanningtrees,mst)定义整棵句法树的打分是树中各条边打分的加权和:

s表示打分值,y是句子x的一棵依存树,(i,j)是y中的两个单词构成的一条边(依存关系),f是取值为1或0的高维二元特征函数向量,表示结点xi和xj之间是否存在依存关系。w是特征f(i,j)的权值向量,w在确定了特征后由样本训练得到。

需要说明的是,基于条件随机场模型进行依存句法分析,得到事件信息具体为:

crf(条件随机场)是序列标注场景中常用的模型,比hmm(隐马尔科夫模型)能利用更多的特征,比memm(最大熵马尔科夫模型)更能抵抗标记偏置的问题。这是一个基于crf的中文依存句法分析器,内部crf模型的特征函数采用双数组trie树(doublearraytrie)储存,解码采用特化的维特比后向算法。

在进行了依存句法分析之后,有了依存语法树,就可以根据树的结构提取语句的主谓宾,从而形成事件。一段话或几个句子的事件组成具有顺承、因果等关系的事件链或事件网络。

例如:"我负责智能合约开发设计工作",经过事件提取程序之后的结果是:{'o':['开发','设计','工作'],'s':['我'],'p':['负责']}。其中主语是“我”,谓语是“负责”,宾语是“设计”、“开发”、“工作”。

如图4,根据本发明实施例,所述形成简历事件网络,包括:s402通过分词技术对事件信息进行分词处理,然后根据训练好的word2vec模型将分词转为向量;s404将所有分词的向量合并为一个向量;s406基于门控图神经网络ggnn算法,生成简历事件网络。

需要说明的是,有了大量的事件及其前后顺承、因果关系,就可以构建语义事件网络。语义事件网络就类似google在构建word2vec模型一样,在word2vec模型模型中,模型把词映射到一个高维空间中,空间中的一个点代表一个词,不同的两个点的距离可以定义他们的语义相关性或相似性。“皇帝”与“皇后”的距离是相关的,“男人”和“女人”的距离也相关的。所以(“皇帝”-“男人”)≈(“皇后”-“女人”)。简单来说,词也能像数一样进行加减,从而距离具有了语义关系,这就是所谓的语义网。同理,海量事件经过语义网的训练后,语义类似的事件具有相似的向量表示,事件相加减可以推理构成顺承、因果关系的下一个事件。

先通过分词工具对事件的主谓宾(spo)进行分词,然后根据训练好的word2vec模型将词转为向量。最后将主谓宾(spo)的所有词的向量合并成一个向量从而完成对一个事件的向量表示。

本方案中,所述将所有分词的向量合并为一个向量,包括:

基于平均值算法、线性转换算法、拼接算法中的一种或几种,将所有分词的向量合并为一个向量。

平均值法:

即所有词向量累加求平均值。

线性转换:

类似单层感知机方法。

ve=tanh(wp·vp+w0·va0+w1·va1+w2·va2+b)

其中w,b是模型参数。

拼接法:

即所有向量拼接成一个维度更高的向量。

优选的,使用线性转换方法将所有分词的向量合并为一个向量。需要说明的是,本领域技术人员也可以根据实际需要将上述的算法进行结合合并为一个向量。

有向有环图是事件关系网络,类似于word2vec网络。这里的事件网络不是链状结构,而是有向无环图构成的网络结构。网络由ggnn(门控图神经网络,gatedgraphneuralnetwork)实现。gated门使用gru(gatedrecurrentunits)实现。gru有两个矩阵,一个是h矩阵,表示事件上下文和后续事件所构成的矩阵:

h(0)={ve1,ve2,...,ven,vec1,vec2,...,veck}

其中ve1,ve2,…,ven是上下文事件,vec1,vec2,…,veck下一个候选事件列表,即有k个事件可供选择。

另一个是邻接矩阵a,以单个事件v作为节点,节点与节点之间的边e作为前后因果、顺承、概率关系。

邻接矩阵记录了事件v之间的相互关系。gru网络的过程如下所示:

a(t)=ath(t-1)+b

z(t)=σ(wza(t)+u2h(t-1)

r(t)=σ(wra(t)+urh(t-1))

经过大量的语料进行网络训练以后,网络参数就会趋于稳定,从而形成了简历事件“知识”网络。

在形成简历事件网络之后,便可以进行事件预测。根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。

需要说明的是,训练好上述简历事件“知识”网络以后,编可以接收输入事件信息,进行预测。具体包括:输入ve1,ve2,…,ven是上下文事件,得到下一个事件可选序列vec1,vec2,…,veck。可以定义前后事件的相关性函数s:

sij=g(vi(t),vcj(t))

相关性函数可以用相似性函数代替。可以有如下方法定义相似度:

manhattan相似度

即计算两个向量的距离:

manhattan(vi(t),vcj(t))=∑|vi(t)-vcj(t)|

余弦显示度

内积相似度

欧几里得距离

本专利使用欧几里得距离。有了上下文事件和候选事件的相似度关系sij后,然后对单个候选事件所有值求平均值,即:

对所有的候选事件求最大的值sj即得到预测事件:

c=maxjsj。

本发明的技术方案可以在输入简历原文后自动提取事件链。基于海量的简历库提取事件后,学习和训练出海量的简历事件网络。有了简历事件网络,即可基于已有的事件进行下一个事件的预测,从而为人才进行职业规划、向用人机构进行简历推荐、向人才进行意向工作推荐等。

如图5所示,该实施例的一种基于事理图谱的预测装置,包括:

获取单元502,用于获取简历数据库;解析单元504,用于对数据库中的简历数据进行数据解析;构建单元506,用于对解析后的数据进行事件提取,形成简历事件网络;预测单元508,根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。

本实施例中,通过获取简历数据库,才能更好的获取简历的数据,才能生成更准确的简历事件网络。简历获取的方式有很多,首先可以在一些招聘网、github、论坛、高校网站等利用网络爬取技术进行数据获取。其次可以与猎头公司进行合作,获取文档、json、数据库备份格式的简历。最后是直接与招聘网站如智联招聘、前程无忧等网站进行合作,在后台直接获取简历数据。这些平台的简历数据一般存储在关系型数据库中,属于半结构化数据,可以将这些原始数据复制一份供后续部分使用。

本实施例中,针对数据库中的简历数据进行数据解析,用于提取简历数据中的信息。其中,一般简历有如下几个模块信息:基本信息、教育背景、工作经历、项目经验、自我评价、语言能力、培训信息、奖励情况、技术能力等。其中已知的有事件可以提取的模块是工作经历、项目经验、自我评价三个模块。所以,需要把这三个模块的信息分割出来。如果是招聘网、github、论坛、高校网站、招聘网上获取的简历,这三个模块分割比较简单,在这些网站的后台已经分好了模块,可以直接提取这些模块的信息或者将几个小模块拼凑起来。如果是文档形式的简历,需要按照模板匹配如正则表达式或者通过在线的一些简历解析器进行分割。

需要说明的是,在简历数据库的数据解析过程中还需要对不同的名称进行聚合,以获取统一的名称信息。

其中,在简历数据库中还需要实现学校名称的聚合,不同的人写的学校名称可能不一样,比如北京大学,有人写北京大学、北大、或者pekinguniversity。这三个名称说的都是同一个学校,即北京大学,需要聚合为同一个实体。通过爬虫和搜索技术从教育网或其它网站下载一些国内外比较全的学校名称,形成标准学校名称库,然后利用相似度算法如tf-idf(词频-逆向文档)等算法比较简历数据库中学校名称与标准学校名称的相似度,选择相似度最高的一个标准学校名称作为简历数据中的相对应的学校名称,从而达到聚合学校实体的目的。

在简历数据库中还需要实现公司名称的聚合,不同的人写的公司名称也不一样,比如京东商城,有的人简写京东商城、京东、360buy、北京京东世纪贸易有限公司、北京京东商城、360buy京东商城等。通过爬虫以及搜索技术,从一些企业名录网下载比较齐全的公司名称,形成标准公司名称数据库,然后利用相似度算法如tf-idf(词频-逆向文档)等算法比较简历数据库中公司名称与标准公司名称的相似度,选择相似度最高的一个作为简历数据中的对应的公司名称,从而达到聚合公司实体的目的。对于一些有多名称的公司名,如欢聚时代、yy、多玩,指的都是同一个公司,需要构建等价关系使不同的名称指向同一个实体。

本方案中,所述构建单元506,包括:分割单元5062,用于对解析后的数据进行句子分割,形成小句子单元;分析单元5064,用于针对所述小句子单元进行依存句法分析,得到事件信息,形成简历事件网络。

需要说明的是,不同邻域事件句子分割方法不同,可以按照逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。也可以只以句号、冒号、换行符进行大句子划分。简历事件句子划分以逗号、顿号、分号、句号、冒号、问号、换行符等标点符号的每种符号都作为分隔符进行小句子划分。上述的分割方式并不能限制本发明的保护范围,本领域技术人员应该明了任何能够实现句子分割的方法均应当落入本发明保护范围内。

在提取事件阶段,如图2所示,事件提取主要提取事件的主谓宾(spo),需要用到依存句法分析技术。图3示出了依存句法分析时的关系类型、tag、描述。依存句法分析主要是分析句子的结构。

本方案中,所述分析单元5064,包括:基于最大熵模型和最大生成树模型进行依存句法分析或基于条件随机场模型进行依存句法分析,得到事件信息。

需要说明的是,基于最大熵模型和最大生成树模型进行依存句法分析,得到事件信息,具体为:

最大熵模型:最大熵模型(maximumentropymodel,以下简称maxent),maxent是概率模型学习中一个准则,其思想为:在学习概率模型时,所有可能的模型中熵最大的模型是最好的模型;若概率模型需要满足一些约束,则最大熵原理就是在满足已知约束的条件集合中选择熵最大模型。最大熵原理指出,对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。

最大生成树模型:最大生成树模型(maximumspanningtrees,mst)定义整棵句法树的打分是树中各条边打分的加权和:

s表示打分值,y是句子x的一棵依存树,(i,j)是y中的两个单词构成的一条边(依存关系),f是取值为1或0的高维二元特征函数向量,表示结点xi和xj之间是否存在依存关系。w是特征f(i,j)的权值向量,w在确定了特征后由样本训练得到。

需要说明的是,基于条件随机场模型进行依存句法分析,得到事件信息具体为:

crf(条件随机场)是序列标注场景中常用的模型,比hmm(隐马尔科夫模型)能利用更多的特征,比memm(最大熵马尔科夫模型)更能抵抗标记偏置的问题。这是一个基于crf的中文依存句法分析器,内部crf模型的特征函数采用双数组trie树(doublearraytrie)储存,解码采用特化的维特比后向算法。

在进行了依存句法分析之后,有了依存语法树,就可以根据树的结构提取语句的主谓宾,从而形成事件。一段话或几个句子的事件组成具有顺承、因果等关系的事件链或事件网络。

例如:"我负责智能合约开发设计工作",经过事件提取程序之后的结果是:{'o':['开发','设计','工作'],'s':['我'],'p':['负责']}。其中主语是“我”,谓语是“负责”,宾语是“设计”、“开发”、“工作”。

本方案中,所述构建单元506,包括:转化单元5066,用于通过分词技术对事件信息进行分词处理,然后根据训练好的word2vec模型将分词转为向量;合并单元5068,用于将所有分词的向量合并为一个向量;计算单元5010,用于基于门控图神经网络ggnn算法,生成简历事件网络。

需要说明的是,有了大量的事件及其前后顺承、因果关系,就可以构建语义事件网络。语义事件网络就像google在构建word2vec模型一样,在word2vec模型模型中,模型把词映射到一个高维空间中,空间中的一个点代表一个词,不同的两个点的距离可以定义他们的语义相关性或相似性。“皇帝”与“皇后”的距离是相关的,“男人”和“女人”的距离也相关的。所以(“皇帝”-“男人”)≈(“皇后”-“女人”)。简单来说,词也能像数一样进行加减,从而距离具有了语义关系,这就是所谓的语义网。同理,海量事件经过语义网的训练后,语义类似的事件具有相似的向量表示,事件相加减可以推理构成顺承、因果关系的下一个事件。

先通过分词工具对事件的主谓宾(spo)进行分词,然后根据训练好的word2vec模型将词转为向量。最后将主谓宾(spo)的所有词的向量合并成一个向量从而完成对一个事件的向量表示。

本方案中,所述将所有分词的向量合并为一个向量,包括:

基于平均值算法、线性转换算法、拼接算法中的一种或几种,将所有分词的向量合并为一个向量。

平均值法:

即所有词向量累加求平均值。

线性转换:

类似单层感知机方法。

ve=tanh(wp·vp+w0·va0+w1·va1+w2·va2+b)

其中w,b是模型参数。

拼接法:

即所有向量拼接成一个维度更高的向量。

优选的,使用线性转换方法将所有分词的向量合并为一个向量。需要说明的是,本领域技术人员也可以根据实际需要将上述的算法进行结合合并为一个向量。

有向有环图是事件关系网络,类似于word2vec网络。这里的事件网络不是链状结构,而是有向无环图构成的网络结构。网络由ggnn(门控图神经网络,gatedgraphneuralnetwork)实现。gated门使用gru(gatedrecurrentunits)实现。gru有两个矩阵,一个是h矩阵,表示事件上下文和后续事件所构成的矩阵:

h(0)={ve1,ve2,...,ven,vec1,vec2,...,veck}

其中ve1,ve2,…,ven是上下文事件,vec1,vec2,…,veck下一个候选事件列表,即有k个事件可供选择。

另一个是邻接矩阵a,以单个事件v作为节点,节点与节点之间的边e作为前后因果、顺承、概率关系。

邻接矩阵记录了事件v之间的相互关系。gru网络的过程如下所示:

a(t)=ath(t-1)+b

z(t)=σ(wza(t)+uzh(t-1))

r(t)=σ(wra(t)+urh(t-1))

经过大量的语料进行网络训练以后,网络参数就会趋于稳定,从而形成了简历事件“知识”网络。

在形成简历事件网络之后,便可以进行事件预测。根据接收到的待预测信息,在所述简历事件网络中进行预测,并将预测的信息进行展示。

需要说明的是,训练好上述简历事件“知识”网络以后,编可以接收输入事件信息,进行预测。具体包括:输入ve1,ve2,…,ven是上下文事件,得到下一个事件可选序列vec1,vec2,…,veck。可以定义前后事件的相关性函数s:

sij=g(vi(t),vcj(t))

相关性函数可以用相似性函数代替。可以有如下方法定义相似度:

manhattan相似度

即计算两个向量的距离:

manhattan(vi(t),vcj(t))=∑|vi(t)-vcj(t)|

余弦显示度

内积相似度

欧几里得距离

本专利使用欧几里得距离。有了上下文事件和候选事件的相似度关系sij后,然后对单个候选事件所有值求平均值,即:

对所有的候选事件求最大的值sj即得到预测事件:

c=maxjsj。

本发明的技术方案可以在输入简历原文后自动提取事件链。基于海量的简历库提取事件后,学习和训练出海量的简历事件网络。有了简历事件网络,即可基于已有的事件进行下一个事件的预测,从而为人才进行职业规划、向用人机构进行简历推荐、向人才进行意向工作推荐等。

本发明第三方面还提供一种人才信息推荐系统,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于事理图谱的预测方法的程序,所述基于事理图谱的预测方法的程序被所述处理器执行时实现如上述的基于事理图谱的预测方法的步骤。

本发明通过对简历数据库进行数据提取,自动化提取简历数据时间信息,并利用深度神经网络学习、训练出一个事件演化规律的简历事件网络——简历事件图谱,再根据简历事件网络进行事件预测等操作,实现了对事件的预测功能。利用本发明的技术方案可进行进行人才职业规划,向用人机构进行简历推荐,向人才进行意向工作推荐等提供参考,提高了用户操作体验和面试成功率,在提供客观、全面的信息的同时,减少了筛选和分析的时间和人工阅读信息所花费的时间。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

需要说明的是,本发明中未相信进行说明的均为本领域技术人员的常用技术手段,故本发明不再进行一一赘述。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1