信息提取方法、装置、计算机设备和存储介质与流程

文档序号:24688741发布日期:2021-04-16 09:51阅读:101来源:国知局
信息提取方法、装置、计算机设备和存储介质与流程

1.本申请涉及计算机技术领域,特别是涉及一种信息提取方法、装置、计算机设备和存储介质。


背景技术:

2.随着计算机技术的发展,企业可以采用人工智能、大数据等技术采集用户的信息,构建用户画像,从而可以获取到用户更多的、更真实的需求,更好地为用户服务。而在采集用户信息的过程中,通常是对用户的聊天句子进行依存句法分析,获取到用户的信息。
3.然而,在用户的聊天句子中,常常存在省略主语的问题,传统的信息提取方法,无法准确提取到信息。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高准确性的信息提取方法、装置、计算机设备和存储介质。
5.一种信息提取方法,所述方法包括:
6.获取用户和服务对象之间的对话信息;
7.从所述对话信息中提取出用户画像信息,以及所述用户画像信息的信息类型;
8.基于所述对话信息和所述用户画像信息,确定所述用户画像信息在所述对话信息中所处的位置,获取所述位置的位置信息;
9.基于所述对话信息、所述位置信息和所述信息类型,确定所述用户画像信息的归属对象,所述归属对象是所述用户画像信息所归属的人或物。
10.一种信息提取装置,所述装置包括:
11.对话信息获取模块,用于获取用户和服务对象之间的对话信息;
12.关键信息提取模块,用于从所述对话信息中提取出用户画像信息,以及所述用户画像信息的信息类型;基于所述对话信息和所述用户画像信息,确定所述用户画像信息在所述对话信息中所处的位置,获取所述位置的位置信息;
13.关系归属模块,用于基于所述对话信息、所述位置信息和所述信息类型,确定所述用户画像信息的归属对象,所述归属对象是所述用户画像信息所归属的人或物。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
16.上述信息提取方法、装置、计算机设备和存储介质,获取用户和服务对象之间的对话信息;从对话信息中提取出用户画像信息,以及用户画像信息的信息类型,则基于对话信息和用户画像信息,可以准确确定用户画像信息在对话信息中所处的位置,获取位置的位置信息,再基于对话信息、位置信息和信息类型,可以准确确定用户画像信息的归属对象,
避免了用户在对话信息中省略主语时无法准确提取信息的问题,可以提高信息提取的准确性。
附图说明
17.图1为一个实施例中信息提取方法的应用环境图;
18.图2为一个实施例中信息提取方法的流程示意图;
19.图3为一个实施例中基于当前对话信息,从历史对话信息中筛选出与当前对话信息相关的关联对话信息步骤的流程示意图;
20.图4为一个实施例中bimpm网络的结构图;
21.图5为一个实施例中bilstm+crf模型的结构图;
22.图6为一个实施例中基于对话信息、位置信息和信息类型,确定用户画像信息的归属对象步骤的流程示意图;
23.图7为另一个实施例中信息提取的流程示意图;
24.图8为一个实施例中信息提取方法的界面示意图;
25.图9为一个实施例中信息提取装置的结构框图;
26.图10为一个实施例中计算机设备的内部结构图。
具体实施方式
27.为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
28.本申请实施例提供的方案涉及人工智能和机器学习(machine learning,ml)等技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、技术及应用系统,使机器具有感知、推理与决策的功能。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
29.通过人工智能和机器学习等技术可以从对话信息中提取出更准确的用户画像信息、用户画像信息的信息类型以及用户画像信息的归属对象,从而实现更准确从对象信息中提取信息。
30.本申请提供的信息提取方法,可以应用于如图1所示的应用环境中。其中,用户所在终端102通过网络与服务对象所在的计算机设备104进行通信。用户通过终端102将对话发送至服务对象所在的计算机设备104,计算机设备104获取用户和服务对象之间的对话信息;从对话信息中提取出用户画像信息,以及用户画像信息的信息类型;基于对话信息和用户画像信息,确定用户画像信息在对话信息中所处的位置,获取位置的位置信息;基于对话信息、位置信息和信息类型,确定用户画像信息的归属对象。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。计算机设备104可
以是终端,也可以是服务器。当计算机设备104是终端时,可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。当计算机设备104是服务器时,可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
31.在一个实施例中,如图2所示,提供了一种信息提取方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
32.步骤202,获取用户和服务对象之间的对话信息。
33.服务对象是给用户提供服务的对象。可选地,服务对象可以是服务人员,也可以是智能服务机器人,不限于此。服务对象所提供的服务可以是咨询服务、业务办理服务、售后服务等。服务对象可以提供某一个行业的服务,例如,在保险行业,可以提供投保服务、理赔服务、退保服务、咨询服务等;在通信行业,可以提供通信业务办理服务、通信业务退订服务、咨询服务等。
34.在服务对象提供服务给用户的过程中,用户与服务对象进行对话,计算机设备可以获取用户与服务对象之间的对象信息。对话信息具体可以是文本信息、图像信息、视频信息、音频信息等其中的至少一种。
35.在一个实施例中,计算机设备获取到用户和服务对象之间的对话信息后,可以对对话信息进行预处理,再从预处理后的对话信息中提取出用户画像信息,以及用户画像信息的信息类型。
36.预处理可以包括特殊符号处理、英文大小写转换以及繁简体字统一。特殊符号处理可以是删除该特殊符号,也可以是将该特殊符号转换为普通符号,还可以对该特殊符号进行标记,等等。
37.预处理还可以包括使用正则匹配邮箱、网址、电话、身份证号等,用特殊标记文本替换。
38.步骤204,从对话信息中提取出用户画像信息,以及用户画像信息的信息类型。
39.用户画像信息是指将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。用户画像信息可以包括用户行为信息、用户属性信息等。用户行为信息具体可以是用户的浏览信息、用户的购买信息、用户的偏好信息等。用户属性信息具体可以是用户的年龄、性别、身高、体重、肤色、常住地等。
40.用户画像信息的信息类型指的是用户画像信息所属的类型。例如,用户画像信息“男”的信息类型为“性别”,用户画像信息“25”的信息类型为“年龄”,用户画像信息“180cm”的信息类型为“身高”,用户画像信息“观看a文章5分钟”的信息类型为“浏览信息”,用户画像信息“购买b产品”的信息类型为“购买信息”。
41.步骤206,基于对话信息和用户画像信息,确定用户画像信息在对话信息中所处的位置,获取位置的位置信息。
42.用户画像信息是从对话信息中提取出来的,则计算机设备可以基于用户画像信息从对话信息中所提取的位置,确定用户画像在对话信息中所处的位置,获取该位置的位置信息。
43.在一种实施方式中,计算机设备计算该位置距离对话信息开头处位置之间的字符串长度。字符串长度表示用户画像信息在对话信息中的位置信息。例如,对话信息“请问您家人分别多大年龄呢?[用户]妻子43,两个孩子3、8岁”,用户画像信息为43,计算机设备确
定用户画像信息在对话信息中的位置信息为offset:20,表示用户画像信息“43”所处的位置距离对话信息开头处位置之间的字符串长度为20。又如,对话信息“请问你和先生,孩子分别多大年龄呢[用户]先生38,我34,老大5岁半,老二不到一岁”,用户画像信息为34,计算机设备确定用户画像信息在对话信息中的位置信息为offset:27,表示用户画像信息“34”所处的位置距离对话信息开头处位置之间的字符串长度为27。
[0044]
在另一个实施方式中,计算机设备计算该位置距离对话信息结尾处位置之间的字符串长度。字符串长度表示用户画像信息在对话信息中的位置信息。例如,对话信息“请问您家人分别多大年龄呢?[用户]妻子43,两个孩子3、8岁”,用户画像信息为43,计算机设备确定用户画像信息在对话信息中的位置信息为offset:10,表示用户画像信息“43”所处的位置距离对话信息结尾处位置之间的字符串长度为10。
[0045]
步骤208,基于对话信息、位置信息和信息类型,确定用户画像信息的归属对象,归属对象是用户画像信息所归属的人或物。
[0046]
归属对象指的是用户画像信息所归属的人或物。例如,对话信息为“请问您家人分别多大年龄呢?[用户]妻子43,两个孩子3、8岁”,则用户画像信息43的归属对象为妻子,用户画像信息3、8岁的归属对象为两个孩子。又如,对话信息为“请问冰箱多重呢?[用户]10斤”,则用户画像信息10斤的归属对象为冰箱。
[0047]
可以理解的是,在用户与服务对象的对话信息中,用户经常会省略主语,例如,“请问您妻子多大年龄呢?[用户]43”,从对话信息中提取用户画像信息为43,信息类型为年龄,并且确定用户画像信息的位置信息为offset:16,则基于对话信息、位置信息和信息类型,可以确定用户画像信息的归属对象为妻子。
[0048]
具体地,计算机设备将对话信息、位置信息和信息类型输入训练完成的关系归属模型中,通过训练完成的关系归属模型确定用户画像信息的归属对象。
[0049]
在本实施例中,获取用户和服务对象之间的对话信息;从对话信息中提取出用户画像信息,以及用户画像信息的信息类型,则基于对话信息和用户画像信息,可以准确确定用户画像信息在对话信息中所处的位置,获取位置的位置信息,再基于对话信息、位置信息和信息类型,可以准确确定用户画像信息的归属对象,避免了用户在对话信息中省略主语时无法准确提取信息的问题,可以提高信息提取的准确性。并且,上述实施例中针对用户聊天过程中互动性、口语性等特点,可以更有效地从多层次挖掘出对话信息中所包括的信息。
[0050]
在一个实施例中,对话信息包括当前对话信息和关联对话信息;获取用户和服务对象之间的对话信息,包括:获取用户和服务对象之间的当前对话信息,以及当前对话信息对应的历史对话信息;基于当前对话信息,从历史对话信息中筛选出与当前对话信息相关的关联对话信息。
[0051]
当前对话信息指的是用户与服务对象当前的对话信息。历史对话信息指的是在当前对话信息之前发生的对话信息。关联对话信息指的是在历史对话信息中与当前对话信息存在关联的对话信息。
[0052]
在一种实施方式中,计算机设备获取处于当前预设窗口内的当前对话信息,获取在当前预设窗口之前的每一预设窗口内的历史对话信息。例如,当前预设窗口内的对话信息为user_n,在当前预设窗口之前的每一预设窗口内的历史对话信息为user_n

1,user_n
‑2……
user_1。
[0053]
在另一种实施方式中,计算机设备获取最新的指定数量的对话信息为当前对话信息,按照时间顺序依次获取当前对话信息之前的信息为历史对话信息。指定数量可以根据需要进行设置。
[0054]
计算机设备将当前对话信息和关联对话信息按照时间顺序进行拼接,得到对话信息,执行从对话信息中提取出用户画像信息,以及用户画像信息的信息类型。可选地,时间顺序可以是从早到晚的顺序,也可以是从晚到早的顺序。
[0055]
可以理解的是,当前对话信息和历史对话信息可能处于用户与服务对象之间的同一轮对话中,则当前对话信息和历史对话信息之间势必存在关联关系,而在历史对话信息中,同样也可能存在一些与当前对话信息无关的噪声信息,因此,基于当前对话信息,可以从历史对话信息中筛选出与当前对话信息相关的关联对话信息,筛选掉与当前对话信息无关的噪声信息,则基于当前对话信息和关联对话信息可以更准确,并且更快速地提取出用户的信息。
[0056]
在一个实施例中,如图3所示,基于当前对话信息,从历史对话信息中筛选出与当前对话信息相关的关联对话信息,包括:
[0057]
步骤302,将当前对话信息进行向量转换,得到当前对话向量;将历史对话信息进行向量转换,得到历史对话向量。
[0058]
当前对话向量是表征当前对话信息的向量。历史对话向量是表征历史对话信息的向量。
[0059]
具体地,计算机设备采用训练完成的词向量模型将当前对话信息或者历史对话向量进行分词得到各词语,将各词语进行向量转换,得到词向量,再将各词向量进行拼接得到当前对话向量或者历史对话向量。当前对话向量或者历史对话向量均为句向量。其中,词向量模型具体可以是skip

gram模型。
[0060]
词向量模型的训练方式包括:获取各专有词语,将各专有词语融合至分词词典中,采用分词词典对训练语料进行分词,将分词后的训练语料输入词向量模型中进行训练,得到训练完成的词向量模型。其中,计算机设备可以采用分词词典使用正向最大匹配法对训练语料进行分词。
[0061]
专有词语可以是各行业中的专有名词,例如保险行业中的投保、理赔、疾病、险种、保险名等专有名词,例如通信行业中的服务器、交换机等专有名词。
[0062]
训练语料可以包括其他用户与服务对象之间的对话语料,也可以包括各类文档或者知识库中的文本,等等。例如,训练语料可以包括保险行业的保险类文档、保险类知识库中的文本、其他用户与保险服务对象之间的对话语料等。
[0063]
计算机设备采用各专有词语对词向量模型进行训练,则训练完成的词向量模型可以更快速对包括有各种专有词语的对话信息进行向量转换,减少人工标注的成本。
[0064]
步骤304,将当前对话向量和历史对话向量进行拼接,得到拼接对话向量。
[0065]
可选地,计算机设备可以将当前对话向量拼接在历史对话向量之后,得到拼接对话向量,也可以将历史对话向量拼接在当前对话向量之后,得到拼接对话向量。例如,当前对话向量为a,历史对话向量为b,计算机设备将当前对话向量a和历史对话向量b进行拼接,可以得到拼接对话向量(a,b)或者(b,a)。
[0066]
步骤306,基于拼接对话向量确定当前对话信息分别和历史对话信息中各子对话
信息之间的语义相似度,基于语义相似度,从历史对话信息中筛选出与当前对话信息相关的关联对话信息。
[0067]
计算机设备将拼接对话向量输入训练完成的上下文相关文本对匹配网络,通过上下文相关文本对匹配网络确定当前对话信息分别和历史对话信息中各子对话信息之间的语义相似度,并从历史对话信息中筛选出与当前对话信息相关的关联对话信息。其中,上下文相关文本对匹配网络是筛选出上下文中存在相关文本的网络。上下文相关文本对匹配网络具体可以是bimpm(bilateral multi

perspective matching,双向多维度匹配网络)。
[0068]
具体地,通过上下文相关文本对匹配网络提取当前对话信息的关键词特征信息,以及历史对话信息中各子对话信息的关键词特征信息,以关键词特征信息为主要特征,确定当前对话信息分别和历史对话信息中各子对话信息的之间的语义相似度。
[0069]
计算机设备可以将语义相似度高于预设相似度对应的子对话信息作为关联对话信息。其中,预设相似度可以根据需要设定。例如,预设相似度为50%,当前对话信息和子对话信息a之间的语义相似度为40%,当前对话信息和子对话信息b之间的语义相似度为56%,当前对话信息和子对话信息c之间的语义相似度为80%,则子对话信息b和子对话信息c均是与当前对话信息相关的关联对话信息。
[0070]
图4为一个实施例中bimpm网络的结构图。bimpm网络包括有词语表示层,上下文表示层,匹配层,聚合层和预测层,计算机设备将拼接对话向量输入bimpm网络,依次通过词语表示层,上下文表示层,匹配层,聚合层和预测层进行处理,从历史对话信息中筛选出与当前对话信息相关的关联对话信息。
[0071]
针对当前对话向量和历史对话向量拼接得到的拼接对话向量,分别对拼接对话向量中所对应的当前对话信息和历史对话信息中各子对话信息进行分词。具体地,在词表示层将当前对话信息表示为词语p1、p2、p3、
……
pm。将任意一个子对话信息表示为词语q1、q2、q3、
……
qn。词表示层将当前对话信息和子对话信息分词后输入上下文表示层。上下文表示层提取当前对话信息和子对话信息中任意两个相邻词语的词序关系并使用词序表示向量表示。具体地,任意两个相邻词语的词序关系可以是从句首至句尾的词序关系,也可以是从句尾至句首的词序关系。匹配层将当前对话信息的词序表示向量与子对话信息中任意两个相邻词语的词序表示向量进行匹配输出匹配向量。匹配层将当前对话信息中任意两个相邻词语的词序表示向量与子对话信息的词序表示向量进行匹配输出匹配向量。匹配层将匹配向量输入聚合层,聚合层将各个匹配向量根据词序关系进行聚合,得到聚合向量。将聚合向量输入预测层,预测层根据各聚合向量预测当前对话信息和子对话信息之间的语义相似度。
[0072]
在本实施例中,分别将当前对话信息和历史对话信息进行向量转换,再将向量转换得到的当前对话向量和历史对话向量进行拼接,得到拼接对话向量,基于拼接对话向量确定当前对话信息分别和历史对话信息中各子对话信息之间的语义相似度,基于当前对话信息分别和历史对话信息中各子对话信息之间的语义相似度,可以准确地从历史对话信息中筛选出与当前对话信息相关的关联对话信息,筛选掉与当前对话信息无关的噪声信息,则从当前对话信息和关联对话信息可以更准确,并且更快速地提取出用户画像信息。
[0073]
在一个实施例中,上下文相关文本对匹配网络的训练方式,包括:获取对话训练文本;对话训练文本包括当前对话训练文本和历史对话训练文本,历史对话训练文本包括与
当前对话训练文本相关的正训练文本,以及与当前对话训练文本不相关的负训练文本;将当前对话训练文本、正训练文本和负训练文本输入上下文相关文本对匹配网络中,对上下文相关文本对匹配网络进行训练,得到训练完成的上下文相关文本对匹配网络。
[0074]
对话训练文本是用于训练的对话文本。对话训练文本可以是信息提取对象这一用户与服务对象的历史对话信息,也可以其他用户与服务对象的历史对话信息,不限于此。
[0075]
计算机设备可以从对话训练文本中设定某一个文本为当前对话训练文本,则在当前对话训练文本之前的文本为历史对话训练文本,再从历史对话训练中设定与当前对话训练文本相关的文本为正训练文本,与当前对话训练文本不相关的文本为负训练文本,则将当前对话训练文本、正训练文本和负训练文本输入上下文相关文本对匹配网络中,采用机器学习可以对上下文相关文本对匹配网络进行训练,得到训练完成的上下文相关文本对匹配网络。
[0076]
在本实施例中,将当前对话训练文本、与当前对话训练文本相关的正训练文本、以及与当前对话训练文本不相关的负训练文本输入上下文相关文本对匹配网络中,可以训练到更准确的上下文相关文本对匹配网络,从而在后续信息提取过程中可以筛选出更准确的与当前对话信息相关的关联对话信息。
[0077]
在一个实施例中,从对话信息中提取出用户画像信息,以及用户画像信息的信息类型,包括:对对话信息进行向量转换,得到对话向量;对对话向量进行标注,得到标注信息;对各标注信息进行解码,提取出用户画像信息,以及用户画像信息的信息类型。
[0078]
标注信息可以包括b

loc、i

loc、b

person、i

person、b

organization、i

organization、o等其中的一种或多种。b

loc表示地理位置(location)的开始部分,i

loc表示地理位置的中间部分,b

person表示人名的开始部分,i

person表示人名的中间部分,b

organization表示组织机构的开始部分,i

organization表示组织机构的中间部分,o表示非实体信息。
[0079]
在一种实施方式中,计算机设备可以采用训练完成的词向量模型对对话信息进行向量转换,得到对话向量,再将对话向量输入bilstm+crf模型中,通过bilstm+crf模型对对话向量进行标注,得到标注信息。bilstm+crf模型包括bilstm(bi

directional long

short term memory,双向长短期记忆网络)层和crf层。其中,bilstm层可以较好地捕捉到对话向量中较长距离的依赖关系。
[0080]
具体地,计算机设备将对话向量输入bilstm+crf模型中,通过bilstm+crf模型对对话向量进行标注,得到标注信息,包括:计算机设备将对话向量输入bilstm层中,通过bilstm层获取对话向量中的依赖关系,再将携带有依赖关系的对话向量输入crf层中,通过crf层对对话向量进行标注,得到标注信息。
[0081]
图5为一个实施例中bilstm+crf模型的结构图。计算机设备将“中国很大”对应的对话向量输入bilstm+crf模型中,通过bilstm+crf模型对对话向量进行标注。其中,对话向量可以采用one hot向量表示。
[0082]
计算机设备再对各标注信息进行解码,可以从对话信息中提取出用户画像信息,以及用户画像信息的信息类型。例如,标注信息为"o",o","b

家庭成员","i

家庭成员","o","o","b

家庭成员","i

家庭成员","b

年龄","i

年龄","o",o",对标注信息进行解码,从"b

家庭成员"中可以提取出该家庭成员的开始部分,信息类型为家庭成员,从"i

家庭成
员"中可以提取出该家庭成员的中间部分,信息类型为家庭成员,即"b

家庭成员","i

家庭成员"组成了该家庭成员的词语内容,信息类型为家庭成员;从"b

年龄"中可以提取出该年龄的开始部分,信息类型为年龄,从"i

年龄"中可以提取出该年龄的中间部分,信息类型为年龄,即"b

年龄","i

年龄"组成了该年龄的词语内容,信息类型为年龄。
[0083]
计算机设备可以对话向量输入bilstm层中,在其他实施方式中,也可以将对话向量输入卷积神经网络(convolutional neural networks,cnn),还可以将对话向量输入transformer模型中。
[0084]
计算机设备可以将携带有依赖关系的对话向量输入crf层中进行标注,在其他实施方式中,也可以将携带有依赖关系的对话向量输入bert(bidirectional encoder representations from transformers)模型中进行标注。
[0085]
在本实施例中,对对话信息进行向量转换,得到对话向量;对对话向量进行标注,得到标注信息;对各标注信息进行解码,可以准确提取出用户画像信息,以及用户画像信息的信息类型。
[0086]
在一个实施例中,基于对话信息、位置信息和信息类型,确定用户画像信息的归属对象,包括:将对话信息、位置信息和信息类型分别进行向量嵌入处理,得到对话向量、位置向量和类型向量;将对话向量、位置向量和类型向量拼接得到信息提取向量;对信息提取向量进行稠密化处理,对经过稠密化处理的信息提取向量进行逻辑回归处理,得到用户画像信息属于各候选对象的概率,基于用户画像信息属于各候选对象的概率预测用户画像信息的归属对象。
[0087]
向量嵌入(embed)是指把文本转换为向量的过程。对话向量是对话信息进行向量嵌入得到的向量。类型向量是信息类型进行向量嵌入得到的向量。信息提取向量是对话向量、位置向量和类型向量进行拼接得到的向量。逻辑回归处理,是一种广义的线性回归分析,常用于数据挖掘,疾病自动诊断,经济预测等领域。
[0088]
位置向量是位置信息进行向量嵌入得到的向量。位置向量用于表征用户画像信息所在的实体与对话信息中的其他各实体之间的相对位置。实体是具有实际含义的文本。例如,实体可以是“年龄”、“深圳”、“我们”、“34”等。通常地,对话信息中包括有多个实体,位置向量中每个维度可以表征用户画像信息所在的实体与其他的实体之间的相对位置。相对位置可以是用户画像信息所在的实体与其他的实体之间的字符串数量。
[0089]
计算机设备通过词向量模型将高维度的信息提取向量压缩成低维度的稠密向量,将低维度的稠密向量进行逻辑回归处理,得到用户画像信息属于各候选对象的概率,再将用户画像信息属于各候选对象的概率输入前馈网络中,通过前馈网络从各候选对象中确定用户画像信息的归属对象。其中,词向量模型具体可以是word2vec模型。稠密向量的值就是一个普通的double数组。候选对象可以是对话信息中任意一个人或物。进一步地,候选对象还可以是用户对象信息所在的句子中任意一个人或物。
[0090]
稠密向量是相对于one

hot处理之后得到的稀疏向量来说的,稀疏向量是指整个向量的维度较高,但大多数元素都是0;稠密向量与其相反,大多数元素都非0。词向量模型将稀疏向量的编码的词投影到低维空间,获得相比于稀疏向量更加稠密的向量,即稠密向量。
[0091]
在一个实施方式中,通过前馈网络可以将概率最高对应的候选对象确定为用户画
像信息的归属对象。在另一个实施方式中,通过前馈网络可以将概率次高对应的候选对象确定为用户画像信息的归属对象。通过前馈网络确定用户画像信息的归属对象的具体方式并不限定。
[0092]
在本实施例中,将对话信息、位置信息和信息类型分别进行向量嵌入处理,得到对话向量、位置向量和类型向量;将对话向量、位置向量和类型向量拼接得到信息提取向量;对信息提取向量进行稠密化处理,对经过稠密化处理的信息提取向量进行逻辑回归处理,得到用户画像信息属于各候选对象的概率,基于用户画像信息属于各候选对象的概率可以更准确提取向量预测用户画像信息的归属对象。
[0093]
在一个实施例中,将对话向量、位置向量和类型向量拼接得到信息提取向量,包括:将对话向量和位置向量进行拼接,得到携带有位置信息的对话向量;对携带有位置信息的对话向量进行编码,得到编码向量;将编码向量和类型向量进行拼接,得到信息提取向量。
[0094]
编码向量是对携带有位置信息的对话向量进行编码得到的向量。
[0095]
可选地,编码向量可以拼接在类型向量之前,也可以拼接在类型向量之后,不限于此。例如,当前对话向量为a,历史对话向量为b,计算机设备将当前对话向量a和历史对话向量b进行拼接,可以得到拼接对话向量(a,b)或者(b,a)。
[0096]
计算机设备将对话向量和位置向量进行拼接,则拼接得到的对话向量中包括有位置向量所对应的位置信息,故拼接得到的对话向量中携带有位置信息。
[0097]
计算机设备采用训练完成的编码模型对携带有位置信息的对话向量进行编码,得到编码向量。其中,编码模型可以是双向rnn(recurrent neural network,循环神经网络)模型、lstm(long short

term memory,长短期记忆网络)和gru(gated recurrent unit,门控循环单元)等其中一种。
[0098]
在本实施例中,将对话向量和位置向量进行拼接,得到携带有位置信息的对话向量;对携带有位置信息的对话向量进行编码,得到编码向量;将编码向量和类型向量进行拼接,可以得到信息提取向量,信息提取向量包括了位置信息,从而可以更准确提取出用户画像信息的归属对象。
[0099]
图6为一个实施例中基于对话信息、位置信息和信息类型,确定用户画像信息的归属对象步骤的流程示意图。计算机设备将对话信息、位置信息和信息类型分别进行向量嵌入处理,得到对话向量、位置向量和类型向量;将对话向量和位置向量进行拼接(concatenate),得到携带有位置信息的对话向量;将携带有位置信息的对话向量输入编码模型,通过编码模型对句向量进行编码得到编码向量;将编码向量和类型向量进行拼接(concatenate),得到信息提取向量;对信息提取向量进行稠密化处理,得到稠密向量;对稠密向量进行逻辑回归处理,基于逻辑回归处理后的信息提取向量预测出用户画像信息的归属对象。
[0100]
在一个实施例中,上述方法还包括:在服务对象的终端界面的用户信息展示区域中展示用户画像信息、信息类型和归属对象。
[0101]
当计算机设备是终端时,在服务对象的终端界面包括有用户信息展示区域,可以展示用户画像信息、信息类型和归属对象。
[0102]
当计算机设备是服务器时,服务器将用户画像信息、信息类型和归属对象发送至
服务对象所在的终端,终端界面中包括有用户信息展示区域,可以展示用户画像信息、信息类型和归属对象。
[0103]
其中,用户信息展示区域可以是终端界面的右侧区域、左侧区域、上方区域等其中一种。
[0104]
计算机设备将用户画像信息、信息类型和归属对象显示在服务对象的终端界面中,以使服务对象在服务用户时可以快速获取到该用户画像信息、信息类型和归属对象,从而更好为用户提供服务。
[0105]
其中,用户画像信息、信息类型和归属对象均为结构化信息。结构化信息是指信息经过分析后分解成多个互相关联的组成部分,各组成部分间有明确的层次结构。
[0106]
在一个实施例中,上述方法还包括:将处理对象与各预设文本进行相似度匹配,从各预设文本中确定与处理对象相匹配的目标对象,其中,处理对象包括用户画像信息、信息类型和归属对象中任意一种,目标对象是目标用户画像信息、目标信息类型和目标归属对象中的任意一种。
[0107]
预设文本可以根据需要进行设置。
[0108]
在一种实施方式中,计算机设备采用字面相似度函数将处理对象与各预设文本进行相似度匹配,从各预设文本中确定与处理对象相匹配的目标对象。具体地,当处理对象与预设文本之间的杰卡德距离或者编辑距离小于预设距离时,则处理对象与该预设文本相匹配,将该预设文本作为目标对象。其中,杰卡德距离(jaccard distance)是用来衡量两个集合差异性的一种指标。编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
[0109]
在另一种实施方式中,计算机设备采用浅层语义相似度函数将处理对象与各预设文本进行相似度匹配,从各预设文本中确定与处理对象相匹配的目标对象。
[0110]
例如,不同的用户画像信息分别为身体好,身体不错,都很好,身体很好,计算机设备可以将不同的用户画像信息进行归一化处理,可以得到统一的用户画像信息为身体健康。
[0111]
在本实施例中,采用字面相似度函数将处理对象与各预设文本进行相似度匹配,从各预设文本中确定与处理对象相匹配的目标对象,可以将用户画像信息、信息类型和归属对象分别进行归一化处理,将相同意图并且不同表达方式的句子或者词语统一为相同的目标对象,可以更快速地用于后续对数据的筛选和使用。
[0112]
在一个实施例中,在服务对象的终端界面的用户信息展示区域中展示目标用户画像信息、目标信息类型和目标归属对象。
[0113]
当计算机设备是终端时,在服务对象的终端界面中包括有用户信息展示区域,可以展示目标用户画像信息、目标信息类型和目标归属对象。
[0114]
当计算机设备是服务器时,服务器将目标用户画像信息、目标信息类型和目标归属对象发送至服务对象所在的终端,终端界面中包括有用户信息展示区域,可以展示目标用户画像信息、目标信息类型和目标归属对象。
[0115]
其中,用户信息展示区域可以是终端界面的右侧区域、左侧区域、上方区域等其中一种。
[0116]
在另一个实施例中,当计算机设备从用户画像信息、信息类型和归属对象中提取
出数值类信息时,使用正则规则对数值类信息进行转化得到目标信息,将目标信息显示在服务对象的终端界面中。例如,用户画像信息为1994年出生,则使用正则规则对该用户画像信息进行转化,可以得出用户的年龄为26岁。
[0117]
图7为另一个实施例中信息提取的流程示意图。计算机设备提供了一种信息提取装置,包括对话信息获取模块、关键信息提取模块、关系归属模块和归一化模块。计算机设备获取用户与服务对象之间的当前对话信息和历史对话信息,将当前对话信息和历史对话信息分别进行文本预处理,将文本预处理之后的当前对话信息和历史对话信息分别输入训练完成的词向量模型中,得到当前对话向量和历史对话向量。计算机设备可以预先采用保险文档、知识库中的文档对词向量模型进行训练,得到训练完成的词向量模型。
[0118]
计算机设备将当前对话向量和历史对话向量进行拼接,得到拼接对话向量,通过训练完成的上下文相关文本对匹配网络,从历史对话信息中筛选出与当前对话信息相关的关联对话信息。
[0119]
计算机设备将当前对话信息和关联对话信息输入编码器中,将编码器输出的数据再输入crf层中,提取出用户画像信息,以及用户画像信息的信息类型。其中,编码器可以是双向长短期记忆网络,通过双向长短期记忆网络可以提取出当前对话信息和关联对话信息中的依赖关系,将携带有依赖关系的当前对话信息,以及携带有依赖关系的关联对话信息输入crf层中,提取出用户画像信息,以及用户画像信息的信息类型。编码器也可以是卷积神经网络(cnn)或者transformer模型。
[0120]
计算机设备基于对话信息和用户画像信息,确定用户画像信息在对话信息中所处的位置,获取位置的位置信息,再将当前对话信息、关联对话信息、位置信息和信息类型输入关系抽取网络中,输出用户画像信息的归属对象。其中,关系抽取网络将当前对话信息、关联对话信息、位置信息和信息类型依次进行嵌入、编码、载入、预测处理,确定用户画像信息的归属对象。
[0121]
计算机设备将处理对象与各预设文本进行相似度匹配,从各预设文本中确定与处理对象相匹配的目标对象,其中,处理对象包括用户画像信息、信息类型和归属对象中任意一种,目标对象是目标用户画像信息、目标信息类型和目标归属对象中的任意一种;将目标用户画像信息、目标信息类型和目标归属对象显示在服务对象的终端界面中。
[0122]
在一个实施例中,提供了另一种信息提取方法,应用于服务对象的终端中,包括以下步骤:向服务器发起信息提取请求;获取服务器发送的用户画像信息、用户画像信息的信息类型和用户画像信息的归属对象;其中,归属对象是用户画像信息所归属的人或物,归属对象是服务器基于用户和服务对象之间的对话信息、位置信息和信息类型确定的,位置信息是基于用户画像信息在对话信息中所处的位置获取的,位置是基于对话信息和用户画像信息确定的,用户画像信息以及信息类型是从对话信息提取的,对话信息是基于信息提取请求获取的;在用户信息展示区域中展示用户画像信息、信息类型和归属对象。
[0123]
信息提取请求中可以包括对话信息,也可以包括对话信息的属性信息,不限于此。属性信息如对话信息的条数、时间范围等。
[0124]
在一种实施方式中,终端接收用户对候选信息的触发选择,确定触发选择的候选信息作为对话信息,生成包括对话信息的信息提取请求,将信息提取请求发送至服务器。服务器从信息提取请求中获取对话信息。
[0125]
在另一种实施方式中,终端将包括有属性信息的信息提取请求发送至服务器。服务器基于信息提取请求中的属性信息,从存储器中获取该属性信息对应的对话信息。
[0126]
可选地,终端在用户信息展示区域中,可以排列展示用户画像信息、信息类型和归属对象,也可以将用户画像信息、信息类型和归属对象以表格形式展示,不限于此。
[0127]
在本实施例中,终端向服务器发起信息提取请求;服务器基于信息提取请求确定用户和服务对象之间的对话信息,从对话信息中提取出用户画像信息,以及用户画像信息的信息类型,则基于对话信息和用户画像信息,可以准确确定用户画像信息在对话信息中所处的位置,获取位置的位置信息,再基于对话信息、位置信息和信息类型,可以准确确定用户画像信息的归属对象,避免了用户在对话信息中省略主语时无法准确提取信息的问题,可以提高信息提取的准确性,再将用户画像信息、信息类型和归属对象发送至终端;终端可以在用户信息展示区域中展示用户画像信息、信息类型和归属对象。
[0128]
在一个实施例中,如图8所示,服务对象的终端的可视化界面包含对话区域802和用户信息展示区域804,其中可视化界面可以是社交产品的界面,也可以是临时工作会话界面;在可视化界面的对话区域展示用户和服务对象之间的对话信息,从而可以从用户和服务对象之间的对话信息中提取到用户画像信息、信息类型和用户画像信息的归属对象,以在用户信息展示区域进行展示,其中,展示形式包括对话式、表格式、标签式等。在一具体实现过程中,计算机设备在聊天窗口中获取用户与服务对象之间的对话信息“请问你和先生,孩子分别多少年龄呢”,“先生38,我34,老大5岁半,老二不到一岁”,“你和先生身体健康有无异常”,“孩子的身体免疫力怎么样呢”,“都很好”,从以上的对话信息中可以提取出用户画像信息,用户画像信息的信息类型以及用户画像的归属对象,用户画像信息包括61,61的信息类型为年龄,61的归属对象为老人;用户画像信息包括孩子,孩子的信息类型为家庭成员,孩子的归属对象为本人;用户画像信息包括34,34的信息类型为年龄,34的归属对象为本人;用户画像信息包括38,38的信息类型为年龄,38的归属对象为配偶;用户画像信息包括“5岁半,一岁”,“5岁半,一岁”的信息类型为年龄,“5岁半,一岁”的归属对象为孩子;用户画像信息包括“都很好”,“都很好”的信息类型为年龄,“都很好”的归属对象为孩子。
[0129]
计算机设备将提取出的用户画像信息,用户画像信息的信息类型以及用户画像的归属对象显示在界面中,则服务对象在服务一名或者多名用户时均可以快速直接了解到用户的情况和需求,更快速为用户提供服务,提高回答效率,且回答内容具有针对性。
[0130]
应该理解的是,虽然图2、图3、图6和图7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图3、图6和图7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0131]
在一个实施例中,如图9所示,提供了一种信息提取装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:对话信息获取模块902、关键信息提取模块904和关系归属模块906,其中:
[0132]
对话信息获取模块902,用于获取用户和服务对象之间的对话信息。
[0133]
关键信息提取模块904,用于从对话信息中提取出用户画像信息,以及用户画像信息的信息类型;基于对话信息和用户画像信息,确定用户画像信息在对话信息中所处的位置,获取位置的位置信息。
[0134]
关系归属模块906,用于基于对话信息、位置信息和信息类型,确定用户画像信息的归属对象,归属对象是用户画像信息所归属的人或物。
[0135]
上述信息提取装置,获取用户和服务对象之间的对话信息;从对话信息中提取出用户画像信息,以及用户画像信息的信息类型,则基于对话信息和用户画像信息,可以准确确定用户画像信息在对话信息中所处的位置,获取位置的位置信息,再基于对话信息、位置信息和信息类型,可以准确确定用户画像信息的归属对象,避免了用户在对话信息中省略主语时无法准确提取信息的问题,可以提高信息提取的准确性。
[0136]
在一个实施例中,对话信息包括当前对话信息和关联对话信息;上述对话信息获取模块902还用于获取用户和服务对象之间的当前对话信息,以及当前对话信息对应的历史对话信息;基于当前对话信息,从历史对话信息中筛选出与当前对话信息相关的关联对话信息。
[0137]
在一个实施例中,上述对话信息获取模块902还用于将当前对话信息进行向量转换,得到当前对话向量;将历史对话信息进行向量转换,得到历史对话向量;将当前对话向量和历史对话向量进行拼接,得到拼接对话向量;基于语义相似度,基于当前对话信息分别和历史对话信息中各子对话信息之间的语义相似度,从历史对话信息中筛选出与当前对话信息相关的关联对话信息。
[0138]
在一个实施例中,上述信息提取装置还包括训练模块,用于获取对话训练文本;对话训练文本包括当前对话训练文本和历史对话训练文本,历史对话训练文本包括与当前对话训练文本相关的正训练文本,以及与当前对话训练文本不相关的负训练文本;将当前对话训练文本、正训练文本和负训练文本输入上下文相关文本对匹配网络中,对上下文相关文本对匹配网络进行训练,得到训练完成的上下文相关文本对匹配网络。
[0139]
在一个实施例中,上述关键信息提取模块904还用于对对话信息进行向量转换,得到对话向量;对对话向量进行标注,得到标注信息;对各标注信息进行解码,提取出用户画像信息,以及用户画像信息的信息类型。
[0140]
在一个实施例中,上述关系归属模块906还用于将对话信息、位置信息和信息类型分别进行向量嵌入处理,得到对话向量、位置向量和类型向量;将对话向量、位置向量和类型向量拼接得到信息提取向量;对信息提取向量进行稠密化处理,对经过稠密化处理的信息提取向量进行逻辑回归处理,得到用户画像信息属于各候选对象的概率,基于用户画像信息属于各候选对象的概率预测用户画像信息的归属对象。
[0141]
在一个实施例中,上述关系归属模块906还用于将对话向量和位置向量进行拼接,得到携带有位置信息的对话向量;对携带有位置信息的对话向量进行编码,得到编码向量;将编码向量和类型向量进行拼接,得到信息提取向量。
[0142]
在一个实施例中,上述信息提取装置还包括展示模块,用于在服务对象的终端界面的用户信息展示区域中展示用户画像信息、信息类型和归属对象。
[0143]
在一个实施例中,上述信息提取装置还包括归一化模块,用于将处理对象与各预设文本进行相似度匹配,从各预设文本中确定与处理对象相匹配的目标对象,其中,处理对
象包括用户画像信息、信息类型和归属对象中任意一种,目标对象是目标用户画像信息、目标信息类型和目标归属对象中的任意一种。
[0144]
在本实施例中,信息提取装置包括有对话信息获取模块、关键信息提取模块、关系归属模块和归一化模块,则开发人员可以基于某一个模块进行拓展,针对某一个模块对提取的信息进行拓展,无需对整个装置进行整体改进,更高效率对信息提取装置进行拓展。
[0145]
在一个实施例中,提供了另一种信息提取装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:请求发起模块、信息获取模块和展示模块,其中:
[0146]
请求发起模块,用于向服务器发起信息提取请求。
[0147]
信息获取模块,用于获取服务器发送的用户画像信息、用户画像信息的信息类型和用户画像信息的归属对象;其中,归属对象是用户画像信息所归属的人或物,归属对象是服务器基于用户和服务对象之间的对话信息、位置信息和信息类型确定的,位置信息是基于用户画像信息在对话信息中所处的位置获取的,位置是基于对话信息和用户画像信息确定的,用户画像信息以及信息类型是从对话信息提取的,对话信息是基于信息提取请求获取的。
[0148]
展示模块,用于在用户信息展示区域中展示用户画像信息、信息类型和归属对象。
[0149]
上述信息提取装置,终端向服务器发起信息提取请求;服务器基于信息提取请求确定用户和服务对象之间的对话信息,从对话信息中提取出用户画像信息,以及用户画像信息的信息类型,则基于对话信息和用户画像信息,可以准确确定用户画像信息在对话信息中所处的位置,获取位置的位置信息,再基于对话信息、位置信息和信息类型,可以准确确定用户画像信息的归属对象,避免了用户在对话信息中省略主语时无法准确提取信息的问题,可以提高信息提取的准确性,再将用户画像信息、信息类型和归属对象发送至终端;终端可以在用户信息展示区域中展示用户画像信息、信息类型和归属对象。
[0150]
关于信息提取装置的具体限定可以参见上文中对于信息提取方法的限定,在此不再赘述。上述信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0151]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种信息提取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0152]
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设
备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0153]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0154]
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0155]
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
[0156]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read

only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0157]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0158]
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1