1.本发明涉及自然语言处理技术领域,尤其涉及一种问题语句的处理方法、电子设备及存储介质。
背景技术:2.当前,对于问题语句等自然语言常使用nlp进行处理,nlp是指natural language processing,自然语言处理。它是计算机和人工智能的一个重要领域。我们用文字描述事物、经历和思想。形成的文献资料,除了被阅读,往往还需要进行很多其他操作。比如,被翻译成其他语种,对内容进行摘要,在其中查找某个问题的答案,以及它们之间的关系如何等等。对于大量自然语言,使用人力进行处理会耗费过长的时间,且容易出错,因此,用机器而非人力来处理信息有更多的优点;然而基于模板的方法处理问题语句受限于手写模范对于问题类型的覆盖能力,使用seq2seq模型无法捕获和合成多个句子之间的关系。
技术实现要素:3.针对上述技术问题,本发明采用的技术方案为一种问题语句的处理方法,所述方法包括如下步骤:s100,获取目标问题语句列表a={a1,
……
,ai,
……
,am},ai是指第i个目标问题语句,i=1
……
m,m为目标问题语句的数量;s200,对ai进行处理,得到ai对应的目标三元组a'i=(a'
i1
,a'
i2
,a'
i3
),a'
i1
是指ai对应的主实体,a'
i2
是指ai对应的副实体,a'
i3
是指a'
i1
和a'
i2
之间的关联关系;s300,根据目标三元组列表和a'i,获取到ai对应的中间实体链路列表bi={b
i1
,
……
,b
ij
,
……
,b
in
},b
ij
是指ai对应的第j个中间实体链路,j=1
……
n,n为中间实体链路的数量,其中,b
ij
包括中间实体列表cij={c
1ij
,
……
,c
xij
,
……
,c
pij
}和中间关系列表d
ij
={d
1ij
,
……
,d
yij
,
……
,d
qij
},c
xij
是指第x个中间实体,d
yij
是指第y个中间关系,x=1
……
p,y=1
……
q,p为中间实体数量,q为中间关系数量;s400,当c
1ij
=a'
i1
时,遍历c
ij
且当c
pij
=a'
i2
时,确定b
ij
为目标实体链路;s500,遍历目标实体链路对应的中间关系且当目标实体链路对应的所有中间关系均为继承关系时,则将目标实体链路作为最终实体链路;s600,根据最终实体链路,获取到目标问题语句的结果。
4.本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种问题语句的处理方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:对目标问题语句进行处理,获得对应的目标三元组,基于目标三元组获取中间实体链路列表,当与主实体和副实体对应一致时,作为最终实体链路,并获取到目标问题语句的结果,使得对目标问题语句的处理更高效、更准确。
5.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够
更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
6.图1为本发明实施例提供的一种问题语句的处理方法的执行步骤的流程图。
具体实施方式
7.为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种获取目标位置的数据处理系统的具体实施方式及其功效,详细说明如后。
8.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例
9.本实施例提供了一种问题语句的处理方法,其特征在于,所述方法包括如下步骤:s100、获取目标问题语句列表a={a1,
……
,ai,
……
,am},ai是指第i个目标问题语句,i=1
……
m,m为目标问题语句的数量;s200、对ai进行处理,得到ai对应的目标三元组a'i=(a'
i1
,a'
i2
,a'
i3
),a'
i1
是指ai对应的主实体,a'
i2
是指ai对应的副实体,a'
i3
是指a'
i1
和a'
i2
之间的关联关系;具体地,本领域技术人员知晓,现有技术中任何一种对目标问题语句进行处理获得目标三元组的方法均属于本发明保护范围,此处不再赘述。
10.s300、根据目标三元组列表和a'i,获取到ai对应的中间实体链路列表bi={b
i1
,
……
,b
ij
,
……
,b
in
},b
ij
是指ai对应的第j个中间实体链路,j=1
……
n,n为中间实体链路的数量,其中,b
ij
包括中间实体列表c
ij
={c
1ij
,
……
,c
xij
,
……
,c
pij
}和中间关系列表d
ij
={d
1ij
,
……
,d
yij
,
……
,d
qij
},c
xij
是指第x个中间实体,d
yij
是指第y个中间关系,x=1
……
p,y=1
……
q,p为中间实体数量,q为中间关系数量;具体地,将目标三元组列表和a'i,输入问题分解模型,获得ai对应的中间实体链路列表bi;具体地,所述问题分解模型包括如下步骤:s301,对初始文本列表进行预处理,获取初始文本列表对应的初始实体列表和实体之间的初始关系列表;具体地,所述初始文本列表可以通过现有技术中的任何一种方法获取,例如通过网页获取。所述初始关系列表包括初始实体之间的关系和关系的类型。
11.具体地,通过stanford corenlp toolkit确定初始文本列表中的初始实体列表和初始关系列表;
进一步地,使用stanford corenlp toolkit获取初始实体列表和初始关系列表时,把同名实体作为一个候选初始实体或把具有相同主键的实体作为一个候选初始实体,并获得候选初始实体对应的候选初始关系;对候选初始实体进行筛选,获取初始实体列表。
12.在本发明另一个实施例中,在使用stanford corenlp toolkit获取候选初始实体时,根据序列的相似度进行确定候选初始实体;更进一步地,对候选初始实体进行筛选包括对候选初始实体的相同指代、重复出现、部分出现进行判断;对候选初始实体和候选关系列表进行冲突进行判断和消除,冲突包括属性冲突、命名冲突、结构冲突等,所述命名冲突包括同名异义、异名同义,所述结构冲突包括同一候选初始实体在初始文本不同位置具有不同的名称、同一候选初始实体在不同初始文本中包含的属性个数和属性排列次序不完全相同等。
13.s303,基于初始实体列表和初始关系列表,生成实体图;s305,基于初始关系列表和实体图,获取初始子图,构成初始实体链路;具体地,将实体图和常识知识库进行融合,构建篇章知识图库;根据篇章知识图库、初始关系列表,获取初始子图;基于初始子图,获取初始实体链路;所述常识知识库是基于维基百科常识库获取的知识图谱库。
14.具体地,本领域技术人员知晓,任何一种根据实体图获取子图的方法均属于本发明保护范围,此处不再赘述。
15.在本发明一个实施例中,基于实体图抽取初始子图,初始子图包括初始序列子图、初始相交子图、初始对比子图,所述初始序列图是指使用初始实体作为初始实体链路的桥梁;所述初始交图是指在初始序列图的中间截取作为初始实体链路。
16.基于s301-s305,基于初始文本列表,对初始文本进行预处理,获得初始实体列表和初始关系列表,将初始实体列表和初始关系列表进行融合,生成实体图,所述实体图包括实体、实体具有的属性、实体和实体之间的关系,基于实体图构成初始实体链路,将初始文本构建成初始实体链路,使得在进行三元组的匹配时,更加高效。
17.s307,基于初始实体链路,构建生成-评价网络模型;具体地,所述生成-评价网络模型包括生成器和评价器。
18.其中,所述生成器首先使用gcn抓取初始实体链路上的初始关系,然后使用seq2seq问题生成方法基于上下文生成问题。
19.其中,所述评价器通过建立一个混合监督学习与强化学习的评价机制,同时优化生成-评价网络模型。
20.进一步地,所述生成问题伴随类后处理机制,类后处理机制主要包括对重复词、错误的答案相关词、无关词的复制、与答案类型无关的疑问句的处理。
21.基于此,由于seq2seq问题生成方法无法捕获和合成多个句子之间的证据,生成器使用gcn抓取初始问题并基于上下文生成问题,可以构建伪训练集用于补充训练集,提高训练集的数量,更高数量的训练集能够带来更好的性能,从而提高生成-评价网络模型的性能。
22.s309,使用训练集,对生成-评价网络模型进行训练;在本发明一个实施例中,使用hotpotqa训练集对生成-评价网络模型进行进行训练;
s311,将经过生成-评价网络模型的初始实体链路,作为中间实体链路。
23.基于此,将根据初始文本列表获得的初始实体链路经过训练的生成-评价模型,获取中间实体链路,便于和目标三元组进行匹配。
24.s400、当c
1ij
=a'
i1
时,遍历c
ij
且当c
pij
=a'
i2
时,确定b
ij
为目标实体链路;具体地,p满足如下条件:p≤20;优选地,p≤3。
25.可以理解为,在对中间实体列表进行遍历时,遍历的深度不能过大,当遍历深度过大时,会对执行本发明的服务器造成过大的负担,因此在优选的情况下,对中间实体遍历的深度小于等于3,减小对执行本发明的服务器的负担。
26.s500、遍历目标实体链路对应的中间关系且当目标实体链路对应的所有中间关系均为继承关系时,则将目标实体链路作为最终实体链路;具体地,中间实体c
1ij
到c
pij
的中间关系均为继承关系,所述继承关系是指c
xij
继承c
x-1ij
的功能,并可以增加新功能。
27.基于此,当目标实体链路对应的所有中间关系均为继承关系时,目标实体链路作为最终实体链路,实体之间的继承关系可以减少数据量,同时使用继承的方式更加准确地找到目标问题的结果。
28.进一步地,当最终实体链路的个数大于1时,执行以下步骤:s501,获取最终实体链路列表e={e1,
…
,eg,
…
,eh},eg是指第g个最终实体链路,g的取值范围是1到h,h是指最终实体链路的数量;s503,获取最终实体链路列表e对应的中间实体数量列表p={p1,
…
,pg,
…
,ph},pg是指eg对应的中间实体数量;s505,获取p'=min{p1,
…
,pg,
…
,ph}且将p'对应的最终实体链路执行s600。
29.基于s501-s505,当最终实体链路不止1条时,获取每个最终实体链路的中间实体数量,中间实体数量最少作为最终实体链路继续执行,中间实体数量最少表明为完成目标问题语句的最短路径、最快速的路径,因此更快速完成目标问题语句。
30.s600、根据最终实体链路,获取到目标问题语句的结果。
31.基于此,对目标问题语句进行处理,获得对应的目标三元组,基于目标三元组获取中间实体链路列表,当与主实体和副实体对应一致时,作为最终实体链路,并获取到目标问题语句的结果,使得对目标问题语句的处理更高效、更准确。
32.以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。