一种问题答案的匹配方法及装置与流程

文档序号:32300466发布日期:2022-11-23 08:09阅读:49来源:国知局
一种问题答案的匹配方法及装置与流程

1.本发明涉及人工智能技术领域,具体涉及一种问题答案的匹配方法及装置。


背景技术:

2.随着自然语言处理技术的发展,出现了智能问答系统,对以自然语言形式描述的问题进行解析,返回与问题匹配的答案。
3.现有技术中,将问题进行分词,然后将分词后的各个词的词向量相加,获得问题对应的句子向量,然后基于问题对应的句子向量从问答库中的预设问题中找出相似度最高的预设问题对应答案作为问题匹配的答案。上述方法,当问题较长时,获得的答案的准确率会下降。因此,如何提出一种问题答案匹配方法,以提高获得的答案的准确性成为本领域亟待解决的重要课题。


技术实现要素:

4.针对现有技术中的问题,本发明实施例提供一种问题答案的匹配方法及装置,能够至少部分地解决现有技术中存在的问题。
5.第一方面,本发明提出一种问题答案的匹配方法,包括:
6.对待匹配问题进行分词,获得所述待匹配问题对应的词汇;
7.对所述待匹配问题对应的词汇进行实体识别,获得所述待匹配问题对应的实体;
8.对所述待匹配问题对应的剩余词汇进行词性过滤,获得所述待匹配问题对应的名词和动词;其中,所述待匹配问题对应的剩余词汇是指所述待匹配问题对应的词汇中去除所述待匹配问题对应的实体之后剩余的词汇;
9.根据所述待匹配问题对应的实体以及所述待匹配问题对应的名词和动词,获得所述待匹配问题对应的句子向量;
10.根据所述待匹配问题对应的句子向量以及各个基础问题对应的句子向量,获得与所述待匹配问题匹配的第一基础问题;其中,各个基础问题对应的句子向量是预先获得的;
11.从基础问答库中获取与所述待匹配问题匹配的第一基础问题对应的答案,作为所述待匹配问题对应的答案。
12.第二方面,本发明提供一种问题答案的匹配装置,包括:
13.分词模块,用于对待匹配问题进行分词,获得所述待匹配问题对应的词汇;
14.实体识别模块,用于对所述待匹配问题对应的词汇进行实体识别,获得所述待匹配问题对应的实体;
15.词性过滤模块,用于对所述待匹配问题对应的剩余词汇进行词性过滤,获得所述待匹配问题对应的名词和动词;其中,所述待匹配问题对应的剩余词汇是指所述待匹配问题对应的词汇中去除所述待匹配问题对应的实体之后剩余的词汇;
16.获得模块,用于根据所述待匹配问题对应的实体以及所述待匹配问题对应的名词和动词,获得所述待匹配问题对应的句子向量;
17.问题匹配模块,用于根据所述待匹配问题对应的句子向量以及各个基础问题对应的句子向量,获得与所述待匹配问题匹配的第一基础问题;其中,各个基础问题对应的句子向量是预先获得的;
18.答案获取模块,用于从基础问答库中获取与所述待匹配问题匹配的第一基础问题对应的答案,作为所述待匹配问题对应的答案。
19.第三方面,本发明提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述问题答案的匹配方法。
20.第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述问题答案的匹配方法。
21.第五方面,本发明提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述问题答案的匹配方法。
22.本发明实施例提供的问题答案的匹配方法及装置,能够对待匹配问题进行分词,获得所述待匹配问题对应的词汇;对待匹配问题对应的词汇进行实体识别,获得待匹配问题对应的实体;对待匹配问题对应的剩余词汇进行词性过滤,获得待匹配问题对应的名词和动词;根据待匹配问题对应的实体以及待匹配问题对应的名词和动词,获得待匹配问题对应的句子向量;根据待匹配问题对应的句子向量以及各个基础问题对应的句子向量,获得与待匹配问题匹配的第一基础问题;从基础问答库中获取与待匹配问题匹配的第一基础问题对应的答案,作为待匹配问题对应的答案,通过实体匹配以及保留问题中的动词和名词,保留能够表达问题意图的关键词进行问题匹配,排除一部分干扰词,提高了问题答案匹配的准确性。
附图说明
23.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
24.图1是本发明第一实施例提供的问题答案的匹配方法的流程示意图。
25.图2是本发明第二实施例提供的问题答案的匹配方法的流程示意图。
26.图3是本发明第三实施例提供的问题答案的匹配方法的流程示意图。
27.图4是本发明第四实施例提供的问题答案的匹配方法的流程示意图。
28.图5是本发明第五实施例提供的问题答案的匹配方法的流程示意图。
29.图6是本发明第六实施例提供的问题答案的匹配方法的流程示意图。
30.图7是本发明第七实施例提供的问题答案的匹配方法的流程示意图。
31.图8是本发明第八实施例提供的问题答案的匹配方法的结构示意图。
32.图9是本发明第九实施例提供的问题答案的匹配装置的结构示意图。
33.图10是本发明第十实施例提供的问题答案的匹配装置的结构示意图。
34.图11是本发明第十一实施例提供的问题答案的匹配装置的结构示意图。
35.图12是本发明第十二实施例提供的问题答案的匹配装置的结构示意图。
36.图13是本发明第十三实施例提供的问题答案的匹配装置的结构示意图。
37.图14是本发明第十四实施例提供的问题答案的匹配装置的结构示意图。
38.图15是本发明第十五实施例提供的电子设备的实体结构示意图。
具体实施方式
39.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互任意组合。
40.为了便于理解本技术提供的技术方案,下面先对本技术技术方案的相关内容进行说明。
41.在现有技术中,问题包括的所有词汇的权重是一样的,这会导致当问题长度较长时,比如问题包括的字数超过20个字,由于词汇较多,其中的非重点词的词向量会导致问题的句子向量本身偏离期望匹配到基础提问,使匹配到答案的准确率下降。因此,本发明实施例提出一种问题答案的匹配方法,在将提出的问题与基础问题进行匹配时,保留实体、名词和动词,去除其他词汇,以减少其他词汇对问题意图的干扰,从而提高了问题答案匹配的准确性。
42.下面以服务器作为执行主体对本发明实施例提供的问题答案的匹配方法的具体实现过程进行说明。
43.图1是本发明第一实施例提供的问题答案的匹配方法的流程示意图,如图1所示,本发明实施例提供的问题答案的匹配方法,包括:
44.s101、对待匹配问题进行分词,获得所述待匹配问题对应的词汇;
45.具体地,服务器可以获取待匹配问题,然后对所述待匹配问题进行分词,能够获得所述待匹配问题对应的词汇。分词可以采用分词工具实现,比如jieba分词工具、pkuseg分词工具、thulac分词工具等,根据实际需要进行选择,本发明实施例不做限定。其中,待匹配问题是指,需要获取答案的问题。
46.例如,客户端向服务器发送问题查询请求,所述问题查询请求包括提问。服务器接收问题查询请求,将所述问题查询请求包括的提问作为待匹配问题。
47.s102、对所述待匹配问题对应的词汇进行实体识别,获得所述待匹配问题对应的实体;
48.具体地,服务器对待匹配问题对应的词汇进行实体识别,从所述待匹配问题对应的词汇中识别出实体,获得所述待匹配问题对应的实体。其中,实体是指专有名词,比如人名、地名、国家名、日期、理财产品名等,根据实际需要进行设置,本发明实施例不做限定。
49.例如,可以预先建立实体词库,在对所述待匹配问题对应的词汇进行实体识别时,将所述待匹配问题对应的词汇中的每个词与实体词库中的每个专有名词进行比较,如果所述待匹配问题对应的词汇中的某个词与实体词库中的一个专有名词相同,那么与专有名词相同的词作为实体。如果所述待匹配问题对应的词汇中的某个词与实体词库中的任何一个专有名词都不相同,那么该词不作为实体。
50.s103、对所述待匹配问题对应的剩余词汇进行词性过滤,获得所述待匹配问题对
应的名词和动词;其中,所述待匹配问题对应的剩余词汇是指所述待匹配问题对应的词汇中去除所述待匹配问题对应的实体之后剩余的词汇;
51.具体地,所述服务器在识别出所述待匹配问题对应的实体之后,将所述待匹配问题对应的实体从所述待匹配问题对应的词汇中去除,获得所述待匹配问题对应的剩余词汇,然后对所述待匹配问题对应的剩余词汇进行词性过滤,保留所述待匹配问题对应的剩余词汇中的名词和动词,过滤掉名词和动词以外的其他词汇,可以获得所述待匹配问题对应的名词和动词。
52.例如,分词工具通常具有词性标注功能,可以先通过分词工具的词性标注功能将所述待匹配问题对应的剩余词汇中的每个词进行词性标注,然后保留动词和名词作为所述待匹配问题对应的名词和动词。
53.s104、根据所述待匹配问题对应的实体以及所述待匹配问题对应的名词和动词,获得所述待匹配问题对应的句子向量;
54.具体地,所述服务器可以获取所述待匹配问题对应的实体中每个实体对应的词向量,所述待匹配问题对应的名词中每个名词对应的词向量以及所述待匹配问题对应的动词中每个动词对应的词向量,然后将上述实体对应的词向量、名词对应的词向量以及动词对应的词向量相加,可以获得所述待匹配问题对应的句子向量。其中,将词转换成向量可以通过word2vec模型实现,word2vec模型为一种词向量模型,用于将词映射为一个向量。
55.s105、根据所述待匹配问题对应的句子向量以及各个基础问题对应的句子向量,获得与所述待匹配问题匹配的第一基础问题;其中,各个基础问题对应的句子向量是预先获得的;
56.具体地,所述服务器将所述待匹配问题对应的句子向量与每个基础问题对应的句子向量进行比较,获得与所述待匹配问题的相似度最高的基础问题作为与所述待匹配问题匹配的第一基础问题。其中,每个基础问题对应的句子向量是预先获得的,基础问题是预先设置的,存储到基础问答库中。
57.例如,可以计算待匹配问题对应的句子向量与基础问题对应的句子向量的余弦相似度,作为待匹配问题与基础问题的相似度。
58.s106、从基础问答库中获取与所述待匹配问题匹配的第一基础问题对应的答案,作为所述待匹配问题对应的答案。
59.具体地,所述服务器在获得与所述待匹配问题匹配的第一基础问题之后,从基础问答库中查询与所述待匹配问题匹配的第一基础问题对应的答案,作为所述待匹配问题对应的答案。其中,所述基础问答库是预设的,包括多个问答对,每个问答对包括一个基础问题以及基础问题对应的答案。
60.本发明实施例提供的问题答案的匹配方法,能够对待匹配问题进行分词,获得所述待匹配问题对应的词汇;对待匹配问题对应的词汇进行实体识别,获得待匹配问题对应的实体;对待匹配问题对应的剩余词汇进行词性过滤,获得待匹配问题对应的名词和动词;根据待匹配问题对应的实体以及待匹配问题对应的名词和动词,获得待匹配问题对应的句子向量;根据待匹配问题对应的句子向量以及各个基础问题对应的句子向量,获得与待匹配问题匹配的第一基础问题;从基础问答库中获取与待匹配问题匹配的第一基础问题对应的答案,作为待匹配问题对应的答案,通过实体匹配以及保留问题中的动词和名词,保留能
够表达问题意图的关键词进行问题匹配,排除一部分干扰词,提高了问题答案匹配的准确性。
61.图2是本发明第二实施例提供的问题答案的匹配方法的流程示意图,如图2所示,在上述各实施例的基础上,进一步地,本发明实施例提供的问题答案的匹配方法还包括:
62.s201、若判断获知所述待匹配问题对应的动词的数量大于1,则从所述待匹配问题对应的动词中筛选出一个动词作为所述待匹配问题的关键动词;
63.具体地,所述服务器统计所述待匹配问题对应的动词的数量,如果所述待匹配问题对应的动词的数量大于1,即所述待匹配问题对应的动词的数量大于等于2。此时,由于存在多个动词,在后续与基础问题进行匹配时,存在相似度最高的基础问题对应的答案不是期望的答案风险。所述服务器可以从所述待匹配问题对应的动词中筛选出一个动词作为所述待匹配问题的关键动词。筛选动词的具体过程详见下文所述,此处不进行赘述。
64.s202、根据所述待匹配问题对应的实体、所述待匹配问题对应的名词以及所述待匹配问题的关键动词,按照统一句型生成所述待匹配问题对应的标准问句;其中,所述统一句型是预设的;
65.具体地,所述服务器根据所述待匹配问题对应的实体、所述待匹配问题对应的名词以及所述待匹配问题的关键动词,按照统一句型生成所述待匹配问题对应的标准问句。其中,所述统一句型是预设的。
66.例如,所述统一句型为实体和/或名词+“如何”+关键动词,待匹配问题对应的实体和待匹配问题对应的名词有多个时,待匹配问题对应的实体和待匹配问题对应的名词在统一句型中的排列顺序与待匹配问题对应的实体和待匹配问题在待匹配问题中的顺序相同。
67.s203、根据所述待匹配问题对应的标准问句以及各个基础问题对应的标准问句,获得与所述待匹配问题匹配的第二基础问题;其中,各个基础问题对应的标准问句是预先获得的;
68.具体地,所述服务器将所述待匹配问题对应的标准问句转换成所述待匹配问题对应的标准问句向量,并将所述每个基础问题对应的标准问句转换成基础问题对应的标准问句向量,计算所述待匹配问题对应的标准问句向量与每个基础问题对应的标准问句向量的余弦相似度,将与待匹配问题相似度最高的基础问题作为与所述待匹配问题匹配的第二基础问题。其中,各个基础问题对应的标准问句是预先获得的,每个基础问题对应的标准问句的具体获得过程与所述待匹配问题对应的标准问句的获得过程类似。
69.s204、从所述基础问答库中获取与所述待匹配问题匹配的第二基础问题对应的答案,作为所述待匹配问题对应的答案。
70.具体地,所述服务器在获得与所述待匹配问题匹配的第二基础问题之后,从基础问答库中查询与所述待匹配问题匹配的第二基础问题对应的答案,作为所述待匹配问题对应的答案。
71.图3是本发明第三实施例提供的问题答案的匹配方法的流程示意图,如图3所示,在上述各实施例的基础上,进一步地,预先获得各个基础问题对应的标准问句的步骤包括:
72.s301、对基础问题进行分词,获得基础问题对应的词汇;
73.具体地,所述服务器从所述基础问答库中的获取一个基础问题,并对基础问题进行分词,获得基础问题对应的词汇。
74.s302、对基础问题对应的词汇进行实体识别,获得基础问题对应的实体;
75.具体地,服务器对基础问题对应的词汇进行实体识别,从基础问题对应的词汇中识别出实体,获得基础问题对应的实体。
76.s303、对基础问题对应的剩余词汇进行词性过滤,获得基础问题对应的名词和动词;其中,基础问题对应的剩余词汇是指基础问题对应的词汇中去除基础问题对应的实体之后剩余的词汇;
77.具体地,所述服务器在识别出基础问题对应的实体之后,将基础问题对应的实体从基础问题对应的词汇中去除,获得基础问题对应的剩余词汇,然后对基础问题对应的剩余词汇进行词性过滤,保留基础问题对应的剩余词汇中的名词和动词,过滤掉名词和动词以外的其他词汇,可以获得基础问题对应的名词和动词。
78.s304、若判断获知基础问题对应的动词的数量大于1,则从所述基础问题对应的动词中筛选出一个动词作为所述基础问题的关键动词;
79.具体地,所述服务器统计基础问题对应的动词的数量,如果基础问题对应的动词的数量大于1可以从基础问题对应的动词中筛选出一个动词作为基础问题的关键动词。筛选动词的具体过程详见下文所述,此处不进行赘述。
80.s305、根据所述基础问题对应的实体、基础问题对应的名词以及基础问题的关键动词,按照统一句型生成基础问题对应的标准问句。
81.具体地,所述服务器根据基础问题对应的实体、基础问题对应的名词以及基础问题的关键动词,按照统一句型生成基础问题对应的标准问句。其中,所述统一句型是预设的。
82.遍历所述基础问答库中的每个基础问题,重复步骤s301、步骤s302、步骤s303、步骤s304和步骤s305,最终可以获得所述基础问答库中的每个基础问题对应的标准问句。
83.图4是本发明第四实施例提供的问题答案的匹配方法的流程示意图,如图4所示,在上述各实施例的基础上,进一步地,从目标问题对应的动词中筛选出一个动词作为所述目标问题的关键动词包括:
84.s401、获取所述目标问题对应的动词中每个动词的平均tf-idf分数;其中,每个动词的平均tf-idf分数是基于基础问答库预先获得的;所述目标问题为所述待匹配问题或者基础问题;
85.具体地,所述服务器可以根据所述目标问题对应的动词中的每个动词,查询获得所述目标问题对应的动词中的每个动词的平均tf-idf(term frequency

inverse document frequency)分数。其中,每个动词的平均tf-idf分数是基于基础问答库预先获得的。所述目标问题为所述待匹配问题或者基础问题,从所述待匹配问题对应的动词中筛选出关键动词的过程与从基础问题对应的动词中筛选出关键动词的过程类似。
86.s402、获取平均tf-idf分数最大的动词作为所述目标问题对应的关键动词。
87.具体地,所述服务器将所述目标问题对应的动词中的各个动词的平均tf-idf分数进行比较,将平均tf-idf分数最大的动词作为所述目标问题对应的关键动词。
88.图5是本发明第五实施例提供的问题答案的匹配方法的流程示意图,如图5所示,在上述各实施例的基础上,进一步地,基于基础问答库获得每个动词的平均tf-idf分数包括:
89.s501、根据所述基础问答库中每个问答对,获得每个问答对应的动词中每个动词的词频和逆向文件频率;
90.具体地,对于所述基础问答库中的每个问答对,所述服务器会根据问答对包括的基础问题以及基础问题对应的答案,计算出问答对对应的动词中每个动词的词频和逆向文件频率。
91.例如,基础问答库的一个问答对包括基础问题:银行卡如何注销?以及基础问题对应的答案:银行卡可以前往当地网点注销,也可以通过网银、手机银行进行注销;如果超过5年不使用,会自动注销。
92.上述问答对中,词汇总数为25,基础问题对应的动词注销出现了4次,注销的词频tf为4/25=0.16;假如基础问答库包括的问答对的数量为10000,其中有10个问答对出现“注销”这个词,那么注销的逆向文件频率idf为lg(10000/10)=3。
93.s502、根据每个问答对对应的动词中每个动词的词频和逆向文件频率,获得每个问答对对应的动词中每个动词的tf-idf分数;
94.具体地,对于问答对对应的动词中的每个动词,所述服务器可以计算动词的词频和逆向文件频率的乘积的结果作为动词的tf-idf分数。
95.例如,所述服务器计算出一个问答对包括动词注销的tf为0.16,注销的idf为3,那么该问答对对应的注销的tf-idf分数为0.16
×
3=0.48。
96.s503、根据每个动词的各个tf-idf分数,获得每个动词的平均tf-idf分数。
97.具体地,对于一个动词,在不同的问答对中出现,就会有多个tf-idf分数。所述服务器计算动词的各个tf-idf分数平均值,可以获得动词的平均tf-idf分数。对于所述基础问答库中各个问答对中出现的动词,可以计算出每个动词的平均tf-idf分数。
98.例如,所述基础问答库中有10个问答对中出现“注销”这个动词,“注销”这个动词的10个tf-idf分数分别为:0.1,0.2,0.3,0.4,0.5,0.5,0.4,0.3,0.2,0.1,那么“注销”这个动词的平均tf-idf分数为(0.1+0.2+0.3+0.4+0.5+0.5+0.4+0.3+0.2+0.1)/10=0.3。
99.图6是本发明第六实施例提供的问题答案的匹配方法的流程示意图,如图6所示,在上述各实施例的基础上,进一步地,预先获得各个基础问题对应的句子向量的步骤包括:
100.s601、对基础问题进行分词,获得基础问题对应的词汇;
101.具体地,所述服务器从所述基础问答库中获取一个基础问题,并对基础问题进行分词,获得基础问题对应的词汇。
102.s602、对基础问题对应的词汇进行实体识别,获得基础问题对应的实体;
103.具体地,服务器对基础问题对应的词汇进行实体识别,从基础问题对应的词汇中识别出实体,获得基础问题对应的实体。
104.s603、对基础问题对应的剩余词汇进行词性过滤,获得基础问题对应的名词和动词;其中,基础问题对应的剩余词汇是指基础问题对应的词汇中去除基础问题对应的实体之后剩余的词汇;
105.具体地,所述服务器在识别出基础问题对应的实体之后,将基础问题对应的实体从基础问题对应的词汇中去除,获得基础问题对应的剩余词汇,然后对基础问题对应的剩余词汇进行词性过滤,保留基础问题对应的剩余词汇中的名词和动词,过滤掉名词和动词以外的其他词汇,可以获得基础问题对应的名词和动词。
106.s604、根据基础问题对应的实体以及基础问题对应的名词和动词,获得基础问题对应的句子向量。
107.具体地,所述服务器可以获取基础问题对应的实体中每个实体对应的向量,基础问题对应的名词中每个名词对应的向量以及基础问题对应的动词中每个动词对应的向量,然后将上述实体对应的向量、名词对应的向量以及动词对应的向量相加,可以获得基础问题对应的句子向量。
108.遍历所述基础问答库中的每个基础问题,重复步骤s601、步骤s602、步骤s603和步骤s604,最终可以获得所述基础问答库中的每个基础问题对应的标准问句。
109.图7是本发明第七实施例提供的问题答案的匹配方法的流程示意图,如图7所示,在上述各实施例的基础上,进一步地,所述根据所述待匹配问题对应的实体以及所述待匹配问题对应的名词和动词,获得所述待匹配问题对应的句子向量包括:
110.s701、获得所述待匹配问题对应的实体的词向量,所述待匹配问题对应的名词的词向量和所述待匹配问题对应的动词的词向量;
111.具体地,所述服务器将所述待匹配问题对应的实体中的每个实体转换成所述待匹配问题对应的实体中的每个实体对应的词向量,将所述待匹配问题对应的名词中每个名词对应的词向量,并将所述待匹配问题对应的动词中每个动词对应的词向量。
112.s702、按照所述待匹配问题对应的实体、所述待匹配问题对应的名词以及所述待匹配问题对应的动词在所述待匹配问题中的位置,将所述待匹配问题对应的实体的词向量,所述待匹配问题对应的名词的词向量和所述待匹配问题对应的动词的词向量相加,获得所述待匹配问题对应的句子向量。
113.具体地,所述服务器按照所述待匹配问题对应的实体、所述待匹配问题对应的名词以及所述待匹配问题对应的动词在所述待匹配问题中的位置,将所述待匹配问题对应的实体中的每个实体对应的词向量、所述待匹配问题对应的名词中每个名词对应的词向量以及所述待匹配问题对应的动词中每个动词对应的词向量相加,可以获得所述待匹配问题对应的句子向量。
114.下面以一个具体的实例,对本发明实施例提供的问题答案的匹配方法的具体实现过程进行说明。
115.服务器获得待匹配问题q1:“你好,我想了解一下这个固定收益类3个月定期开放型理财产品如何计算收益?”116.服务器对待匹配问题q1进行分词,获得待匹配问题q1对应的词汇,然后对待匹配问题q1对应的词汇进行实体识别,获得待匹配问题q1对应的实体为:【固定收益类】,然后从待匹配问题q1对应的词汇中去除【固定收益类】,进行词性标注,并保留名词和动词,获得待匹配问题q1对应的名词为:【月】、【开放型】、【理财】、【产品】、【收益】,获得待匹配问题q1对应的动词为:【想】、【了解】、【计算】。
117.服务器根据待匹配问题q1对应的实体以及待匹配问题q1对应的名词和动词,获得待匹配问题q1对应的句子向量;然后根据待匹配问题q1对应的句子向量以及基础问答库中各个基础问题对应的句子向量,获得待匹配问题q1匹配的基础问题s1:“请问添利宝固定收益类3个月定期开放型理财产品收益?”。基础问题s1对应的答案作为待匹配问题q1对应的答案。
118.使用现有技术中方法,将待匹配问题q1与基础问题进行匹配,会使用待匹配问题q1所有词汇与基础问题进行匹配,由于“你好”“我”“一下”“这个”“如何”这类词的干扰,获得待匹配问题q1匹配的基础问题为s2:“添利宝固定收益类3个月定期开放型理财产品能否提前支取?”。
119.表1展示了通过现有技术计算得到待匹配问题q1与基础问题s1的相似度为0.784,计算得到待匹配问题q1与基础问题s2的相似度为0.805,待匹配问题q1与基础问题s2的相似度高于待匹配问题q1与基础问题s1的相似度。而通过本发明实施例提供的问题答案的匹配方法,计算得到待匹配问题q1与基础问题s1的相似度为0.852,计算得到待匹配问题q1与基础问题s2的相似度为0.829,待匹配问题q1与基础问题s2的相似度小于待匹配问题q1与基础问题s1的相似度。通过阅读匹配问题q1、基础问题s1和基础问题s2,可以看出,基础问题s1与待匹配问题q1相近。因此,本发明实施例提供的问题答案的匹配方法,提高了待匹配问题与基础问题匹配的准确性。
120.表1相似度对比表1
[0121] q1与s1的相似度q1与s2相似度现有技术0.7840.805本技术0.8520.829
[0122]
下面以另一个具体的实例,对本发明实施例提供的问题答案的匹配方法的具体实现过程进行说明。
[0123]
服务器获得待匹配问题q2:“你好,我想了解一下银行定期存款的收益应该如何确认?”[0124]
服务器对待匹配问题q2进行分词,获得待匹配问题q2对应的词汇,然后对待匹配问题q2对应的词汇进行实体识别,获得待匹配问题q2对应的实体为:【银行定期存款】,然后从待匹配问题q2对应的词汇中去除【银行定期存款】,进行词性标注,并保留名词和动词,获得待匹配问题q2对应的名词为:【收益】,获得待匹配问题q2对应的动词为:【想】、【了解】和【确认】。
[0125]
服务器根据待匹配问题q2对应的实体以及待匹配问题q2对应的名词和动词,获得待匹配问题q2对应的句子向量;然后根据待匹配问题q2对应的句子向量以及基础问答库中各个基础问题对应的句子向量,获得待匹配问题q2匹配的基础问题p2:“我想知道银行定期存款能否提前支取?”。
[0126]
对于待匹配问题q2对应的动词:【想】、【了解】和【确认】,从中筛选出一个动词作为待匹配问题q2的关键动词。获取上述三个动词中每个动词的平均tf-idf分数进过比较,【确认】的平均tf-idf分数最高,作为待匹配问题q2的关键动词。基于待匹配问题q2对应的实体【银行定期存款】、待匹配问题q2对应的名词【收益】以及待匹配问题q2的关键动词【确认】,按照统一句型:名词+“如何”+关键动词,生成待匹配问题q2对应的标准问句:银行定期存款收益如何确认。
[0127]
根据待匹配问题q2对应的标准问句以及各个基础问题对应的标准问句,获得与待匹配问题q2匹配的基础问题p1:“请问银行定期存款收益如何计算?”[0128]
表2展示了通过本技术方案1(不进行动词筛选)计算得到待匹配问题q2与基础问题p1的相似度为0.858,计算得到待匹配问题q2与基础问题p2的相似度为0.875,待匹配问
题q2与基础问题p2的相似度高于待匹配问题q2与基础问题s2的相似度。而通过本技术方案2(只保留一个关键动词),计算得到待匹配问题q2与基础问题p1的相似度为0.952,计算得到待匹配问题q1与基础问题s2的相似度为0.941,待匹配问题q2与基础问题p2的相似度小于待匹配问题q2与基础问题p1的相似度。通过阅读匹配问题p1、基础问题p1和基础问题p2,可以看出,基础问题s1与待匹配问题p1相近。因此,本发明实施例提供的问题答案的匹配方法,本技术方案2相对于方案1能够进一步提高待匹配问题与基础问题匹配的准确性。
[0129]
表2相似度对比表2
[0130] q2与p1的相似度q2与p2相似度本技术方案10.8580.875本技术方案20.9520.941
[0131]
图8是本发明第八实施例提供的问题答案的匹配方法的结构示意图,如图8所示,本发明实施例提供的问题答案的匹配装置包括分词模块801、实体识别模块802、词性过滤模块803、获得模块804、问题匹配模块805和答案获取模块806,其中:
[0132]
分词模块801用于对待匹配问题进行分词,获得所述待匹配问题对应的词汇;实体识别模块802用于对所述待匹配问题对应的词汇进行实体识别,获得所述待匹配问题对应的实体;词性过滤模块803用于对所述待匹配问题对应的剩余词汇进行词性过滤,获得所述待匹配问题对应的名词和动词;其中,所述待匹配问题对应的剩余词汇是指所述待匹配问题对应的词汇中去除所述待匹配问题对应的实体之后剩余的词汇;获得模块804用于根据所述待匹配问题对应的实体以及所述待匹配问题对应的名词和动词,获得所述待匹配问题对应的句子向量;问题匹配模块805用于根据所述待匹配问题对应的句子向量以及各个基础问题对应的句子向量,获得与所述待匹配问题匹配的第一基础问题;其中,各个基础问题对应的句子向量是预先获得的;答案获取模块806用于从基础问答库中获取与所述待匹配问题匹配的第一基础问题对应的答案,作为所述待匹配问题对应的答案。
[0133]
具体地,分词模块801可以获取待匹配问题,然后对所述待匹配问题进行分词,能够获得所述待匹配问题对应的词汇。分词可以采用分词工具实现,比如jieba分词工具、pkuseg分词工具、thulac分词工具等,根据实际需要进行选择,本发明实施例不做限定。其中,待匹配问题是指,需要获取答案的问题。
[0134]
实体识别模块802对待匹配问题对应的词汇进行实体识别,从所述待匹配问题对应的词汇中识别出实体,获得所述待匹配问题对应的实体。其中,实体是指专有名词,比如人名、地名、国家名、日期、理财产品名等,根据实际需要进行设置,本发明实施例不做限定。
[0135]
在识别出所述待匹配问题对应的实体之后,词性过滤模块803将所述待匹配问题对应的实体从所述待匹配问题对应的词汇中去除,获得所述待匹配问题对应的剩余词汇,然后对所述待匹配问题对应的剩余词汇进行词性过滤,保留所述待匹配问题对应的剩余词汇中的名词和动词,过滤掉名词和动词以外的其他词汇,可以获得所述待匹配问题对应的名词和动词。
[0136]
获得模块804可以获取所述待匹配问题对应的实体中每个实体对应的词向量,所述待匹配问题对应的名词中每个名词对应的词向量以及所述待匹配问题对应的动词中每个动词对应的词向量,然后将上述实体对应的词向量、名词对应的词向量以及动词对应的词向量相加,可以获得所述待匹配问题对应的句子向量。其中,将词转换成向量可以通过
word2vec模型实现,word2vec模型为一种词向量模型,用于将词映射为一个向量。
[0137]
问题匹配模块805将所述待匹配问题对应的句子向量与每个基础问题对应的句子向量进行比较,获得与所述待匹配问题的相似度最高的基础问题作为与所述待匹配问题匹配的第一基础问题。其中,每个基础问题对应的句子向量是预先获得的,基础问题是预先设置的,存储到基础问答库中。
[0138]
在获得与所述待匹配问题匹配的第一基础问题之后,答案获取模块806从基础问答库中查询与所述待匹配问题匹配的第一基础问题对应的答案,作为所述待匹配问题对应的答案。其中,所述基础问答库是预设的,包括多个问答对,每个问答对包括一个基础问题以及基础问题对应的答案。
[0139]
本发明实施例提供的问题答案的匹配装置,能够对待匹配问题进行分词,获得所述待匹配问题对应的词汇;对待匹配问题对应的词汇进行实体识别,获得待匹配问题对应的实体;对待匹配问题对应的剩余词汇进行词性过滤,获得待匹配问题对应的名词和动词;根据待匹配问题对应的实体以及待匹配问题对应的名词和动词,获得待匹配问题对应的句子向量;根据待匹配问题对应的句子向量以及各个基础问题对应的句子向量,获得与待匹配问题匹配的第一基础问题;从基础问答库中获取与待匹配问题匹配的第一基础问题对应的答案,作为待匹配问题对应的答案,通过实体匹配以及保留问题中的动词和名词,保留能够表达问题意图的关键词进行问题匹配,排除一部分干扰词,提高了问题答案匹配的准确性。
[0140]
图9是本发明第九实施例提供的问题答案的匹配装置的结构示意图,如图9所示,在上述各实施例的基础上,进一步地,本发明实施例提供的问题答案的匹配装置还包括第一判断模块807、第一生成模块808、匹配模块809和获取模块810,其中:
[0141]
第一判断模块807用于若判断获知所述待匹配问题对应的动词的数量大于1,则从所述待匹配问题对应的动词中筛选出一个动词作为所述待匹配问题的关键动词;第一生成模块808用于根据所述待匹配问题对应的实体、所述待匹配问题对应的名词以及所述待匹配问题的关键动词,按照统一句型生成所述待匹配问题对应的标准问句;其中,所述统一句型是预设的;匹配模块809用于根据所述待匹配问题对应的标准问句以及各个基础问题对应的标准问句,获得与所述待匹配问题匹配的第二基础问题;其中,各个基础问题对应的标准问句是预先获得的;获取模块810用于从所述基础问答库中获取与所述待匹配问题匹配的第二基础问题对应的答案,作为所述待匹配问题对应的答案。
[0142]
图10是本发明第十实施例提供的问题答案的匹配装置的结构示意图,如图10所示,在上述各实施例的基础上,进一步地,本发明实施例提供的问题答案的匹配装置还包括第一分词模块811、第一识别模块812、第一过滤模块813、第二判断模块814和第二生成模块815,其中:
[0143]
第一分词模块811用于对基础问题进行分词,获得基础问题对应的词汇;第一识别模块812用于对基础问题对应的词汇进行实体识别,获得基础问题对应的实体;第一过滤模块813用于对基础问题对应的剩余词汇进行词性过滤,获得基础问题对应的名词和动词;其中,基础问题对应的剩余词汇是指基础问题对应的词汇中去除基础问题对应的实体之后剩余的词汇;第二判断模块814用于若判断获知基础问题对应的动词的数量大于1,则从所述基础问题对应的动词中筛选出一个动词作为所述基础问题的关键动词;第二生成模块815
用于根据所述基础问题对应的实体、基础问题对应的名词以及基础问题的关键动词,按照统一句型生成基础问题对应的标准问句。
[0144]
图11是本发明第十一实施例提供的问题答案的匹配装置的结构示意图,如图11所示,在上述各实施例的基础上,进一步地,第一判断模块807包括第一获取单元8071和第二获取单元8072,其中:
[0145]
第一获取单元8071用于获取所述目标问题对应的动词中每个动词的平均tf-idf分数;其中,每个动词的平均tf-idf分数是基于基础问答库预先获得的;其中,所述目标问题为所述待匹配问题或者所述基础问题;第二获取单元8072用于获取平均tf-idf分数最大的动词作为所述目标问题对应的关键动词。
[0146]
图12是本发明第十二实施例提供的问题答案的匹配装置的结构示意图,如图12所示,在上述各实施例的基础上,进一步地,第一判断模块807还包括第一获得单元8073、第二获得单元8074和第三获得单元8075,其中:
[0147]
第一获得单元8073用于根据所述基础问答库中每个问答对,获得每个问答对应的动词中每个动词的词频和逆向文件频率;第二获得单元8074用于根据每个问答对对应的动词中每个动词的词频和逆向文件频率,获得每个问答对对应的动词中每个动词的tf-idf分数;第三获得单元8075用于根据每个动词的各个tf-idf分数,获得每个动词的平均tf-idf分数。
[0148]
图13是本发明第十三实施例提供的问题答案的匹配装置的结构示意图,如图13所示,在上述各实施例的基础上,进一步地,本发明实施例提供的问题答案的匹配装置还包括第二分词模块816、第二识别模块817、第二过滤模块818和向量获得模块819,其中:
[0149]
第二分词模块816用于对基础问题进行分词,获得基础问题对应的词汇;第二识别模块817用于对基础问题对应的词汇进行实体识别,获得基础问题对应的实体;第二过滤模块818用于对基础问题对应的剩余词汇进行词性过滤,获得基础问题对应的名词和动词;其中,基础问题对应的剩余词汇是指基础问题对应的词汇中去除基础问题对应的实体之后剩余的词汇;向量获得模块819用于根据基础问题对应的实体以及基础问题对应的名词和动词,获得基础问题对应的句子向量。
[0150]
图14是本发明第十四实施例提供的问题答案的匹配装置的结构示意图,如图14所示,在上述各实施例的基础上,进一步地,获得模块804包括第四获得单元8041和合成单元8042,其中:
[0151]
第四获得单元8041用于获得所述待匹配问题对应的实体的词向量,所述待匹配问题对应的名词的词向量和所述待匹配问题对应的动词的词向量;合成单元8042用于按照所述待匹配问题对应的实体、所述待匹配问题对应的名词以及所述待匹配问题对应的动词在所述待匹配问题中的位置,将所述待匹配问题对应的实体的词向量,所述待匹配问题对应的名词的词向量和所述待匹配问题对应的动词的词向量相加,获得所述待匹配问题对应的句子向量。
[0152]
本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
[0153]
需要说明的是,本发明实施例提供的问题答案的匹配方法及装置可用于金融领域,也可用于除金融领域之外的任意技术领域,本发明实施例对问题答案的匹配方法及装
置的应用领域不做限定。
[0154]
图15是本发明第十五实施例提供的电子设备的实体结构示意图,如图15所示,该电子设备可以包括:处理器(processor)1501、通信接口(communications interface)1502、存储器(memory)1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。处理器1501可以调用存储器1503中的逻辑指令,以执行如下方法:对待匹配问题进行分词,获得所述待匹配问题对应的词汇;对所述待匹配问题对应的词汇进行实体识别,获得所述待匹配问题对应的实体;对所述待匹配问题对应的剩余词汇进行词性过滤,获得所述待匹配问题对应的名词和动词;其中,所述待匹配问题对应的剩余词汇是指所述待匹配问题对应的词汇中去除所述待匹配问题对应的实体之后剩余的词汇;根据所述待匹配问题对应的实体以及所述待匹配问题对应的名词和动词,获得所述待匹配问题对应的句子向量;根据所述待匹配问题对应的句子向量以及各个基础问题对应的句子向量,获得与所述待匹配问题匹配的第一基础问题;其中,各个基础问题对应的句子向量是预先获得的;从基础问答库中获取与所述待匹配问题匹配的第一基础问题对应的答案,作为所述待匹配问题对应的答案。
[0155]
此外,上述的存储器1503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0156]
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:对待匹配问题进行分词,获得所述待匹配问题对应的词汇;对所述待匹配问题对应的词汇进行实体识别,获得所述待匹配问题对应的实体;对所述待匹配问题对应的剩余词汇进行词性过滤,获得所述待匹配问题对应的名词和动词;其中,所述待匹配问题对应的剩余词汇是指所述待匹配问题对应的词汇中去除所述待匹配问题对应的实体之后剩余的词汇;根据所述待匹配问题对应的实体以及所述待匹配问题对应的名词和动词,获得所述待匹配问题对应的句子向量;根据所述待匹配问题对应的句子向量以及各个基础问题对应的句子向量,获得与所述待匹配问题匹配的第一基础问题;其中,各个基础问题对应的句子向量是预先获得的;从基础问答库中获取与所述待匹配问题匹配的第一基础问题对应的答案,作为所述待匹配问题对应的答案。
[0157]
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:对待匹配问题进行分词,获得所述待匹配问题对应的词汇;对所述待匹配问题对应的词汇进行实体识别,获得所述待匹配问题对应的实体;对所述待匹配问题对应的剩余词汇进行词性过滤,获得所述待匹配问题对应的名词和动词;其中,所述待匹配问题对应的剩余词汇是指所
述待匹配问题对应的词汇中去除所述待匹配问题对应的实体之后剩余的词汇;根据所述待匹配问题对应的实体以及所述待匹配问题对应的名词和动词,获得所述待匹配问题对应的句子向量;根据所述待匹配问题对应的句子向量以及各个基础问题对应的句子向量,获得与所述待匹配问题匹配的第一基础问题;其中,各个基础问题对应的句子向量是预先获得的;从基础问答库中获取与所述待匹配问题匹配的第一基础问题对应的答案,作为所述待匹配问题对应的答案。
[0158]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0159]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0160]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0161]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0162]
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0163]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1