本发明涉及文本挖掘,具体涉及一种在线互动问答文本特征构造方法和系统。
背景技术:
1、大数据时代下信息的迅猛发展,涌现出了大批互动平台(如“车问答”、“外卖app”等)。在线互动平台是一个可以为消费者、管理者等提供在线交流和共享信息的重要平台,在这个互动平台上,消费者、管理者两两之间的互动问答往往蕴含了很多重要信息。在线互动平台的互动问答文本信息是由两部分组成的交互式文本信息,分别是消费者提出的问题和管理者的回答,其具有交互性、针对性和可靠性。提问者、回复者,以及第三方平台等均可以从高质量问答文本中获取重要语义信息,从而辅助自己做出重要判断和决策。然而,如何从在线互动平台问答文本中挖掘和构建有效特征,以获取问答文本的真实语义信息,一直是一个亟需解决的问题。
2、目前,在线互动平台的问答文本特征挖掘和构造技术,有的是构造简单的数量指标,有的仅仅只使用问题文本或者回答文本单方面文本。这些方法要么没有考虑问答文本的交互性,要么没有提取问答文本更深层次的语义信息,且没有考虑不同文本特征在不同目标预测或分类能力上的差异性,而基于此挖掘和构造的互动问答文本特征必然是不精准的,其也无法辅助不同使用者在不同目标预测或分类上做出科学的判断和决策。
3、综上所述,现有的互动问答文本特征构造技术在获取互动问答文本特征时存在精度差的问题。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明提供了一种在线互动问答文本特征构造方法和系统,解决了现有互动问答文本特征构造技术在获取互动问答文本特征时存在精度差的问题。
3、(二)技术方案
4、为实现以上目的,本发明通过以下技术方案予以实现:
5、第一方面,本发明首先提出了一种在线互动问答文本特征构造方法,所述方法包括:
6、获取在线互动平台的问答文本;
7、基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征;
8、构建问答文本特征重要性自适应判别模型,将包括所述主题特征和交互特征的所述问答文本特征输入所述问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,所述问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。
9、优选的,所述基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征包括:
10、s21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征;所述主题特征包括问题文本主题特征和回答文本主题特征;
11、s22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征。
12、优选的,所述s21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征包括:
13、s211、通过任务自适应预训练对预训练语言表征模型进行改进,得到领域适用的预训练语言表征模型;
14、s212、将所述领域适用的预训练语言表征模型作为bertopic的文档嵌入模型,并将所述问答文本输入bertopic中得到主题特征。
15、优选的,所述s22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征包括:
16、s221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度;
17、s222、基于相似度动态集成算法对包括所述问答文本的余弦相似度和主题分布的相似度的若干个所述相似度计算结果进行动态集成,获取文本问答的交互特征。
18、优选的,所述s221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度包括:
19、通过领域适用的预训练语言表征模型,将所述问答文本映射到高维的向量空间,得到问题和答案的语义向量表征,对语义向量表征进行包括降维处理、去除噪音的操作,得到问答文本的向量矩阵,再利用余弦相似度算法计算相似值,以获取问答文本的余弦相似度;
20、将所述领域适用的预训练语言表征模型作为bertopic的文档嵌入模型,生成问答文本主题模型,再利用所述问答文本主题模型获取所述问答文本中问题和答案主题分布表示,并用jensen-shannon散度度量问题和答案主题分布的相似度。
21、第二方面,本发明还提出了一种在线互动问答文本特征构造系统,所述系统包括:
22、问答文本数据获取模块,用于获取在线互动平台的问答文本;
23、问答文本特征获取模块,用于基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征;
24、多维问答文本特征矩阵获取模块,用于构建问答文本特征重要性自适应判别模型,将包括所述主题特征和交互特征的所述问答文本特征输入所述问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,所述问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。
25、优选的,所述基于所述问答文本获取问答文本特征;所述问答文本特征包括主题特征和交互特征包括:
26、s21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征;所述主题特征包括问题文本主题特征和回答文本主题特征;
27、s22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征。
28、优选的,所述s21、基于所述问答文本,利用领域适用的主题特征构造方法获取主题特征包括:
29、s211、通过任务自适应预训练对预训练语言表征模型进行改进,得到领域适用的预训练语言表征模型;
30、s212、将所述领域适用的预训练语言表征模型作为bertopic的文档嵌入模型,并将所述问答文本输入bertopic中得到主题特征。
31、优选的,所述s22、基于所述问答文本,利用相似性动态集成的交互特征构造方法获取交互特征包括:
32、s221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度;
33、s222、基于相似度动态集成算法对包括所述问答文本的余弦相似度和主题分布的相似度的若干个所述相似度计算结果进行动态集成,获取文本问答的交互特征。
34、优选的,所述s221、基于所述问答文本,利用若干个相似度算法分别获取若干个相似度计算结果;所述相似度计算结果包括所述问答文本的余弦相似度和主题分布的相似度包括:
35、通过领域适用的预训练语言表征模型,将所述问答文本映射到高维的向量空间,得到问题和答案的语义向量表征,对语义向量表征进行包括降维处理、去除噪音的操作,得到问答文本的向量矩阵,再利用余弦相似度算法计算相似值,以获取问答文本的余弦相似度;
36、将所述领域适用的预训练语言表征模型作为bertopic的文档嵌入模型,生成问答文本主题模型,再利用所述问答文本主题模型获取所述问答文本中问题和答案主题分布表示,并用jensen-shannon散度度量问题和答案主题分布的相似度。
37、(三)有益效果
38、本发明提供了一种在线互动问答文本特征构造方法和系统。与现有技术相比,具备以下有益效果:
39、1、本发明首先获取在线互动平台的问答文本,然后基于问答文本获取问答文本特征;其中,问答文本特征包括主题特征和交互特征;最后构建问答文本特征重要性自适应判别模型,并将包括主题特征和交互特征的问答文本特征输入该问答文本特征重要性自适应判别模型中,生成多维问答文本特征矩阵;其中,问答文本特征重要性自适应判别模型融合了多头注意力机制和门控机制。本发明可以得到在线互动平台问答文本的细粒度级别的语义信息和交互信息,同时可以基于后续任务的具体实际情况自适应地赋予各种不同文本特征的差异性权重,进而生成多维问答文本特征矩阵,提高了文本特征构造方法的精度、灵活性,以及泛化性。
40、2、本发明利用任务自适应预训练和bertopic提取主题特征,即利用领域适用的主题特征构造方法获取主题特征,可以获取在线互动平台的问答文本中的细粒度语义信息,辅助提高了文本特征构造的精度。
41、3、本发明利用相似度动态集成算法,根据实时数据和情况,动态地选择、组合和调整多个相似度结果之间的集成方式,从而得到综合的相似度矩阵,即交互特征,可以根据实际情况获取交互时相关回答满意度信息,辅助提高了文本特征构造的精度。
42、4、本发明设计了融合多头注意力机制和门控机制的问答文本特征重要性自适应判别模型,可自适应地赋予多维文本特征的差异性权重,进而生成的多维问答文本特征矩阵,可以基于不同的后续任务的实际需要调节多维文本特征的差异性权重,可以提高多维问答文本特征矩阵用于后续任务时的灵活性和泛化性。