本发明涉及人工智能和自然语言处理,特别是一种基于知识图谱的问答生成方法。
背景技术:
1、知识图谱作为一种结构化的知识表示方法,能够有效地组织和管理大规模的知识信息,为智能问答系统提供重要的知识支持。传统的知识图谱问答系统主要采用基于模板匹配、基于语义解析和基于深度学习等方法构建问答对。这些方法在处理简单问答场景时表现良好,但在处理复杂的多轮对话和深层语义理解时仍存在诸多挑战。特别是在知识抽取、语义对齐和问答路径构建等关键环节,现有技术往往难以准确捕获文本中的实体关系和深层语义信息,导致生成的问答对质量不够理想。
2、目前,现有的知识图谱问答技术在知识表示和问答生成方面存在以下问题:首先,传统的知识抽取方法往往采用单向编码或简单的特征提取方式,无法充分利用文本的上下文信息和语义特征;其次,在知识融合过程中,缺乏有效的语义对齐机制,难以准确识别和匹配不同来源的知识实体;再次,问答路径的构建通常采用静态的规则或固定的模板,难以适应动态变化的知识结构和用户需求;最后,问答对的生成过程中未能充分考虑知识的层次性和关联性,导致生成的问答内容缺乏系统性和连贯性。这些问题严重影响了知识图谱问答系统的实用性和可扩展性。
3、现有技术存在的这些问题亟须一种新的知识图谱问答生成方法来解决。本发明提出的一种基于知识图谱的问答生成方法,旨在解决现有技术在知识抽取精度低、语义对齐效果差、问答路径构建不合理以及问答对生成质量不高等问题;通过引入双向语义编码、层次化知识融合、动态权重分配等技术手段,实现知识的高效提取、准确对齐和合理组织。
技术实现思路
1、鉴于现有的知识图谱问答生成方法在知识抽取、语义对齐、路径构建和问答生成等方面存在的问题,提出了本发明。
2、因此,本发明所要解决的问题在于如何提高知识抽取的精确度,实现知识的准确对齐,构建合理的层级化问答路径,并生成高质量的问答对数据集。
3、为解决上述技术问题,本发明提供如下技术方案:
4、第一方面,本发明实施例提供了一种基于知识图谱的问答生成方法,其包括,采用双向语义编码器对输入文本语料进行处理,提取实体词和关系词,形成第一语义向量,并通过三元组分解器将所述第一语义向量转化为基础知识结构;利用层次化知识融合网络将所述基础知识结构和预设知识图谱中的深层语义信息进行对齐,生成多维知识特征矩阵;基于所述多维知识特征矩阵,采用动态权重分配器计算知识节点间的关联强度,并按照关联强度由高到低的顺序构建层级化问答路径;将所述层级化问答路径输入至构建的注意力模型,根据问答模板库生成问答对数据集。
5、作为本发明所述基于知识图谱的问答生成方法的一种优选方案,其中:所述注意力模型包括编码器和解码器;所述编码器对输入的层级化问答路径进行多层次特征提取,并通过自注意力机制计算路径中各知识节点的注意力权重分数,识别关键知识节点;所述解码器根据问答模板库中预存的问答模板,将所述关键知识节点和对应的问答模板进行匹配;所述问答对数据集的生成方法为,通过交叉注意力机制将所述关键知识节点的语义信息动态融入所述问答模式的结构中,生成问答对,其中所述问答对包括问题文本、答案文本和对应的知识路径信息;基于所述问答对,采用规则过滤和语义相似度计算进行筛选;将通过筛选的问答对按照知识节点的层级关系进行组织,形成结构化的问答对数据集。
6、作为本发明所述基于知识图谱的问答生成方法的一种优选方案,其中:所述层级化问答路径的构建方法为,所述动态权重分配器包括特征聚合单元和权重计算单元;所述特征聚合单元对所述多维知识特征矩阵中节点的属性特征进行加权求和,生成节点表征向量;所述权重计算单元基于所述节点表征向量计算节点对的关联强度,并对所述节点对进行筛选;对通过筛选的节点对按照关联强度值由高到低进行排序,并基于排序结果将节点对划分为不同的层级;在每个层级内,基于所述节点对的语义依存关系和关系拓扑特征,构建有向连接路径;将各层级的有向连接路径依次串联,形成层级化问答路径,其中高层级的节点作为核心知识点,低层级的节点作为扩展知识点。
7、作为本发明所述基于知识图谱的问答生成方法的一种优选方案,其中:所述关联强度的具体公式如下:
8、
9、其中,rij为节点i和节点j之间的关联强度值,vi和vj分别为节点i和节点j的表征向量,t为表征向量vi的转置,m为特征变换矩阵,β、ε和γ为调节系数,d为特征维度,wk为第k维特征的权重系数,xik和xjk分别为节点i和节点j在第k维的特征值。
10、作为本发明所述基于知识图谱的问答生成方法的一种优选方案,其中:基于所述多维知识特征矩阵,采用动态权重分配器计算知识节点间的关联强度,并按照关联强度由高到低的顺序构建层级化问答路径,包括:所述层次化知识融合网络包括实体对齐单元和关系映射单元;通过所述实体对齐单元计算基础知识结构中实体和预设知识图谱中实体的语义相似度,判断此实体对是否具备匹配条件;通过所述关系映射单元采用多头注意力机制对所述基础知识结构的关系词和预设知识图谱中的关系进行语义映射,提取关系间的对应关系;基于所述实体对齐单元的实体对齐结果和所述关系映射单元的映射结果,构建对齐矩阵;从预设知识图谱中提取与所述对齐矩阵相关的实体属性特征,同时提取实体间的关系拓扑特征;将所述实体属性特征和所述关系拓扑特征组合形成多维知识特征矩阵,其中所述多维知识特征矩阵的行表示不同的实体节点,列表示对应的属性维度和拓扑特征。
11、作为本发明所述基于知识图谱的问答生成方法的一种优选方案,其中:所述语义相似度的具体公式如下:
12、
13、其中,sim(e1,e2)为基础知识结构中实体和预设知识图谱中实体的语义相似度值,α为语义相似度的权重系数,v1为基础知识结构中实体的向量化语义表示,v2为预设知识图谱中实体的向量化语义表示,n为实体的属性数量,为基础知识结构中实体的第i个属性,为预设知识图谱中实体的第i个属性,为第i个属性的相似度得分,e1为基础知识结构中的实体,e2为预设知识图谱中的实体。
14、当语义相似度大于等于第一预设阈值时,则将此实体对进行匹配;当语义相似度小于第一预设阈值时,则将此实体对暂存至待处理缓存区,并扩展实体的语义表示,重新计算扩展后实体的语义相似度;若扩展后实体的语义相似度仍小于第一预设阈值,则将此实体对标记为未匹配状态,在对齐矩阵中对应位置填充零值;若扩展后实体的语义相似度仍大于等于第一预设阈值,则将此实体对进行匹配。
15、作为本发明所述基于知识图谱的问答生成方法的一种优选方案,其中:采用双向语义编码器对输入文本语料进行处理,提取实体词和关系词,形成第一语义向量,并通过三元组分解器将所述第一语义向量转化为基础知识结构,包括:所述双向语义编码器包括前向编码层和后向编码层;所述前向编码层从左至右依次对所述输入文本语料中的词元进行扫描;所述后向编码层从右至左依次对所述输入文本语料中的词元进行扫描;所述基础知识结构的转化方法为,将所述前向编码层和所述后向编码层的输出结果进行自适应融合,通过动态权重分配机制确定前向编码层和后向编码层的重要程度,同时引入多尺度卷积操作提取局部语义特征,并结合位置编码信息增强输入文本语料的序列特征表示,生成文本语义表征;对所述文本语义表征采用预设的命名实体识别模型进行处理,识别并标注实体词的类型和边界信息;利用依存句法分析器对所述文本语义表征进行句法结构解析,提取实体词之间的关系词;通过特征拼接器将识别出的实体词、实体词的类型和边界信息、关系词以及关系词对应的语义特征在向量空间中进行串联组合,形成第一语义向量;通过三元组分解器对所述第一语义向量进行处理,采用滑动窗口机制将语义向量划分为若干子向量片段;对所述若干子向量片段进行语义分析和知识元素抽取,构建基础知识结构。
16、第二方面,本发明实施例提供了一种基于知识图谱的问答生成方法系统,其包括:包括,提取转化模块,用于采用双向语义编码器对输入文本语料进行处理,提取实体词和关系词,形成第一语义向量,并通过三元组分解器将所述第一语义向量转化为基础知识结构;生成模块,用于利用层次化知识融合网络将所述基础知识结构和预设知识图谱中的深层语义信息进行对齐,生成多维知识特征矩阵;构建模块,基于所述多维知识特征矩阵,采用动态权重分配器计算知识节点间的关联强度,并按照关联强度由高到低的顺序构建层级化问答路径;生成模块,用于将所述层级化问答路径输入至构建的注意力模型,根据问答模板库生成问答对数据集。
17、第三方面,本发明实施例提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中:所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于知识图谱的问答生成方法的步骤。
18、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中:所述计算机程序指令被处理器执行时实现如本发明第一方面所述的基于知识图谱的问答生成方法的步骤。
19、本发明有益效果为:本发明通过采用双向语义编码器和多层次命名实体识别模型进行文本处理,实现高精度的实体与关系提取,有效保留文本的上下文语义信息;通过层次化知识融合网络的语义对齐机制,实现基础知识结构与预设知识图谱的深层语义融合,提升知识表示的完整性;基于动态权重分配器构建的层级化问答路径,确保知识连接的合理性和知识传递的渐进性;通过注意力模型和问答模板库的配合,实现高质量问答对的智能生成。