本发明涉及的是一种信息处理领域的技术,具体是一种领域词汇增强的知识图谱问答系统及方法。
背景技术:
1、知识问答是知识图谱应用的重要方向之一,用户能够通过自然语言问题,迅速从知识图谱中获取答案。通过知识问答的方式,减少了用户人工搜索与寻找的过程。现有的知识图谱问答技术主要集中在开放领域的知识问答,涵盖较为通用的知识,对于处理某一限定领域的问题,由于缺乏相关的词汇支持,问答准确率较差。
技术实现思路
1、本发明针对现有开放领域知识图谱问答由于涵盖较为通用的知识,对于处理某一限定领域的问题,由于缺乏相关的词汇支持,导致问答准确率较差的缺陷,提出一种领域词汇增强的知识图谱问答系统及方法,通过获取限定领域语料构建知识图谱,并结合限定领域语料对模型进行微调,结合限定领域词汇信息,对问答模型进行领域词汇增强,来实现限定领域的知识问答。
2、本发明是通过以下技术方案实现的:
3、本发明涉及一种领域词汇增强的知识图谱问答系统,包括:数据采集模块、数据预处理模块、知识存储模块、知识图谱可视化模块、知识图谱维护模块和知识问答模块,其中:数据采集模块通过爬虫技术采集原始语料,数据预处理模块将原始语料处理为知识三元组形式,知识存储模块采用neo4j图数据库存储知识三元组数据,知识图谱可视化模块采用vue+echarts框架构建知识图谱可视化界面,知识图谱维护模块后端采用flask框架对图数据库进行增删改查,知识问答模块通过领域词汇增强的问答模型回答用户的自然语言问题。
4、所述的原始语料包括实体属性、实体关系的结构化文本以及领域相关的结构化文本。
5、所述的预处理是指:从采集的结构化文本中去除重复数据和噪声数据,并调整为知识三元组形式。
6、本发明涉及一种基于上述系统的领域词汇增强的知识问答方法,通过基于词频的方法抽取语料中的限定领域词汇并设定词频阈值保留词汇,将满足条件的词汇作为词表,然后通过基于无位置信息的transformer对领域词汇进行编码,与bert中的每一层相对应;在问答模型训练过程中,将限定领域词汇信息融入训练过程,实现领域词汇增强的知识问答。
7、技术效果
8、本发明通过基于词频的方法抽取语料中的限定领域词汇,设置阈值过滤得到词表;通过词表信息,针对训练样本构建矩阵;并将词汇信息进行编码、融合进问答模型训练过程。相比现有技术,本发明将领域词汇信息融入知识问答,对于处理某一限定领域的问题,提供领域词汇支持,提高了问答准确率。
1.一种领域词汇增强的知识图谱问答系统,其特征在于,包括:数据采集模块、数据预处理模块、知识存储模块、知识图谱可视化模块、知识图谱维护模块和知识问答模块,其中:数据采集模块通过爬虫技术采集原始语料,数据预处理模块将原始语料处理为知识三元组形式,知识存储模块采用neo4j图数据库存储知识三元组数据,知识图谱可视化模块采用vue+echarts框架构建知识图谱可视化界面,知识图谱维护模块后端采用flask框架对图数据库进行增删改查,知识问答模块通过领域词汇增强的问答模型回答用户的自然语言问题。
2.根据权利要求1所述的领域词汇增强的知识图谱问答系统,其特征是,所述的原始语料包括实体属性、实体关系的结构化文本以及领域相关的结构化文本。
3.根据权利要求1所述的领域词汇增强的知识图谱问答系统,其特征是,所述的预处理是指:从采集的结构化文本中去除重复数据和噪声数据,并调整为知识三元组形式。
4.一种基于权利要求1-3中任一所述领域词汇增强的知识图谱问答系统的知识问答方法,其特征在于,通过基于词频的方法抽取语料中的限定领域词汇并设定词频阈值保留词汇,将满足条件的词汇作为词表,然后通过基于无位置信息的transformer对领域词汇进行编码,与bert中的每一层相对应;在问答模型训练过程中,将限定领域词汇信息融入训练过程,实现领域词汇增强的知识问答。
5.根据权利要求4所述的知识问答方法,其特征是,包括: