一种基于知识图谱的综合管廊行业知识问答系统构建方法与流程

文档序号:22677245发布日期:2020-10-28 12:34阅读:来源:国知局

技术特征:

1.一种基于知识图谱的综合管廊行业知识问答系统构建方法,其特征在于,包括如下步骤:

步骤(1)、数据采集:

收集综合管廊相关文档,包括综合管廊规划、设计、施工、运维这四个模块的规范文档、案例文档、法律法规、政策标准,综合管廊相关新闻,抽取上述文档中的实体及属性,生成综合管廊知识图谱数据,并存储于图数据库;

步骤(2)、查询模板构建:

针对上述抽取的实体与属性内容,构建问题回复标准模板,生成问题在不同情形下回答语句;

步骤(3)、问句分析:

获取用户在问答系统问句输入界面输入的问句,对用户问句进行分析理解;其中,问句分析理解主要包括问句意图识别、实体识别与标准化以及问句属性分类。

2.根据权利要求1中所述的一种基于知识图谱的综合管廊行业知识问答系统构建方法,其特征在于,步骤(3)中问句分析的具体步骤如下:

步骤(3.1)、问句意图识别

针对含有实体的问句进行意图识别,判断用户所问问题为新闻科普类问题还是管廊专业性问题,针对新闻科普类问题将问题语义与知识库新闻类问题进行语义关联,计算语义余弦相似度,选择相似度大于预设阈值的最佳候选答案输出;

具体做法如下:运用bert预训练模型提取句子的向量作为问句的句向量,同理计算知识库中每个新闻类问题的句向量,运用余弦相似度比较两个句子的相似度;

具体计算公式如下:

其中,x,y分别为bert所提取出的两个句子的句向量,长度为n,xi和yi分别表示句向量每一维度的具体数值;

阈值的设定方式如下:计算出两句子的余弦相似度后,通过计算余弦相似度,先设定一个较低阈值,当相似度值高于阈值,则表示两个句子相似,反之则不相似;

取出已标注“相似”和“不相似”的部分数据集,通过计算余弦相似度,不断调整阈值,使得相似度准确率提高,最终以准确率最高时的阈值作为设定阈值;

步骤(3.2)、连续问句处理

针对管廊专业性问题,首先判断是否为连续问句模式,将连续问句拆分为多个单一问句,逐句进行分析;问句分析首先将问句分词并将每个词与知识库中的每个实体词进行匹配,查找问句中是否包含知识库中的实体词,如果包含则将问句中的实体词取出,即为实体;

进一步,根据字符串的编辑距离比,找出编辑距离比大于阈值的作为最佳候选实体,并通过知识图谱产生的实体关联关系,对识别出的实体进行标准化,阈值的设定与余弦相似度阈值设定方式一致;

编辑距离,又称levenshtein距离,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数;许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符;

句子string_a和句子string_b的编辑距离比公式如(1-2)所示:

其中,different_step(string_a,string_b)为编辑操作次数;len(string_a),len(string_b)分别表示string_a和string_b的字符串长度;

特别地,当连续问句拆分为单一问句时往往会出现某些问句中不包含实体的现象,因此在实体标准化后需对连续问句进行实体关联;

步骤(3.3)、问题属性分类

根据属性分类及标准化后实体,进入知识库进行语义关联,选出最佳答案,匹配答案模板向用户输出;另外,在输出最佳答案的同时,还输出与问句语义关联程度较高的其他检索内容供用户选择性查阅。


技术总结
本发明提供一种基于知识图谱的综合管廊行业知识问答系统构建方法,收集综合管廊相关文档,包括综合管廊规划、设计、施工、运维这四个模块的规范文档、案例文档、法律法规、政策标准,综合管廊相关新闻,抽取上述文档中的实体及属性,生成综合管廊知识图谱数据,并存储于图数据库;本发明通过构建综合管廊行业知识图谱,基于此实现一个管廊行业的KBQA系统,该系统进行问答输出的同时,通过相似度及语义关联,向用户输出相关文献与答案出处文档,增强知识问答结果的可靠性,解决综合管廊领域知识问答空白的问题。本发明通过对领域内相关政策法规,国家及地方标准的文档抽取,增加了问答结果出处的环节,从标准中找答案,提高了回答的准确性。

技术研发人员:朱安安;邱彦林;陈尚武
受保护的技术使用者:杭州叙简科技股份有限公司
技术研发日:2020.07.10
技术公布日:2020.10.27
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1