一种基于领域知识图谱的问答系统及其构建方法与流程

文档序号：19376380发布日期：2019-12-10 23:54阅读：来源：国知局

技术特征：

1.一种基于领域知识图谱的问答系统构建方法，其特征在于，包括步骤：

从互联网中爬取给定领域的信息，抽取信息中的三元组，将三元组插入到图数据库中进行存储；

对用户输入的问句进行分词、句法分析，获得问句中各词语之间的依存关系表，所述依存关系指一个句子中各词语之间的依赖关系；

通过遍历依存关系表生成查询语义图，并将查询语义图转换为图数据库的查询语句；

最终用查询语句查询图数据库，得到答案。

2.根据权利要求1所述的基于领域知识图谱的问答系统构建方法，其特征在于，所述从互联网中爬取给定领域的信息，包括如下步骤：

(1-1)初始化url待爬取队列；

(1-2)从待爬取队列中取出一个url访问；

(1-3)获取所访问网页的源码，抽取三元组；

(1-4)从网页的源码中提取新的url；

(1-5)根据当前待爬取队列和已爬队列对提取的新的url进行过滤和去重；

(1-6)将过滤和去重后的新url加入待爬取队列，把当前已经抽取信息的url添加到已爬队列；

(1-7)重复(1-2)～(1-6)，直到待爬取队列为空。

3.根据权利要求1所述的基于领域知识图谱的问答系统构建方法，其特征在于，从互联网中爬取给定领域的信息时，针对所访问网页的源码，利用正则表达式进行解析并抽取出三元组知识，方法是：

首先，利用xpath函数提取网页源码中所有<divclass＝’para’></div>块中的段落内容；然后，利用python，使用pyltp接口对提取的段落内容进行分词、词性标注、语法解析，抽取出文本中的三元组信息。

4.根据权利要求1所述的基于领域知识图谱的问答系统构建方法，其特征在于，所述三元组插入到neo4j图数据库中进行存储。

5.根据权利要求1所述的基于领域知识图谱的问答系统构建方法，其特征在于，采用自然语言处理工具hanlp对用户输入的问句进行分词，分词后采用自然语言处理工具hanlp得到问句中各词语之间的依存关系表。

6.根据权利要求1所述的基于领域知识图谱的问答系统构建方法，其特征在于，利用语义图算法生成查询语义图，其中包括两次遍历依存关系：

(2-1)第一次遍历依存关系：找出其中的名词性词语，构建名词结点，并加入到名词性结点的集合中；找出其中的动词性词语，根据依存关系，找出谓语动词的主语和宾语；

(2-2)第二次遍历依存关系：根据依存关系，建立名词性节点集合中修饰词和被修饰词之间的图关系。

7.根据权利要求6所述的基于领域知识图谱的问答系统构建方法，其特征在于，将查询语义图转换为neo4j图数据库的查询语句。

8.根据权利要求7所述的基于领域知识图谱的问答系统构建方法，其特征在于，用查询语句查询neo4j图数据库，得到答案。

9.一种基于领域知识图谱的问答系统，其特征在于，包括：

知识图谱构建模块，用于从互联网中爬取给定领域的信息，抽取信息中的三元组，将三元组插入到图数据库中进行存储；

问答模块，用于对用户输入的问句进行分词、句法分析，获得问句中各词语之间的依存关系表，所述依存关系指一个句子中各词语之间的依赖关系；通过遍历依存关系表生成查询语义图，并将查询语义图转换为图数据库的查询语句；用查询语句查询图数据库，得到答案；

后台处理模块，用于实现前端展示模块和知识图谱构建模块、问答模块之间的信息传递；

前端展示模块，用于获取用户提问信息，并向用户展示最终的答案结果。

技术总结
本发明公开了一种基于领域知识图谱的问答系统构建方法，包括步骤：从互联网中爬取给定领域的信息，抽取信息中的三元组，将三元组插入到图数据库中进行存储；对用户输入的问句进行分词、句法分析，获得问句中各词语之间的依存关系表，依存关系指一个句子中各词语之间的依赖关系；通过遍历依存关系表生成查询语义图，并将查询语义图转换为图数据库的查询语句；最终用查询语句查询图数据库，得到答案。本发明还提出一种采用上述方法构建的问答系统，包括知识图谱构建模块、问答模块、后台处理模块和前端展示模块。本发明面向给定领域，爬取互连网中有效信息，抽取三元组创建知识图谱数据库，问答系统通过查询知识图谱数据库，返回准确且简洁的答案。

技术研发人员：刘波;龙小玲
受保护的技术使用者：暨南大学
技术研发日：2019.08.20
技术公布日：2019.12.10

完整全部详细技术资料下载

当前第2页1 2