一种基于领域知识图谱的问答系统及其构建方法与流程

文档序号:19376380发布日期:2019-12-10 23:54阅读:来源:国知局

技术特征:

1.一种基于领域知识图谱的问答系统构建方法,其特征在于,包括步骤:

从互联网中爬取给定领域的信息,抽取信息中的三元组,将三元组插入到图数据库中进行存储;

对用户输入的问句进行分词、句法分析,获得问句中各词语之间的依存关系表,所述依存关系指一个句子中各词语之间的依赖关系;

通过遍历依存关系表生成查询语义图,并将查询语义图转换为图数据库的查询语句;

最终用查询语句查询图数据库,得到答案。

2.根据权利要求1所述的基于领域知识图谱的问答系统构建方法,其特征在于,所述从互联网中爬取给定领域的信息,包括如下步骤:

(1-1)初始化url待爬取队列;

(1-2)从待爬取队列中取出一个url访问;

(1-3)获取所访问网页的源码,抽取三元组;

(1-4)从网页的源码中提取新的url;

(1-5)根据当前待爬取队列和已爬队列对提取的新的url进行过滤和去重;

(1-6)将过滤和去重后的新url加入待爬取队列,把当前已经抽取信息的url添加到已爬队列;

(1-7)重复(1-2)~(1-6),直到待爬取队列为空。

3.根据权利要求1所述的基于领域知识图谱的问答系统构建方法,其特征在于,从互联网中爬取给定领域的信息时,针对所访问网页的源码,利用正则表达式进行解析并抽取出三元组知识,方法是:

首先,利用xpath函数提取网页源码中所有<divclass=’para’></div>块中的段落内容;然后,利用python,使用pyltp接口对提取的段落内容进行分词、词性标注、语法解析,抽取出文本中的三元组信息。

4.根据权利要求1所述的基于领域知识图谱的问答系统构建方法,其特征在于,所述三元组插入到neo4j图数据库中进行存储。

5.根据权利要求1所述的基于领域知识图谱的问答系统构建方法,其特征在于,采用自然语言处理工具hanlp对用户输入的问句进行分词,分词后采用自然语言处理工具hanlp得到问句中各词语之间的依存关系表。

6.根据权利要求1所述的基于领域知识图谱的问答系统构建方法,其特征在于,利用语义图算法生成查询语义图,其中包括两次遍历依存关系:

(2-1)第一次遍历依存关系:找出其中的名词性词语,构建名词结点,并加入到名词性结点的集合中;找出其中的动词性词语,根据依存关系,找出谓语动词的主语和宾语;

(2-2)第二次遍历依存关系:根据依存关系,建立名词性节点集合中修饰词和被修饰词之间的图关系。

7.根据权利要求6所述的基于领域知识图谱的问答系统构建方法,其特征在于,将查询语义图转换为neo4j图数据库的查询语句。

8.根据权利要求7所述的基于领域知识图谱的问答系统构建方法,其特征在于,用查询语句查询neo4j图数据库,得到答案。

9.一种基于领域知识图谱的问答系统,其特征在于,包括:

知识图谱构建模块,用于从互联网中爬取给定领域的信息,抽取信息中的三元组,将三元组插入到图数据库中进行存储;

问答模块,用于对用户输入的问句进行分词、句法分析,获得问句中各词语之间的依存关系表,所述依存关系指一个句子中各词语之间的依赖关系;通过遍历依存关系表生成查询语义图,并将查询语义图转换为图数据库的查询语句;用查询语句查询图数据库,得到答案;

后台处理模块,用于实现前端展示模块和知识图谱构建模块、问答模块之间的信息传递;

前端展示模块,用于获取用户提问信息,并向用户展示最终的答案结果。


技术总结
本发明公开了一种基于领域知识图谱的问答系统构建方法,包括步骤:从互联网中爬取给定领域的信息,抽取信息中的三元组,将三元组插入到图数据库中进行存储;对用户输入的问句进行分词、句法分析,获得问句中各词语之间的依存关系表,依存关系指一个句子中各词语之间的依赖关系;通过遍历依存关系表生成查询语义图,并将查询语义图转换为图数据库的查询语句;最终用查询语句查询图数据库,得到答案。本发明还提出一种采用上述方法构建的问答系统,包括知识图谱构建模块、问答模块、后台处理模块和前端展示模块。本发明面向给定领域,爬取互连网中有效信息,抽取三元组创建知识图谱数据库,问答系统通过查询知识图谱数据库,返回准确且简洁的答案。

技术研发人员:刘波;龙小玲
受保护的技术使用者:暨南大学
技术研发日:2019.08.20
技术公布日:2019.12.10
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1