1.一种基于领域知识图谱的问答系统构建方法,其特征在于,包括步骤:
从互联网中爬取给定领域的信息,抽取信息中的三元组,将三元组插入到图数据库中进行存储;
对用户输入的问句进行分词、句法分析,获得问句中各词语之间的依存关系表,所述依存关系指一个句子中各词语之间的依赖关系;
通过遍历依存关系表生成查询语义图,并将查询语义图转换为图数据库的查询语句;
最终用查询语句查询图数据库,得到答案。
2.根据权利要求1所述的基于领域知识图谱的问答系统构建方法,其特征在于,所述从互联网中爬取给定领域的信息,包括如下步骤:
(1-1)初始化url待爬取队列;
(1-2)从待爬取队列中取出一个url访问;
(1-3)获取所访问网页的源码,抽取三元组;
(1-4)从网页的源码中提取新的url;
(1-5)根据当前待爬取队列和已爬队列对提取的新的url进行过滤和去重;
(1-6)将过滤和去重后的新url加入待爬取队列,把当前已经抽取信息的url添加到已爬队列;
(1-7)重复(1-2)~(1-6),直到待爬取队列为空。
3.根据权利要求1所述的基于领域知识图谱的问答系统构建方法,其特征在于,从互联网中爬取给定领域的信息时,针对所访问网页的源码,利用正则表达式进行解析并抽取出三元组知识,方法是:
首先,利用xpath函数提取网页源码中所有<divclass=’para’></div>块中的段落内容;然后,利用python,使用pyltp接口对提取的段落内容进行分词、词性标注、语法解析,抽取出文本中的三元组信息。
4.根据权利要求1所述的基于领域知识图谱的问答系统构建方法,其特征在于,所述三元组插入到neo4j图数据库中进行存储。
5.根据权利要求1所述的基于领域知识图谱的问答系统构建方法,其特征在于,采用自然语言处理工具hanlp对用户输入的问句进行分词,分词后采用自然语言处理工具hanlp得到问句中各词语之间的依存关系表。
6.根据权利要求1所述的基于领域知识图谱的问答系统构建方法,其特征在于,利用语义图算法生成查询语义图,其中包括两次遍历依存关系:
(2-1)第一次遍历依存关系:找出其中的名词性词语,构建名词结点,并加入到名词性结点的集合中;找出其中的动词性词语,根据依存关系,找出谓语动词的主语和宾语;
(2-2)第二次遍历依存关系:根据依存关系,建立名词性节点集合中修饰词和被修饰词之间的图关系。
7.根据权利要求6所述的基于领域知识图谱的问答系统构建方法,其特征在于,将查询语义图转换为neo4j图数据库的查询语句。
8.根据权利要求7所述的基于领域知识图谱的问答系统构建方法,其特征在于,用查询语句查询neo4j图数据库,得到答案。
9.一种基于领域知识图谱的问答系统,其特征在于,包括:
知识图谱构建模块,用于从互联网中爬取给定领域的信息,抽取信息中的三元组,将三元组插入到图数据库中进行存储;
问答模块,用于对用户输入的问句进行分词、句法分析,获得问句中各词语之间的依存关系表,所述依存关系指一个句子中各词语之间的依赖关系;通过遍历依存关系表生成查询语义图,并将查询语义图转换为图数据库的查询语句;用查询语句查询图数据库,得到答案;
后台处理模块,用于实现前端展示模块和知识图谱构建模块、问答模块之间的信息传递;
前端展示模块,用于获取用户提问信息,并向用户展示最终的答案结果。