一种基于教育知识图谱的问答分析与处理方法及系统与流程

文档序号:15999706发布日期:2018-11-20 19:17阅读:124来源:国知局
本发明涉及一种基于教育知识图谱的问答分析与处理方法及系统,属于知识图谱技术与教育的融合
技术领域

背景技术
:基于知识图谱的问答系统有两大核心问题,前端语义理解和后端知识图谱构建。知识图谱以结构化的形式形象地描述客观世界中的概念、实体间的复杂关系。目前各领域的知识库在逐步构建中,但尚不存在针对中小学学科的教育知识图谱。本发明即在后端知识图谱构建方面专门针对中小学的学科构建了教育知识图谱又在前端语义理解方面发明了知识点与关系抽取算法,用来更好的从语义层面理解用户意图,查询复杂的关联信息反馈精准答案,比传统的基于全文检索的问答更精准。将知识图谱与教育进行结合对于推进面向教育的智能问答有重大意义。技术实现要素:本发明要解决的问题是:克服现有技术基于关键字匹配检索问答库不能理解用户意图不能给出精准答案的不足,以及在中小学知识领域缺乏教育知识图谱的不足。发明了一种基于教育知识图谱的问答分析与处理的方法与系统,解决针对教育领域的精准问答,适用于一般教育场景下的对话,也可以用于学生的自学辅导中,提高学习者的学习兴趣与学习效果。本发明解决其问题所采用的方案是:一种基于教育知识图谱的问答分析与处理方法,包括以下步骤:第一步,人工构建教育知识图谱,并设计匹配规则;第二步,接收用户的自然语言;第三步,采用知识点与关系抽取算法处理自然语言问句,抽取出知识点、关系及知识点与关系两者的次序信息;第四步,在第一步设计出的匹配规则中寻找能与第三步抽取出的知识点、关系及知识点与关系两者的次序信息相对应的匹配规制;第五步,根据第三步抽取出的知识点、关系及知识点与关系两者的次序信息及第四步的匹配规则在教育知识图谱中检索答案;第六步,根据检索答案,按照主谓宾的方式组合答案并反馈给用户,否则提示用户重新提问。所述第三步,采用知识点与关系抽取算法处理自然语言问句,抽取出的知识点、关系及知识点与关系两者的次序信息为:当问题涉及的是知识点N1的e1关系所对应的推理答案时需要在问句中提取出知识点N1、关系e1、及N1与e1的位置次序关系信息,具体实现如下:(1)将教育知识图谱中的所有节点和边按照词组的长度进行倒序排序,形成倒序词组表,教育知识图谱中的节点和边都是知识点;(2)基于(1)中的词组表,依次检测自然语言问句中包含词组表中哪些词,定位出词组X在自然语言问句中的起始位置下标Ax、终止位置下标Bx,过程中保证抽取出的任意词组X、Y的位置下标构成的区间[Ax,Bx]、[Ay,By]不重叠;(3)将(1)(2)中抽取出的词组X、Y和其在教育知识图谱中的节点N或边e的标识信息组成元组(X,N)、(Y,e),按节点或边在问句中的出现次序组成列表[(X,Node)(Y,Edge)],最后将所述列表返回。所述第四步,寻找匹配规制具体如下:各规则互为互斥关系:规则1:由知识点N1及一个以N1为尾节点的关系e1检索出知识点N2,此时N2满足N1+e1=N2;规则2:由知识点N2及一个以N2为头结点的关系e1检索出知识点N1,此时N1满足N1+e1=N2;规则3:由知识点N1及知识点N2可检索出关系e1,此时e1满足N1+e1=N2;或检索出关系e2,此时e2满足N2+e2=N1;规则4:由知识点N1及一个关系e3可检索出知识点N3,此时满足N2+e3=N3、N1+e1=N2、e1的定义为“包括”或“子过程”;规则5:由知识点N2及一个关系e1检索出知识点N3,此时满足N1+e1=N3、N1+e2=N2、e2的定义为“属于”或“父过程”;规则6:由知识点N1及两个关系e1,e2检索出知识点N3,此时满足N1+e1=N2、N2+e2=N3;规则7:由知识点N1及一个关系e4检索出知识点N3,此时满足N3+e3=N2、N1+e1=N2、e3+e1=e4,e3+e1=e4定义为:通过关系e3与e1可定义出一种新的关系e4。本发明的一种基于教育知识图谱的问答分析与处理系统,包括:教育知识图谱的构建模块、问题预处理模块、问答分析与处理模块、后处理模块,其中:教育知识图谱的构建模块:根据中小学课程标准、教材及知识点目录框架人工进行知识点与关系的提取,采用自底向上数据驱动对中小学的生物、数学、地理、物理、化学学科进行设计形成各自知识图谱;问题预处理模块:对接收的用户的自然语言问句进行预处理,通过对问句的语义分析,将非结构化问句解析成结构化的知识信息,具体实现为:首先,需要根据建好的模糊词库更正语音识别结果中的错误的字词;然后,利用知识点与关系抽取算法抽取出问题中的知识点相关信息;所述模糊词库的构建过程:请不同口音的10个人对知识图谱中的每个知识点及关系都进行不少于10次的语音识别测试收集识别错误的词语,将语音识别错的词语和对应的正确词语进行整理来构建模糊词库;问答分析与处理模块:将设计好的教育知识图谱以图数据库形式进行存储;然后设计定义面向教育知识图谱的匹配规则,根据问题预处理模块提取出的知识点、关系及两者的次序信息寻找匹配规则,然后根据匹配规则在教育知识图谱中检索答案,输出答案或空值;后处理模块:根据问答分析与处理模块的输出做相应处理,当问答分析与处理模块输出答案时后处理模块会以主语+谓语+宾语的形式将答案组合成完整语句后反馈给学习者;当问答分析与处理模块输出空值时,后处理模块会提示用户“请重新提问”,保证整个问答流程的流畅进行。所述问题预处理模块中,知识点与关系抽取算法实现为:(1)将教育知识图谱中的所有节点和边按照词组的长度进行倒序排序,形成倒序词组表,教育知识图谱中的节点和边都是知识点;(2)基于(1)中的词组表,依次检测自然语言问句中包含词组表中哪些词,定位出词组X在自然语言问句中的起始位置下标Ax、终止位置下标Bx,过程中保证抽取出的任意词组X、Y的位置下标构成的区间[Ax,Bx]、[Ay,By]不重叠;(3)将(1)(2)中抽取出的词组X、Y和其在教育知识图谱中的节点N或边e的标识信息组成元组(X,N)、(Y,e),按节点或边在问句中的出现次序组成列表[(X,Node)(Y,Edge)],最后将所述列表返回。本发明与现有技术相比的优点在于:(1)本发明可以解决对学习者专业性学习过程中的自动解答,为学习者提供个性化的辅助学习服务,提高了学习针对性和学习效率。(2)本发明基于专业领域的教育知识图谱,教育知识图谱中的教育性关系与教学概念是传统的通用知识图谱所不具备的,可以直接应用于教育场景中。(3)本发明在教育知识点与关系抽取的过程中,将非结构化的学习者问句转成结构化的教育概念知识点信息。在此过程中,可以提高对于学习者问句的语义理解精准度。附图说明图1为本发明一种基于教育知识图谱的问答分析与处理的方法与系统结构图;图2为光合作用知识图谱;图3-图9为检索路径示例图。具体实施方式下面结合附图详细介绍本发明。本发明要解决的问题是:基于知识图谱技术探索其与教育领域的结合,发明了一种基于教育知识图谱的问答分析与处理的方法与系统。本发明可以解决针对教育领域的精准问答,适用于一般教育场景下的对话,也可以用于学生的自学辅导中,提高学习者的学习兴趣与学习效果。如图1所示,为本发明系统包括:教育知识图谱的构建模块、问题预处理模块、问答分析与处理模块、后处理模块。系统总体流程为:其接收用户的自然语言形式的提问,后经过各模块的依次处理,最后反馈给学习者精准答案。各模块详细设计实施如下:教育知识图谱的构建模块:根据学科知识的相互关系,包括但不限于课程标准人工进行知识点与知识点关系的抽取,对每个学科或知识领域形成一个知识图谱。知识图谱对知识点进行了详尽的拓展,抽取出知识点间的“包含”、“影响因素”等等复杂关系,如附图二所示为教育专家构建的光合作用知识图谱。构建过程中把光合作用知识领域里的各个知识点及知识点之间的关系进行了详尽的抽取。问题预处理模块:在问答模型处理问题之前首先需要对用户的自然语言问句进行预处理。其一,系统需要根据建好的模糊词库更正语音识别结果中的错误的字词;模糊词库是通过大量的语音识别测试收集识别错误的词语,将语音识别错的词语和对应的正确词语进行整理所构建的。部分词库如下表所示:光合作用光和作用刚和作用光的作用和作用供应商供应少供应上外部影响因素外埔影响因素尾部影响因素子过程自过程颜色演示眼色其二,系统利用知识点与关系抽取算法抽取出问题中的与知识点有关的信息。抽取算法特征在于:其可提取知识点或知识点的关系及其在问题中的次序信息。即当问题涉及的是知识点N1的e1关系所对应的推理答案时需要在问句中提取出知识点N1、关系e1、及N1与e1的位置次序关系等信息。例如:我想知道叶绿素a平常主要吸收什么啊?识别出:(叶绿素a)→知识点,(主要吸收)→关系,次序关系为:知识点+关系,知识点在左,关系在右问答分析与处理模块:针对具体知识图谱,将设计好的知识图谱以图数据库形式进行存储,本发明中采用的图数据库为neo4j;然后设计定义知识图谱的匹配规则,用来检索出合适的答案。定义匹配规则:各规则互为互斥关系。规则1:由知识点N1及一个以N1为尾节点的关系e1可检索出知识点N2,此时N2满足N1+e1=N2;规则2:由知识点N2及一个以N2为头结点的关系e1可检索出知识点N1,此时N1满足N1+e1=N2;规则3:由知识点N1及知识点N2可检索出关系e1,此时e1满足N1+e1=N2;或检索出关系e2,此时e2满足N2+e2=N1;规则4:由知识点N1及一个关系e3可检索出知识点N3,此时满足N2+e3=N3、N1+e1=N2、e1定义为“包括”或“子过程”;规则5:由知识点N2及一个关系e1可检索出知识点N3,此时满足N1+e1=N3、N1+e2=N2、e2定义为“属于”或“父过程”;规则6:由知识点N1及两个关系e1,e2可检索出知识点N3,此时满足N1+e1=N2、N2+e2=N3。规则7:由知识点N1及一个关系e4可检索出知识点N3,此时满足N3+e3=N2、N1+e1=N2、e3+e1=e4、e3+e1=e4即:通过关系e3与e1可定义出一种新的关系e4。针对问题可匹配教育知识图谱的不同规则举例如下:例1:问题叶绿素a的颜色是什么?规则[(叶绿素a,N)(颜色,e)]匹配规则一检索路径见附图3在图数据库中检索叶绿素a的颜色结果为蓝绿色答案蓝绿色组合答案叶绿素a的颜色是蓝绿色例2:问题什么色素的颜色是蓝绿色?规则[(颜色,e)(蓝绿色,N)]匹配规则二检索路径见附图4在图数据库中检索叶绿素a的颜色是蓝绿色答案叶绿素a组合答案叶绿素a的颜色是蓝绿色例3:问题光合作用和光反应是什么关系?规则[(光合作用,N)(光反应,N)]匹配规则三检索路径见附图5在图数据库中检索光合作用的子过程包括光反应答案子过程组合答案光合作用的子过程是光反应例4:例5:例6:规则7:后处理模块:在问答模型处理问题后交给后处理模块处理,当检索出精准答案时后处理模块会以主谓宾的形式组合完整答案并反馈给学习者;当没能检索出答案时,后处理模块会提示用户重新提问,保证整个问答流程的流畅进行。本发明未详细阐述的部分属于本领域公知技术。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1