中文自然语言问句语义化的知识库自动问答方法

文档序号：9922125阅读：2032来源：国知局

中文自然语言问句语义化的知识库自动问答方法
【技术领域】
[0001] 本发明涉及语义网、自然语言处理和自动问答技术，尤其涉及一种中文自然语言问句语义化的知识库自动问答方法，具体是一种基于模板提取的中文自然语言问句语义化的知识库自动问答方法，特别是一种通过将中文自然语言问句进行模板提取的语义化转换成知识库查询来实现面向事实型问题的知识库自动问答方法。
【背景技术】
[0002] 语义网（Semantic Web)是万维网的一个重要发展方向，为万维网上的知识表示、推理、交换和复用提供了基础。语义网使用一组"属性一取值"来描述其中的实体(entity)，单个"属性一取值"对可以表示为〈 Pl，Vl>，其中Pl表示某个属性，Vl表示 Pl的某个取值。实体可以描述为一个或多个此种值对的集合。例如万维网发明人Tim Berners-Lee先生，其姓名在语义网数据源DBpedia中被表示为<name，〃Tim Berners-Lee〃>。通常，一个语义网实体描述包含数十条乃至上百条这样的"属性一取值"，且一个属性也可以有多个不同取值。随着语义网快速发展，语义网技术在各个不同领域都有了不同程度的研究和应用。
[0003] 自然语言处理(natural language processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言，自然语言处理的关键技术包括自然语句的分词、词性标注、命名实体识别、指代消解、句法依存分析等。
[0004] 问答技术(question answering)，是信息检索技术的一种高级形式，它能用准确、简洁的自然语言回答用户的自然语言问题。自动问答系统能够自动分析问题并给出相应的候选答案，传统的自动问答系统主要由问题分析、信息检索和答案生成等模块构成。
[0005] 传统的自动问答主要是面向文本集合进行的，包括分析问题中的关键词，将关键词提交到搜索引擎，从文本库中检索相关文档，获取返回结果中确信度最高的前若干文档，再从中生成答案。但是随着语义网技术的发展与逐渐普及，知识图谱(knowledge graph)、链接数据（1 i n k e d d a t a)等信息组织程度较高的结构化知识库兴起，例如D B p e d i a和 Freebase，使得新式基于结构化知识库实现自动问答成为可能。
[0006] 相当规模的文档集合在经过语义解析之后，采用结构化的知识表示形式(常见表示为"实体一属性一取值"的三元组结构），形成了包含大量三元组的知识库。在这种知识库的基础上进行自动问答，比传统基于文本的自动问答更为高效、准确。如果用户能够使用查询对知识库进行提问，无疑能够精准快速地获得答案。但是在实际运用自动问答技术时，大部分用户并不能够实现这种"专业"的提问方式，而往往只会使用人类自然语言的形式进行提问，因此基于自然语言问句的知识库问答具有重要价值。在基于知识库的自动问答过程中，用户输入中文自然语言问句后，传统方法对问句仅采取简单处理得到关键词，生成的查询结构化程度不高，不能实现对知识库数据准确高效的查询。

【发明内容】

[0007] 本发明面向三元组结构的知识库（下文简称为"知识库"），提出了一种通过将用户输入的中文自然语言问句进行基于模板提取的语义化，将中文自然语言问句转换成结构化查询，实现面向知识库的事实型问题的自动问答方法。
[0008] 事实型问题可以分为简单事实型问题和复杂事实型问题。简单事实，即在知识库中直接表示为单个三元组的形式，例如"法国的首都是巴黎"是个简单事实，在知识库中表示为〈"法国〃，"首都"，"巴黎"〉。而复杂事实通常在自然语句中包含有时间或地点状语描述，更包含有参与者主体或客体以及事实相关的行为动作，例如"1950年，艾伦图灵在英国曼彻斯特大学提出了图灵测试"，又如"诺贝尔于1896年逝世"，其在知识库中有更为复杂的表示形式，类似空白节点（blank node)，下文将详述，此类复杂事实语句多出现于新闻讯息类文本中。本发明以复杂事实型问题为例，但方法也同样适用于简单事实型问题。
[0009] 本发明的目的是:在知识库的自动问答过程中，使用语义网和自然语言处理技术对中文自然语言问句进行结构化转换，从而实现对知识库的快速准确的查询应答。
[0010] 本发明的技术方案是：用户输入一个事实型问题，询问其中的部分事实内容（比如询问事实相关的时间、地点或主、客体等任一内容），首先使用自然语言处理工具对问句进行分析处理，提取出相应的关键词，再使用基于统计学习得到的泛化模板和语义解析技术识别出问句中的时间及空间（至少包含一个）、事实主体及事实客体(至少包含一个)等组成元素，待回答的部分以疑问词代替，形成复杂事实三元组集合。待回答部分所在三元组联合其他相关事实三元组形成一个带条件约束的知识库查询，到知识库中进行基于相似度计算的查询匹配，从相似度最高的候选结果中抽取待回答成分，得到最终答案。
[0011] 中文自然语言问句语义化的知识库自动问答方法包括以下步骤：
[0012] 1.用户输入一个事实型问题，通过自然语言处理的分词、词性标注、命名实体识别等技术提取问句中的关键词并基于共指实体进行扩展，自然语言问句转化为带标注的语义依存树；
[0013] 2.基于较大规模统计学习得到一组问句匹配模板，包括依存树的节点模板、依存树的结构正则模板(对于不同的问题类型可能有不同的结构正则模板）以及中间结果模板，通过问句和模板的匹配，实现各类词性识别、问句主干内容提取，最终得到可用于构造查询三元组集合的中间结果；
[0014] 3.使用典型的时空约束类事实型问题模板，提取问句中事实的"时间"、"地点"、 "事实主体"、"事实客体"、"事实行为动作"等组成元素，实现对中间结果的语义化，进而生成多个"实体一属性一取值"元组。对得到的复杂事实三元组集合进行知识库查询，该集合可以视为一个带有其他三元组条件约束的知识库查询，在实际对知识库的查询过程中，进行基于相似度计算的查询匹配，从相似度最高者中抽取待回答的元素取值，替换疑问词生成问句所问的最终答案。
[0015]本发明的有益效果是：（1)定义了一组基于统计学习的泛化模板，能够适用于中文自然语言问句的解析和元素匹配，最大限度地标注句子成分。（2)使用语义网和自然语言处理技术处理事实型中文自然语言问句，为问句构建出一个逻辑清晰的结构化语义模型，比单一自然语言处理后得到的依存树内容更加精细具体，更易于机器的理解和处理。（3)基于模板提取和事实型问句的语义模型，得到带条件约束的知识库查询，在知识库中更容易查到准确的答案。
【附图说明】
[0016] 图1是本发明的整体处理流程图；
[0017] 图2是本发明定义的时空约束类事实型问题的语义化模型。
[0018] 具体的实施方式
[0019] 本发明公开了一种基于模板提取的中文自然语言问句语义化的知识库自动问答方法，包括以下步骤:首先对用户输入的事实型问题进行中文自然语言处理，实现分词、词性标注、命名实体识别和扩展，生成语义依存树;接下来使用基于统计学习得到的泛化模板和语义解析技术获得问句中的时间、空间、事实主体、事实客体等组成成分，然后进行语义化处理，提取问句中所有事件相关的组成元素属性及其取值，生成多个"属性一取值"对，其中待回答的元素以疑问词代替，形成复杂事实三元组集合;最后，待回答部分所在三元组联合其他相关事实三元组形成一个带条件约束的知识库查询，到知识库中进行基于相似度计算的查询匹配，从知识库中抽取结果，得到最终答案。
[0020] 本发明的完整流程如图1所示，包括3个部分:根据用户输入的事实型问题进行中文自然语言处理实现关键词提取和共指扩展得到语义依存树，根据所得到的依存树运用事先定义的一组模板对语义依存树进行匹配得到更为详细的词性标注、主干内容提取以及中间结果生成，最后使用时空约束类事实型问题的语义模型构造带条件约束的结构化查询对知识库进行基于相似度计算的查询匹配，得到查询结果并从中抽取答案。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡伟;姜成樾;程龚;瞿裕忠;
技术所有人：南京大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。