一种自然语言查询领域的依存分析方法与流程

文档序号：32496020发布日期：2022-12-10 04:30阅读：84来源：国知局

1.本发明涉及自然语言处理技术领域，具体为一种自然语言查询领域的依存分析方法。

背景技术：

2.随着现代科学技术的发展，计算机已经成为这个时代标志性的产物，人们越来越强烈地希望与计算机进行交流，而自然语言作为人与计算机进行交流的重要媒介，使得自然语言理解成为计算机了解用户意图的关键技术。其中中文查询语言理解是自然语言理解的核心内容之一，受到人们越来越广泛的关注。目前市面上缺少将自然语言查询解析转化成结构话数据的方法，为了解决此类问题，本发明为了加深计算机对自然查询语言的理解能力，采用面向数据分析领域的语义依存分析方法，提出了一种基于语义依存分析模型与文法识别的中文查询语言依存解析方法，通过依存关系划分和文法识别实现自然语言的转述，将查询语言解析为结构化的信息。基本能够有效地处理各种常见形式的查询语句，具有良好的可用性。

技术实现要素：

3.本发明的目的在于提供一种自然语言查询领域的依存分析方法，通过依存关系划分和文法识别实现自然语言的转述,将查询语言解析为结构化的信息，能够有效地处理各种常见形式的查询语句,具有良好的可用性，以解决上述背景技术中提出的问题。
4.为实现上述目的，本发明提供如下技术方案：
5.一种自然语言查询领域的依存分析方法，包括如下步骤：
6.s1、收集并整理自然语言查询数据集；
7.s2、构建基于文法和语义的依存分析模型；
8.s3、依存分析模型依据问句的文法和查询语义构建自然语言查询问句的依存树；
9.s4、对依存树进行剪枝；
10.s5、依据语义解析要求调整依存树。
11.作为本发明的一种自然语言查询领域的依存分析方法优选的，所述s1中收集并整理自然语言查询数据集具体为：收集并整理自然语言查询问句的数据集，对于得到的问句数据集进行预处理。
12.作为本发明的一种自然语言查询领域的依存分析方法优选的，对于得到的问句数据集进行预处理包括根据自然语言查询的特殊要求，对问句数据集先行进行分词和组词组，同时为词组标注词性和词义。
13.作为本发明的一种自然语言查询领域的依存分析方法优选的，对于得到的问句数据集进行预处理还包括依据问句的查询语义，对问句进行分类归纳，以方便后续同一查询语义问句的统一处理。
14.作为本发明的一种自然语言查询领域的依存分析方法优选的，所述s2中构建基于
文法和语义的依存分析模型具体为：对问句数据集中的问句分词和组词组后的结果进行特征表示，之后依据依存规则模版和基于统计的多种特征抽取方式，保存为文法和语义的依存分析模型。
15.作为本发明的一种自然语言查询领域的依存分析方法优选的，词组的特征表示方式为将词组的文本、词序、词性、词义向量化后表征为一个统一向量；多种特征抽取包括但不限于词组的词性和词义特征、问句本身的文法特征、问法的语义特征、抽取匹配条件和转换条件。
16.作为本发明的一种自然语言查询领域的依存分析方法优选的，所述s3中依存分析模型依据问句的文法和查询语义构建自然语言查询问句的依存树具体为：将问句分词和组词组后的结果按照在原问句中的顺序输入到文法和语义的依存分析模型，模型首先会对词组的文本、词序、词性和词义特征进行向量化编码，之后依存分析模型会依据词组的特征编码后的向量值进行模型匹配，模型匹配会得到可能的多个结果，对这多个结果进行打分排序比较，选择分数最高的结果作为最后的输出结果，以获取最优的语义依存结构树。
17.作为本发明的一种自然语言查询领域的依存分析方法优选的，所述s4中对依存树进行剪枝具体为：依存树上存在多个冗余的词节点，对于这些词节点予以剪枝。
18.作为本发明的一种自然语言查询领域的依存分析方法优选的，依存树上存在的多个冗余的词节点包括但不限于一些无词义的助词、动词、代词节点、对查询语义解析没有帮助的节点和会对查询语义解析存在混淆的词节点。
19.作为本发明的一种自然语言查询领域的依存分析方法优选的，所述s5中依据语义解析要求调整依存树具体为：对依存树上的节点按照特定的语义解析标准调整父子节点上下位的位置，调整节点的左右子节点的位置，对上一步中剪枝后的后续节点的重新拼接。
20.与现有技术相比，本发明的有益效果是：
21.1、本发明提出了一种能够摆脱问句表层句法结构约束，从深层次语义角度理解分析用户提出的需求问句的方法，从而提升了中文问句语义理解的准确性。
22.2、本发明改善了非结构化的自然语言转化为结构化的查询语言的能力，使得非结构话自然语言查询意图能够被结构化的方式保存下来。
23.3、本发明相比较于市面上的其他中文自然语言查询转换工具，明显提高了中文自然语言查询领域的语义依存任务的准确性和高效性。
附图说明
24.图1为本发明的流程示意图。
具体实施方式
25.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
26.因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领
域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。
27.请参阅图1，本发明提供了一种自然语言查询领域的依存分析方法，包括如下步骤：
28.s1、收集并整理自然语言查询数据集：收集并整理自然语言查询问句的数据集，对于得到的问句数据集进行预处理，根据自然语言查询的特殊要求，对问句数据集先行进行分词和组词组，同时为词组标注词性和词义，依据问句的查询语义，对问句进行分类归纳，以方便后续同一查询语义问句的统一处理；
29.s2、构建基于文法和语义的依存分析模型：对问句数据集中的问句分词和组词组后的结果进行特征表示，词组的特征表示方式为将词组的文本、词序、词性、词义向量化后表征为一个统一向量，之后依据依存规则模版和基于统计的多种特征抽取方式，包括但不限于词组的词性和词义特征、问句本身的文法特征、问法的语义特征、抽取匹配条件和转换条件，保存为文法和语义的依存分析模型；
30.s3、依存分析模型依据问句的文法和查询语义构建自然语言查询问句的依存树：将问句分词和组词组后的结果按照在原问句中的顺序输入到文法和语义的依存分析模型，模型首先会对词组的文本、词序、词性和词义特征进行向量化编码，之后依存分析模型会依据词组的特征编码后的向量值进行模型匹配，模型匹配会得到可能的多个结果，对这多个结果进行打分排序比较，选择分数最高的结果作为最后的输出结果，以获取最优的语义依存结构树；
31.s4、对依存树进行剪枝：依存树上存在多个冗余的词节点，包括但不限于一些无词义的助词、动词、代词节点、对查询语义解析没有帮助的节点和会对查询语义解析存在混淆的词节点，对于这些词节点予以剪枝来使整体结构更为清晰明了；
32.s5、依据语义解析要求调整依存树：对依存树上的节点按照特定的语义解析标准调整父子节点上下位的位置，调整节点的左右子节点的位置，对上一步中剪枝后的后续节点的重新拼接。
33.综上所述：本发明提出了一种基于语义依存分析模型与文法识别中文自然语言查询依存解析方法，明显提高了中文自然语言查询问句解析准确性，同时也是一种中文自然语言查询语料的处理办法，极大便利了本发明后续步骤对数据的处理，提出了一种文法和语义的依存分析模型及利用模型对问句进行依存分析，明显提高了中文自然语言依存任务的准确性，本发明同时还提出了在依存分析任务后增加后置处理，根据语义对依存树进行调整，提高问句解析的准确性。
34.尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范陈锦
技术所有人：数预智能科技（上海）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。