一种基于少样本语料的问句理解模型训练方法和系统与流程

文档序号：24065086发布日期：2021-02-26 12:43阅读：76来源：国知局

[0001]
本发明涉及语音交互技术领域，尤其涉及一种基于少样本语料的问句理解模型训练方法和系统。

背景技术：

[0002]
随着信息技术和自然语言处理技术的不断发展，自动问答系统逐渐成为人们的研究重点。意图识别和实体抽取作为自动问答系统中的两项重要前端任务，一直是各界学者和相关机构着重研究的对象。当计算机获取了用户输入的文本之后，首先需要对用户意图进行识别，并对文本中的重要实体进行提取，在完成以上两项基础任务之后，后续任务才能顺利开展，所以意图识别和实体抽取的准确性直接影响到整个问答系统的服务质量。
[0003]
较早的意图识别模型主要采用基于统计方法的分类模型，后来随着深度学习技术的发展，一些神经网络逐渐被运用到了意图识别模型的训练当中，如卷积神经网络和循环神经网络等。实体抽取任务早期主要采用基于规则和词典的方法来抽取文本中的实体，一些基于统计学的方法也常用于实体抽取任务，如条件随机场(crf)、最大熵马尔科夫模型(memm)等，近几年比较主流的实体抽取方法采用的是深度学习和机器学习结合的方案：长短期记忆网络(lstm)和条件随机场(crf)的组合是目前比较常用的方法。虽然深度学习模型能够有效提升任务的准确性，然而它普遍存在的一个问题就是需要大量的数据，一旦用于训练模型的数据量无法达到一定的规模，模型的效果将会有明显下降。
[0004]
在自动问答系统当中，通常采用先识别问句意图，再从文本中抽取实体的方案，使得意图识别和实体抽取成为两个完全独立的子模块，无法对它们建立联系，从而使得信息利用不充分。即使有采用联合模型的方案，也仅仅是采用同样的输入表示，在模型训练过程中仍然无法实现信息的交互。
[0005]
在现有技术中，cn110473521a提供了一种基于任务模型的训练方法、装置和设备，该方法中，意图识别和实体抽取是两个独立的模块，先识别用户意图，再将文本中的实体抽取出来，这种流水线方式会造成错误传递的结果，一旦意图识别错误，后续任务就会受到不良影响。
[0006]
cn107315737a提供了一种语义逻辑处理方法及系统。在该语义逻辑处理方法中，采用的是先抽取实体，再进行意图判断的方式，且使用的是基于模板和规则的方法进行提取。这种方案不仅无法让实体抽取和意图识别两个子模块建立联系，同时还需要耗费大量人力来对规则和模板进行编写，且模型灵活性差，不易迁移到其他领域的类似任务当中。
[0007]
综上所述，现有意图识别和实体抽取模型存在以下几点问题：
[0008]
(1)基于模板和规则的意图识别和实体抽取模型需要耗费大量的人力和时间来对规则进行编写，而且能够覆盖到的领域有限，模型的灵活性不高。
[0009]
(2)目前采用的先识别意图再抽取实体的流水线方式，通常使得预测意图信息和提取实体信息成为两个完全独立的子模块，容易造成错误传递问题，且无法对它们建立联系。
[0010]
(3)一些使用了意图识别和实体抽取的联合模型，主要采用的是共享输入层的方法让两个子模块联合训练，实际上并没有让模型之间产生信息的交互，使得信息不能被充分利用。
[0011]
(4)很多模型都需要基于大量的训练语料作为支撑，一旦数据规模不够大，模型的效果也会有所下降，然而大量的数据标注会消耗很多人力和时间成本。

技术实现要素：

[0012]
本发明提供了一种基于少样本语料的问句理解模型训练方法和系统，以解决上述现有技术中存在的问题。
[0013]
本发明采用的技术方案是：提供一种基于少样本语料的问句理解模型训练方法，包括如下步骤：
[0014]
步骤1：获取少于设定阈值的样本语料数据，并对样本语料数据进行标注；
[0015]
步骤2：对所述少于设定阈值的样本语料数据进行数据增强；
[0016]
步骤3：将所述数据增强后的语料转化为词向量，并生成文本向量；
[0017]
步骤4：构建基于互增强的意图识别与实体抽取联合模型；
[0018]
步骤5：将所述词向量输入所述基于互增强的意图识别与实体抽取联合模型中进行训练，得到意图识别与实体抽取联合模型。
[0019]
优选地，将所述数据增强后的语料转化为词向量之前，还包括：对所述数据增强后的语料进行文本中心内容定位，根据中心内容截取一定长度的文本作为训练语料。
[0020]
优选地，将进行过内容截取后的训练语料转化为词向量的方法包括：根据所述训练语料随机生成一定长度的词向量；或者，利用深度学习模型训练得到词向量；或者，利用深度学习模型分别预训练词向量和字向量，再将预训练词向量和字向量结合得到词向量。
[0021]
优选地，构建基于互增强的意图识别与实体抽取联合模型的方法包括：构建文本编码模块，意图识别模块，实体抽取模块，以及连接意图识别模块和实体抽取模块的信息交互机制。
[0022]
优选地，所述文本编码模块，利用双向神经网络对所述文本向量进行编码；
[0023]
所述意图识别模块，由卷积神经网络和最大池化层组成，通过卷积神经网络来提取所述文本向量的意图特征，最大池化层对上一层输出进行降维，从而连接一个全连接层作为顶层对齐输出标签；
[0024]
所述实体抽取模块，利用双向神经网络来提取所述文本向量中的实体特征，采用的双向神经网络同上述文本编码模块，并连接一个全连接层作为顶层对齐输出标签；
[0025]
所述信息交互机制，将所述意图识别模块的顶层输出传回到所述实体抽取模块的双向神经网络输入层，同时将所述实体抽取模块的顶层输出传回到所述意图识别模块的卷积神经网络输入层，实现两个模块之间的信息交互和信息增强。
[0026]
优选地，在构建基于互增强的意图识别与实体抽取联合模型之后，还包括：损失函数的设定，以及迭代更新所述互增强的意图识别与实体抽取联合模型参数。
[0027]
优选地，采用最大间隔损失函数对互增强的意图识别与实体抽取联合模型参数进行优化，并加入正则化公式来提高互增强的意图识别与实体抽取联合模型的泛化能力。
[0028]
本发明还提供一种基于少样本语料的对话模型训练系统，包括：
[0029]
数据标注单元，用于获取样本数据，并对数据进行标注；
[0030]
数据增强单元，用于对标注的语料进行数据增强；
[0031]
词向量转换单元，用于将数据增强后的语料转化为词向量，并形成文本向量；
[0032]
模型构建单元，用于构建基于互增强的意图识别与实体抽取联合模型；
[0033]
模型训练单元，用于将词向量输入所述基于互增强的意图识别与实体抽取联合模型中进行训练，得到意图识别与实体抽取联合模型。
[0034]
优选地，损失函数计算单元，用于损失函数的设定，采用最大间隔损失函数对互增强的意图识别与实体抽取联合模型参数进行优化，并加入正则化公式来提高互增强的意图识别与实体抽取联合模型的泛化能力；
[0035]
迭代更新单元，用于将所述损失函数计算单元优化后的互增强的意图识别与实体抽取联合模型进行迭代更新。
[0036]
优选地，所述模型构建单元包括：文本编码模块、意图识别模块、实体抽取模块以及信息交互模块；
[0037]
所述文本编码模块，利用双向神经网络对文本向量进行编码；
[0038]
所述意图识别模块，由卷积神经网络和最大池化层组成，通过卷积神经网络来提取文本向量的意图特征，最大池化层对上一层输出进行降维，从而连接一个全连接层作为顶层对齐输出标签；
[0039]
所述实体抽取模块，利用双向神经网络来提取所述文本向量中的实体特征，采用的双向神经网络同上述文本编码模块，并连接一个全连接层作为顶层对齐输出标签；
[0040]
所述信息交互模块，用于将意图识别模块的顶层输出传回到实体抽取模块的双向神经网络输入层，同时将实体抽取模块的顶层输出传回到意图识别模块的卷积神经网络输入层，实现两个模块之间的信息交互和信息增强。
[0041]
本发明的有益效果是：
[0042]
(1)本发明提供的方法和系统不需要大量的人力和时间来对规则和模板进行编写，也不需要耗费大量时间对训练数据进行标注。
[0043]
(2)本发明提供的方法和系统能够让意图识别模块和实体抽取模块之间的信息进行充分的交互，达到互增强的目的，同时提高信息的利用率。
[0044]
(3)本发明提供的方法和系统能够在训练数据较少的情况下，仍然保证模型的预测效果，同时具有较好的泛化能力。
附图说明
[0045]
图1为本发明公开的基于少样本语料的对话模型训练方法流程示意图。
[0046]
图2为本发明公开的基于互增强的意图识别与实体抽取联合模型框架图。
[0047]
图3为本发明公开的基于少样本语料的对话模型训练系统结构示意图。
具体实施方式
[0048]
为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步详细描述，但本发明的实施方式不限于此。
[0049]
应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，
和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0050]
实施例1：
[0051]
如图1所示，是本发明一种基于少样本语料的问句理解模型训练方法的实施例一中的流程示意图，包括：
[0052]
步骤1、获取少于设定阈值的样本语料数据，并对数据进行标注。
[0053]
具体的，现有技术中常用联合模型使用的训练样本数量在数万条甚至数十万条，而本发明获取的样本语料数据量级在数千条，优选地，少于设定阈值的样本数据为一万条以下。
[0054]
对数据进行标注的方法包括：人工标注的方法，或利用辅助工具进行半自动标注的方法，或采用基于规则和词典的方法对数据进行全自动标注的方法。
[0055]
步骤2、对所述少于设定阈值的样本语料数据进行数据增强。
[0056]
对所述少于设定阈值的样本语料数据增强的方法包括：采用有监督的数据增强方法。
[0057]
具体实施例中，有监督的数据增强方法包括：利用规则对原有数据进行数据的扩增，如对文本中的单词进行同义词替换、更换文本语法顺序等。
[0058]
对所述少于设定阈值的样本语料数据增强的方法，还包括：采用无监督的数据增强方法。
[0059]
具体实施例中，无监督的数据增强方法包括：利用深度学习模型学习已有标注数据的分布情况，然后随机生成与所述标注数据分布一致的文本。
[0060]
步骤3、将所述数据增强后的语料转化为词向量，并生成文本向量。
[0061]
具体实施例中，在将所述数据增强后的语料转化为词向量之前，还包括：对所述数据增强后的语料进行文本中心内容定位，根据中心内容截取一定长度的文本作为训练语料。
[0062]
将进行过内容截取后的训练语料转化为词向量的方法，包括：根据所述训练语料随机生成一定长度的词向量，在深度学习模型训练过程中根据模型参数的迭代更新而更新；或者，利用深度学习模型预训练词向量，这样的深度学习模型有word2vec模型，glove模型，bert模型等，然后将所述训练语料基于预训练词向量生成文本向量；或者，利用深度学习模型分别预训练词向量和字向量，再将预训练词向量和字向量结合得到词向量，然后将所述训练语料基于词向量生成文本向量。
[0063]
步骤4、构建基于互增强的意图识别与实体抽取联合模型。
[0064]
构建基于互增强的意图识别与实体抽取联合模型的方法包括：构建文本编码模块，意图识别模块，实体抽取模块，以及连接意图识别模块和实体抽取模块的信息交互机制。
[0065]
如图2所示，是本发明基于互增强的意图识别与实体抽取联合模型框架图，包括：
[0066]
文本编码模块，利用双向神经网络对所述文本向量进行编码，可采用的双向神经网络有：双向循环神经网络(bi-rnn)，双向长短期记忆网络(bi-lstm)和双向门循环单元网络(bi-gru)。
[0067]
意图识别模块，由卷积神经网络和最大池化层组成，通过卷积神经网络来提取所
述文本向量的意图特征，最大池化层对上一层输出进行降维，从而连接一个全连接层作为顶层对齐输出标签。
[0068]
实体抽取模块，利用双向神经网络来提取所述文本向量中的实体特征，可采用的双向神经网络同上述文本编码模块，并连接一个全连接层作为顶层对齐输出标签。
[0069]
信息交互机制，将意图识别模块的顶层输出传回到实体抽取模块的双向神经网络输入层，同时将实体抽取模块的顶层输出传回到意图识别模块的卷积神经网络输入层，实现两个模块之间的信息交互和信息增强。
[0070]
具体实施例中，在构建基于互增强的意图识别与实体抽取联合模型之后，还包括：损失函数的设定，以及迭代更新所述互增强的意图识别与实体抽取联合模型参数的方法的设定。采用最大间隔损失函数对互增强的意图识别与实体抽取联合模型参数进行优化，并加入正则化公式来提高互增强的意图识别与实体抽取联合模型的泛化能力。
[0071]
步骤5、将所述词向量输入所述基于互增强的意图识别与实体抽取联合模型中进行训练，得到意图识别与实体抽取联合模型。
[0072]
将所述词向量输入所述基于互增强的意图识别与实体抽取联合模型中进行训练的方法，包括：对所述基于互增强的意图识别与实体抽取联合模型参数的初始化，各个网络层之间的连接和对齐等。训练过程中，当损失值不在合理范围内时，调整基于互增强的意图识别与实体抽取联合模型参数并继续训练，直到损失值下降到合理范围内时，从而得到意图识别和实体抽取联合模型。
[0073]
根据本发明提供的方法，能够让意图识别和实体抽取两个模块之间的信息实现充分的交互，从而提升模块之间的关联性，起到互相增强的作用。同时，针对少样本的训练数据，本发明所述的意图识别与实体抽取联合模型也能够将数据利用率最大化，在保证预测效果的前提下，让模型具有很好的泛化能力。
[0074]
实施例二
[0075]
如图3所示，是本发明一种基于少样本语料的对话模型训练系统的系统架构图，包括：
[0076]
数据标注单元，用于获取样本数据，并对数据进行标注；
[0077]
数据增强单元，用于对标注的语料进行数据增强；
[0078]
词向量转换单元，用于将数据增强后的语料转化为词向量，并形成文本向量；
[0079]
模型构建单元，用于构建基于互增强的意图识别与实体抽取联合模型；
[0080]
损失函数计算单元，用于损失函数的设定，采用最大间隔损失函数对互增强的意图识别与实体抽取联合模型参数进行优化，并加入正则化公式来提高互增强的意图识别与实体抽取联合模型的泛化能力；
[0081]
迭代更新单元，用于将损失函数计算单元优化后的互增强的意图识别与实体抽取联合模型进行迭代更新；
[0082]
模型训练单元，用于将词向量输入所述基于互增强的意图识别与实体抽取联合模型中进行训练，得到意图识别与实体抽取联合模型。
[0083]
所述模型构建单元包括：文本编码模块、意图识别模块、实体抽取模块以及信息交互模块。
[0084]
所述文本编码模块，利用双向神经网络对文本向量进行编码；
[0085]
所述意图识别模块，由卷积神经网络和最大池化层组成，通过卷积神经网络来提取文本向量的意图特征，最大池化层对上一层输出进行降维，从而连接一个全连接层作为顶层对齐输出标签；
[0086]
所述实体抽取模块，利用双向神经网络来提取所述文本向量中的实体特征，可采用的双向神经网络同上述文本编码模块，并连接一个全连接层作为顶层对齐输出标签；
[0087]
所述信息交互模块，用于将意图识别模块的顶层输出传回到实体抽取模块的双向神经网络输入层，同时将实体抽取模块的顶层输出传回到意图识别模块的卷积神经网络输入层，实现两个模块之间的信息交互和信息增强。
[0088]
需要说明的是，本实施例中的各个单元是逻辑意义上的，在具体实施过程中，一个单元可拆分成多个单元，多个单元也可以合并成一个单元。
[0089]
根据本发明实施例二提供的一种基于少样本语料的对话模型训练系统的系统，该系统能够让意图识别和实体抽取两个模块之间的信息充分共享，起到了意图和实体抽取相互增强的作用。同时当训练语料的数据量较小时，模型也能够有很好的表现，具有很强的泛化能力。
[0090]
以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：饶璐;周兴发;孙锐;展华益
技术所有人：四川长虹电器股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。