基于会话摘要的标签增强方法及装置与流程

文档序号：31787300发布日期：2022-10-12 14:18阅读：46来源：国知局

1.本技术涉及计算机技术领域，尤指一种基于会话摘要的标签增强方法及装置。

背景技术：

2.在监督学习中，标签作为一个非常重要的角色在一定程度上决定了算法在实际场景的表现。目前数据标签的来源主要依靠数据标注工程师来完成，该工作不仅代价高，而且数据质量一定程度上取决于工程师们的标准经验。此外，互联网大数据已经呈现出爆炸趋势，如果单纯依赖人工去完成数据打标任务，将在一定程度上限制算法的迭代速度。基于迁移学习的数据标签扩充是利用深度学习技术将某一领域的数据知识迁移到目标领域中来，然后基于该领域的数据标签进行后续算法的训练、微调，但是该方法不能解决领域知识的跨域问题，从而导致对已有知识的利用率并不是很高，而且如果相关领域的数据知识并不存在的情况下，深度学习方法也表现的无能为力。
3.目前扩充数据标签的方法有两种，第一种基于人工的数据标签扩充：对于新获取的数据采用人工标注的方法进行标注，获得对应的数据标签；第二种利用深度学习技术将某一领域的数据知识迁移到目标领域中来，然后基于该领域的数据标签进行后续算法的训练、微调，但是该方法不能解决领域知识的跨域问题，从而导致对已有知识的利用率并不是很高，而且如果相关领域的数据知识并不存在的情况下，深度学习方法也表现的无能为力。

技术实现要素：

4.本技术提供了一种基于会话摘要的标签增强方法及装置，该基于会话摘要的标签增强方法及装置，提高了标签数据质量。
5.本技术提供了一种基于会话摘要的标签增强方法，包括：
6.获取待打标签的会话摘要；
7.对所述待打标签的会话摘要分别进行第一编码和第二编码；
8.将所述第一编码和第二编码按照预设比例进行融合得到融合编码；
9.根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签。
10.一种示例性的实施例中，所述待打标签的会话摘要包括无标签的会话摘要、标签不完整或不准确的会话摘要；
11.所述第一编码为文本编码；
12.对所述待打标签的会话摘要进行第一编码，包括：对所述待打标签的会话摘要进行文本编码；
13.对所述待打标签的会话摘要进行文本编码，包括：
14.对所述待打标签的会话摘要进行预处理得到会话序列；根据所述会话序列生成会话序列的向量编码；根据所述向量编码得到文本编码。
15.一种示例性的实施例中，对所述待打标签的会话摘要进行预处理得到会话序列，包括：
16.还原所述待打标签的会话摘要的上下文语境信息；
17.将所述待打标签的会话摘要和上下文语境信息按照时间顺序拼接在一起，得到会话序列。
18.一种示例性的实施例中，根据所述会话序列生成会话序列的向量编码，包括：
19.将所述会话序列以向量形式表示；
20.将以向量形式表示的会话序列映射到高维向量空间，得到所述会话序列的向量编码。
21.一种示例性的实施例中，根据所述向量编码得到文本编码，包括：
22.将所述会话序列的向量编码输入到deep model1中进行处理，得到文本编码。
23.一种示例性的实施例中，所述第二编码为知识编码；
24.对所述待打标签的会话摘要进行第二编码，包括：对所述待打标签的会话摘要进行知识编码；
25.对所述待打标签的会话摘要进行知识编码，包括：
26.根据所述待打标签的会话摘要得到多个不同的概念实体；根据多个不同的概念实体得到概念实体向量；根据所述概念实体向量生成所述多个不同的概念实体的编码；根据所述多个不同的概念实体的编码得到知识编码。
27.一种示例性的实施例中，根据所述待打标签的会话摘要得到多个不同的概念实体，包括：
28.对所述待打标签的会话摘要进行实体识别得到所述待打标签的会话摘要的实体属性；
29.从预设的知识图谱中获取所述实体属性对应的概念化表示，得到所述待打标签的会话摘要的多个不同的概念实体；
30.根据多个不同的概念实体得到概念实体向量，包括：
31.根据多个不同的概念实体生成以向量形式表示的概念实体并映射到高维空间，得到概念实体向量；
32.根据所述概念实体向量生成所述多个不同的概念实体的第三编码；根据所述多个不同的概念实体的编码得到知识编码，包括：
33.将所述概念实体向量通过deep model2或类bert的模型进行第三编码；对所述第三编码通过self-attention模块再次编码得到第四编码；通过预设的神经网络得到所述第四编码对应的知识编码。
34.一种示例性的实施例中，根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签，包括：
35.将所述融合编码输入到预设的打标模型得到不同标签及不同标签的标签概率；
36.将概率值最大的标签作为所述待打标签的会话摘要的标签。
37.一种示例性的实施例中，所述预设的打标模型按照如下方式得到：
38.基于历史数据构建训练数据集、验证集和测试数据集；其中，所述历史数据包括非样本数据，所述非样本数据包括标签不完整或不准确的会话摘要及其相应的标签；
39.根据所述训练数据集、验证集和测试数据集分别对预设的深度学习模型进行训练、验证和测试，得到所述预设的打标模型。
40.本技术提供了一种基于会话摘要的标签增强的装置，包括存储器和处理器，其特征在于：
41.所述存储器，用于保存用于基于会话摘要的标签增强的程序；
42.所述处理器，用于读取执行所述用于基于会话摘要的标签增强的程序，执行上述的基于会话摘要的标签增强方法。
43.本技术包括以下优点：
44.本技术至少一个实施例通过获取待打标签的会话摘要；对所述待打标签的会话摘要分别进行第一编码和第二编码；将所述第一编码和第二编码按照预设比例进行融合得到融合编码；根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签，提高了标签数据质量。
45.本技术至少一个实施例基于会话摘要解决数据标签的增强以及标签的热更新问题，实现数据标签的增量式更新，降低甚至直接去除人工打标的参与过程，直接利用会话摘要数据直接完成对现有标签体系的增强以及增量更新问题。
46.本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
47.附图用来提供对本技术技术方案的理解，并且构成说明书的一部分，与本技术的实施例一起用于解释本技术的技术方案，并不构成对本技术技术方案的限制。
48.图1为本技术实施例的基于会话摘要的标签增强方法的示意图；
49.图2为本技术实施例的基于会话摘要的标签增强方法的流程图；
50.图3为本技术实施例的基于会话摘要的标签增强装置的示意图。
具体实施方式
51.图1为本技术实施例的基于会话摘要的标签增强的方法的流程图，如图1所示，本实施例的基于会话摘要的标签增强方法，包括s11-s14步骤：
52.s11、获取待打标签的会话摘要；
53.s12、对所述待打标签的会话摘要分别进行第一编码和第二编码；
54.s13、将所述第一编码和第二编码按照预设比例进行融合得到融合编码；
55.s14、根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签。
56.其中，会话摘要，是对会话中某部分内容(比如几句话)的总结。
57.例如：
58.张三：hi，你到哪儿了？
59.李四：在回来路上了。怎么啦？
60.《会话摘要：你在哪里》
61.张三：我忘记买牛肉了。要是没进大院，买点牛肉带回来。
62.李四：好的。
63.《会话摘要：买牛肉带回来》
64.一种示例性的实施例中，所述待打标签的会话摘要包括无标签的会话摘要和标签不完整或不准确的会话摘要；
65.一种示例性的实施例中，所述第一编码为文本编码；
66.对所述待打标签的会话摘要进行第一编码，包括：对所述待打标签的会话摘要进行文本编码；
67.一种示例性的实施例中，对所述待打标签的会话摘要进行文本编码，包括：
68.对所述待打标签的会话摘要进行预处理得到会话序列；根据所述会话序列生成会话序列的向量编码；根据所述向量编码得到文本编码。
69.一种示例性的实施例中，对所述待打标签的会话摘要进行预处理得到会话序列，包括：
70.还原所述待打标签的会话摘要的上下文语境信息；
71.将所述待打标签的会话摘要和上下文语境信息按照时间顺序拼接在一起，得到会话序列。
72.需要说明的是，一个会话序列包含多个有序(时间顺序)的会话内容(即摘要内容)，每个会话内容是由词/字组成。
73.例如，对上述待打标签的会话摘要进行预处理得到会话序列：
74.：你在哪里
75.：买牛肉带回来。
76.一种示例性的实施例中，根据所述会话序列生成会话序列的向量编码，包括：
77.将所述会话序列以向量形式表示；
78.将以向量形式表示的会话序列映射到高维向量空间，得到所述会话序列的向量编码。
79.一种示例性的实施例中，将所述会话序列以向量形式表示，包括：
80.用word2vector之类的方法可以将词/字表示成向量的形式(即word/char embedding)，然后这些词/字的向量表示，通过向量求和，再平均或bert等方法，就可以得到会话内容(即句子)的向量表示。
81.需要说明的是，多个会话内容的向量表示通过加和求平均或拼接的方式，就得到了会话序列的向量表示，因为向量的维数较多，所以叫“高维”，通过上述过程就完成了映射到高维向量空间的操作。
82.一种示例性的实施例中，根据所述向量编码得到文本编码，包括：
83.将所述会话序列的向量编码输入到deep model1中进行处理，得到文本编码。
84.例如，对上述待打标签的会话序列分别进行文本编码(即，第一编码)：
85.[0.0327 0.0285 1.417
……
]。
[0086]
需要说明的是，这里的处理是指deep model1再进行一次编码。会话序列的高维向量表示，只是一种浅层表示，通过类似bert的模型结构后，可以得到更高层次的语义表示，即最终的会话文本编码。
[0087]
一种示例性的实施例中，所述第二编码为知识编码；
[0088]
对所述待打标签的会话摘要进行第二编码，包括：对所述待打标签的会话摘要进
行知识编码；
[0089]
一种示例性的实施例中，对所述待打标签的会话摘要进行知识编码，包括：
[0090]
根据所述待打标签的会话摘要得到多个不同的概念实体；根据多个不同的概念实体得到概念实体向量；根据所述概念实体向量生成所述多个不同的概念实体的编码；根据所述多个不同的概念实体的编码得到知识编码。
[0091]
一种示例性的实施例中，根据所述待打标签的会话摘要得到多个不同的概念实体，包括：
[0092]
对所述待打标签的会话摘要进行实体识别得到所述待打标签的会话摘要的实体属性；
[0093]
从预设的知识图谱中获取所述实体属性对应的概念化表示，得到所述待打标签的会话摘要的多个不同的概念实体；
[0094]
一种示例性的实施例中，根据多个不同的概念实体得到概念实体向量，包括：
[0095]
根据多个不同的概念实体生成以向量形式表示的概念实体并映射到高维空间，得到概念实体向量；
[0096]
一种示例性的实施例中，根据所述概念实体向量生成所述多个不同的概念实体的第三编码；根据所述多个不同的概念实体的编码得到知识编码，包括：
[0097]
将所述概念实体向量通过deep model2或类bert的模型进行第三编码；对所述第三编码通过self-attention模块再次编码得到第四编码；通过预设的神经网络得到所述第四编码对应的知识编码。
[0098]
一种示例性的实施例中，根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签，包括：
[0099]
将所述融合编码输入到预设的打标模型得到不同标签及不同标签的标签概率；
[0100]
将概率值最大的标签作为所述待打标签的会话摘要的标签。
[0101]
例如，上述会话的标签是：买肉。
[0102]
一种示例性的实施例中，所述预设的打标模型按照如下方式得到：
[0103]
基于历史数据构建训练数据集、验证集和测试数据集；其中，所述历史数据包括非样本数据，所述非样本数据包括标签不完整或不准确的会话摘要及其相应的标签；
[0104]
根据所述训练数据集、验证集和测试数据集分别对预设的深度学习模型进行训练、验证和测试，得到所述预设的打标模型。
[0105]
本技术至少一个实施例通过获取待打标签的会话摘要；对所述待打标签的会话摘要分别进行第一编码和第二编码；将所述第一编码和第二编码按照预设比例进行融合得到融合编码；根据所述融合编码、以及预设的打标模型得到所述待打标签的会话摘要的标签。提高了标签数据质量。
[0106]
本技术至少一个实施例解决了基于会话摘要解决数据标签的增强以及标签的热更新问题，实现数据标签的增量式更新，降低甚至直接去除人工打标的参与过程，直接利用会话摘要数据直接完成对现有标签体系的增强以及增量更新问题。
[0107]
图2为本技术实施例的基于会话摘要的标签增强的方法的流程图，如图2所示，包括对会话摘要进行会话编码(即会话文本编码)、对会话摘要进行知识编码、特征融合、标签分类过程。
[0108]
其中，对会话摘要进行会话编码包括对会话摘要进行预处理得到会话序列，基于预处理得到的会话序列，利用word embedding(词嵌入)等技术对会话序列进行向量化表示，将其会话序列映射到高维向量空间，得到会话序列的向量编码。将得到的高维空间向量表示输入deep model1中，对其进行统一编码。在这里deep model1我们可以采用类似于bert的模型去对会话文本序列embedding进行编码，得到高层次的语义表示，得到最终的会话文本编码。
[0109]
需要说明的是，因为会话摘要具有很强的上下文依赖性，同时会话摘要是对原始会话文本的高度总结，特定的摘要只有在特定的会话场景下才能够去表达含义，一旦脱离其会话上下文就没有任何意义了，因此首先需要对会话摘要进行预处理，即还原会话文本的上下文语境信息，在实际场景中我们可以将固定时间段的会话摘要拼接为一条完整的会话语料，得到一系列的会话序列。
[0110]
对会话摘要进行知识编码包括基于现有的实体链接方法，首先对会话摘要进行实体识别，得到其对应的实体属性。然后利用知识图谱从中获取实体属性对应的概念化表示，即图中的概念化操作；对于得到一系列概念实体，首先将其表示为可直接输入模型的embedding表示形式，类似上面的会话文本，在这里利用concept embedding(概念嵌入)对概念实体进行向量化表示，也将其映射到高维空间，得到概念实体的向量化表示形式；将得到的概念实体向量表示输入到deep model2中完成对概念实体的编码，此处deep model2也可以采用类bert的模型。同时考虑到概念表示存在一定的语义歧义性(例如在文本“他使用苹果手机已经十年了”中，这句话中的“苹果”，我们可以在kb中检索到“水果”和“苹果手机”，显然，“水果”在这个例子中并不合适。)和内容概念的相对重要性问题(例如在文本“乔布斯是苹果公司的ceo”中，这句话中的“乔布斯”，我们可以在知识图谱中检索到“人”和“企业家”，显然，“企业家”对于分类的重要性更强。)，因此在语义编码后也将其输入到self-attention模块中进一步的编码，通过神经网络的迭代更新，得到最终的知识编码。
[0111]
特征融合包括对于得到的会话摘要编码和知识编码，由于是在各自的语义空间下得到的编码表示，原始的会话文本和其对应的概念实体之间缺少信息交互，为了解决此问题我们将两者编码按照一定的比例进行融合。假设会话编码为a，知识编码为b，则最终融合后的编码表示为qa+(1-q)b,其中q为超参数，可以人工指定，也可以采用神经网络迭代学习的方法。
[0112]
标签分类包括基于融合后的特征，将其最后再输入神经网络nn中的到会话文本对应的标签概率，然后将概率值最大的标签作为短文本对应的标签输出。
[0113]
可以将上述会话摘要和标签作为训练数据对神经网络nn进行训练，利用测试集数据验证模型性能，进行模型微调，利用微调后的模型实现对新增会话摘要的标签增强。神经网络nn之前通过已有的会话摘要和对应的数据标签构建的训练数据集、验证集和测试集进行训练、验证和测试过。其中训练集和测试集按照6:2:2的比例进行划分，60％的数据用于训练模型，20％的数据用于模型性能验证，20％的数据用于模型性能测试。
[0114]
本技术实施例的标签增强方法实现标签的增量更新，同时支持热更新；基于历史标签数据(历史标签数据被用于训练过程，形成新的打标模型，通过新的打标模型的实际应用打标，产生价值，即提高了历史数据的利用率)，提高历史数据利用率，降低人工开销；引入外部知识库(即上文所述的知识图谱)，提高标签数据质量。
[0115]
图3为本技术实施例的基于会话摘要的标签增强的装置的示意图，如图3所示，本实施例的基于会话摘要的标签增强的装置，包括存储器和处理器。
[0116]
所述存储器，用于保存用于基于会话摘要的标签增强的程序；
[0117]
所述处理器，用于读取执行所述用于基于会话摘要的标签增强的程序，执行如上述的基于会话摘要的标签增强的方法。
[0118]
本技术描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本技术所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。
[0119]
在本技术中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。
[0120]
此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。
[0121]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵亮朱志强徐凯波
技术所有人：北京明略昭辉科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。