基于伪单词序列生成的病例分类的零样本蒸馏系统及方法

文档序号：33954040发布日期：2023-04-26 14:02阅读：来源：国知局

技术特征：

1.基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，其特征在于，包括：模型分离模块；多元正态分布生成模块；伪样本生成模块；蒸馏模块；

2.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，其特征在于，所述多元正态分布生成模块通过将已经在真实训练数据上训练好的教师模型的词嵌入层和编码层进行分离，形成新的模型并保存；

3.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，其特征在于，所述对应的多元正态分布，公式表达如下：

4.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，其特征在于，所述模拟标签分布采样模块在softmax计算过程中加入放缩系数调整得到的不同类别数据模拟标签分布的概率尖锐度。

5.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，其特征在于，所述模拟标签分布采样模块，对多元正态分布进行采样得到噪声z，将其输入到教师模型最后一层分类线性层与权重w相乘中得到输出，并将该输出除以放缩系数α后输入到softmax函数fs中计算得到模拟标签分布，公式表达如下：

6.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，其特征在于，所述伪样本标签分布生成模块，将随机生成的均匀分布整数代替bert词表中的单词索引x输入到教师模型的词嵌入层femb得到词嵌入向量，再将其输入到教师模型的编码层fec(θt)中得到伪样本标签分布，其中θt为教师模型参数，公式表达如下：

7.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，其特征在于，所述多元正态分布采样监督优化模块，利用采样得到的多元正态分布样本n作为标签信息，监督伪样本的生成，反向传播优化词嵌入层et，直到生成满足条件的伪样本作为最终的伪样本x，损失函数采用了交叉熵损失和kl散度损失并且加入温度系数来控制标签分布尖锐度，公式表达如下：

8.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，其特征在于，所述词嵌入空间一致性训练模块，通过输入公开病例数据集第i个句子xi到教师模型的嵌入层et和学生模型的嵌入层es，将教师模型词嵌入向量与学生模型词嵌入向量经过线性层转换后做kl散度lkl处理，优化线性层使双方词嵌入向量处于同一空间内，公式表达如下：

9.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，其特征在于，所述知识转移模块，将生成的词嵌入向量x分别输入教师模型的编码层ft(θt)，以及转换词向量维度的线性层ffc，转化为768维度的词嵌入向量，得到教师模型和学生模型输出的标签分布，将其对齐，从而把教师模型的知识迁移到轻量化的学生模型当中，采用kl散度lkl作为损失函数，优化学生模型的编码层fs(θs)，公式表达如下：

10.基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，其特征在于，包括步骤如下：

技术总结
本发明公开了基于伪单词序列生成的病例分类的零样本蒸馏系统及方法，包括：模型分离模块，将教师模型分割成词嵌入层和剩余的编码层；多元正态分布生成模块，利用训练好的教师模型的网络权重计算多元正态分布系数；伪样本生成模块，利用生成的多元正态分布、分割后的教师模型编码层和教师模型词嵌入层生成词嵌入向量样本；蒸馏模块，利用生成的词嵌入向量生成样本，进行知识蒸馏，从而将教师模型的知识转移到学生模型中。本发明能够让使得没有真实数据的情境下，可以通过已经训练好的模型转移其知识给新的轻量化模型，并且直接生成词嵌入向量样本，并用其执行蒸馏过程，保证了伪样本生成和蒸馏的有效性，可以在没有数据的现实情况下蒸馏得到适用于同一领域数据预测的轻量化新模型。

技术研发人员：陈晟,蒋智威,杜娟,顾庆
受保护的技术使用者：南京大学
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

当前第2页1 2