技术总结
本发明提供了一种深度Transformer级联神经网络模型压缩算法,它解决了现有技术的算法仍然具有进一步压缩空间的问题。其方法包括:在文本数据集上对深度Transformer级联神经网络进行预训练;将Transformer级联模型按照先后顺序划分成若干份模块;随机选择预训练完成的深度Transformer级联神经网络中的某一层Transformer作为替换模块,此模块命名为Transformer
技术研发人员:陈轶 张文 崔浩亮 牛少彰 王让定
受保护的技术使用者:东南数字经济发展研究院
技术研发日:2020.10.23
技术公布日:2021/3/1