5G富媒体消息语音转文本系统、方法、电子设备及介质与流程

文档序号：35014982发布日期：2023-08-04 06:43阅读：39来源：国知局

本发明涉及计算机，具体涉及一种5g富媒体消息语音转文本系统、方法、电子设备及介质。

背景技术：

1、5g富媒体消息是短消息行业通信能力一次重大的飞跃，相比于传统文字短信而言，5g富媒体消息支持的媒体格式更多，表现形式更丰富，不仅可以发送长文本、图片、语音、视频等富媒体信息，还包括了公众号、小程序等用户交互和反馈能力，使得5g富媒体消息的应用场景、内容质量、使用范围都极大的提升。

2、5g富媒体消息往往存在于营销类的视频素材中，背景声音掺杂丰富的噪音，传统ctc模型的解码方案虽然有效的解决了基于注意力语音识别方法中存在的未对准问题，但是随着语音环境中噪音的增大，传统ctc模型通过最大似然估计学习找寻的可行路径的概率会呈指数增加，并且一旦传统ctc模型找到了主要的可行路径，错误信息也会集中在该条路径附近，使得识别周期被剧烈的放大。考虑到5g富媒体消息发送的高效性和及时性，5g富媒体消息语音转文本不能选择处理时间过长的深度学习神经网络算法。

3、因此，亟需一种处理时间较短的5g富媒体消息语音转文本方法。

技术实现思路

1、本发明实施例的目的在于提供一种5g富媒体消息语音转文本系统、方法、电子设备及介质，用以解决现有技术中随着语音环境中噪音的增大，ctc模型识别周期增长的问题。

2、为实现上述目的，本发明实施例提供一种5g富媒体消息语音转文本方法，所述方法具体包括：

3、获取5g富媒体消息中的视频信息，基于所述视频信息构建视频消息信息集合y，基于所述视频消息信息集合y构建训练集；

4、构建改进ctc模型，其中，所述改进ctc模型是在ctc模型的基础上引入最大熵函数对所述ctc模型中ctc原有损失函数进行改进；

5、通过所述训练集对所述改进ctc模型进行训练，得到训练好的改进ctc模型；

6、通过训练好的所述改进ctc模型将所述视频消息信息集合y转换为视频文本集合y。

7、在上述技术方案的基础上，本发明还可以做如下改进：

8、进一步地，所述5g富媒体消息语音转文本方法还包括：

9、获取5g富媒体消息中的文本消息；

10、基于所述文本消息和所述视频文本集合y构建文本消息信息集合x；

11、构建敏感词变体识别模型；

12、将所述文本消息信息集合x中的文本消息依次输入所述敏感词变体识别模型判断所述文本消息信息集合x中的所有文本消息是否全部合规。

13、进一步地，所述5g富媒体消息语音转文本方法还包括：

14、获取5g富媒体消息中的图片消息，基于所述图片消息构建图片消息信息集合z；

15、构建不良图片分类模型和特征提取模型；

16、基于所述特征提取模型对所述图片消息信息集合z进行特征提取得到图片深度特征集合z；

17、将所述图片深度特征集合z中的图片依次输入所述不良图片分类模型判断所述图片深度特征集合z中的所有图片是否全部合规。

18、进一步地，所述5g富媒体消息语音转文本方法还包括：

19、当所述文本消息信息集合x中的所有文本消息全部合规，且所述图片深度特征集合z中的图片全部合规时，判定所述5g富媒体消息可以正常发送。

20、进一步地，所述构建改进ctc模型，其中，所述改进ctc模型是在ctc模型的基础上引入最大熵函数对所述ctc模型中ctc原有损失函数进行改进，包括：

21、通过公式1对所述ctc原有损失函数进行改进；

22、

23、式中，为所述改进ctc模型的损失函数，为ctc原有损失函数，α为最大条件熵正则化的系数，h(p(π|l，x))为给定输入序列和目标序列的可行路径的熵。

24、进一步地，所述构建改进ctc模型，其中，所述改进ctc模型是在ctc模型的基础上引入最大熵函数对所述ctc模型中ctc原有损失函数进行改进，包括：

25、通过公式2求解h(p(π|l，x))；

26、

27、式中，(p(π|l，x))表示当给定5g语音信息x和真实输出i的情况下，某一条可行路径π的条件概率；

28、logp(π|x)表示给定5g语音信息x时，某一条可行路径π的条件概率的对数；表示无论是否给出真实输出i时，5g语音信息x的所有输出条件概率的和。

29、进一步地，所述通过所述训练集对所述改进ctc模型进行训练得到训练好的改进ctc模型，包括：

30、将所述视频消息信息集合y划分为训练集、测试集和验证集；

31、基于所述训练集训练所述改进ctc模型；

32、基于所述验证集对所述改进ctc模型进行性能验证，保存满足性能条件的改进ctc模型；

33、基于所述测试集评估所述改进ctc模型的转换结果。

34、一种5g富媒体消息语音转文本系统，包括：

35、获取模块，用于获取5g富媒体消息中的视频信息；

36、第一构建模块，用于基于所述视频信息构建视频消息信息集合y，基于所述视频消息信息集合y构建训练集；

37、改进ctc模型，其中，所述改进ctc模型是在ctc模型的基础上引入最大熵函数对所述ctc模型中ctc原有损失函数进行改进；

38、训练模块，用于通过所述训练集对所述改进ctc模型进行训练，得到训练好的改进ctc模型；

39、通过训练好的所述改进ctc模型将所述视频消息信息集合y转换为视频文本集合y。

40、一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如所述方法的步骤。

41、一种非暂态计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述方法的步骤。

42、本发明实施例具有如下优点：

43、本发明中5g富媒体消息语音转文本方法，获取5g富媒体消息中的视频信息，基于所述视频信息构建视频消息信息集合y，基于所述视频消息信息集合y构建训练集；构建改进ctc模型，其中，所述改进ctc模型是在ctc模型的基础上引入最大熵函数对所述ctc模型中ctc原有损失函数进行改进；通过所述训练集对所述改进ctc模型进行训练，得到训练好的改进ctc模型；通过训练好的所述改进ctc模型将所述视频消息信息集合y转换为视频文本集合y，解决了现有技术中随着语音环境中噪音的增大，ctc模型识别周期增长的问题。

技术特征：

1.一种5g富媒体消息语音转文本方法，其特征在于，所述方法具体包括：

2.根据权利要求1所述5g富媒体消息语音转文本方法，其特征在于，所述5g富媒体消息语音转文本方法还包括：

3.根据权利要求2所述5g富媒体消息语音转文本方法，其特征在于，所述5g富媒体消息语音转文本方法还包括：

4.根据权利要求3所述5g富媒体消息语音转文本方法，其特征在于，所述5g富媒体消息语音转文本方法还包括：

5.根据权利要求1所述5g富媒体消息语音转文本方法，其特征在于，所述构建改进ctc模型，其中，所述改进ctc模型是在ctc模型的基础上引入最大熵函数对所述ctc模型中ctc原有损失函数进行改进，包括：

6.根据权利要求1所述5g富媒体消息语音转文本方法，其特征在于，所述构建改进ctc模型，其中，所述改进ctc模型是在ctc模型的基础上引入最大熵函数对所述ctc模型中ctc原有损失函数进行改进，包括：

7.根据权利要求1所述5g富媒体消息语音转文本方法，其特征在于，所述通过所述训练集对所述改进ctc模型进行训练得到训练好的改进ctc模型，包括：

8.一种5g富媒体消息语音转文本系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中的任一项所述的方法的步骤。

10.一种非暂态计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中的任一项所述的方法的步骤。

技术总结
本发明实施例公开了一种5G富媒体消息语音转文本系统、方法、电子设备及介质，包括：获取5G富媒体消息中的视频信息，基于视频信息构建视频消息信息集合Y，基于视频消息信息集合Y构建训练集；构建改进CTC模型，其中，改进CTC模型是在CTC模型的基础上引入最大熵函数对CTC模型中CTC原有损失函数进行改进；通过训练集对改进CTC模型进行训练，得到训练好的改进CTC模型；通过训练好的改进CTC模型将视频消息信息集合Y转换为视频文本集合y。该5G富媒体消息语音转文本方法解决现有技术中随着语音环境中噪音的增大，CTC模型识别周期增长的问题。

技术研发人员：沈浩,黄海量,吴东进,韩松乔,吴优
受保护的技术使用者：上海帜讯信息技术股份有限公司
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈浩黄海量吴东进韩松乔吴优
技术所有人：上海帜讯信息技术股份有限公司
我是此专利的发明人