字幕分发方法、装置、计算机设备和存储介质与流程

文档序号：34664692发布日期：2023-07-05 13:05阅读：65来源：国知局

本申请涉及语音识别，尤其涉及一种字幕分发方法、装置、计算机设备和存储介质。

背景技术：

1、随着科技的发展，智能会议室的应用日渐广泛，涉及到各行各业。在会议中的参会人有可能来自各个地方，发言对象的语种、口音都有可能存在差异，而语音转写技术可以将发言对象的语音转写成字幕后实时在显示设备上显示。但目前的转写技术存在着分段不合理，不利于参会人员快速、准确的进行阅读的问题。

技术实现思路

1、本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中转写出的字幕分段不合理的问题。

2、第一方面，本申请提供了一种字幕分发方法，应用于服务器，字幕分发方法包括：

3、获取语音数据流，并对语音数据流进行字幕转写，得到字幕流；

4、识别字幕流中的语句结束标识；

5、在识别到任意一个语句结束标识的情况下，若语句结束标识对应的字幕语句的时长超过分段阈值，则在语句结束标识处添加分段标识；

6、将字幕流分发到各显示客户端。

7、在其中一个实施例中，在对所述语音数据流进行字幕转写的过程中，还包括：识别所述语音数据流中的停顿时长；当所述停顿时长大于断句阈值时，在当前转写出的文字后添加所述语句结束标识。

8、在其中一个实施例中，服务器与各显示客户端之间建立有多条通信链路，将字幕流分发到各显示客户端，包括：

9、根据显示客户端的ip地址，选择对应的通信链路作为目标通信链路；

10、通过目标通信链路将字幕流传输到显示客户端。

11、在其中一个实施例中，根据显示客户端的ip地址，选择对应的通信链路作为目标通信链路，包括：

12、对显示客户端的完整ip地址进行hash编码，得到第一编码；

13、根据通信链路的数量，对第一编码进行取模运算，得到第一索引值；

14、选择与第一索引值匹配的通信链路作为目标通信链路。

15、在其中一个实施例中，通信链路的建立过程包括：

16、通过websocket协议建立通信链路；

17、在websocket链接失效时，通过发送轮询请求维持通信链路。

18、在其中一个实施例中，对语音数据流进行字幕转写，得到字幕流，包括：

19、对语音数据流进行盲源分离；

20、若盲源分离的结果为独立语音信号，则对独立语音信号进行字幕转写，得到字幕流；

21、若盲源分离的结果为多个并列语音信号，则分别对并列语音信号进行字幕转写，得到与各并列语音信号一一对应的并列字幕流，在并列字幕流之间添加对象分隔符，并将各并列字幕流组合，得到字幕流；对象分隔符用于指示显示客户端将字幕流拆分为各并列字幕流后进行独立展示。

22、在其中一个实施例中，在并列字幕流之间添加对象分隔符，并将各并列字幕流组合，得到字幕流，还包括：

23、提取并列语音信号的语音特征；

24、判断语音特征是否与语音特征集中的各预设语音特征匹配；预设语音特征与预设发言对象一一对应；

25、若是，则将与语音特征匹配的预设语音特征所对应的预设发言对象确定为目标对象；

26、在并列语音信号对应的并列字幕流，加入目标对象的标识；标识用于指示显示客户端注释各并列字幕流的发言对象。

27、第二方面，本申请实施例提供了一种字幕分发装置，应用于服务器，字幕分发装置包括：

28、转写模块，用于获取语音数据流，并对语音数据流进行字幕转写，得到字幕流；

29、结束标识识别模块，用于识别字幕流中的语句结束标识；

30、强制分段模块，用于在识别到任意一个语句结束标识的情况下，若语句结束标识对应的字幕语句的时长超过分段阈值，则在语句结束标识处添加分段标识；

31、数据分发模块，用于将字幕流分发到各显示客户端。

32、第三方面，本申请实施例提供了一种计算机设备，包括一个或多个处理器，以及存储器，存储器中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，执行上述任一实施例中的字幕分发方法的步骤。

33、第四方面，本申请实施例提供了一种存储介质，存储介质中存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例中的字幕分发方法的步骤。

34、从以上技术方案可以看出，本申请实施例具有以下优点：

35、基于上述任一实施例，通过实时采集智能会议室内的语音信号，形成语音数据流，由服务器对语音数据流进行字幕转写，得到字幕流，再识别字幕流中的语句结束标识。在语句结束标识对应的语句的时长超过分段阈值时，在该语句结束标识处添加分段标识，以对字幕流进行强制分段。该字幕分发方法可以将智能会议室内的发言对象的语音被实时转写成文字，并实时显示在各显示客户端上，且字幕的展示效果符合阅读习惯，提高了参会人员的阅读体验，辅助参会人员快速、准确的进行阅读的问题。

技术特征：

1.一种字幕分发方法，其特征在于，应用于服务器，所述字幕分发方法包括：

2.根据权利要求1所述的字幕分发方法，其特征在于，在对所述语音数据流进行字幕转写的过程中，还包括：

3.根据权利要求1所述的字幕分发方法，其特征在于，所述服务器与各所述显示客户端之间建立有多条通信链路，所述将所述字幕流分发到各所述显示客户端，包括：

4.根据权利要求3所述的字幕分发方法，其特征在于，所述根据所述显示客户端的ip地址，选择对应的所述通信链路作为目标通信链路，包括：

5.根据权利要求3或4所述的字幕分发方法，其特征在于，所述通信链路的建立过程包括：

6.根据权利要求1所述的字幕分发方法，其特征在于，所述对所述语音数据流进行字幕转写，得到字幕流，包括：

7.根据权利要求6所述的字幕分发方法，其特征在于，所述在所述并列字幕流之间添加对象分隔符，并将各所述并列字幕流组合，得到所述字幕流，还包括：

8.一种字幕分发装置，其特征在于，应用于服务器，所述字幕分发装置包括：

9.一种计算机设备，其特征在于，包括一个或多个处理器，以及存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如权利要求1-7任一项所述的字幕分发方法的步骤。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1-7任一项所述的字幕分发方法的步骤。

技术总结
本申请提供了一种字幕分发方法、装置、计算机设备和存储介质。该字幕分发方法包括：获取语音数据流，并对语音数据流进行字幕转写，得到字幕流；识别字幕流中的语句结束标识；在识别到任意一个语句结束标识的情况下，若语句结束标识对应的字幕语句的时长超过分段阈值，则在语句结束标识处添加分段标识；将字幕流分发到各显示客户端。该字幕分发方法可以将智能会议室内的发言对象的语音被实时转写成文字，并实时显示在各显示客户端上，且字幕的展示效果符合阅读习惯，提高了参会人员的阅读体验，辅助参会人员快速、准确的进行阅读的问题。

技术研发人员：王恒,陈德成,赵群英
受保护的技术使用者：广州市迪士普音响科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王恒陈德成赵群英
技术所有人：广州市迪士普音响科技有限公司
我是此专利的发明人

上一篇：智能导钻井地电磁传输地面发射系统及方法
上一篇：硬件设备的故障预测方法、故障预测装置、电子设备与流程