语音监督数据获取方法、装置、电子设备及存储介质与流程

文档序号：29800252发布日期：2022-04-23 19:56阅读：87来源：国知局

1.本公开涉及语音识别技术领域，尤其涉及一种语音监督数据获取方法、装置、电子设备及存储介质。

背景技术：

2.随着人工智能的发展，语音识别已经广泛应用于各行各业。在训练语音识别系统时，需要大量的监督数据，工业界常用几万到几十万小时的海量监督标注数据来训练模型，监督数据常用的获取方法来自于人工对语音进行标注，但是面对几十万小时海量的数据，如果需要人工标注，将会耗费较高的人力成本，而且标注效率较低。

技术实现要素：

3.本公开提供一种语音监督数据获取方法、装置、电子设备及存储介质，以至少解决相关技术中人力成本高、标注效率低的问题。本公开的技术方案如下：
4.根据本公开实施例的第一方面，提供一种语音监督数据获取方法，包括：
5.确定候选视频中的多个视频帧图像，对所述多个视频帧图像进行文本识别，得到每个所述视频帧图像对应的第一文本串；
6.对所述多个视频帧图像对应的第一文本串进行处理，得到所述多个视频帧图像对应的候选文本，并确定与所述候选文本对应的起始时间点和结束时间点；
7.从所述候选视频的音频文件中提取所述起始时间点和结束时间点之间的音频数据，得到所述候选文本对应的音频数据；
8.对所述候选文本对应的音频数据进行语音识别，得到所述候选文本对应的识别文本；
9.根据所述候选文本和所述识别文本，确定所述音频数据对应的目标文本，并将所述目标文本确定为所述音频数据对应的标注数据。
10.可选的，所述对所述多个视频帧图像对应的第一文本串进行处理，得到所述多个视频帧图像对应的候选文本，并确定与所述候选文本对应的起始时间点和结束时间点，包括：
11.从所述候选视频或所述多个视频帧图像中抽取第一预设数量的视频帧图像；
12.根据所述第一预设数量的视频帧图像的文本识别结果，确定字幕所对应的文本区域；
13.根据所述文本区域，从所述多个视频帧图像对应的第一文本串中分别提取所述文本区域所对应的第一文本串，得到所述多个视频帧图像分别对应的初始文本；
14.对所述多个视频帧图像对应的初始文本进行融合，得到所述多个视频帧图像对应的候选文本以及所述候选文本所对应的起始视频帧图像和结束视频帧图像；
15.根据候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点。
16.可选的，根据所述第一预设数量的视频帧图像的文本识别结果，确定字幕所对应的文本区域，包括：
17.分别对所述第一预设数量的视频帧图像进行文本识别，得到每个视频帧图像对应的第二文本串和与第二文本串对应的文本候选区域；
18.确定每个视频帧图像对应的第二文本串的去重汉字集合；
19.比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合，并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串，将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域。
20.可选的，比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合，并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串，将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域，包括：
21.在所述第一预设数量的视频帧图像中，确定第一帧视频帧图像对应的第二文本串的去重汉字集合与第二帧视频帧图像对应的第二文本串的去重汉字集合的差值；
22.删除所述差值小于第一差值阈值的第二文本串，将剩余的第二文本串确定为保留文本串，并将保留文本串所对应的文本候选区域确定为保留文本候选区域；所述剩余的第二文本串包括所述第一帧视频帧图像的剩余第二文本串和/或所述第二帧视频帧图像的剩余第二文本串；
23.将所述保留文本串依次与所述第一预设数量的视频帧图像中每一帧其他视频帧图像中的第二文本串进行所述去重汉字集合的差值比较，将最后剩余的保留文本串所对应的保留文本候选区域确定为所述字幕所对应的文本区域。
24.可选的，对所述多个视频帧图像对应的初始文本进行融合，得到所述多个视频帧图像对应的候选文本以及所述候选文本所对应的起始视频帧图像和结束视频帧图像，包括：
25.按照所述多个视频帧图像的顺序，若连续的视频帧图像中初始文本的去重汉字集合的差值小于第二差值阈值，则将所述连续的视频帧图像中的初始文本合并，得到候选文本；
26.将所述连续的视频帧图像中的第一帧视频帧图像确定为所述候选文本所对应的起始视频帧图像，将所述连续的视频帧图像中的最后一帧视频帧图像确定为所述候选文本所对应的结束视频帧图像。
27.可选的，所述确定候选视频中的多个视频帧图像，包括：
28.根据预设抽帧率，对候选视频进行抽帧，得到所述候选视频中的多个视频帧图像；
29.根据候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点，包括：
30.根据所述预设抽帧率以及候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点。
31.可选的，在确定候选视频中的多个视频帧图像之前，还包括：
32.对视频库中的目标视频抽取第二预设数量的视频帧图像，所述目标视频为所述视频库中的任一视频；
33.若所述第二预设数量的视频帧图像中包括文字，则确定所述第二预设数量的视频
帧图像所对应的视频为候选视频。
34.可选的，根据所述候选文本和所述识别文本，确定所述音频数据对应的目标文本，包括：
35.分别确定每个音频数据对应的候选文本与所述识别文本的最小编辑距离；
36.将所述最小编辑距离小于预设阈值的音频数据所对应的候选文本确定为所述音频数据对应的目标文本。
37.根据本公开实施例的第二方面，提供一种语音监督数据获取装置，包括：
38.文本识别模块，被配置为执行确定候选视频中的多个视频帧图像，对所述多个视频帧图像进行文本识别，得到每个所述视频帧图像对应的第一文本串；
39.候选文本确定模块，被配置为执行对所述多个视频帧图像对应的第一文本串进行处理，得到所述多个视频帧图像对应的候选文本，并确定与所述候选文本对应的起始时间点和结束时间点；
40.音频数据提取模块，被配置为执行从所述候选视频的音频文件中提取所述起始时间点和结束时间点之间的音频数据，得到所述候选文本对应的音频数据；
41.语音识别模块，被配置为执行对所述候选文本对应的音频数据进行语音识别，得到所述候选文本对应的识别文本；
42.监督数据确定模块，被配置为执行根据所述候选文本和所述识别文本，确定所述音频数据对应的目标文本，并将所述目标文本确定为所述音频数据对应的标注数据。
43.可选的，所述候选文本确定模块包括：
44.抽帧单元，被配置为执行从所述候选视频或所述多个视频帧图像中抽取第一预设数量的视频帧图像；
45.字幕区域确定单元，被配置为执行根据所述第一预设数量的视频帧图像的文本识别结果，确定字幕所对应的文本区域；
46.初始文本提取单元，被配置为执行根据所述文本区域，从所述多个视频帧图像对应的第一文本串中分别提取所述文本区域所对应的第一文本串，得到所述多个视频帧图像分别对应的初始文本；
47.候选文本获取单元，被配置为执行对所述多个视频帧图像对应的初始文本进行融合，得到所述多个视频帧图像对应的候选文本以及所述候选文本所对应的起始视频帧图像和结束视频帧图像；
48.时间点确定单元，被配置为执行根据候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点。
49.可选的，所述字幕区域确定单元包括：
50.候选区域确定子单元，被配置为执行分别对所述第一预设数量的视频帧图像进行文本识别，得到每个视频帧图像对应的第二文本串和与第二文本串对应的文本候选区域；
51.汉字集合确定子单元，被配置为执行确定每个视频帧图像对应的第二文本串的去重汉字集合；
52.字幕区域确定子单元，被配置为执行比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合，并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串，将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域。
53.可选的，所述字幕区域确定子单元被配置为执行：
54.在所述第一预设数量的视频帧图像中，确定第一帧视频帧图像对应的第二文本串的去重汉字集合与第二帧视频帧图像对应的第二文本串的去重汉字集合的差值；
55.删除所述差值小于第一差值阈值的第二文本串，将剩余的第二文本串确定为保留文本串，并将保留文本串所对应的文本候选区域确定为保留文本候选区域；所述剩余的第二文本串包括所述第一帧视频帧图像的剩余第二文本串和/或所述第二帧视频帧图像的剩余第二文本串；
56.将所述保留文本串依次与所述第一预设数量的视频帧图像中每一帧其他视频帧图像中的第二文本串进行所述去重汉字集合的差值比较，将最后剩余的保留文本串所对应的保留文本候选区域确定为所述字幕所对应的文本区域。
57.可选的，所述候选文本获取单元被配置为执行：
58.按照所述多个视频帧图像的顺序，若连续的视频帧图像中初始文本的去重汉字集合的差值小于第二差值阈值，则将所述连续的视频帧图像中的初始文本合并，得到候选文本；
59.将所述连续的视频帧图像中的第一帧视频帧图像确定为所述候选文本所对应的起始视频帧图像，将所述连续的视频帧图像中的最后一帧视频帧图像确定为所述候选文本所对应的结束视频帧图像。
60.可选的，所述文本识别模块包括：
61.候选视频抽帧单元，被配置为执行根据预设抽帧率，对候选视频进行抽帧，得到所述候选视频中的多个视频帧图像；
62.所述时间点确定单元被配置为执行：
63.根据所述预设抽帧率以及候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点。
64.可选的，所述装置还包括：
65.海量视频抽帧模块，被配置为执行对视频库中的目标视频抽取第二预设数量的视频帧图像，所述目标视频为所述视频库中的任一视频；
66.候选视频确定模块，被配置为执行若所述第二预设数量的视频帧图像中包括文字，则确定所述第二预设数量的视频帧图像所对应的视频为候选视频。
67.可选的，所述监督数据确定模块包括：
68.编辑距离确定单元，被配置为执行分别确定每个音频数据对应的候选文本与所述识别文本的最小编辑距离；
69.目标文本确定单元，被配置为执行将所述最小编辑距离小于预设阈值的音频数据所对应的候选文本确定为所述音频数据对应的目标文本。
70.根据本公开实施例的第三方面，提供一种电子设备，包括：
71.处理器；
72.用于存储所述处理器可执行指令的存储器；
73.其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的语音监督数据获取方法。
74.根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机存
储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面所述的语音监督数据获取方法。
75.根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的语音监督数据获取方法。
76.本公开的实施例提供的技术方案至少带来以下有益效果：
77.本公开实施例通过确定候选视频中的多个视频帧图像，对多个视频帧图像进行文本识别，得到每个视频帧图像对应的第一文本串，对多个视频帧图像对应的第一文本串进行处理，得到多个视频帧图像对应的候选文本，并确定候选文本对应的起始时间点和结束时间点，从候选视频的音频文件中提取起始时间点和结束时间点之间的音频数据，得到候选文本对应的音频数据，对音频数据进行语音识别，得到候选文本对应的识别文本，根据候选文本和识别文本确定音频数据对应的目标文本，并将目标文本确定为音频数据对应的标注数据，相对于人工标注数据，可以大大减少人力成本，提高标注效率，而且由于结合了文本识别结果和语音识别结果来确定标注数据，即结合了图像模态和语音模态的数据，而不是使用单一模态的数据，可以提高确定的监督数据的准确性。
78.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
79.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
80.图1是根据一示例性实施例示出的一种语音监督数据获取方法的流程图；
81.图2是根据一示例性实施例示出的一种语音监督数据获取装置的框图；
82.图3是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
83.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
84.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
85.图1是根据一示例性实施例示出的一种语音监督数据获取方法的流程图，如图1所示，该语音监督数据获取方法可以用于服务器等电子设备中，包括以下步骤。
86.在步骤s11中，确定候选视频中的多个视频帧图像，对所述多个视频帧图像进行文本识别，得到每个所述视频帧图像对应的第一文本串。
87.其中，所述候选视频是带有字幕的视频。
88.可以对候选视频进行均匀的抽帧，得到候选视频对应的多个视频帧图像。通过均
匀抽帧，便于后续可以获取到准确的候选文本和对应的音频数据。
89.分别对多个视频帧图像进行文本识别，得到一系列连续的文本串，将该文本串记为第一文本串，每个视频帧图像可以对应一个或多个第一文本串，也可能有的视频帧图像中没有文字，这样的视频帧图像没有对应的第一文本串。其中，所述文本识别可以是光学字符识别(optical character recognition，ocr)。
90.在步骤s12中，对所述多个视频帧图像对应的第一文本串进行处理，得到所述多个视频帧图像对应的候选文本，并确定与所述候选文本对应的起始时间点和结束时间点。
91.每个视频帧图像对应的第一文本串有可能是字幕，也有可能是背景文字，这里需要将不是字幕的第一文本串去除，得到每个视频帧图像中字幕区域所对应的第一文本串，并合并多个相邻的相似第一文本串，得到候选文本，在合并相似第一文本串得到候选文本的过程中，可以将相似第一文本串的第一帧视频帧图像确定为候选文本对应的起始视频帧图像，并将相似第一文本串的最后一帧视频帧图像确定为候选文本对应的结束视频帧图像，从而将起始视频帧图像对应的时间点确定为候选文本的起始时间点，将结束视频帧图像对应的时间点确定为候选文本的结束时间点。多个视频帧图像可以得到一个候选文本或多个候选文本。
92.在步骤s13中，从所述候选视频的音频文件中提取所述起始时间点和结束时间点之间的音频数据，得到候选文本对应的音频数据。
93.从候选视频帧的音频文件中提取起始时间点和结束时间点之间的音频数据，得到候选文本对应的音频数据，后续可以比较音频数据的语音识别结果和候选文本，确定最终的目标文本。
94.在步骤s14中，对所述候选文本对应的音频数据进行语音识别，得到所述候选文本对应的识别文本。
95.可以使用已有的语音识别系统对候选文本对应的音频数据进行语音识别，得到候选文本对应的识别文本。
96.在步骤s15中，根据所述候选文本和所述识别文本，确定所述音频数据对应的目标文本，并将所述目标文本确定为所述音频数据对应的标注数据。
97.比较候选文本和识别文本的差异，如果两者的差异较大，不满足要求，则删除该候选文本和对应的音频数据，如果两者的差异满足要求，则保留该候选文本和对应的音频数据，并将该候选文本确定为该音频数据对应的目标文本，将目标文本确定为音频数据对应的标注数据，从而音频数据和标注数据为语音识别的监督数据。
98.在一个示例性实施例中，根据所述候选文本和所述识别文本，确定所述音频数据对应的目标文本，包括：分别确定每个音频数据对应的候选文本与所述识别文本的最小编辑距离；将所述最小编辑距离小于预设阈值的音频数据所对应的候选文本确定为所述音频数据对应的目标文本。
99.其中，最小编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，编辑操作可以包括将一个字符替换成另一个字符、插入一个字符、删除一个字符等。
100.在截取到多个音频数据时，对于每个音频数据，分别确定对应的候选文本与识别文本的最小编辑距离，如果一个音频数据对应的候选文本和识别文本的最小编辑距离大于或等于预设阈值，则删除该音频数据和对应的候选文本，如果一个音频数据对应的候选文
本和识别文本的最小编辑距离小于预设阈值，则保留该音频数据和对应的候选文本，并将该音频数据对应的候选文本确定为该音频数据对应的目标文本。
101.通过基于候选文本和识别文本的最小编辑距离来筛选音频数据和对应的目标文本，可以得到较为准确的标注数据。
102.本示例性实施例提供的语音监督数据获取方法，通过确定候选视频中的多个视频帧图像，对多个视频帧图像进行文本识别，得到每个视频帧图像对应的第一文本串，对多个视频帧图像对应的第一文本串进行处理，得到多个视频帧图像对应的候选文本，并确定候选文本对应的起始时间点和结束时间点，从候选视频的音频文件中提取起始时间点和结束时间点之间的音频数据，得到候选文本对应的音频数据，对音频数据进行语音识别，得到候选文本对应的识别文本，根据候选文本和识别文本确定音频数据对应的目标文本，并将目标文本确定为音频数据对应的标注数据，相对于人工标注数据，可以大大减少人力成本，提高标注效率，而且由于结合了文本识别结果和语音识别结果来确定标注数据，即结合了图像模态和语音模态的数据，而不是使用单一模态的数据，可以提高确定的监督数据的准确性。
103.在上述技术方案的基础上，所述对所述多个视频帧图像对应的第一文本串进行处理，得到所述多个视频帧图像对应的候选文本，并确定与所述候选文本对应的起始时间点和结束时间点，包括：从所述候选视频或所述多个视频帧图像中抽取第一预设数量的视频帧图像；根据所述第一预设数量的视频帧图像的文本识别结果，确定字幕所对应的文本区域；根据所述文本区域，从所述多个视频帧图像对应的第一文本串中分别提取所述文本区域所对应的第一文本串，得到所述多个视频帧图像分别对应的初始文本；对所述多个视频帧图像对应的初始文本进行融合，得到所述多个视频帧图像对应的候选文本以及所述候选文本所对应的起始视频帧图像和结束视频帧图像；根据候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点。
104.其中，所述第一预设数量小于所述多个视频帧图像的总数量，例如可以为3或5等。
105.在对多个视频帧图像对应的第一文本串进行处理时，可以首先确定候选视频中字幕所对应的文本区域，这时，可以从候选视频或所述多个视频帧图像中随机抽取第一预设数量的视频帧图像，对第一预设数量的视频帧图像分别进行文本识别，并比较这些视频帧图像的文本识别结果，由于背景文字一般在整个视频或者多个连续视频帧图像中是相同的，所以两个或两个以上视频帧图像中较为相似的文本识别结果有可能是背景文字，将两个或两个以上视频帧图像中较为相似的文本识别结果去除，将剩余的文本识别结果中的文本候选区域确定为字幕所对应的文本区域。
106.在得到字幕所对应的文本区域后，从每个视频帧图像对应的第一文本串中分别提取所述文本区域所对应的第一文本串，得到每个视频帧图像对应的初始文本，比较多个视频帧图像对应的初始文本，如果连续的多个视频帧图像对应的初始文本相似，则融合所述连续的多个视频帧图像对应的初始文本，得到候选文本，并将连续的多个视频帧图像的第一帧视频帧图像确定为候选文本对应的起始视频帧图像，将连续的多个视频帧图像的最后一帧视频帧图像确定为候选文本对应的结束视频帧图像。一个候选视频的多个视频帧图像可以对应一个或多个候选文本。
107.确定候选文本所对应的起始视频帧图像在候选视频中的时间点，将该时间点确定
为候选文本所对应的起始时间点，并确定候选文本所对应的结束视频帧图像在候选视频中的时间点，将该时间点确定为候选文本所对应的结束时间点。
108.通过从候选视频或多个视频帧图像中抽取第一预设数量的视频帧图像，并根据这些视频帧图像的文本识别结果确定字幕所对应的文本区域，由于字幕所对应的文本区域可能位于视频帧图像的下方、上方、左侧或右侧等，从而基于对整个视频帧图像中的文本识别结果进行对比来确定字幕所对应的文本区域，可以得到较为准确的文本区域，从而基于文本区域可以过滤掉位于所述文本区域外的第一文本串，并得到较为准确的确实为字幕的初始文本，而且对多个视频帧图像对应的初始文本进行融合，可以得到准确的候选文本以及准确的起始时间点和结束时间点。
109.在一个示例性实施例中，根据所述第一预设数量的视频帧图像的文本识别结果，确定字幕所对应的文本区域，包括：分别对所述第一预设数量的视频帧图像进行文本识别，得到每个视频帧图像对应的第二文本串和与第二文本串对应的文本候选区域；确定每个视频帧图像对应的第二文本串的去重汉字集合；比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合，并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串，将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域。
110.分别对第一预设数量的视频帧图像进行文本识别，得到每个视频帧图像对应的第二文本串和与第二文本串对应的文本候选区域，对于每个第二文本串，分别确定去重汉字集合，对第一预设数量的视频帧图像中的去重汉字集合进行比较，如果一个视频帧图像的一个去重汉字集合与另一个视频帧图像的一个去重汉字集合的差值小于第一差值阈值，则删除这两个视频帧图像中的第二文本串，直至去重汉字集合的差值不小于第一差值阈值，将剩余的第二文本串所对应的文本候选区域确定为字幕所对应的文本区域。
111.由于不同候选视频中添加字幕的位置有多种，例如可以是在上方、中间位置或图片1/4处等等，即不同候选视频中字幕的位置通常是不固定的，而一个候选视频的字幕位置一般是固定的，因此通过对第二文本串对应去重汉字集合进行比较来确定字幕所对应的文本区域，可以动态的确定字幕文本区域，可以解决每个候选视频中字幕位置不同的问题，从而对于每个候选视频均可以确定准确的字幕文本区域，以提高提取的候选文本的准确性。
112.在一个示例性实施例中，比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合，并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串，将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域，包括：在所述第一预设数量的视频帧图像中，确定第一帧视频帧图像对应的第二文本串的去重汉字集合与第二帧视频帧图像对应的第二文本串的去重汉字集合的差值；删除所述差值小于第一差值阈值的第二文本串，将剩余的第二文本串确定为保留文本串，并将保留文本串所对应的文本候选区域确定为保留文本候选区域；所述剩余的第二文本串包括所述第一帧视频帧图像的剩余第二文本串和/或所述第二帧视频帧图像的剩余第二文本串；将所述保留文本串依次与所述第一预设数量的视频帧图像中每一帧其他视频帧图像中的第二文本串进行所述去重汉字集合的差值比较，将最后剩余的保留文本串所对应的保留文本候选区域确定为所述字幕所对应的文本区域。
113.假设第一预设数量为m，第一帧视频帧图像为x，第二帧视频帧图像为y，只需比较x和y中候选文本区域在同一位置的第二文本串，比如候选文本区域都是在下方，分别对x中
第k个第二文本串与y中的第k个第二文本串进行比较，如果abs(number(set(xk)-sex(yk)))《thu，则表示这两个视频帧图像对应的第k个文本候选区域内的文本是相似的，即有可能是背景文字，删除第k个文本候选区域，并删除x和y中对应的第二文本串，直至无法找到abs(number(set(xk)-sex(yk)))《thu的文本候选区域时停止查找，将剩余的第二文本串(可以是第一帧视频帧图像中的第二文本串，也可以是第二帧视频帧图像中的第二文本串)确定为保留文本串，并将保留文本串所对应的文本候选区域确定为保留文本候选区域。其中，set(xk)表示第一帧视频帧图像中第k个第二文本串的去重汉字集合，sex(yk)表示第二帧视频帧图像中第k个第二文本串的去重汉字集合，两者相减，可以得到两者的差异汉字集合，通过number计算可以得到对应的汉字数，并取abs，即取绝对值，得到的差值为一个数值。
114.接下来将保留文本串与第三帧视频帧图像中对应文本候选区域的第二文本串计算去重汉字集合的差值，如果差值小于第一差值阈值，则删除该保留文本串和第三种视频帧图像中对应的第二文本串，同时删除对应的文本候选区域，直至无法找到abs(number(set(xk)-sex(yk)))《thu的文本候选区域时停止查找，将剩余的保留文本串和/或第二文本串确定为新的保留文本串，并将新的保留文本串所对应的文本候选区域确定为新的保留文本候选区域。再使用新的保留文本串与后续的视频帧图像中的第二文本串进行去重汉字集合的差值的计算，直至比较完成所有的视频帧图像，将最后剩余的保留文本串所对应的保留文本候选区域确定为字幕所对应的文本区域。如果最后剩余的保留文本串的数量为两个或两个以上，可以从中选取一个作为最终的保留文本串，因为最后剩余的两个或两个以上的保留文本串所对应的候选文本区域基本相同。
115.通过比较各个视频帧图像中的第二文本串的去重汉字集合的差值，可以将相似的第二文本串所对应的文本候选区域删除，即过滤掉不是字幕的区域，最后的字幕所对应的文本区域较为准确，而且通过这种方式来确定字幕文本区域，可以适应各种位置的字幕，提高确定的字幕文本区域的准确性。
116.在一个示例性实施例中，对所述多个视频帧图像对应的初始文本进行融合，得到所述多个视频帧图像对应的候选文本以及所述候选文本所对应的起始视频帧图像和结束视频帧图像，包括：按照所述多个视频帧图像的顺序，若连续的视频帧图像中初始文本的去重汉字集合的差值小于第二差值阈值，则将所述连续的视频帧图像中的初始文本合并，得到候选文本；将所述连续的视频帧图像中的第一帧视频帧图像确定为所述候选文本所对应的起始视频帧图像，将所述连续的视频帧图像中的最后一帧视频帧图像确定为所述候选文本所对应的结束视频帧图像。
117.num为第二差值阈值，起始值i＝0,j＝1，n为候选视频的抽帧数，即多个视频帧图像的总数量，确定第i帧视频帧图像与第j帧视频帧图像中初始文本的去重汉字集合的差值，即确定abs(number(set(ki)-set(kj)))，set(ki)表示第i帧视频帧图像中初始文本的去重汉字集合，set(kj)表示第j帧视频帧图像中初始文本的去重汉字集合，number表示取数值，abs表示取绝对值，如果abs(number(set(ki)-set(kj)))《num，则合并ki和kj合并为ki，即合并第i帧视频帧图像中初始文本与第j帧视频帧图像中初始文本为第i帧视频帧图像中的初始文本，并记录起始视频帧图像的序号为i，结束视频帧图像的序号为j；之后j＝j+1，循环上述算法，直到abs(number(set(ki)-set(kj)))》＝num，得到第i帧视频帧图像至
第j帧视频帧图像之间的片段所对应的候选文本kij＝ki，和该片段的起始视频帧图像的序号i和结束视频帧图像的序号j；然后i＝j；j＝i+1，重复上述的算法，直到j＝n结束，得到所述多个视频帧图像对应的一个或多个候选文本，以及每个候选文本所对应的起始视频帧图像和结束视频帧图像。
118.通过在连续的视频帧图像中初始文本的去重汉字集合的差值小于第二差值阈值时，合并该连续的视频帧图像中的初始文本，得到候选文本，可以较好的适用于抽帧进行的文本识别中，因为相同文本视频画面抽帧进行文本识别后文本结果并不一定完全一致，而通过比较去重汉字集合的差值与第二差值阈值，可以较好的确定相似的文本，而且确定的起始视频帧图像和结束视频帧图像也比较准确，可以进一步提高标注数据的准确性。
119.在一个示例性实施例中，所述确定候选视频中的多个视频帧图像，包括：根据预设抽帧率，对候选视频进行抽帧，得到所述候选视频中的多个视频帧图像；
120.根据候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点，包括：根据所述预设抽帧率以及候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点。
121.在对候选视频进行抽帧时，可以以预设抽帧率进行抽帧，从而可以进行均匀的抽帧，这样在确定候选文本对应的起始时间点和结束时间点时，可以直接将起始视频帧图像的序号除以预设抽帧率，得到候选文本所对应的起始时间点，将结束视频帧图像的序号除以预设抽帧率，得到候选文本所对应的结束时间点。通过以预设抽帧率进行抽帧，并基于预设抽帧率确定候选文本所对应的起始时间点和结束时间点，可以确定较为准确的时间点，从而可以提取到相对应的音频数据，进一步提高标注数据的准确性。
122.在上述技术方案的基础上，在确定候选视频中的多个视频帧图像之前，还包括：对视频库中的目标视频抽取第二预设数量的视频帧图像，所述目标视频为所述视频库中的任一视频；若所述第二预设数量的视频帧图像中包括文字，则确定所述第二预设数量的视频帧图像所对应的视频为候选视频。
123.其中，所述第二预设数量小于所述多个视频帧图像的总数量，例如可以为3或5等。
124.从视频库中所具有的海量视频中筛选具有字幕的视频作为候选视频，在确定一个目标视频中是否具有字幕时，可以从该目标视频中抽取第二预设数量的视频帧图像，对第二预设数量的视频帧图像进行文本识别，如果确定有至少一个视频帧图像包括文字，则确定所述第二预设数量的视频帧图像所对应的目标视频为候选视频。通过从视频库海量的视频中筛选包括文字的视频作为候选视频，可以快速筛选出有可能包括字幕的视频，提高获取监督数据的效率。
125.图2是根据一示例性实施例示出的一种语音监督数据获取装置的框图。参照图2，该装置包括文本识别模块21、候选文本确定模块22、音频数据提取模块23、语音识别模块24和监督数据确定模块25。
126.该文本识别模块21被配置为执行确定候选视频中的多个视频帧图像，对所述多个视频帧图像进行文本识别，得到每个所述视频帧图像对应的第一文本串；
127.该候选文本确定模块22被配置为执行对所述多个视频帧图像对应的第一文本串进行处理，得到所述多个视频帧图像对应的候选文本，并确定与所述候选文本对应的起始时间点和结束时间点；
128.该音频数据提取模块23被配置为执行从所述候选视频的音频文件中提取所述起始时间点和结束时间点之间的音频数据，得到所述候选文本对应的音频数据；
129.该语音识别模块24被配置为执行对所述候选文本对应的音频数据进行语音识别，得到所述候选文本对应的识别文本；
130.该监督数据确定模块25被配置为执行根据所述候选文本和所述识别文本，确定所述音频数据对应的目标文本，并将所述目标文本确定为所述音频数据对应的标注数据。
131.可选的，所述候选文本确定模块包括：
132.抽帧单元，被配置为执行从所述候选视频或所述多个视频帧图像中抽取第一预设数量的视频帧图像；
133.字幕区域确定单元，被配置为执行根据所述第一预设数量的视频帧图像的文本识别结果，确定字幕所对应的文本区域；
134.初始文本提取单元，被配置为执行根据所述文本区域，从所述多个视频帧图像对应的第一文本串中分别提取所述文本区域所对应的第一文本串，得到所述多个视频帧图像分别对应的初始文本；
135.候选文本获取单元，被配置为执行对所述多个视频帧图像对应的初始文本进行融合，得到所述多个视频帧图像对应的候选文本以及所述候选文本所对应的起始视频帧图像和结束视频帧图像；
136.时间点确定单元，被配置为执行根据候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点。
137.可选的，所述字幕区域确定单元包括：
138.候选区域确定子单元，被配置为执行分别对所述第一预设数量的视频帧图像进行文本识别，得到每个视频帧图像对应的第二文本串和与第二文本串对应的文本候选区域；
139.汉字集合确定子单元，被配置为执行确定每个视频帧图像对应的第二文本串的去重汉字集合；
140.字幕区域确定子单元，被配置为执行比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合，并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串，将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域。
141.可选的，所述字幕区域确定子单元被配置为执行：
142.在所述第一预设数量的视频帧图像中，确定第一帧视频帧图像对应的第二文本串的去重汉字集合与第二帧视频帧图像对应的第二文本串的去重汉字集合的差值；
143.删除所述差值小于第一差值阈值的第二文本串，将剩余的第二文本串确定为保留文本串，并将保留文本串所对应的文本候选区域确定为保留文本候选区域；所述剩余的第二文本串包括所述第一帧视频帧图像的剩余第二文本串和/或所述第二帧视频帧图像的剩余第二文本串；
144.将所述保留文本串依次与所述第一预设数量的视频帧图像中每一帧其他视频帧图像中的第二文本串进行所述去重汉字集合的差值比较，将最后剩余的保留文本串所对应的保留文本候选区域确定为所述字幕所对应的文本区域。
145.可选的，所述候选文本获取单元被配置为执行：
146.按照所述多个视频帧图像的顺序，若连续的视频帧图像中初始文本的去重汉字集
合的差值小于第二差值阈值，则将所述连续的视频帧图像中的初始文本合并，得到候选文本；
147.将所述连续的视频帧图像中的第一帧视频帧图像确定为所述候选文本所对应的起始视频帧图像，将所述连续的视频帧图像中的最后一帧视频帧图像确定为所述候选文本所对应的结束视频帧图像。
148.可选的，所述文本识别模块包括：
149.候选视频抽帧单元，被配置为执行根据预设抽帧率，对候选视频进行抽帧，得到所述候选视频中的多个视频帧图像；
150.所述时间点确定单元被配置为执行：
151.根据所述预设抽帧率以及候选文本所对应的起始视频帧图像和结束视频帧图像，确定候选文本所对应的起始时间点和结束时间点。
152.可选的，所述装置还包括：
153.海量视频抽帧模块，被配置为执行对视频库中的目标视频抽取第二预设数量的视频帧图像，所述目标视频为所述视频库中的任一视频；
154.候选视频确定模块，被配置为执行若所述第二预设数量的视频帧图像中包括文字，则确定所述第二预设数量的视频帧图像所对应的视频为候选视频。
155.可选的，所述监督数据确定模块包括：
156.编辑距离确定单元，被配置为执行分别确定每个音频数据对应的候选文本与所述识别文本的最小编辑距离；
157.目标文本确定单元，被配置为执行将所述最小编辑距离小于预设阈值的音频数据所对应的候选文本确定为所述音频数据对应的目标文本。
158.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
159.图3是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备300可以被提供为一服务器。参照图3，电子设备300包括处理组件322，其进一步包括一个或多个处理器，以及由存储器332所代表的存储器资源，用于存储可由处理组件322的执行的指令，例如应用程序。存储器332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件322被配置为执行指令，以执行上述语音监督数据获取方法。
160.电子设备300还可以包括一个电源组件326被配置为执行电子设备300的电源管理，一个有线或无线网络接口350被配置为将电子设备300连接到网络，和一个输入输出(i/o)接口358。电子设备300可以操作基于存储在存储器332的操作系统，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm或类似。
161.在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器332，上述指令可由电子设备300的处理组件322执行以完成上述语音监督数据获取方法。可选地，计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
162.在示例性实施例中，还提供一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现上述的语音监督数据获取方法。
163.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其
它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
164.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曲贺单亚慧
技术所有人：北京达佳互联信息技术有限公司
我是此专利的发明人

上一篇：一种异质镁合金复合板的非对称挤压模具及实验方法
上一篇：一种用于全电动托盘堆垛车的电控总成的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。