话题检测方法、装置、电子设备及存储介质与流程

文档序号：29751180发布日期：2022-04-22 01:15阅读：263来源：国知局

1.本发明涉及音频处理技术领域，尤其涉及一种话题检测方法、装置、电子设备及存储介质。

背景技术：

2.随着人工智能技术快速发展，人工智能产品在生活中的渗透率越来越高，语音交互在智能家居、智能汽车、智能客服、电话/视频会议等场景下有着广泛的应用，自然也会造成信息的过剩与知识匮乏的矛盾日益突出。
3.传统的话题检测绝大多数基于纯文本进行处理，在对于文本话题检测中大多基于关键词，词元等处理对于真实语音通话语义及分布是不足的。所以，现有技术中对于语音进行的话题检测，都是先由独立的自动语音识别系统（automatic speech recognition，asr）转写成文字序列，再由独立的自然语言处理系统（natural language processing，nlp）接收asr系统的文字序列进行处理，可见，asr系统的性能严重影响nlp系统的最终检测结果，特别是在用户口音重，环境噪声大的情况下，导致对于语音的话题检测识别准确率不高。

技术实现要素：

4.本发明提供一种话题检测方法、装置、电子设备及存储介质，用以解决现有技术中对于语音数据的话题检测信息缺失过多的缺陷，实现在语音自动识别得到文本内容，并进行自然语言处理的同时，补入离散表征的语音内容进行话题检测，提高语音数据的话题检测的识别准确率。
5.本发明提供一种话题检测方法，包括：基于待检测的语音数据，获取目标语音块；输入所述目标语音块至话题检测模型，获得所述话题检测模型输出的检测结果；其中，所述话题检测模型是基于样本文本数据、所述样本文本数据对应的标注话题、样本语音数据以及所述样本语音数据对应的标注话题训练得到的；所述样本文本数据包括领域语料和通用语料；所述话题检测模型，用于对所述目标语音块进行语音识别，得到语音离散表征和文本内容，将所述文本内容的自然语言处理结果与所述语音离散表征融合后，进行话题检测，获取所述检测结果。
6.根据本发明提供的一种话题检测方法，所述话题检测模型包括语音识别层、主题词识别抽取层和话题检测层；其中，所述语音识别层用于对所述目标语音块进行语音识别；所述主题词识别抽取层用于对识别出的文本内容进行主题词抽取；所述话题检测层用于基于所述语音识别层和所述主题词识别抽取层的输出内容融合后，进行话题检测。
7.根据本发明提供的一种话题检测方法，所述输入所述目标语音块至话题检测模型，获得所述话题检测模型输出的检测结果，包括：
将所述目标语音块输入至所述语音识别层中，得到语音表征和文本表征；将所述文本表征输入至所述主题词识别抽取层中，得到主题词集；将所述语音表征、所述文本表征和所述主题词集输入至所述话题检测层中，得到检测结果。
8.根据本发明提供的一种话题检测方法，所述将所述目标语音块输入至所述语音识别层中，得到语音表征和文本表征，包括：分别利用第一语言模型和第二语言模型，结合声学模型对所述目标语音块进行量化操作，获取第一语音表征和第二语音表征；分别利用所述第一语言模型和所述第二语言模型，结合声学模型对所述目标语音块分别进行文本识别转换，获取对应的第一文本表征和第二文本表征；其中，所述第一语言模型是基于所述领域语料训练的语言模型和所述通用语料训练的语言模型融合得到，所述第二语言模型是基于所述领域语料的音节训练的语言模型和所述通用语料的音节训练的语言模型融合得到。
9.根据本发明提供的一种话题检测方法，所述将所述文本表征输入至所述主题词识别抽取层中，得到主题词集，包括：将所述第一文本表征和所述第二文本表征，分别进行主题词的识别抽取，并合并成主题词集；接收用户输入的主题文本，并将所述主题文本添加至所述主题词集中。
10.根据本发明提供的一种话题检测方法，所述第一文本表征包括第一目标表征和第一候选表征，所述第二文本表征包括第二目标表征和第二候选表征。
11.根据本发明提供的一种话题检测方法，所述将所述语音表征、所述文本表征和所述主题词集输入至所述话题检测层中，得到检测结果，包括：将所述第一语音表征和所述第二语音表征，以及所述第一目标表征、所述第一候选表征、所述第二目标表征、所述第二候选表征和所述主题词集输入至所述话题检测层中，进行话题检测，获取所述检测结果。
12.本发明还提供一种话题检测装置，包括：语音分块模块，用于基于待检测的语音数据，获取目标语音块；话题检测模块，输入所述目标语音块至话题检测模型，获得所述话题检测模型输出的检测结果；其中，所述话题检测模型是基于样本文本数据、所述样本文本数据对应的标注话题、样本语音数据以及所述样本语音数据对应的标注话题训练得到的；所述样本文本数据包括领域语料和通用语料；所述话题检测模型，用于对所述目标语音块进行语音识别，得到语音离散表征和文本内容，将所述文本内容的自然语言处理结果与所述语音离散表征融合后，进行话题检测，获取所述检测结果。
13.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述话题检测方法。
14.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述话题检测方法。
15.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述话题检测方法。
16.本发明提供的话题检测方法、装置、电子设备及存储介质，基于待检测的语音数据生成目标语音块，通过将目标语音块输入至话题检测模型进行优化处理，通过对目标语音块进行自动语音识别后，获得对应的语音离散表征与文本内容，通过对文本内容进行自然语言处理后，融合语音离散表征进行话题检测。能够在进行语音自动识别得到文本内容，并进行自然语言处理的同时，补入语音离散表征信息，避免语音信息丢失，在一定程度上提高话题检测的识别准确率。
附图说明
17.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1是本发明提供的话题检测方法的流程示意图；图2是本发明提供的话题检测装置的结构示意图；图3是本发明提供的电子设备的结构示意图。
具体实施方式
19.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
20.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。
21.应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
22.术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
23.图1是本发明提供的话题检测方法的流程示意图。如图1所示，本发明实施例提供的话题检测方法，包括：步骤101、基于待检测的语音数据，获取目标语音块。
24.需要说明的是，本发明实施例提供的话题检测方法的执行主体是话题检测装置。
25.本发明实施例提供的话题检测方法的应用场景为，众多企业、组织以语音或者视频的方式进行沟通，从大量的语音通话记录中结构化解析获取有效的话题知识，以供后续的审查和复盘。
26.本技术实施例提供的话题检测方法适用于用户通过电子设备对任一语音数据进行话题检测。
27.上述电子设备可以以各种形式来实施。例如，本技术实施例中描述的电子设备可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、pda（个人数字助理）、pad（平板电脑）、pmp（便携式多媒体播放器）、导航装置、智能手环、智能手边、数码相机等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。下面，假设电子设备是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本技术实施例的构造也能够应用于固定类型的终端。
28.具体地，在步骤101中，话题检测装置根据预设区间，对待检测的语音数据进行切分块，获取目标语音块。
29.步骤102、输入目标语音块至话题检测模型，获得话题检测模型输出的检测结果。
30.其中，话题检测模型是基于样本文本数据、样本文本数据对应的标注话题、样本语音数据以及样本语音数据对应的标注话题训练得到的。样本文本数据包括领域语料和通用语料。
31.话题检测模型，用于对目标语音块进行语音识别，得到语音离散表征和文本内容，将文本内容的自然语言处理结果与语音离散表征融合后，进行话题检测，获取检测结果。
32.需要说明的是，话题检测模型是基于样本文本数据、预先对样本文本数据标注出的话题、样本语音数据以及预先对样本语音数据标注出的话题，进行语义融合后生成总样本进行训练后得到。
33.话题检测模型可以是一种人工智能模型，本发明实施例对模型类型不作具体限定。
34.例如，话题检测模型可以是一种神经网络模型，由输入层、隐藏层和输出层组成。其中，隐藏层至少包含asr模块和nlp模块，由asr模块对进行语音进行处理，获取其对应的离散表征和文本内容，再由nlp模块对文本内容初步抽取出主题词，最后，由语音数据的离散表征、识别出的文本内容以及主题词融合后，进行话题检测。
35.需要说明的是，样本数据包含与样本数据对应的样本语音数据和样本文本数据以及对应的标注内容。将样本数据划分为训练集和测试集，本发明实施例对训练集和测试集的样本内容和比例不作具体限定。
36.优选地，样本文本数据包含领域语料和通用语料，以及多个主观个体进行人工标注出每个样本文本数据中包含的话题内容。
37.其中，领域语料，是指领域问题话术、知识库、faq、工单等具有强烈的行业特点的文本内容。
38.通用语料，是指覆盖常见各个领域文本内容。
39.样本语音数据则包含语音语料，以及多个主观个体进行人工标注出每个语音语料中包含的话题内容。
40.具体地，在步骤102中，话题检测装置根据训练好的模型参数，对话题检测模型进行设置后，通过该模型对步骤101生成目语音块进行话题检测，可以得到与待检测的目标语音块对应的检测结果。
41.检测结果可以是一个概率值组合或者关键词文本内容，本发明实施例对检测结果
的形式不作具体限定。
42.若检测结果可以是一个概率值组合，则可以通过每一个概率值说明目标语音块存在某一关键词的概率。
43.若话题检测结果可以是一个关键词文本内容，则可以通过模型获取一个中间数值结果，将数值结果符合预先设置的判断条件，则为该数值结果为对应的目标语音块分配的关键词文本内容。
44.例如，通过话题检测模型获取一个中间数值结果，用于表征目标语音块存在某一个关键词的概率。根据预先设置的判断条件，当该概率大于预设阈值，则生成用于表达该目标语音块为存在该关键词的标签说明，并将该标签对应的管检测文本内容赋予该目标语音块。
45.对于语音数据的话题检测，通常先利用独立的asr系统将语音数据转化为对应的文本数据，然后再由独立的nlp系统对文本数据进行话题检测。
46.而本技术则是利用话题检测模型内置的asr处理系统将语音数据转化为对应的离散表征和文本数据，继而由nlp处理系统对asr输出的文本数据抽取出主题词，并将抽取出的主题词融合语音数据的离散表征和文本数据拼接融合，作为话题检测的输入信息，能够使asr处理系统和nlp处理系统高度耦合，并将二者的处理的结果赋予丰富的语义信息，提升话题检测的准确性。
47.本发明实施例基于待检测的语音数据生成目标语音块，通过将目标语音块输入至话题检测模型进行优化处理，通过对目标语音块进行自动语音识别后，获得对应的语音离散表征与文本内容，通过对文本内容进行自然语言处理后，融合语音离散表征进行话题检测。能够在进行语音自动识别得到文本内容，并进行自然语言处理的同时，补入语音离散表征信息，避免语音信息丢失，在一定程度上提高话题检测的识别准确率。
48.在上述任一实施例的基础上，话题检测模型包括语音识别层、主题词识别抽取层和话题检测层。
49.其中，语音识别层用于对目标语音块进行语音识别。主题词识别抽取层用于对识别出的文本内容进行主题词抽取。话题检测层用于基于语音识别层和主题词识别抽取层的输出内容融合后，进行话题检测。
50.具体地，话题检测装置中内置的话题检测模型由输入层、隐藏层和输出层组成。其中：输入层在整个网络的最前端部分，直接接收步骤101中生成的目标语音块。
51.隐藏层的作用是对目标语音块进行自动语音识别，获取对应语音的离散表征和文本内容。将文本内容进行自然语言处理，将处理结果与语音的离散表征进行拼接融合，并进一步对融合好的信息进行话题检测，获取语音数据中包含话题的检测结果。
52.输出层是最后一层，输出关于目标语音块中包含话题的检测结果，根据不同的需求输出检测结果的类型，这个值可以是一个分类向量值，也可以是一个类似线性回归那样产生的连续的值，还可以是别的复杂类型的值或者向量，本发明实施例对此不作具体限定。
53.本发明实施例对隐藏层的结构不作具体限定。
54.优选地，隐藏层至少包含三层，分别是语音识别层、主题词识别抽取层和话题检测层。其中：
语音识别层的作用是，对目标语音块进行语音识别，获取其对应的离散表征和转写出的文字内容。
55.主题词识别抽取层的作用是，对语音识别层转写出的文字内容进行初步的主题抽取，将文本中包含的关键词存入至主题词集。
56.话题检测层的作用是，对语音识别层输出的语音离散表征和转写出的文字内容，以及主题词识别抽取层输出的主题词集进行融合，执行话题检测，获取语音中包含的关键词，即领域内的话题。
57.本发明实施例对话题检测模型的训练过程不作具体限定。
58.示例性地，训练话题检测模型的具体实施过程如下：（1）对领域专有名词，新词进行挖掘收集清洗，作为系统词典（即领域语料）一部分，以供后续识别使用。
59.（2）对领域问题话术、知识库、faq、工单等具有强烈的行业特点的历史文本数据清洗，作为领域语料。
60.（3）利用领域语料训练领域语言模型，并与内置的通用语言模型插值融合，生成第一语言模型 lm_word。
61.（4）将清洗后的领域语料与通用语料均转化为音节，分别作为训练集训练语言模型，并将训练得到的两个语言模型融合为第二语言模型lm_syllable。
62.（5）采用第一语言模型lm_word和第一语言模型lm_syllable并结合声学模型对样本语音数据进行量化操作，得到离散表征sl1和sl2。
63.（6）将样本文本数据m转化为音节s，并随机用同音词/相似词替换掉m中实体词，同时将替换掉后的文本记为j，将j转化为音节，记为k。
64.（7）将m、s、j、k量化得到文本表征ml。
65.（8）对文本表征ml，进行主题词抽取，将得到的所有主题词作为主题词集t。
66.（9）将得到的离散表征sl1、sl2、ml及主题词集t进行融合拼接，作为上游任务的输入，训练得到话题检测模型。
67.本发明实施例基于语音识别层对目标语音块进行语音识别，通过主题词识别抽取层对语音识别层输出的文本内容进行主题词抽取，通过话题检测层基于语音识别层输出的语音离散表征和文本内容，以及主题词识别抽取层对文本内容的抽取结果进行拼接融合后，进行话题检测。能够在进行语音自动识别得到文本内容，并进行自然语言处理的同时，补入语音离散表征信息，避免语音信息丢失，在一定程度上提高话题检测的识别准确率。
68.在上述任一实施例的基础上，输入目标语音块至话题检测模型，获得话题检测模型输出的检测结果，包括：将目标语音块输入至语音识别层中，得到语音表征和文本表征。
69.具体地，在步骤102中，话题检测模型的语音识别层接收步骤101中的目标语音块，进行量化得到离散的语音表征，并获取识别出的文本表征。
70.将文本表征输入至主题词识别抽取层中，得到主题词集。
71.具体地，话题检测模型的主题词识别抽取层接收语音识别层输出的文本表征，分别进行主题词的识别抽取，并合并成主题词集。
72.将语音表征、文本表征和主题词集输入至话题检测层中，得到检测结果。
73.具体地，话题检测模型的话题检测层接收语音识别层输出的语音表征和文本表
征，以及主题词识别抽取层输出的主题词集，并经由拼接融合后，进行话题检测，获取对应的检测结果。
74.本发明实施例基于语音识别层获取目标语音块对应的语音表征和文本表征，通过主题词识别抽取层对文本表征进行主题词抽取出主题词集，通过话题检测层将语音表征、文本表征和主题词集进行拼接融合后，进行话题检测。能够在进行语音自动识别得到文本内容，并进行自然语言处理的同时，补入语音离散表征信息，避免语音信息丢失，在一定程度上提高话题检测的识别准确率。
75.在上述任一实施例的基础上，将目标语音块输入至语音识别层中，得到语音表征和文本表征，包括：分别利用第一语言模型和第二语言模型，结合声学模型对目标语音块进行量化操作，获取第一语音表征和第二语音表征。
76.其中，第一语言模型是基于领域语料训练的语言模型和通用语料训练的语言模型融合得到，第二语言模型是基于领域语料的音节训练的语言模型和通用语料的音节训练的语言模型融合得到。
77.需要说明的是，第一语言模型，是将利用领域语料训练出的领域语言模型，与内置的通用语言模型（或者利用通用语料训练出的通用语言模型）进行插值融合生成的。
78.第一语言模型用于执行语音到文本的转换。
79.第二语言模型，是将利用领域语料所转换的音节训练出的语言模型，与利用通用语料所转换的音节训练出的语言模型，进行插值融合生成的。
80.第二语言模型用于执行语音到音节的转换。
81.具体地，在语音识别层的处理过程中，话题检测装置采用第一语言模型结合声学模型对目标语音块进行量化操作操作，获取离散化的第一语音表征。同理，采用第二语言模型结合声学模型对目标语音块进行量化操作操作，获取离散化的第二语音表征。
82.第一语音表征，是指在语音转换文本的过程中，目标语音块对应的离散表征。示例性地，以上述模型训练过程为示例，第一语音表征为sl1。
83.第二语音表征，是指在语音转换音节的过程中，目标语音块对应的离散表征。示例性地，以上述模型训练过程为示例，第二语音表征为sl2。
84.分别利用第一语言模型和第二语言模型，结合声学模型对目标语音块分别进行文本识别转换，获取对应的第一文本表征和第二文本表征。
85.具体地，在语音识别层采用第一语言模型和第二语言模型，分别结合声学模型进行处理的过程中，对目标语音块进一步的识别处理，得到目标语音块对应的第一文本表征和第二文本表征。
86.第一文本表征，是指语音转换文本的转换结果，即目标语音块对应的文本内容。
87.第二文本表征，是指语音转换音节的转换结果，即目标语音块对应的音节内容。示例性地，以上述模型训练过程为示例，第一文本表征和第二文本表征可以组成ml，以供主题词识别抽取层对其进行主题抽取。
88.本发明实施例基于语音识别层中内置的第一语言模型、第二语言模型，分别结合声学模型进行处理，获取目标语音块对应的第一语音表征和第一文本表征，以及第二语音表征和第二文本表征。能够在进行语音自动识别得到文本内容，并兼顾其语音结构，避免语音识别过程中的信息丢失，进而，能够提高话题检测的识别准确率。
89.在上述任一实施例的基础上，将文本表征输入至主题词识别抽取层中，得到主题词集，包括：将第一文本表征和第二文本表征，分别进行主题词的识别抽取，并合并成主题词集。
90.具体地，在主题词识别抽取层的处理过程中，话题检测装置将语音识别层输出的目标语音块对应的第一文本表征和第二文本表征拼接融合，进行主题词汇的抽取，将提取数据的主要特征分量（即主题词）添加至该目标语音块对应的主题词集中。
91.主题词抽取的算法包括但不限于概率潜在语义分析（probabilistic latent semantic analysis，plsa）、潜在狄利克雷分配模型（latent dirichlet allocation，lda）、潜在语义分析（latent semantic analysis，lsa）等主题模型算法。
92.接收用户输入的主题文本，并将主题文本添加至主题词集中。
93.具体地，在主题词识别抽取层获取主题词集后，还可以接收用户所输入信息，并将从输入信息中提取的主题文本，添加至主题词集中。
94.本发明实施例对人为扩充主题词集的方式不作具体限定。
95.可选地，用户可以输入自定义的主题文本，并将其作为种子词集添加至主题词集中。
96.可选地，用户可以根据任务需求确定主题，并将该主题对应的主题词集作为种子词集，添加至主题词集中。
97.可以理解的是，还可以依据领域内实时更新的话题话术，经由清洗后扩充至样本文本数据中的通用语料中，作为条件反馈重新训练话题检测模型，使其形成闭环，以增加可检测到的话题类型，不断提升模型性能。
98.本发明实施例基于主题词识别抽取层对融合好的第一文本表征和第二文本表征，进行特征提取，生成主题词集。并通过接收用户输入，扩充主题词集及主题文本。能够提高话题检测的广度和识别准确率。
99.在上述任一实施例的基础上，第一文本表征包括第一目标表征和第一候选表征，第二文本表征包括第二目标表征和第二候选表征。
100.具体地，在语音识别层采用第一语言模型结合声学模型进行处理的过程中，对目标语音块进一步的识别处理，得到的第一文本表征包括一个第一目标表征和多个第一候选表征。
101.其中，第一目标表征，是指由语音转换成文本的最优识别结果。
102.第一候选表征，是指语音转换成文本的次优识别结果，以作为候选识别结果，以避免最优识别结果是由于环境因素误导识别得出。
103.同样地，在语音识别层采用第二语言模型结合声学模型进行处理的过程中，对目标语音块进一步的识别处理，得到的第二文本表征包括一个第二目标表征和多个第二候选表征。
104.其中，第二目标表征，是指由语音转换成音节的最优识别结果。
105.第一候选表征，是指语音转换成音节的次优识别结果，以作为候选识别结果，以避免最优识别结果是由于环境因素误导识别得出。
106.示例性地，以目标语音块所对应的用户描述为“我想买部手机，请问有什么新机”为示例，下面给出一种语音识别层的具体实施过程：
将目标语音块通过语音识别层内置的第一语言模型lm_word结合声学模型进行识别，获取一个第一目标表征r1和多个第一候选表征m1，其中：r1：请问有哪些种类的人身保险m1: 请问有哪些种类的人身保险请问有哪些种类的人参保鲜请问有哪些种类的人身报险对应地，将目标语音块通过语音识别层内置的第二语言模型lm_syllable结合声学模型进行识别，获取一个第二目标表征r2和多个第二候选表征m2，其中：r2: qing|wen|you|na|xie|ren|shen|bao|xianm2: qing|wen|you|na|xie|ren|shen|bao|xianqing|wen|you|na|xie|ren|shen|tou|xianqin|wen|you|na|xie|ren|shen|bao|xian本发明实施例基于语音识别层输出最优的第一目标表征和第二目标表征，以及多个作为备选的第一候选表征和第二候选表征，以供主题词识别抽取层结合语音识别层丰富的输出结果进行全面的主题词提取，进而，能够提高话题检测的广度和识别准确率。
107.在上述任一实施例的基础上，将语音表征、文本表征和主题词集输入至话题检测层中，得到检测结果，包括：将第一语音表征和第二语音表征，以及第一目标表征、第一候选表征、第二目标表征、第二候选表征和主题词集输入至话题检测层中，进行话题检测，获取检测结果。
108.具体地，在话题检测层的处理过程中，话题检测装置将语音识别层对目标语音块量化出的第一语音表征、第二语音表征，以及语音识别出的第一目标表征、第一候选表征、第二目标表征、第二候选表征，结合主题词识别抽取层输出的主题词集进行拼接融合后，作为话题检测层的输入信息，进行话题检测，将检测到的关键词作为检测结果。
109.本发明实施例基于话题检测层对语音识别层和主题词识别抽取层输出的第一语音表征、第二语音表征、第一目标表征、第一候选表征、第二目标表征、第二候选表征和主题词集进行融合后，以供话题检测层根据丰富的输入信息进行全面的话题检测，进而，能够提高话题检测的广度和识别准确率。
110.图2是本发明提供的话题检测装置的结构示意图。在上述任一实施例的基础上，如图2所示，该装置包括：语音分块模块210和话题检测模块220，其中：语音分块模块210，用于基于待检测的语音数据，获取目标语音块。
111.话题检测模块220，输入目标语音块至话题检测模型，获得话题检测模型输出的检测结果。
112.其中，话题检测模型是基于样本文本数据、样本文本数据对应的标注话题、样本语音数据以及样本语音数据对应的标注话题训练得到的。样本文本数据包括领域语料和通用语料。
113.话题检测模型，用于对目标语音块进行语音识别，得到语音离散表征和文本内容，将文本内容的自然语言处理结果与语音离散表征融合后，进行话题检测，获取检测结果。
114.具体地，语音分块模块210和话题检测模块220顺次电连接。
115.语音分块模块210根据预设区间，对待检测的语音数据进行切分块，获取目标语音
块。
116.话题检测模块220根据训练好的模型参数，对话题检测模型进行设置后，通过该模型对语音分块模块210生成目语音块进行话题检测，可以得到与待检测的目标语音块对应的检测结果。
117.可选地，话题检测模型包括语音识别层、主题词识别抽取层和话题检测层。
118.其中，语音识别层用于对目标语音块进行语音识别。主题词识别抽取层用于对识别出的文本内容进行主题词抽取。话题检测层用于基于语音识别层和主题词识别抽取层的输出内容融合后，进行话题检测。
119.可选地，话题检测模块220包括语音识别单元、自然语言处理单元和话题检测单元，其中：语音识别单元，用于将目标语音块输入至语音识别层中，得到语音表征和文本表征。
120.自然语言处理单元，用于将文本表征输入至主题词识别抽取层中，得到主题词集。
121.话题检测单元，用于将语音表征、文本表征和主题词集输入至话题检测层中，得到检测结果。
122.可选地，语音识别单元包括量化子单元和识别子单元，其中：量化子单元，用于分别利用第一语言模型和第二语言模型，结合声学模型对目标语音块进行量化操作，获取第一语音表征和第二语音表征。
123.识别子单元，用于分别利用第一语言模型和第二语言模型，结合声学模型对目标语音块分别进行文本识别转换，获取对应的第一文本表征和第二文本表征。
124.其中，第一语言模型是基于领域语料训练的语言模型和通用语料训练的语言模型融合得到，第二语言模型是基于领域语料的音节训练的语言模型和通用语料的音节训练的语言模型融合得到。
125.可选地，自然语言处理单元包括抽取子单元和扩充子单元，其中：抽取子单元，用于将第一文本表征和第二文本表征，分别进行主题词的识别抽取，并合并成主题词集。
126.扩充子单元，用于接收用户输入的主题文本，并将主题文本添加至主题词集中。
127.可选地，第一文本表征包括第一目标表征和第一候选表征，第二文本表征包括第二目标表征和第二候选表征。
128.可选地，话题检测单元具体用于，将第一语音表征和第二语音表征，以及第一目标表征、第一候选表征、第二目标表征、第二候选表征和主题词集输入至话题检测层中，进行话题检测，获取检测结果。
129.本发明实施例提供的话题检测装置，用于执行本发明上述话题检测方法，其实施方式与本发明提供的话题检测方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。
130.本发明实施例基于待检测的语音数据生成目标语音块，通过将目标语音块输入至话题检测模型进行优化处理，通过对目标语音块进行自动语音识别后，获得对应的语音离散表征与文本内容，通过对文本内容进行自然语言处理后，融合语音离散表征进行话题检测。能够在进行语音自动识别得到文本内容，并进行自然语言处理的同时，补入语音离散表
征信息，避免语音信息丢失，在一定程度上提高话题检测的识别准确率。
131.图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(communications interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行话题检测方法，该方法包括：基于待检测的语音数据，获取目标语音块；输入目标语音块至话题检测模型，获得话题检测模型输出的检测结果；其中，话题检测模型是基于样本文本数据、样本文本数据对应的标注话题、样本语音数据以及样本语音数据对应的标注话题训练得到的；样本文本数据包括领域语料和通用语料；话题检测模型，用于对目标语音块进行语音识别，得到语音离散表征和文本内容，将文本内容的自然语言处理结果与语音离散表征融合后，进行话题检测，获取检测结果。
132.此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。
133.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的话题检测方法，该方法包括：基于待检测的语音数据，获取目标语音块；输入目标语音块至话题检测模型，获得话题检测模型输出的检测结果；其中，话题检测模型是基于样本文本数据、样本文本数据对应的标注话题、样本语音数据以及样本语音数据对应的标注话题训练得到的；样本文本数据包括领域语料和通用语料；话题检测模型，用于对目标语音块进行语音识别，得到语音离散表征和文本内容，将文本内容的自然语言处理结果与语音离散表征融合后，进行话题检测，获取检测结果。
134.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的话题检测方法，该方法包括：基于待检测的语音数据，获取目标语音块；输入目标语音块至话题检测模型，获得话题检测模型输出的检测结果；其中，话题检测模型是基于样本文本数据、样本文本数据对应的标注话题、样本语音数据以及样本语音数据对应的标注话题训练得到的；样本文本数据包括领域语料和通用语料；话题检测模型，用于对目标语音块进行语音识别，得到语音离散表征和文本内容，将文本内容的自然语言处理结果与语音离散表征融合后，进行话题检测，获取检测结果。
135.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性
的劳动的情况下，即可以理解并实施。
136.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。
137.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘磊
技术所有人：北京沃丰时代数据科技有限公司
我是此专利的发明人