一种话语提取方法及装置与流程

文档序号：29972669发布日期：2022-05-11 11:44阅读：69来源：国知局

1.本技术涉及人工智能领域，可以用于金融领域，具体是一种话语提取方法及装置。

背景技术：

2.随着金融行业线上业务的发展，越来越多的金融机构通过在线或热线方式为自己的客户群体提供服务。这对金融机构客服人员的服务质量提出了较高要求，客服不但需要快速熟悉业务流程，还需要在接到客户问题时做出快速、准确的回复。为了达到上述要求，运维人员会在用户授权的前提下，尽可能收集整理一些优秀的接线话语提供给客服人员。但由运维人员通过人工方式对历史通话记录进行筛选，工作量极大，且效率极低。

技术实现要素：

3.针对现有技术中的问题，本技术提供一种话语提取方法及装置，能够对语音流片段进行话语分析得到优秀话语。
4.为解决上述技术问题，本技术提供以下技术方案：
5.第一方面，本技术提供一种话语提取方法，包括：
6.对预先获取的语音流片段进行语音识别，得到对应的对话文本；
7.对各所述对话文本进行语义特征提取，得到各所述对话文本的语义特征向量矩阵；
8.根据各所述语义特征向量矩阵对所述对话文本进行聚类，得到话语列表。
9.进一步地，所述对预先获取的语音流片段进行语音识别，得到对应的对话文本，包括：
10.对所述语音流片段进行语音特征提取，得到所述语音流片段的语音特征向量；
11.将所述语音特征向量输入声学语音模型进行语音识别，得到所述对话文本。
12.进一步地，所述对所述语音流片段进行语音特征提取，得到所述语音流片段的语音特征向量，包括：
13.确定所述语音流片段的声谱图；
14.对所述声谱图进行倒谱分析，得到所述语音特征向量。
15.进一步地，所述声学语音模型包括：声学模型及语音模型；所述将所述语音特征向量输入声学语音模型进行语音识别，得到所述对话文本，包括：
16.将所述语音特征向量输入所述声学模型，得到所述语音特征向量所对应的各单字；
17.将所述各单字输入所述语音模型，以对所述各单字进行修正，得到所述对话文本。
18.进一步地，所述对各所述对话文本进行语义特征提取，得到各所述对话文本的语义特征向量矩阵，包括：
19.筛选各所述对话文本，得到各所述对话文本对应的有效对话文本；
20.将各所述有效对话文本输入bert模型，以对各所述有效对话文本进行语义特征提
取，得到各所述对话文本的所述语义特征向量矩阵。
21.进一步地，所述根据各所述语义特征向量矩阵对所述对话文本进行聚类，得到话语列表，包括：
22.计算所述语义特征向量矩阵到各预设聚类中心的距离；
23.将所述语义特征向量矩阵纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
24.根据更新后的聚类中心生成所述话语列表。
25.进一步地，所述根据各所述语义特征向量矩阵对所述对话文本进行聚类，得到话语列表，包括：
26.提取各所述语义特征向量矩阵的首行向量；
27.计算所述首行向量到各预设聚类中心的距离；
28.将所述首行向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
29.根据更新后的聚类中心生成所述话语列表。
30.进一步地，所述根据各所述语义特征向量矩阵对所述对话文本进行聚类，得到话语列表，包括：
31.确定所述语义特征向量矩阵的各行向量的第一均值向量；
32.计算所述第一均值向量到各预设聚类中心的距离；
33.将所述第一均值向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
34.根据更新后的聚类中心生成所述话语列表。
35.进一步地，所述根据各所述语义特征向量矩阵对所述对话文本进行聚类，得到话语列表，包括：
36.对所述语义特征向量矩阵设置会话轮数列向量；
37.确定含所述会话轮数列向量的语义特征向量矩阵的第二均值向量；
38.计算所述第二均值向量到各预设聚类中心的距离；
39.将所述第二均值向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
40.根据更新后的聚类中心生成所述话语列表。
41.第二方面，本技术提供一种话语提取装置，包括：
42.对话文本生成单元，用于对预先获取的语音流片段进行语音识别，得到对应的对话文本；
43.语义向量提取单元，用于对各所述对话文本进行语义特征提取，得到各所述对话文本的语义特征向量矩阵；
44.话语列表生成单元，用于根据各所述语义特征向量矩阵对所述对话文本进行聚类，得到话语列表。
45.进一步地，所述对话文本生成单元，包括：
46.语音向量生成模块，用于对所述语音流片段进行语音特征提取，得到所述语音流片段的语音特征向量；
47.对话文本生成模块，用于将所述语音特征向量输入声学语音模型进行语音识别，得到所述对话文本。
48.进一步地，所述语音向量生成模块，包括：
49.声谱图生成子模块，用于确定所述语音流片段的声谱图；
50.语音向量生成子模块，用于对所述声谱图进行倒谱分析，得到所述语音特征向量。
51.进一步地，所述声学语音模型包括：声学模型及语音模型；所述对话文本生成模块，包括：
52.单字提取子模块，用于将所述语音特征向量输入所述声学模型，得到所述语音特征向量所对应的各单字；
53.单字修正子模块，用于将所述各单字输入所述语音模型，以对所述各单字进行修正，得到所述对话文本。
54.进一步地，所述语义向量提取单元，包括：
55.有效文本确定模块，用于筛选各所述对话文本，得到各所述对话文本对应的有效对话文本；
56.语义向量提取模块，用于将各所述有效对话文本输入bert模型，以对各所述有效对话文本进行语义特征提取，得到各所述对话文本的所述语义特征向量矩阵。
57.进一步地，所述话语列表生成单元，包括：
58.距离计算模块，用于计算所述语义特征向量矩阵到各预设聚类中心的距离；
59.中心更新模块，用于将所述语义特征向量矩阵纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
60.话语列表生成模块，用于根据更新后的聚类中心生成所述话语列表。
61.进一步地，所述话语列表生成单元，包括：
62.首行向量提取模块，用于提取各所述语义特征向量矩阵的首行向量；
63.所述距离计算模块，用于计算所述首行向量到各预设聚类中心的距离；
64.所述中心更新模块，用于将所述首行向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
65.所述话语列表生成模块，用于根据更新后的聚类中心生成所述话语列表。
66.进一步地，所述话语列表生成单元，包括：
67.第一均值向量确定模块，用于确定所述语义特征向量矩阵的各行向量的第一均值向量；
68.所述距离计算模块，用于计算所述第一均值向量到各预设聚类中心的距离；
69.所述中心更新模块，用于将所述第一均值向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
70.所述话语列表生成模块，用于根据更新后的聚类中心生成所述话语列表。
71.进一步地，所述话语列表生成单元，包括：
72.会话轮数确定模块，用于对所述语义特征向量矩阵设置会话轮数列向量；
73.第二均值向量确定模块，用于确定含所述会话轮数列向量的语义特征向量矩阵的第二均值向量；
74.所述距离计算模块，用于计算所述第二均值向量到各预设聚类中心的距离；
75.所述中心更新模块，用于将所述第二均值向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
76.所述话语列表生成模块，用于根据更新后的聚类中心生成所述话语列表。
77.第三方面，本技术提供一种电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述话语提取方法的步骤。
78.第四方面，本技术提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述话语提取方法的步骤。
79.针对现有技术中的问题，本技术提供的话语提取方法及装置，能够对语音流片段进行话语分析得到优秀话语，将客服语音中最具有代表性的优秀语音片段提取与整合后，提供给客服人员，从而大幅减轻人工识别优秀话语的投入，提升外呼坐席的工作效率，提升客户的满意度。
附图说明
80.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
81.图1为本技术实施例中话语提取方法的流程图；
82.图2为本技术实施例中得到对话文本的流程图之一；
83.图3为本技术实施例中语音特征向量的流程图；
84.图4为本技术实施例中得到对话文本的流程图之二；
85.图5为本技术实施例中语义特征向量矩阵的流程图；
86.图6为本技术实施例中得到话语列表的流程图之一；
87.图7为本技术实施例中得到话语列表的流程图之二；
88.图8为本技术实施例中得到话语列表的流程图之三；
89.图9为本技术实施例中得到话语列表的流程图之四；
90.图10为本技术实施例中话语提取装置的结构图；
91.图11为本技术实施例中对话文本生成单元的结构图；
92.图12为本技术实施例中语音向量生成模块的结构图；
93.图13为本技术实施例中对话文本生成模块的结构图；
94.图14为本技术实施例中语义向量提取单元的结构图；
95.图15为本技术实施例中话语列表生成单元的结构图之一；
96.图16为本技术实施例中话语列表生成单元的结构图之二；
97.图17为本技术实施例中话语列表生成单元的结构图之三；
98.图18为本技术实施例中话语列表生成单元的结构图之四；
99.图19为本技术实施例中的电子设备的结构示意图。
具体实施方式
100.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
101.需要说明的是，本技术提供的话语提取方法及装置，可用于金融领域，也可用于除金融领域之外的任意领域，本技术提供的话语提取方法及装置的应用领域不做限定。
102.一实施例中，参见图1，为了能够对语音流片段进行话语分析得到优秀话语，本技术提供一种话语提取方法，包括：
103.s101：对预先获取的语音流片段进行语音识别，得到对应的对话文本；
104.s102：对各对话文本进行语义特征提取，得到各对话文本的语义特征向量矩阵；
105.s103：根据各语义特征向量矩阵对对话文本进行聚类，得到话语列表。
106.可以理解的是，基于互联网技术的语音客户服务日益盛行，在呼叫中心或客服中心的工作岗位上往往会安排客服人员向客户提供语音服务。例如，在银行的信用卡中心，客服人员需通过电话或其他语音终端向客户提供金融产品介绍、咨询及售后回访等服务，也包括对客户的信用卡欠款进行催收等。
107.在充分了解客户需求或业务需求后，语音客服人员需不断对自身的服务话语进行改善，才能得当地运用沟通技巧，规范服务流程。因此，在此过程中如何高效地收集、整理历史客服过程中的优秀话语并提供给客服人员成为提升客服质量的关键。
108.在本技术实施例中，为了得到优秀话语的列表，需要首先获取历史客服过程中的语音流片段，然后对这些语音流片段进行语音识别及语义特征提取，最后进行聚类分析，得到每个聚类中的优秀话语，从而生成话语列表，提供给语音客服人员使用。语音客服人员可以根据上述话语列表找到适合自己的业务场景所使用的优秀话语。这些语音流片段的来源可以是历史客服过程中的录音，也可以是坐席客服与客户实时进行的语音通话。上述每个聚类可以对应一个业务场景，但本技术不以此为限。
109.需要说明的是，本技术所涉及的用户信息(包括但不限于用户语音信息、用户设备信息及用户个人信息)及数据(包括但不限于展示的数据及分析的数据)，均为经用户授权或由其他各方充分授权的信息及数据；对应的，本技术还提供有用户授权入口，供用户选择授权或选择拒绝授权。
110.从上述描述可知，本技术提供的话语提取方法，能够对语音流片段进行话语分析得到优秀话语，将客服语音中最具有代表性的优秀语音片段提取与整合后，提供给客服人员，从而大幅减轻人工识别优秀话语的投入，提升外呼坐席的工作效率，提升客户的满意度。
111.一实施例中，参见图2，对预先获取的语音流片段进行语音识别，得到对应的对话文本，包括：
112.s201：对语音流片段进行语音特征提取，得到语音流片段的语音特征向量；
113.s202：将语音特征向量输入声学语音模型进行语音识别，得到对话文本。
114.可以理解的是，为了对语音流片段进行语音识别，得到对应的对话文本；本技术实施例可以利用语音识别技术，将语音内容转换为文本。
115.具体地，语音流片段可以包括实时通话语音流及离线录音文件。在对输入的语音流片段进行前后端点检测(确定语音流片段的开始时间及结束时间)及降噪等预处理后，可以对语音流片段进行语音特征提取，得到语音流片段的语音特征向量。参见图3，进行语音特征提取的过程包括：确定语音流片段的声谱图(s301)；以及对声谱图进行倒谱分析，得到语音特征向量(s302)。其中，通过构建语音流片段的声谱图可以很好地确定语音流片段所包含的音素(phones)属性。同时，通过分析声谱的共振峰等参数可以识别出声音。其中，倒谱分析可以利用梅尔频率倒谱系数(mel-frequency cepstral coefficients，简称mfccs)的特征提取方法实现。
116.具体地，利用梅尔频率倒谱系数进行特征提取的方法可以包括：
117.①
先对语音流片段进行预加重、分帧及加窗处理。其中，预加重的作用是提升高频部分。对于通话语音中发声的部分，比如元音，其频谱中高频的能量在传播过程中有比较明显的衰减，因此采用预加重的方法对高频部分进行补偿。分帧的作用是将通话语音中的长内容转化为一帧一帧的片段，方便后续进行信息提取。加窗的作用是将语音分割成一个个的小片段，每次处理只关注每一片段内的内容，从而能够更加有效地提取有效特征。
118.②
对每一个短时分析窗，通过快速傅里叶变换(fft)得到对应的频谱；傅里叶变换的作用是将信号从时域映射到频域。
119.③
将上面的频谱通过mel滤波器组得到mel频谱；经过快速傅里叶变换后，可以得到各个频率分量的幅度，再将幅度平方就得到了各个频率分量的能量。人耳对不同频率的敏感程度不同，对低频比较敏感，对高频(例如，高于1000hz的频率)相对不敏感。为了模拟人耳的这种特性，将频率映射到梅尔频率。
120.④
在mel频谱上面进行倒谱分析(包括取对数运算、逆变换等)，其中，逆变换一般是通过dct离散余弦变换来实现，取dct后的第2个到第13个系数作为梅尔频率倒谱系数)。所获得的mel频率倒谱系数就是这帧语音的特征。
121.以上述方法得到语音特征向量之后，可以将语音特征向量输入声学语音模型进行语音识别，得到对话文本。具体地，参见图4，可以首先将语音特征向量输入声学模型，得到语音特征向量所对应的各单字(s401)；然后，将各单字输入语音模型，以对各单字进行修正，得到对话文本(s402)。其中，声学语音模型包括：声学模型及语音模型。典型的声学模型包括但不限于隐马尔可夫模型(hidden markov models，简称hmm)及深度神经网络模型。典型的语音模型包括但不限于n-gram模型。
122.具体地，假设s1，s2，s3...表示信息源发出的信号；o1，o2，o3...表示接受器接收到的信号。在通话语音识别过程中，接收到的语音信息为o1，o2，o3
…
，而本技术实施例中需要做的是根据这组信号推测客服人员或客户所表达的句子s1，s2，s3....。隐马尔可夫声学模型就是在所有可能的句子中找最有可能性的一个。用数学语言来描述，就是在已知o1，o2，o3...的情况下，求使得条件概率p(s1,s2,s3,...|o1,o2,o3....)达到最大值的那个句子s1,s2,s3,...
123.具体地，本技术实施例中在利用n-gram模型进行语音分析时，是将对话文本里面的内容按照字节进行大小为n的窗口滑动操作，形成长度为n的字节片段序列。每一个字节片段称为一个gram，对所有gram出现的频度进行统计，并且按照阈值进行过滤，形成关键的gram列表，根据前(n-1)个gram来预测第n个gram。在对话本文中，可以假设n＝3。
124.对于同一个单词或汉字，由于不同人的发音、语调、语速等各不相同，机器应尽可能识别出各种不同的人语音。而语音模型的作用则是调整声学模型所得到的不合逻辑的单词或单字，使识别结果更加正确通顺，使词序符合语言习惯，并反映其语义信息。经过复杂的声学模型和语音模型的处理，并识别对话的语境、断句等，最终可以得到对话文本。
125.以信用卡债务催收场景为例，录音文件包含两轨语音，分别记录客户与坐席客服的通话内容。在对两方的通话内容进行分离后，可以得到客户与坐席客服各自的对话文本，参见表1所示。
126.表1声学模型识别对话文本
[0127][0128][0129]
上述对话一共11轮，其中说话者n0是坐席，n1是客户。开始时间记录的是本轮对话距离对话开始的时间(单位：毫秒)。内容部分可以看到存在如下问题：第一，标点符号位置不准确；第二，存在部分识别错误，但基本上不影响理解。这些是经过声学模型识别后的结果。为了对上述识别内容进行进一步地优化，以使识别结果更加正确通顺，使词序符合语言习惯，并反映其语义信息，需要将其进一步输入语音模型，参见表2所示。
[0130]
表2语音模型识别对话文本
[0131][0132]
通过语音模型的进一步识别，可以最终得到较准确的对话文本。
[0133]
从上述描述可知，本技术提供的话语提取方法，能够对预先获取的语音流片段进行语音识别，得到对应的对话文本。
[0134]
一实施例中，参见图5，对各对话文本进行语义特征提取，得到各对话文本的语义特征向量矩阵，包括：
[0135]
s501：筛选各对话文本，得到各对话文本对应的有效对话文本；
[0136]
可以理解的是，为了得到各对话文本对应的有效对话文本，需要对对话文本进行筛选。所谓有效对话文本可以理解为去除了感叹词、无效词及标点符号等的对话文本。
[0137]
仍以信用卡债务催收场景下的语音文本为例，对原始的对话文本进行初步清洗与筛选，具体筛选规则可以如下：
[0138]
①
清除对话轮数小于5轮的通话；
[0139]
②
清除“嗯”、“吧”、“啊”、“哎”及“唉”等为没有实际含义的词汇；
[0140]
③
清除在文本语料库中词频小于3的词汇；
[0141]
④
清除单条文本字符长度小于5的对话内容以及单条文本字符长度大于200的对话内容。
[0142]
上述筛选规则仅作为举例，本技术不以此为限。
[0143]
s502：将各有效对话文本输入bert模型，以对各有效对话文本进行语义特征提取，得到各对话文本的语义特征向量矩阵。
[0144]
可以理解的是，对非规范化的文本数据内容进行特征提取，转化为规范化数据。本文使用bert模型进行文本编码。bert模型可以通过查询字向量表，将文本中的每个字转化为一维向量，作为bert模型输入量。模型是输出量则是该输入量对应的融合全文语义信息后的向量表示。也就是说，bert模型的输入量为文本，输出为8
×
768维的张量。
[0145][0146]
结合文本特征提取到的结构化数据，运用k-means聚类分析方法可以进行文本聚类分析。一实施例中，可以按照余弦距离将数据集中相对类似的(距离较短的)数据分到一类，差异性大的数据分到不同的类，使得同一个类内部的样本相似度高，不同类之间的样本差异性高。结合聚类分析结果，可以提取每一类中的关键词及主题语句。一实施例中，每个聚类的中心可以作为该类中最具代表性的优秀话语输出。
[0147]
具体实施时，参见图6，可以计算语义特征向量矩阵到各预设聚类中心的余弦距离(s601)；将语义特征向量矩阵纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心(s602)；根据更新后的聚类中心生成话语列表(s603)。具体的距离阈值可以根据实际需要进行设定。本技术实施例采用k-means聚类分析方法实现，但其他聚类方法也可以适用于本技术实施例。在聚类的过程中，可以迭代对聚类中心进行更新。
[0148]
具体实施时，考虑到首行向量可以表征语义特征向量矩阵绝大部分的信息，因此为了减少运算量，提高聚类效率，参见图7，可以提取各语义特征向量矩阵的首行向量(s701)，即取矩阵中的第一行[x
1,1 x
1,2
ꢀ…ꢀ
x
1,767 x
1,768
]作为特征进行输入；然后仅计算首行向量到各预设聚类中心的距离(s702)；将首行向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心(s703)；根据更新后的聚类中心生成话语列表(s704)。
[0149]
具体实施时，如考虑到利用首行向量来表征语义特征向量矩阵的绝大部分信息，会影响聚类效果，则在一更优的实施例中，参见图8，可以先确定语义特征向量矩阵的各行向量的第一均值向量(s801)；然后计算第一均值向量到各预设聚类中心的距离(s802)；将第一均值向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心(s803)；根据更新后的聚类中心生成话语列表(s804)。
[0150]
例如，对文本预处理后的bert词向量求平均，获得平均词向量，并结合平均词向量进行k-means聚类。即取矩阵中的8行数据的平均值作为特征进行输入。
[0151]
在一更优的实施例中，参见图9，还可以对语义特征向量矩阵设置会话轮数列向量(s901)，例如，语义特征向量矩阵对应的语音流片段所包含的会话轮数为11轮，则可以在原有的语义特征向量矩阵中增加一个列向量，表征会话轮数；确定含会话轮数列向量的语义特征向量矩阵的第二均值向量(s902)，其中，该第二均值向量包含了会话轮数列向量的信息，较第一均值向量而言，表意更加丰富；然后计算第二均值向量到各预设聚类中心的距离(s903)；最后，将第二均值向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚
类中心(s904)；根据更新后的聚类中心生成话语列表(s905)。
[0152]
例如，在增加了对话轮数列向量后，进行平均词向量的k-means聚类。即取矩阵中的8行数据的平均值作为特征进行输入，并加入该文本对应的对话轮数信息。
[0153]
从上述描述可知，本技术提供的话语提取方法，能够对各对话文本进行语义特征提取，得到各对话文本的语义特征向量矩阵。
[0154]
基于同一发明构思，本技术实施例还提供了一种话语提取装置，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由于话语提取装置解决问题的原理与话语提取方法相似，因此话语提取装置的实施可以参见基于软件性能基准确定方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
[0155]
一实施例中，参见图10，为了能够对语音流片段进行话语分析得到优秀话语，本技术提供一种话语提取方法，本技术提供一种话语提取装置，包括：对话文本生成单元1001、语义向量提取单元1002及话语列表生成单元1003。
[0156]
对话文本生成单元1001，用于对预先获取的语音流片段进行语音识别，得到对应的对话文本；
[0157]
语义向量提取单元1002，用于对各所述对话文本进行语义特征提取，得到各所述对话文本的语义特征向量矩阵；
[0158]
话语列表生成单元1003，用于根据各所述语义特征向量矩阵对所述对话文本进行聚类，得到话语列表。
[0159]
一实施例中，参见图11，所述对话文本生成单元1001，包括：语音向量生成模块1101及对话文本生成模块1102。
[0160]
语音向量生成模块1101，用于对所述语音流片段进行语音特征提取，得到所述语音流片段的语音特征向量；
[0161]
对话文本生成模块1102，用于将所述语音特征向量输入声学语音模型进行语音识别，得到所述对话文本。
[0162]
一实施例中，参见图12，所述语音向量生成模块1101，包括：声谱图生成子模块1201及语音向量生成子模块1202。
[0163]
声谱图生成子模块1201，用于确定所述语音流片段的声谱图；
[0164]
语音向量生成子模块1202，用于对所述声谱图进行倒谱分析，得到所述语音特征向量。
[0165]
一实施例中，参见图13，所述声学语音模型包括：声学模型及语音模型；所述对话文本生成模块1102，包括：单字提取子模块1301及单字修正子模块1302。
[0166]
单字提取子模块1301，用于将所述语音特征向量输入所述声学模型，得到所述语音特征向量所对应的各单字；
[0167]
单字修正子模块1302，用于将所述各单字输入所述语音模型，以对所述各单字进行修正，得到所述对话文本。
[0168]
一实施例中，参见图14，所述语义向量提取单元1002，包括：有效文本确定模块1401及语义向量提取模块1402。
[0169]
有效文本确定模块1401，用于筛选各所述对话文本，得到各所述对话文本对应的有效对话文本；
[0170]
语义向量提取模块1402，用于将各所述有效对话文本输入bert模型，以对各所述有效对话文本进行语义特征提取，得到各所述对话文本的所述语义特征向量矩阵。
[0171]
一实施例中，参见图15，所述话语列表生成单元1003，包括：距离计算模块1501、中心更新模块1502及话语列表生成模块1503。
[0172]
距离计算模块1501，用于计算所述语义特征向量矩阵到各预设聚类中心的距离；
[0173]
中心更新模块1502，用于将所述语义特征向量矩阵纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
[0174]
话语列表生成模块1503，用于根据更新后的聚类中心生成所述话语列表。
[0175]
一实施例中，参见图16，所述话语列表生成单元1003，包括：首行向量提取模块1601、所述距离计算模块1501、所述中心更新模块1502及所述话语列表生成模块1503。
[0176]
首行向量提取模块1601，用于提取各所述语义特征向量矩阵的首行向量；
[0177]
所述距离计算模块1501，用于计算所述首行向量到各预设聚类中心的距离；
[0178]
所述中心更新模块1502，用于将所述首行向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
[0179]
所述话语列表生成模块1503，用于根据更新后的聚类中心生成所述话语列表。
[0180]
一实施例中，参见图17，所述话语列表生成单元1003，包括：第一均值向量确定模块1701、所述距离计算模块1501、所述中心更新模块1502及所述话语列表生成模块1503。
[0181]
第一均值向量确定模块1701，用于确定所述语义特征向量矩阵的各行向量的第一均值向量；
[0182]
所述距离计算模块1501，用于计算所述第一均值向量到各预设聚类中心的距离；
[0183]
所述中心更新模块1502，用于将所述第一均值向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
[0184]
所述话语列表生成模块1503，用于根据更新后的聚类中心生成所述话语列表。
[0185]
一实施例中，参见图18，所述话语列表生成单元1003，包括：会话轮数确定模块1801、第二均值向量确定模块1802、所述距离计算模块1501、所述中心更新模块1502及所述话语列表生成模块1503。
[0186]
会话轮数确定模块1801，用于对所述语义特征向量矩阵设置会话轮数列向量；
[0187]
第二均值向量确定模块1802，用于确定含所述会话轮数列向量的语义特征向量矩阵的第二均值向量；
[0188]
所述距离计算模块1501，用于计算所述第二均值向量到各预设聚类中心的距离；
[0189]
所述中心更新模块1502，用于将所述第二均值向量纳入距离最近的聚类中心所对应的聚类，并更新该聚类的聚类中心；
[0190]
所述话语列表生成模块1503，用于根据更新后的聚类中心生成所述话语列表。
[0191]
从硬件层面来说，为了能够对语音流片段进行话语分析得到优秀话语，本技术提供一种话语提取方法，本技术提供一种用于实现所述话语提取方法中的全部或部分内容的
电子设备的实施例，所述电子设备具体包含有如下内容：
[0192]
处理器(processor)、存储器(memory)、通讯接口(communications interface)和总线；其中，所述处理器、存储器、通讯接口通过所述总线完成相互间的通讯；所述通讯接口用于实现所述话语提取装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输；该逻辑控制器可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该逻辑控制器可以参照实施例中的话语提取方法的实施例，以及话语提取装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。
[0193]
可以理解的是，所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(pda)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
[0194]
在实际应用中，话语提取方法的部分可以在如上述内容所述的电子设备侧执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本技术对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器。
[0195]
上述的客户端设备可以具有通讯模块(即通讯单元)，可以与远程的服务器进行通讯连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通讯链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。
[0196]
图19为本技术实施例的电子设备9600的系统构成的示意框图。如图19所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图19是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。
[0197]
一实施例中，话语提取方法功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：
[0198]
s101：对预先获取的语音流片段进行语音识别，得到对应的对话文本；
[0199]
s102：对各所述对话文本进行语义特征提取，得到各所述对话文本的语义特征向量矩阵；
[0200]
s103：根据各所述语义特征向量矩阵对所述对话文本进行聚类，得到话语列表。
[0201]
从上述描述可知，本技术提供的话语提取方法，能够对语音流片段进行话语分析得到优秀话语，将客服语音中最具有代表性的优秀语音片段提取与整合后，提供给客服人员，从而大幅减轻人工识别优秀话语的投入，提升外呼坐席的工作效率，提升客户的满意度。
[0202]
在另一个实施方式中，话语提取装置可以与中央处理器9100分开配置，例如可以将数据复合传输装置话语提取装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现话语提取方法的功能。
[0203]
如图19所示，该电子设备9600还可以包括：通讯模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图19中所示的所有部件；此外，电子设备9600还可以包括图19中没有示出的部件，可以参考现有
技术。
[0204]
如图19所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
[0205]
其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。
[0206]
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为lcd显示器，但并不限于此。
[0207]
该存储器9140可以是固态存储器，例如，只读存储器(rom)、随机存取存储器(ram)、sim卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为eprom等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
[0208]
存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通讯功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
[0209]
通讯模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通讯模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通讯终端的情况相同。
[0210]
基于不同的通讯技术，在同一电子设备中，可以设置有多个通讯模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通讯模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。
[0211]
本技术的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的话语提取方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的话语提取方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：
[0212]
s101：对预先获取的语音流片段进行语音识别，得到对应的对话文本；
[0213]
s102：对各所述对话文本进行语义特征提取，得到各所述对话文本的语义特征向量矩阵；
[0214]
s103：根据各所述语义特征向量矩阵对所述对话文本进行聚类，得到话语列表。
[0215]
从上述描述可知，本技术提供的话语提取方法，能够对语音流片段进行话语分析得到优秀话语，将客服语音中最具有代表性的优秀语音片段提取与整合后，提供给客服人员，从而大幅减轻人工识别优秀话语的投入，提升外呼坐席的工作效率，提升客户的满意度。
[0216]
本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0217]
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0218]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0219]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0220]
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴欢张珂欣郑安妮林慕云
技术所有人：中国工商银行股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。