一种语音生成方法及装置与流程

文档序号：25354651发布日期：2021-06-08 14:27阅读：136来源：国知局

1.本发明涉及计算机技术领域，更具体地说，涉及一种语音生成方法及装置。

背景技术：

2.随着科学技术的不断发展，包括智能音箱在内的智能设施已经逐渐在各行业中获得广泛使用，近几年国内酒店数量在急剧增加，面临着严峻的行业竞争压力。
3.在酒店面临严峻的行业竞争压力的情况下，如何使用智能音箱为住店客人提供更优质的服务，进而提升酒店形象与口碑是当前亟需解决的问题。

技术实现要素：

4.有鉴于此，本发明提供一种语音生成方法及装置，以实现利用智能音箱为住店客人提供更优质的服务，进而提升酒店形象与口碑为目的。
5.本发明第一方面公开一种语音生成方法，应用于智能音箱，所述方法包括：
6.获取客户发送的当前客需服务文本，并提取所述当前客需服务文本的客需语义信息；
7.将所述客需语义信息输入语义信息向量生成模型，利用所述语义信息向量生成模型对所述客需语义信息进行处理，得到客需语义信息向量，所述语义信息向量生成模型利用历史客需服务文本训练lstm神经网络得到；
8.将所述客需语义信息向量与预先构建的问候语义向量的拼接结果输入问候触发预测模型，利用所述问候触发预测模型对所述拼接结果进行问候触发概率预测，得到问候触发概率，所述问候触发预测模型利用所述历史客需服务文本的客需语义信息向量和所述预先构建的问候语义向量训练所述lstm神经网络得到；
9.若所述问候触发概率大于预设问候触发阈值，根据所述客需语义信息向量和所述预先构建的问候语义向量生成问候文本，并将所述问候文本转换成问候语音。
10.可选的，所述提取所述当前客需服务文本的客需语义信息，包括：
11.对所述当前客需服务文本进行分词处理，得到所述当前客需服务文本的词句；
12.对所述当前客需服务文本的词句进行向量化处理，得到客需语义信息。
13.可选的，所述根据客需语义信息向量和所述预先构建的问候语义向量生成问候文本，包括：
14.计算所述客需语义信息向量与预先构建的酒店语义信息向量库中每条酒店语义信息向量的第一相似度，所述预先构建的酒店语义信息向量库由多条所述酒店语义信息向量拼接得到；
15.计算所述客需语义信息向量与预先构建的环境语义信息向量库中每条环境语义信息向量的第二相似度，所述预先构建的环境语义信息向量库由多条所述环境语义信息向量拼接得到；
16.若各个所述第一相似度中存在大于第一阈值的目标第一相似度，且各个所述第二
相似度均不大于第二阈值，根据所述客需语义信息向量、所述酒店语义信息向量库和所述预先构建的问候语义向量生成问候文本；
17.若各个所述第二相似度中存在大于所述第二阈值的目标第二相似度，且各个所述第一相似度均不大于所述第一阈值，根据所述客需语义信息向量、所述环境语义信息向量库和所述预先构建的问候语义向量生成问候文本；
18.若各个所述第一相似度中存在大于第一阈值的目标第一相似度，且各个所述第二相似度中存在大于所述第二阈值的目标第二相似度，根据所述客需语义信息向量、所述酒店语义信息向量库、所述环境语义信息向量库和所述预先构建的问候语义向量生成问候文本。
19.可选的，所述根据所述客需语义信息向量、所述酒店语义信息向量库和所述预先构建的问候语义向量生成问候文本，包括：
20.将所述客需语义信息向量、所述酒店语义信息向量库和所述预先构建的问候语义向量进行拼接，得到第一拼接结果；
21.将所述第一拼接结果输入问候语音生成模型，利用所述问候文本生成模型对所述第一拼接结果进行处理，输出问候文本；
22.其中，所述问候文本生成模型利用所述历史客需服务文本和所述历史客需服务文本对应的历史问候文本训练基于lstm的seq2seq模型得到。
23.可选的，所述根据所述客需语义信息向量、所述环境语义信息向量库和所述预先构建的问候语义向量生成问候文本，包括：
24.将所述客需语义信息向量、所述预先构建的环境语义信息向量库和所述预先构建的问候语义向量进行拼接，得到第二拼接结果；
25.将所述第二拼接结果输入所述问候文本生成模型，利用所述问候文本生成模型对所述第二拼接结果进行处理，输出问候文本。
26.可选的，所述根据所述客需语义信息向量、所述酒店语义信息向量库、所述环境语义信息向量库和所述预先构建的问候语义向量生成问候文本，包括：
27.将所述客需语义信息向量、所述酒店语义信息向量库、所述环境语义信息向量库和所述预先构建的问候语义向量进行拼接，得到第三拼接结果；
28.将所述第三拼接结果输入所述问候文本生成模型，利用所述问候文本生成模型对所述第三拼接结果进行处理，输出问候文本。
29.可选的，所述预先构建的问候语义向量的过程，包括：
30.获取多个历史问候类型文本和最近历史问候文本；
31.提取每个所述历史问候类型文本的历史语义信息，以及所述历史问候文本的语义信息；
32.将多个所述历史问候类型文本以及所述历史问候文本的语义信息输入所述语义信息向量生成模型，利用所述语义信息向量生成模型分别对每个所述历史问候类型文本以及历史问候文本的语义信息进行处理，得到每个所述历史问候类型文本的语义向量和所述历史问候文本的语义向量；
33.将多个所述历史问候类型文本的语义向量和所述历史问候文本的语义向量进行拼接，得到所述问候语义向量。
34.可选的，所述预先构建的酒店语义信息向量库的过程，包括：
35.获取所述预先设置的多条酒店信息，并提取每条所述酒店信息的酒店语义信息；
36.将多条所述酒店语义信息输入所述语义信息向量生成模型，利用所述语义信息向量生成模型分别对每条所述酒店语义信息进行处理，得到每条所述酒店语义信息的酒店语义信息向量；
37.将每条所述酒店语义信息向量进行拼接，得到酒店语义信息向量库。
38.可选的，所述预先构建的环境语义信息向量库的过程，包括：
39.获取预先设置的每个环境问候类型相关的当前环境信息，并提取每个所述环境问候类型的当前环境信息的环境语义信息；
40.将每条所述环境语义信息输入所述语义信息向量生成模型，得到每条所述环境语义信息的环境语义信息向量；
41.将每条所述环境语义信息向量进行拼接，得到环境语义信息向量库。
42.本发明第二方面公开一种语音生成装置，应用于智能音箱，所述装置包括：
43.第一获取单元，用于获取客户发送的当前客需服务文本，并提取所述当前客需服务文本的客需语义信息；
44.第一处理单元，用于将所述客需语义信息输入语义信息向量生成模型，利用所述语义信息向量生成模型对所述客需语义信息进行处理，得到客需语义信息向量，所述语义信息向量生成模型利用历史客需服务文本训练lstm神经网络得到；
45.问候触发概率预测单元，用于将所述客需语义信息向量与预先构建的问候语义向量的拼接结果输入问候触发模型，利用所述问候触发预测模型对所述拼接结果进行问候触发概率预测，得到问候触发概率，所述问候触发预测模型利用所述历史客需服务文本的客需语义信息向量和所述预先构建的问候语义向量训练所述lstm神经网络得到；
46.第一生成单元，用于若所述问候触发概率大于预设问候触发阈值，根据所述客需语义信息向量和所述预先构建的问候语义向量生成问候文本，并将所述问候文本转换成问候语音。
47.本发明提供一种语音生成方法及装置，应用于智能音箱，预先在智能音箱中集成了语义信息向量生成模型和问候触发预测模型，在获取到客户发送的当前客需服务问候后，将从该当前客需服务文本提取到的客需语义信息输入语义信息向量生成模型，以便语义信息向量生成模型对输入的客需语义信息进行处理，输出客需语义信息向量，进而将客需语义信息向量与预先构建的问候语义向量的拼接结果输入问候触发预测模型，以便问候触发预测模型根据输入的拼接结果进行问候触发概率预测，输出问候触发概率，并在问候触发概率大于预设的问候触发阈值的情况下，根据客需语义信息向量和预先构建的问候语义向量生成问候文本，将该问候文本转换成问候语音，并根据转换成的问候语音向客户发起问候。本发明提供的技术方案，能够根据客户发送的客需服务文本生成满足客户需求的问候语音，提高客户的体验，从而提升酒店形象与口碑。
附图说明
48.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
49.图1为本发明实施例提供的一种语音生成方法的流程示意图；
50.图2为本发明实施例提供的一种根据客需语义信息向量和预先构建的问候语义向量生成问候文本的方法的流程示意图；
51.图3为本发明实施例提供的一种语音生成装置的结构示意图。
具体实施方式
52.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
53.在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
54.参见图1，示出了本发明实施例提供的一种语音生成方法的流程示意图，该语音生成方法应用于智能音箱，该语音生成方法具体包括以下步骤：
55.s101：获取客户发送的当前客需服务文本，并提取当前客需服务文本的客需语义信息。
56.在具体执行步骤s101的过程中，客户可以对智能音箱口述或者点击智能音箱上预先设置的客需服务记录文本，来向智能音箱发送当前客需服务文本，智能音箱在获取到客户发送的当前客需服务文本后，对所获取到的当前客需服务文本进行分词处理，得到当前客需服务文本的词句，并对当前客需服务文本的词句进行向量化处理，得到当前客需服务文本的客需语义信息。
57.在本申请实施例中，可以采用基于最大匹配分词方法的词典对所获取到的当前客需服务文本进行分词处理，得到当前客需服务文本的词句可以为{w1，w2，...，w
max
}，其中，w为当前客需服务文本的词句中的词，max表示允许得到的当前客需服务文本的词句的最大长度，基于最大匹配分词方法的词典是利用人工标注的10万条客户对酒店的点评进行训练得到的。
58.将得到的当前客需服务文本的词句中每个词w映射成一个低维连续向量的客需语义信息，具体的，利用word2vec模型将得到的当前客需服务文本的词句{w1，w2，...，w
max
}中的每个词w进行表征，得到低维连续向量的客需语义信息为{d
w1
，d
w2
，...，d
wmax
}，其中，word2vec模型是一个可以将词转换成向量形式的转换工具。
59.需要说明的是，当前客需服务文本可以为“帮我叫服务员上来退房”，或者可以为“今天的天气怎么样”，或者可以为“酒店的早餐在哪吃”。
60.s102：将客需语义信息输入语义信息向量生成模型，利用语义信息向量生成模型对客需语义信息进行处理，得到客需语义信息向量。
61.在步骤s102中，收集之前在酒店居住过的客人使用智能音箱发送的客需服务文本，将收集的客需服务文本作为历史客需服务文本，提取历史客需服务文本的历史客需语义信息，并将提取到的历史客需语义信息输入待训练的lstm神经网络，以便待训练的lstm神经网络对输入的历史客需语义信息进行处理，以得到的历史客需语义信息向量趋近于该历史客需语义信息的目标历史客需语义信息向量为训练目标，对待训练的lstm神经网络进行训练，直至待训练的lstm神经网络收敛，得到语义信息向量生成模型。其中，提取历史客需服务文本的历史客需语义信息的方式与步骤s101中提取当前客需服务文本的客需语义信息的方式相同，可参见步骤s101中的相应部分，这里不再进行赘述。
62.在具体执行步骤s102的过程中，将得到当前客需服务文本的客需语义信息后，可以将得到的客需语义信息输入语义信息向量生成模型，以便语义信息向量生成模型对输入的客需语义信息进行处理，得到客需语义信息向量。
63.s103：将客需语义信息向量与预先构建的问候语义向量的拼接结果输入问候触发预测模型，利用问候触发预测模型对拼接结果进行问候触发概率预测，得到问候触发概率。
64.在步骤s103中，收集之前的客户在酒店居住的过程中，智能音箱发起的多个历史问候文本，酒店的技术人员可以根据收集的多个历史问候文本进行总结，得到多个历史问候类型文本。获取多个历史问候类型文本和最近历史问候文本，提取每个历史问候类型文本以及最近历史问候文本的语义信息为{greet1，greet2，...，greet
s
}。其中，{greet1，greet2，...，greet
s
‑1}分别为各个历史问候类型文本的语义信息，{greet
s
}为最近历史问候文本的语义信息。提取历史问候类型文本的语义信息以及最近历史问候文本的语义信息的方式与步骤s101中提取当前客需服务文本的客需语义信息的方式相同，可参见步骤s101中的相应部分，这里不再进行赘述。
65.将每个历史问候类型文本以及最近历史问候文本的语义信息{greet1，greet2，...，greet
s
}输入语义信息向量生成模型，以便语义信息向量生成模型分别对每个历史问候类型文本以及最近历史问候文本的语义信息{greet1，greet2，...，greet
s
}进行语义向量编码，得到每个历史问候类型文本以及最近历史问候文本当前时刻的隐状态{h1，h2，...，h
s
}。
66.针对每个历史问候类型文本以及最近历史问候文本而言，计算该历史问候类型文本的语义信息和当前时刻的隐状态的权重，以及计算最近历史问候文本的语义信息和当前时刻的隐状态的权重，以便根据该历史问候类型文本的权重计算该历史问候类型文本当前时刻的上文信息，根据该最近历史问候文本的权重计算该历史问候文本当前时刻的上文信息，并对该历史问候类型文本的上下文信息和语义信息进行解码，得到该历史问候类型文本的语义向量，以及对最近历史问候文本的上下文信息和语义信息进行解码，得到最近历史问候文本的语义向量。
67.将每个历史问候类型文本的语义向量和最近历史问候文本的语义向量进行拼接，得到问候语义向量。
68.其中，计算该历史问候类型文本的语义信息和当前时刻的隐状态的权重方式如公式(1)所示，根据该历史问候类型文本的权重计算该历史问候类型文本当前时刻的上文信息的方式如公式(2)所示。
[0069][0070][0071]
其中，为历史问候类型文本的语义信息和当前时刻的隐状态的权重，c
t
为历史问候类型文本当前时刻的上文信息，dot代表点成，d(h)代表历史问候类型文本当前时刻的隐状态的维度。
[0072]
需要说明的是，最近历史问候文本的语义信息和当前时刻的隐状态的权重的计算方式与历史问候类型文本的语义信息和当前时刻的隐状态的权重的计算方式相同，最近历史问候文本当前时刻的上文信息的计算方式与历史问候类型文本当前时刻的上文信息的计算方式相同，这里就不再进行赘述。
[0073]
需要说明的是，问候类型可以为天气预报、路况提醒、退房服务、早餐服务等等，其中，天气预报、路况提醒为环境问候类型；历史问候类型文本可以为“今天天气为晴”，或者为“餐厅在3楼”。
[0074]
在步骤s103中，获取历史客需服务文本，提取历史客需服务文本的历史客需语义信息，将提取出的历史客需语义信息输入语义信息向量生成模型，利用语义信息向量生成模型对输入的历史客需语义信息进行处理，得到历史客需语义信息向量；将历史客需语义信息向量与预先构建的问候语义向量进行拼接，并将拼接结果输入待训练的lstm神经网络，以便待训练的lstm神经网络根据输入的拼接结果进行问候触发概率预测，以得到的问候触发概率趋近于目标问候触发概率为训练目标，对待训练的lstm神经网络进行训练，直至待训练的lstm神经网络收敛，得到问候触发预测模型。
[0075]
在具体执行步骤s103的过程中，在利用语义信息向量生成模型对客需语义信息进行处理，得到客需语义信息向量后，将得到的客需语义信息向量与预先构建的问候语义向量进行拼接，并将客需语义信息向量与预先构建的问候语义向量的拼接结果输入问候触发预测模型，以便问候触发预测模型根据输入的客需语义信息向量与预先构建的问候语义向量的拼接结果进行问候概率预测，得到问候触发概率。
[0076]
s104：若问候触发概率大于预设问候触发阈值，根据客需语义信息向量和预先构建的问候语义向量生成问候文本，并将问候文本转换成问候语音。
[0077]
在具体执行步骤s104的过程中，预先设置有问候触发阈值，在利用问候触发预测模型根据输入的客需语义信息向量与预先构建的问候语义向量的拼接结果进行问候概率预测，得到问候触发概率后，判断得到的问候触发概率是否大于预先设置的问候触发阈值；在问候触发概率大于预先设置的问候触发阈值的情况下，根据客需语义信息向量和预先构建的问候语义向量生成问候文本，并将生成的问候文本转换成问候语音；若问候触发概率不大于预先设置的问候触发阈值，可以认为本次客户发送的当前客需服务文本不满足问候条件，结束本次流程。
[0078]
本发明提供一种语音生成方法，应用于智能音箱，预先在智能音箱中集成了语义信息向量生成模型和问候触发预测模型，在获取到客户发送的当前客需服务问候后，将从该当前客需服务文本提取到的客需语义信息输入语义信息向量生成模型，以便语义信息向量生成模型对输入的客需语义信息进行处理，输出客需语义信息向量，进而将客需语义信
息向量与预先构建的问候语义向量的拼接结果输入问候触发预测模型，以便问候触发预测模型根据输入的拼接结果进行问候触发概率预测，输出问候触发概率，并在问候触发概率大于预设的问候触发阈值的情况下，根据客需语义信息向量和预先构建的问候语义向量生成问候文本，将该问候文本转换成问候语音，并根据转换成的问候语音向客户发起问候。本发明提供的技术方案，能够根据客户发送的客需服务文本生成满足客户需求的问候语音，提高客户的体验，从而提升酒店形象与口碑。
[0079]
基于上述示出的语音生成方法，执行步骤s104根据客需语义信息向量和预先构建的问候语义向量生成问候文本的过程，如图2所示，具体包括以下步骤：
[0080]
s201：计算客需语义信息向量与预先构建的酒店语义信息向量库中每条酒店语义信息向量的第一相似度。
[0081]
在步骤s201中，预先设置有酒店知识库，预先设置的酒店知识库包括n条酒店信息，预先设置的酒店知识库中包含的n条酒店信息可以表示为{knowledge1，knowledge2，...，knowledge
n
}，每条酒店信息可以表示为{i，j，r}，代表实体i与实体j存在r关系，比如，实体i可以为餐厅，j可以为3楼，则r为餐厅位于3楼。其中，n大于1。
[0082]
针对每条酒店信息而言，提取该条酒店信息的酒店语义信息，具体的，采用基于最大匹配分词方法的词典该条酒店信息进行分词处理，得到该条酒店信息的词句可以表示为得到该条酒店信息的词句可以表示为利用word2vec模型将该条酒店信息的词句中的每个词进行表征，得到该条酒店信息的酒店语义信息。
[0083]
将多条酒店语义信息输入语义信息向量生成模型，以便语义信息向量生成模型分别对每条酒店语义信息进行处理，得到每条酒店语义信息的酒店语义信息向量k；将多条酒店语义信息向量进行拼接，得到酒店语义信息向量库k＝{k1，k2，...，k
n
}。
[0084]
在具体执行步骤s201的过程中，分别计算客需语义信息向量与预先构建的酒店语义信息向量库中每条酒店语义信息向量的相似度(为了便于区分，将客需语义信息向量与酒店语义信息向量的相似度称为第一相似度)，比如，计算客需语义信息向量与预先构建的酒店语义信息向量库中酒店语义信息向量k1的第一相似度，计算客需语义信息向量与预先构建的酒店语义信息向量库中酒店语义信息向量k2的第一相似度，...，计算客需语义信息向量与预先构建的酒店语义信息向量库中酒店语义信息向量k
n
的第一相似度。
[0085]
s202：计算客需语义信息向量与预先构建的环境语义信息向量库中每条环境语义信息向量的第二相似度。
[0086]
在步骤s202中，根据酒店的技术人员总结的多个历史问候类型文本可以确定酒店支持的多个环境问候类型，获取每个环境问候类型相关的当前环境信息。
[0087]
针对每条当前环境信息而言，提取该条当前环境信息的环境语义信息，具体的，采用基于最大匹配分词方法的词典该条当前环境信息进行分词处理，得到该条当前环境信息的词句可以表示为{m1，m2，...，m
max
}，利用word2vec模型将该条当前环境信息的词句中的每个词进行表征，得到该条当前环境信息的酒店语义信息。
[0088]
将多条环境语义信息输入语义信息向量生成模型，以便语义信息向量生成模型分别对每条环境语义信息进行处理，得到每条环境语义信息向量o；将多条环境语义信息向量进行拼接，得到环境语义信息向量库o＝{o1，o2，...，o
n
}。
[0089]
在具体执行步骤s202的过程中，分别计算客需语义信息向量与预先构建的环境语
义信息向量库中每条环境语义信息向量的相似度(为了便于区分，将客需语义信息向量与环境语义信息向量的相似度称为第二相似度)，比如，计算客需语义信息向量与预先构建的环境语义信息向量库中环境语义信息向量o1的第二相似度，计算客需语义信息向量与预先构建的环境语义信息向量库中环境语义信息向量o2的第二相似度，...，计算客需语义信息向量与预先构建的环境语义信息向量库中环境语义信息向量o
n
的第一相似度。
[0090]
s203：若各个第一相似度中存在大于第一阈值的目标第一相似度，且各个第二相似度均不大于第二阈值，根据客需语义信息向量、酒店语义信息向量库和预先构建的问候语义向量生成问候文本。
[0091]
在步骤s203中，预先设置有第一阈值和第二阈值，将计算得到的各个第一相似度分别与第一相似度进行比较，以及将计算得到的各个第二相似度分别与第二相似度进行比较，若各个第一相似度中存在大于第一阈值的目标第一相似度，则可以认为客户发送的当前客需服务文本与酒店相关；若各个第一相似度中不存在大于第一阈值的目标第一相似度，则可以认为客户发送的当前客需服务文本与酒店不相关；若各个第二相似度中存在大于第二阈值的目标第二相似度，则可以认为客户发送的当前客需服务文本与环境相关；若各个第二相似度中不存在大于第二阈值的目标第二相似度，则可以认为客户发送的当前客需服务文本与环境不相关。
[0092]
在步骤s203的过程中，获取历史客需服务文本和该历史客需服务文本对应的历史问候文本，提取历史客需服务文本的历史客需语义信息，将提取出的历史客需语义信息输入语义信息向量生成模型，利用语义信息向量生成模型对输入的历史客需语义信息进行处理，得到历史客需语义信息向量。
[0093]
分别计算历史客需语义信息向量与预先构建的酒店语义信息向量库中每条酒店语义信息向量的历史第一相似度，以及历史客需语义信息向量与预先构建的环境语义信息向量库中每条环境语义信息向量的历史第二相似度。若各个历史第一相似度中存在大于第一阈值的目标历史第一相似度，且各个历史第二相似度均不大于第二阈值，将历史客需语义信息向量、预先构建的酒店语义信息向量库和预先构建的问候语义向量的拼接结果输入待训练的基于lstm的seq2seq模型，以便待训练的基于lstm的seq2seq模型根据输入的拼接结果进行处理，以得到的问候文本趋近于目标历史问候文本为训练目标，对待训练的基于lstm的seq2seq模型进行训练，直至待训练的基于lstm的seq2seq模型收敛，得到问候文本生成模型。
[0094]
若各个历史第一相似度均不大于第一阈值，且各个历史第二相似度中存在大于历史第二阈值的目标历史第二相似度，将历史客需语义信息向量、预先构建的韩静语义信息向量库和预先构建的问候语义向量的拼接结果输入待训练的基于lstm的seq2seq模型，以便待训练的基于lstm的seq2seq模型根据输入的拼接结果进行处理，以得到的问候文本趋近于目标历史问候文本为训练目标，对待训练的基于lstm的seq2seq模型进行训练，直至待训练的基于lstm的seq2seq模型收敛，得到问候文本生成模型。
[0095]
若各个历史第一相似度中存在大于第一阈值的目标历史第一相似度，且各个历史第二相似度中存在大于第二阈值的目标历史第二相似度将历史客需语义信息向量、预先构建的酒店语义信息向量库、预先构建的环境语义信息向量库和预先构建的问候语义向量的拼接结果输入待训练的基于lstm的seq2seq模型，以便待训练的基于lstm的seq2seq模型根
据输入的拼接结果进行处理，以得到的问候文本趋近于目标历史问候文本为训练目标，对待训练的基于lstm的seq2seq模型进行训练，直至待训练的基于lstm的seq2seq模型收敛，得到问候文本生成模型。
[0096]
在具体执行步骤s203的过程中，在各个第一相似度中存在大于第一阈值的目标第一相似度，且各个第二相似度均不大于第二阈值情况下，可以认为客户发送的当前客需服务文本与酒店相关，与环境不相关；将客需语义信息向量、预先构建的酒店语义信息向量库和预先构建的问候语义向量进行拼接(为了便于区分，将客需语义信息向量、预先构建的酒店语义信息向量库和预先构建的问候语义向量进行拼接得到的拼接结果称为第一拼接结果)；将第一拼接结果输入问候文本生成模型，以便问候文本生成模型对第一拼接结果进行处理输出问候文本。
[0097]
在本身实施例中，为了避免最终生成的问候文本的文本长度过长，可以使用束搜索的方法来控制问候文本生成模型输出的问候文本的文本长度，具体的，可以选定束的大小，在确定束的大小后，根据束的大小从问候文本的左往右以及进行解码，每进行一次解码，保留当前解码结果中与选定的束大小相等的序列作为候选文本需求，直到每个候选文本序列都包含终止标识为止。其中，使用束搜索的方法来控制问候文本生成模型输出的问候文本的文本长度如以下公式所示：
[0098]
p(text
t
|x)＝p(y1,y2...y
t
|x)＝p(y1|x)*p(y2|y2x)*...*p(y
t
|y1,y2...y
t
‑1x) (3)
[0099]
其中，x为所选定的束的大小，y
t
表示t时刻的输出词的预测结果，text
t
为候选文本，p(text
t
|x)为最终输出的候选文本。
[0100]
进一步的，在酒店的应用场景中，候选文本应尽可能的简短，因此还可以加入对候选文本序列长度的惩罚，从而达到进一步控制最终生成的问候文本的长度。其中，对候选文本序列长度的惩罚如以下公式所示：
[0101][0102]
其中，p(text
t
)为进行惩罚后得到的问候文本。
[0103]
需要说明的是，随着解码次数的不断增加，每次解码得到的终止标识也会不断增加，当解码到第t次时，第t次解码得到token为终止标识的概率如以下公式(5)所示，其余次数解码得到token概率进行等比例降低，如公式(6)所示。
[0104][0105][0106]
其中，eos为终止标识，i为当前解码次数，t为第t次解码次数，y
i
表示i时刻的输出词的预测结果，e为常数约为2.7182818284。
[0107]
s204：若各个第二相似度中存在大于第二阈值的目标第二相似度，且各个第一相似度均不大于第一阈值，根据客需语义信息向量、环境语义信息向量库和预先构建的问候语义向量生成问候文本。
[0108]
在具体执行步骤s204的过程中，在各个第二相似度中存在大于第二阈值的目标第一相似度，且各个第一相似度均不大于第一阈值的情况下，可以认为客户发送的当前客需
服务文本与环境相关，与酒店不相关；将客需语义信息向量、预先构建的环境语义信息向量库和预先构建的问候语义向量进行拼接(为了便于区分，将客需语义信息向量、预先构建的环境语义信息向量库和预先构建的问候语义向量进行拼接得到的拼接结果称为第二拼接结果)；将第二拼接结果输入问候文本生成模型，以便问候文本生成模型对第二拼接结果进行处理输出问候文本。
[0109]
s205：若各个第一相似度中存在大于第一阈值的目标第一相似度，且各个第二相似度中存在大于第二阈值的目标第二相似度，根据客需语义信息向量、酒店语义信息向量库、环境语义信息向量库和预先构建的问候语义向量生成问候文本。
[0110]
在具体执行步骤s205的过程中，在各个第一相似度中存在大于第一阈值的目标第一相似度，且各个第二相似度中存在大于第二阈值的目标第二相似度情况下，可以认为客户发送的当前客需服务文本不仅与酒店相关，还与环境不相关；将客需语义信息向量、预先构建的酒店语义信息向量库、预先构建的环境语义信息向量和预先构建的问候语义向量进行拼接(为了便于区分，将客需语义信息向量、预先构建的酒店语义信息向量库、预先构建的环境语义信息向量和预先构建的问候语义向量进行拼接得到的拼接结果称为第三拼接结果)；将第三拼接结果输入问候文本生成模型，以便问候文本生成模型对第三拼接结果进行处理输出问候文本。
[0111]
与本发明实施例提供的一种语音生成方法相对应，本发明还提供了一种语音生成装置，如图3所示，该语音生成装置应用于智能音箱，该语音生成装置包括：
[0112]
第一获取单元31，用于获取客户发送的当前客需服务文本，并提取当前客需服务文本的客需语义信息；
[0113]
第一处理单元32，用于将客需语义信息输入语义信息向量生成模型，利用语义信息向量生成模型对客需语义信息进行处理，得到客需语义信息向量，语义信息向量生成模型利用历史客需服务文本训练lstm神经网络得到；
[0114]
问候触发概率预测单元33，用于将客需语义信息向量与预先构建的问候语义向量的拼接结果输入问候触发模型，利用问候触发预测模型对拼接结果进行问候触发概率预测，得到问候触发概率，问候触发预测模型利用历史客需服务文本的客需语义信息向量和预先构建的问候语义向量训练lstm神经网络得到；
[0115]
第一生成单元34，用于若问候触发概率大于预设问候触发阈值，根据客需语义信息向量和预先构建的问候语义向量生成问候文本，并将问候文本转换成问候语音。
[0116]
需要说明的是，上述本发明实施例公开的语音生成装置中的各个单元具体的原理和执行过程，与上述本发明实施示出的语音生成方法相同，可参见上述本发明实施例公开的语音生成方法中相应的部分，这里不再进行赘述。
[0117]
本发明提供一种语音生成装置，应用于智能音箱，预先在智能音箱中集成了语义信息向量生成模型和问候触发预测模型，在获取到客户发送的当前客需服务问候后，将从该当前客需服务文本提取到的客需语义信息输入语义信息向量生成模型，以便语义信息向量生成模型对输入的客需语义信息进行处理，输出客需语义信息向量，进而将客需语义信息向量与预先构建的问候语义向量的拼接结果输入问候触发预测模型，以便问候触发预测模型根据输入的拼接结果进行问候触发概率预测，输出问候触发概率，并在问候触发概率大于预设的问候触发阈值的情况下，根据客需语义信息向量和预先构建的问候语义向量生
成问候文本，将该问候文本转换成问候语音，并根据转换成的问候语音向客户发起问候。本发明提供的技术方案，能够根据客户发送的客需服务文本生成满足客户需求的问候语音，提高客户的体验，从而提升酒店形象与口碑。
[0118]
优选的，第一获取单元，包括：
[0119]
分词处理单元，用于对当前客需服务文本进行分词处理，得到当前客需服务文本的词句；
[0120]
向量化处理单元，用于对当前客需服务文本的词句进行向量化处理，得到客需语义信息。
[0121]
优选的，第一生成单元，包括：
[0122]
第一计算单元，用于计算客需语义信息向量与预先构建的酒店语义信息向量库中每条酒店语义信息向量的第一相似度，预先构建的酒店语义信息向量库由多条酒店语义信息向量拼接得到；
[0123]
第二计算单元，用于计算客需语义信息向量与预先构建的环境语义信息向量库中每条环境语义信息向量的第二相似度，预先构建的环境语义信息向量库由多条环境语义信息向量拼接得到；
[0124]
第二生成单元，用于若各个第一相似度中存在大于第一阈值的目标第一相似度，且各个第二相似度均不大于第二阈值，根据客需语义信息向量、酒店语义信息向量库和预先构建的问候语义向量生成问候文本；
[0125]
第三生成单元，用于若各个第二相似度中存在大于第二阈值的目标第二相似度，且各个第一相似度均不大于第一阈值，根据客需语义信息向量、环境语义信息向量库和预先构建的问候语义向量生成问候文本；
[0126]
第四生成单元，用于若各个第一相似度中存在大于第一阈值的目标第一相似度，且各个第二相似度中存在大于第二阈值的目标第二相似度，根据客需语义信息向量、酒店语义信息向量库、环境语义信息向量库和预先构建的问候语义向量生成问候文本。
[0127]
优选的，第二生成单元，包括：
[0128]
第一拼接单元，用于将客需语义信息向量、酒店语义信息向量库和预先构建的问候语义向量进行拼接，得到第一拼接结果；
[0129]
第二处理单元，用于将第一拼接结果输入问候语音生成模型，利用问候文本生成模型对第一拼接结果进行处理，输出问候文本；
[0130]
其中，问候文本生成模型利用历史客需服务文本和历史客需服务文本对应的历史问候文本训练基于lstm的seq2seq模型得到。
[0131]
优选的，第三生成单元，包括：
[0132]
第二拼接单元，用于将客需语义信息向量、预先构建的环境语义信息向量库和预先构建的问候语义向量进行拼接，得到第二拼接结果；
[0133]
第三处理单元，用于将第二拼接结果输入问候文本生成模型，利用问候文本生成模型对第二拼接结果进行处理，输出问候文本。
[0134]
优选的，第四生成单元，包括：
[0135]
第三拼接结果，用于将客需语义信息向量、酒店语义信息向量库、环境语义信息向量库和预先构建的问候语义向量进行拼接，得到第三拼接结果；
[0136]
第四处理单元，用于将第三拼接结果输入问候文本生成模型，利用问候文本生成模型对第三拼接结果进行处理，输出问候文本。
[0137]
优选的，预先构建的问候语义向量的过程，包括：
[0138]
第二获取单元，用于获取多个历史问候类型文本和最近历史问候文本；
[0139]
第一提取单元，用于提取每个历史问候类型文本的历史语义信息，以及历史问候文本的语义信息；
[0140]
第五处理单元，用于将多个历史问候类型文本以及历史问候文本的语义信息输入语义信息向量生成模型，利用语义信息向量生成模型分别对每个历史问候类型文本以及历史问候文本的语义信息进行处理，得到每个历史问候类型文本的语义向量和历史问候文本的语义向量；
[0141]
第四拼接单元，用于将多个历史问候类型文本的语义向量和历史问候文本的语义向量进行拼接，得到问候语义向量。
[0142]
优选的，预先构建的酒店语义信息向量库的过程，包括：
[0143]
第三获取单元，用于获取预先设置的多条酒店信息，并提取每条酒店信息的酒店语义信息；
[0144]
第六处理单元，用于将每条酒店语义信息输入语义信息向量生成模型，利用语义信息向量生成模型分别对每条酒店语义信息进行处理，得到每条酒店语义信息的酒店语义信息向量；
[0145]
第五拼接单元，用于将每条酒店语义信息向量进行拼接，得到酒店语义信息向量库。
[0146]
优选的，预先构建的环境语义信息向量库的过程，包括：
[0147]
第四获取单元，用于获取预先设置的每个环境问候类型相关的当前环境信息，并提取每个环境问候类型的当前环境信息的环境语义信息；
[0148]
第七处理单元，用于将每条环境语义信息输入语义信息向量生成模型，利用语义信息向量生成模型分别对每条环境语义信息进行处理，得到每条环境语义信息的环境语义信息向量；
[0149]
第六拼接单元，用于将每条环境语义信息向量进行拼接，得到环境语义信息向量库。
[0150]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0151]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些
功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0152]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0153]
以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭俊廷;张献涛;暴筱;林小俊;支涛
技术所有人：北京云迹科技有限公司
我是此专利的发明人

上一篇：一种装修垃圾回收工艺的制作方法
上一篇：一种建筑施工用多功能测量装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。