带有个性化语音的多媒体转换的方法及服务端的制作方法

文档序号：7684372阅读：360来源：国知局

专利名称：带有个性化语音的多媒体转换的方法及服务端的制作方法
技术领域：
本发明涉及网络通信技术领域，特别涉及一种带有个性化语音的多媒体转换的方法，以及实施这种方法的服务端。
背景技术：
随着手机娱乐业的日益发展，基于无线网络的多媒体传输已经越来越普及，而且人们对多媒体通信内容的要求日益提高，人们不再满足于单一、被动的传统媒体娱乐方式，而是需要更加个性化、互动化的多媒体通信方式。特别是随着移动网络通信技术的进一步发展，以及移动多媒体业务的日益普及，移动多媒体已经越来越显示其广泛和越趋成熟的用户认知以及接受度。
现阶段，由服务提供商所提供的多媒体所发出的语音，其音色特征和韵律特征都是服务端固有的，无法满足用户的个性化需求。

发明内容
本发明要解决的问题是提供一种带有个性化语音的多媒体转换的方法，使得在用户端可以个性化地定制多媒体，有效提高用户体验度。
为达到上述目的，一种带有个性化语音的多媒体转换的方法，发送端向服务端发送文本信息，服务端接收之后将所述文本信息转换成多媒体文件，其特征在于所述文本信息包括语句信息，服务端接收到该文本信息并且转换成多媒体文件之后，再根据发送端预先上传的语音文件，将所述文本信息中的语句信息转换为与发送端预先上传的语音文件相对应的个性化的语音文件，然后将转换得到的语音文件替换所述多媒体文件中的音频部分。
4进一步地，上述的带有个性化语音的多媒体转换的方法，其中，服务端将所述语句信息转换为个性化的语音文件的方法是，服务端利用现已成熟的个性化语音生成技术，通过与发送端相对应的语音文件，将所述语句信息转换为个性化的语音文件。
再进一步地，上述的带有个性化语音的多媒体转换的方法，其中，服务端将所述文本信息转换为多媒体文件的方法是，服务端从多媒体文件库中直接获取与所述文本信息当中的语句信息相匹配的多媒体文件，得到转换后的多媒体文件。
更进一步地，上述的带有个性化语音的多媒体转换的方法，其中，服务端将所述文本信息转换为多媒体文件的方法是，服务端先将所述文本信息当中的语句信息分解为单独的字或词，然后从多媒体文件库中分别获取与每一个单独的字或词相匹配的多媒体文件，继而将获取的与每一个单独
的字或词相匹配的多媒体文件进行合并，得到转换后的多媒体文件。本发明还提供了实施上述方法的服务端，包括
接收单元，用于接收来自于发送端的文本信息，并将所述文本信息送至处理单元处理；以及用于接收来与所述发送端相对应的语音文件，并将所述语音文件发送至存储单元存储；
存储单元，用于存储来自于接收单元的语音文件；
处理单元，用于将所述来自于接收单元的文本信息转换成多媒体文件；以及用于根据所述存储单元中存储的所述与发送端相对应的语音文件，将所述语句信息转换成个性化的语音文件，并将所述语音文件替换所述多媒体文件中的音频部分。
上述服务端还可以包括发送单元，用于将所述多媒体文件发送出去。
总之，本发明为网络通信技术提供了新体会，通过实施本发明所揭示的技术方案，服务端能更好地个性化定制多媒体，接收端接收到来自于发送端以文本方式发送、并经服务端转换成的多媒体之后，其音频部分与发送方的个性特征相吻合，就像是发送方在对接收方说话，网络通讯技术的用户体验度得到极大提升。

图1是本发明提供的带有个性化语音的多媒体转换的方法的流程示
意图2是本发明一种具体实施方式
的流程示意图；图3是本发明揭示的服务端的示意图。
具体实施例方式
利用个性化语音生成技术，只要给出任意文字和目标人的一段语音文件，就能获得该任意文字所对应的语音文件，且该语音文件听起来就像是目标人说的。这种个性化语音生成技术实现方法，通过对输入的文本进行分析，获得语音合成技术(Text-to-Speech，简称TTS)参数，然后转化为目标人的语音参数，最终合成并获得接近于目标人的语音。
本发明实施例提供一种带有个性化语音的多媒体转换的方法，使得在用户端可以个性化的定制多媒体，有效提高了用户体验度。下面对本发明的具体实施方式
作进一步详细描述。
实施例一
本实施例所揭示的一种带有个性化语音的多媒体转换的方法，如图1 所示，包括以下步骤
步骤101:服务端接收到来自于发送端的文本信息；
文本信息的来源可以包括发送方终端通过键盘输入的文本信息，或者终端话筒输入的语音通过语音识别软件转化后得到的文本信息。
本实施例所称的文本信息，可以包括
接收端信息，具体地，可以是接收方的手机号码；接收端信息也可以是发送端本身，比如省略接收端信息的情况下，系统可以默认为接收端即为发送端本身；
类型指示信息，用于指示该文本信息要转化成的多媒体类型；语句信息，比如用户发送给接受方的信息如"祝你生日快乐"等文
字信息。
步骤102:服务端将所述文本信息转换成多媒体文件；本步骤中，一种具体的方式包括所述服务端获取多媒体文件库中与所述语句信息相匹配的多媒体文件作为所述转换成的多媒体文件，即将所述语句信息比如"祝你生日快乐"作为一个整体去匹配多媒体文件库，获取相应的多媒体文件作为所述转换后得到的多媒体文件；或者，本步骤中，另一种具体的方式包括
所述服务端将所述语句信息分解为单独的字或词；比如将语句信息"祝你生日快乐"分解为一个个单独的字和词，然后所述服务端分别获取多媒体文件库中，与所述每一个单独的字或词相匹配的多媒体文件；将获取的与所述每一个单独的字或词相匹配的多媒体文件合并，得到所述转换成的多媒体文件。
进一步地，服务端还可以根据发送方号码判断发送方是否上传过个人语音文件。如果发送方从未上传过个人语音文件，则当前的多媒体文件就是最终的多媒体文件，将直接发送给接收方。如果发送方之前上传过个人语音文件，则服务端可利用个性化语音生成技术，对该多媒体文件进一步处理，即转步骤103，使所述多媒体文件发出的语音无论从音色特征还是韵律特征上都很接近其预上传的个人语音文件。
发送方用户可以通过把个人语音文件交给服务提供商营业台服务人员或登录相关Wap或者Web网站自行上传语音文件或在线录音等多种方式，来使得服务端获得个人语音文件，同时将用户给出的手机号码与所说的个人语音文件实现一一对应。
步骤103:当存在与所述发送端相对应的语音文件时，所述服务端根
7据所述与发送端相对应的语音文件，将所述语句信息转换为个性化的语音
文件；
本步骤中，所说的将所述语句信息转换为个性化的语音文件，可以是: 所述服务端利用现已成熟的个性化语音生成技术，通过与发送端相对
应的语音文件，将所述语句信息转换为个性化的语音文件。
步骤104:所述服务端将所述转换得到的语音文件替换所述多媒体文
件中的音频部分。
本实施例所称的终端或者发送端或者接收端，可以是有线终端，如连接到Internet的个人电脑；也可以是无线终端，如手机。发送方式可以是通过手机终端安装的应用软件来发送，也可以通过无线应用协议(WAP， Wireless Application Protocol)进入WAP输入界面后再编辑信息发送。
本实施例所称的多媒体，包括但不限于MPEG、 AVI、 RMVB、 WMV、 SWF、 VIV、 ASF、腿、RA、 RP、 RT、 MOV、 QT、 3GPP、 MP4、 3D, JPEG、 PNG、 GIF、 BMP、 AMR、 MMF、 3GPP、 MP4、 RM、 AVI、 WAV、 APE、 MP3/MP2緣1緣GA、 WMA/ASF、 MID固ID、 VQF、 AIF/AIFF、 AU、 VOC、 AAC、 VOX等。
通过实施本实施例所揭示的技术方案，使得服务端可以个性化的定制多媒体，大大增强了娱乐性，有效提高了用户体验度。
实施例二
本实施例揭示的一种带有个性化语音的多媒体转换的方法，可以基于实施例一，如图2所示，过程举例包括
小张想要给小李发送有关生日祝福的多媒体文件，小张在发送端手机 201上输入生日祝福语句，例如"祝你今天生日快乐"，输入小李的手机号码，以短消息的形式发送到指定的特服号，经短信中心202以及彩信/短信服务器203后，上述信息被转发给处理服务器204，处理服务器204收到该短信后，将"祝你今天生日快乐"分解为单独的字，然后为每个单独的字匹配对应的多媒体文件，再将这些多媒体文件合并为一个多媒体文件。接着，根据发送方小张的手机号码去査找小张是否预上传过语音文件，如果上传过的话，使用个性化语音生成技术将文字"祝你今天生日快乐"转化为一个个性化的语音文件，该语音文件听起来就像是小张说的。进一步地，该语音文件可以替换覆盖多媒体文件的音频部分。
进一步地，最终生成的多媒体文件再经"彩信/短信服务器"和"短
信中心"处理后，被发送到小李的手机205上。
通过实施本实施例所揭示的技术方案，使得服务端可以个性化地定制多媒体，大大增强了娱乐性，有效提高了用户体验度。
实施例三
本实施例提供了一种服务端，如图3，包括
接收单元，用于接收来自于发送端的文本信息，并将所述文本信息送至处理单元处理；以及用于接收来与所述发送端相对应的语音文件，并将所述语音文件发送至存储单元存储；
存储单元，用于存储来自于接收单元的语音文件；
处理单元，用于将所述来自于接收单元的文本信息转换成多媒体文件；以及用于根据所述存储单元中存储的所述与发送端相对应的语音文件，将所述语句信息转换成个性化的语音文件，并将所述语音文件替换所述多媒体文件中的音频部分。
进一步地，所述服务端还可以包括发送单元，用于将所述多媒体文件发送出去。
综上所述，通过实施本实施例所揭示的技术方案，服务端能更好地个性化定制多媒体，接收端接收到来自于发送端以文本方式发送、并经服务端转换成的多媒体之后，其音频部分与发送方的个性特征相吻合，就像是发送方在对接收方说话，网络通讯技术的用户体验度得到极大提升。
以上所描述的具体实施例仅仅是示意性的，其中所述作为分离部件说
9明的单元既可以是、也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。本领域普通技术人员以本发明揭示的技术方案为基础，在不付出创造性的劳动的情况下，即可以理解并实施其它种种具体方式。
通过以上实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件以及必需的通用硬件平台来实现，当然也可以通过硬件，但很多情况下前者是更佳的选择。基于这样的理解，本发明技术方案本质上或者说对背景技术做出贡献的部分，可以以软件产品的形式体现出来，该计算机软件产品可以存储在一个存储介质中，包括若干指令，运行之后使得一台计算机设备执行本发明各个实施例所述的方法。
以上所述仅是本发明的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。
权利要求
1、一种带有个性化语音的多媒体转换的方法，发送端向服务端发送文本信息，服务端接收之后将所述文本信息转换成多媒体文件，其特征在于所述文本信息包括语句信息，服务端接收到该文本信息并且转换成多媒体文件之后，再根据发送端预先上传的语音文件，将所述文本信息中的语句信息转换为与发送端预先上传的语音文件相对应的个性化的语音文件，然后将转换得到的语音文件替换所述多媒体文件中的音频部分。
2、根据权利要求1所述的带有个性化语音的多媒体转换的方法，其特征在于服务端将所述语句信息转换为个性化的语音文件的方法是，服务端利用现已成熟的个性化语音生成技术，通过与发送端相对应的语音文件，将所述语句信息转换为个性化的语音文件。
3、根据权利要求1或2所述的带有个性化语音的多媒体转换的方法，其特征在于服务端将所述文本信息转换为多媒体文件的方法是，服务端从多媒体文件库中直接获取与所述文本信息当中的语句信息相匹配的多媒体文件，得到转换后的多媒体文件。
4、根据权利要求1或2所述的带有个性化语音的多媒体转换的方法，其特征在于服务端将所述文本信息转换为多媒体文件的方法是，服务端先将所述文本信息当中的语句信息分解为单独的字或词，然后从多媒体文件库中分别获取与每一个单独的字或词相匹配的多媒体文件，继而将获取的与每一个单独的字或词相匹配的多媒体文件进行合并，得到转换后的多媒体文件。
5、一种服务端，其特征在于包括，接收单元，用于接收来自于发送端的文本信息，并将所述文本信息送至处理单元处理；以及用于接收与所述发送端相对应的语音文件，并将所述语音文件发送至存储单元存储；存储单元，用于存储来自于接收单元的语音文件；处理单元，用于将所述来自于接收单元的文本信息转换成多媒体文件; 以及用于根据所述存储单元中存储的所述与发送端相对应的语音文件，将所述语句信息转换成个性化语音文件，并将所述语音文件替换所述多媒体文件中的音频部分。
6、如权利要求5所述的服务端，其特征在于还包括发送单元，用于将所述多媒体文件发送出去。
全文摘要
本发明公开了一种带有个性化语音的多媒体转换的方法，发送端向服务端发送文本信息，服务端接收之后将所述文本信息转换成多媒体文件，所述文本信息包括语句信息，服务端接收到该文本信息并且转换成多媒体文件之后，再根据发送端预先上传的语音文件，将所述文本信息中的语句信息转换为与发送端预先上传的语音文件相对应的个性化的语音文件，然后将转换得到的语音文件替换所述多媒体文件中的音频部分。本发明还提供了实施上述方法的服务端。依据本发明所揭示的技术方案，服务端能够更好地个性化定制多媒体，进一步提高了用户体验度。
文档编号H04M1/72GK101521853SQ20081002031
公开日2009年9月2日申请日期2008年2月29日优先权日2008年2月29日
发明者李嘉辉申请人:丰达软件(苏州)有限公司;李嘉辉

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李嘉辉
技术所有人：丰达软件（苏州）有限公司;李嘉辉
我是此专利的发明人

上一篇：一种基于反馈的自适应移动基站系统可靠性评估方法
上一篇：播放视频铃声的方法及终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。