电子书语音音频的生成方法、装置及可读存储介质与流程

文档序号:19934239发布日期:2020-02-14 22:22阅读:577来源:国知局
电子书语音音频的生成方法、装置及可读存储介质与流程

本发明涉及电子书领域,尤其涉及一种电子书语音音频的生成方法、装置及可读存储介质。



背景技术:

随着互联网技术应用越来越广泛,传统的纸质阅读方式已逐渐被电子书取代,为了使得用户在阅读时不受身体原因或光线原因的影响,具备音频功能的电子书也应运而生。

现有电子书的音频功能中的语音音频一般是通过语音合成系统获得的。语音合成系统可根据电子书的文本内容,将其转换为与文本内容相应的机械语音,以生成电子书文本所对应的语音音频。

但是,采用现有方式获得的电子书的语音音频的语气较为生硬,也无法体现电子书文本所具备的感情色彩,用户在收听时感受不佳。



技术实现要素:

针对上述提及的在现有技术的电子书的语音音频语气生硬,无法体现电子书文本所具备的感情色彩的技术问题,本发明提供了一种电子书语音音频的生成方法、装置及可读存储介质。

一方面,本发明提供了一种电子书语音音频的生成方法,包括:

接收各用户上传的音频片段,确定与每个音频片段对应的电子书的文本段落;所述音频片段为用户朗读所述文本段落生成的;

根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段;

根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频。

在其中一种可选的实施方式中,所述接收各用户上传的音频片段,确定与每个音频片段对应的电子书的文本段落之前,包括:

对电子书的文本进行拆分,获得至少一个文本段落;

针对于电子书中每个文本段落设置相应的音频上传端口;

相应的,所述接收各用户上传的音频片段,确定与每个音频片段对应的电子书的文本段落,包括:

接收各用户在音频上传端口上传的音频片段;

根据音频片段对应的音频上传端口,确定电子书的文本段落。

在其中一种可选的实施方式中,所述接收各用户上传的音频片段,确定与每个音频片段对应的电子书的文本段落,包括:

对音频片段进行语音识别,获得音频片段对应的文本信息;

根据所述文本信息,在所述电子书中确定与所述文本信息对应的文本段落。

在其中一种可选的实施方式中,所述试听反馈信息包括评分信息,和/或评论信息,和/或试听热度;

相应的,所述根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段,包括:

根据所述评分信息,和/或评论信息,和/或试听热度,对每个文本段落对应的各音频片段进行排序,以确定优选音频文件。

在其中一种可选的实施方式中,所述根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频,包括:

根据各文本段落在电子书中的段落顺序,对各优选音频片段进行排序;

对排序后的各优选音频片段进行剪辑与整合,生成电子书语音音频。

另一方面,本发明还提供了一种电子书语音音频的生成装置,其特征在于,包括:

通信模块,用于接收各用户上传的音频片段;

文本段落识别模块,用于确定与每个音频片段对应的电子书的文本段落;所述音频片段为用户朗读所述文本段落生成的;

语音音频生成模块,用于根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段;还用于用于根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频。

在其中一种可选的实施方式中,所述通信模块还包括与电子书中每个文本段落相应的音频上传端口;

所述文本段落识别模块还用于在接收各用户上传的音频片段,确定与每个音频片段对应的电子书的文本段落之前,对电子书的文本进行拆分,获得至少一个文本段落;

在所述音频上传端口接收到各用户上传的音频片段之后,所述文本段落识别模块还用于根据音频片段对应的音频上传端口,确定电子书的文本段落。

在其中一种可选的实施方式中,所述文本段落识别模块,具体用于对音频片段进行语音识别,获得音频片段对应的文本信息,根据所述文本信息,在所述电子书中确定与所述文本信息对应的文本段落。

在其中一种可选的实施方式中,所述试听反馈信息包括评分信息,和/或评论信息,和/或试听热度;

所述语音音频生成模块具体用于根据所述评分信息,和/或评论信息,和/或试听热度,对每个文本段落对应的各音频片段进行排序,以确定优选音频文件。

在其中一种可选的实施方式中,所述语音音频生成模块具体用于根据各文本段落在电子书中的段落顺序,对各优选音频片段进行排序,对排序后的各优选音频片段进行剪辑与整合,生成电子书语音音频。

再一方面,本发明提供了一种电子书语音音频的生成装置,包括:存储器、处理器以及计算机程序;

其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如前任一项所述的方法。

最后一方面,本发明提供了一种可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理执行以实现如前任一项所述的方法。

本发明提供的电子书语音音频的生成方法、装置及可读存储介质,通过接收各用户上传的音频片段,确定与每个音频片段对应的电子书的文本段落;所述音频片段为用户朗读所述文本段落生成的;根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段;根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频,从而使得用户可将自己朗读录制的音频片段上传,并通过对从中选出的优选音频片段进行整合,获得语气生动的、能够体现电子书感情色彩的,符合大众视听审美的电子书语音音频,提高了用户体验。

附图说明

图1为本发明实施例一提供的一种电子书语音音频的生成方法的流程示意图;

图2为本发明实施例二提供的一种电子书语音音频的生成方法的流程示意图;

图3为本发明实施例三提供的一种电子书语音音频的生成方法的流程示意图;

图4为本发明实施例四提供的一种电子书语音音频的生成装置的结构示意图;

图5为本发明实施例五提供的一种电子书语音音频的生成装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

随着互联网技术应用越来越广泛,传统的纸质阅读方式已逐渐被电子书取代,为了使得用户在阅读时不受身体原因或光线原因的影响,具备音频功能的电子书也应运而生。

现有电子书的音频功能中的语音音频一般是通过语音合成系统获得的。语音合成系统可根据电子书的文本内容,将其转换为与文本内容相应的机械语音,以生成电子书文本所对应的语音音频。

但是,采用现有方式获得的电子书的语音音频的语气较为生硬,也无法体现电子书文本所具备的感情色彩,用户在收听时感受不佳。

针对上述提及的在现有技术的电子书的语音音频语气生硬,无法体现电子书文本所具备的感情色彩的技术问题,本发明提供了一种电子书语音音频的生成方法、装置及可读存储介质。

图1为本发明实施例一提供的一种电子书语音音频的生成方法的流程示意图。

如图1所示,该生成方法包括:

步骤101、接收各用户上传的音频片段,确定与每个音频片段对应的电子书的文本段落;

其中,所述音频片段为用户朗读所述文本段落生成的。

步骤102、根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段。

步骤103、根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频。

需要说明的是,本发明提供的电子书语音音频的生成方法的执行主体具体可为电子书语音音频的生成装置,该生成装置可通过硬件和/或软件的方式实现。一般可集成于电子书平台所基于的云端服务器中,与电子书平台所基于的存放有各类数据库的数据服务器配合使用,此外,生成装置所基于的服务器可与数据服务器为同一服务器,或者为隶属于同一服务器集群的不同服务器,本发明对此均不进行限制。

在本实施例中,用户可通过智能手机、平板电脑、电子阅读器等智能设备对电子书的语音音频进行收听,还可对本发明电子书的语音音频对应的电子书文本进行阅读。语音音频可根据用户阅读文本的进度进行同步播放,即在用户阅读至某文本内容时播放与该文本内容对应的语音音频;语音音频也可独立于用户的阅读行为而单独播放,即无论用于是否处于阅读文本的状态,一旦用户点击或触发语音音频的播放指令,语音音频可开始播放。

在本实施方式中,电子书语音音频的生成装置可接收用户上传的音频片段,这些音频片段中包括有用户朗读电子书时的声音信息。其中,音频片段可以为直接录制获得的,即当用户选择上传音频片段时,由电子书语音音频的生成装置开启录音功能,以采集接收到用户朗读电子书的声音信息;也可为用户预先录制并上传的,即用户将预先录制的语音音频通过无线网络传输、近场传输、有线传输等传输方式传输至电子书语音音频的生成装置中,以供其处理。在电子书语音音频的生成装置接收到各用户上传的多个音频片段之后,还需确定每个音频片段中用户所朗读的是哪段电子书的文本段落。

随后,可为每个音频片段提供试听端口,以供用户对这些音频片段进行试听。然后,还将接收由各用户输入或触发的对各音频片段的试听反馈信息,并利用这些试听反馈信息,在每个文本段落对应的多个音频片段中选出每个文本段落的优选音频片段。为了使得获得的电子书语音音频更加生动,符合大众视听习惯和审美需求,优选音频片段可为各用户在试听后反馈结果较好的音频片段。

进一步来说,试听反馈信息包括评分信息,和/或评论信息,和/或试听热度。其中需要说明的是,评分信息以及评论信息均为用户输入或触发的信息,而试听热度则为根据用户试听行为统计获得的信息,如试听播放量、当前试听人数等等。相应的,根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段,包括:根据所述评分信息,和/或评论信息,和/或试听热度,对每个文本段落对应的各音频片段进行排序,以确定优选音频文件。

最后,根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频。可知的是,由于已经获取到了各文本段落对应的优选音频片段,此时,可按照文本段落的段落顺序,将这些优选音频片段进行拼接和整合,以获得该电子书语音音频。

本发明实施例一提供的电子书语音音频的生成方法,通过接收各用户上传的音频片段,确定与每个音频片段对应的电子书的文本段落;所述音频片段为用户朗读所述文本段落生成的;根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段;根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频,从而使得用户可将自己朗读录制的音频片段上传,并通过对从中选出的优选音频片段进行整合,获得语气生动的、能够体现电子书感情色彩的,符合大众视听审美的电子书语音音频,提高了用户体验。

在实施例一的基础上,图2为本发明实施例二提供的一种电子书语音音频的生成方法的流程示意图。如图2所示,该生成方法包括:

步骤201、对电子书的文本进行拆分,获得至少一个文本段落,针对于电子书中每个文本段落设置相应的音频上传端口。

步骤202、接收各用户在音频上传端口上传的音频片段,根据音频片段对应的音频上传端口,确定与每个音频片段对应的电子书的文本段落。

步骤203、根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段。

步骤204、根据各文本段落在电子书中的段落顺序,对各优选音频片段进行排序;

步骤205、对排序后的各优选音频片段进行剪辑与整合,生成电子书语音音频。

在本实施例二中,与实施例一类似的是,用户可通过智能手机、平板电脑、电子阅读器等智能设备对电子书的语音音频进行收听,还可对本发明电子书的语音音频对应的电子书文本进行阅读。语音音频可根据用户阅读文本的进度进行同步播放,即在用户阅读至某文本内容时播放与该文本内容对应的语音音频;语音音频也可独立于用户的阅读行为而单独播放,即无论用于是否处于阅读文本的状态,一旦用户点击或触发语音音频的播放指令,语音音频可开始播放。

电子书语音音频的生成装置可接收用户上传的音频片段,这些音频片段中包括有用户朗读电子书时的声音信息。其中,音频片段可以为直接录制获得的,即当用户选择上传音频片段时,由电子书语音音频的生成装置开启录音功能,以采集接收到用户朗读电子书的声音信息;也可为用户预先录制并上传的,即用户将预先录制的语音音频通过无线网络传输、近场传输、有线传输等传输方式传输至电子书语音音频的生成装置中,以供其处理。

与实施例一不同的是,在本实施例二中,可首先对电子书的文本进行拆分,获得至少一个文本段落,针对于电子书中每个文本段落设置相应的音频上传端口。其中,对文本的拆分可依据文本的章节或段落进行,如可将文本拆分为“第一章第一节”“第十章第二节”等文本段落。然后,针对于每一个文本段落,设置以相应的音频上传端口,以使用户可将自己录制的与该文本段落一致的音频片段通过相应的音频上传端口上传至电子书语音音频的生成装置。需要说明的是,这些音频上传端口可设置在相应文本段落的起始位置,也可统一设置在音频上传区,本发明实施方式不进行限制。随后,电子书语音音频的生成装置在接收到各用户上传的多个音频片段之后,可直接根据用户使用的音频上传端口,确定与音频上传端口对应的文本段落。

再后,与实施例一类似的是,可为每个音频片段提供试听端口,以供用户对这些音频片段进行试听。然后,还将接收由各用户输入或触发的对各音频片段的试听反馈信息,并利用这些试听反馈信息,在每个文本段落对应的多个音频片段中选出每个文本段落的优选音频片段。为了使得获得的电子书语音音频更加生动,符合大众视听习惯和审美需求,优选音频片段可为各用户在试听后反馈结果较好的音频片段。

进一步来说,试听反馈信息包括评分信息,和/或评论信息,和/或试听热度。其中需要说明的是,评分信息以及评论信息均为用户输入或触发的信息,而试听热度则为根据用户试听行为统计获得的信息,如试听播放量、当前试听人数等等。相应的,根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段,包括:根据所述评分信息,和/或评论信息,和/或试听热度,对每个文本段落对应的各音频片段进行排序,以确定优选音频文件。

最后,与实施例一不同的是,根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频具体可包括:根据各文本段落在电子书中的段落顺序,对各优选音频片段进行排序;对排序后的各优选音频片段进行剪辑与整合,生成电子书语音音频。在本实施方式中,在根据段落顺序对各优选音频片段进行排序之后,为了提高生成的电子书语音音频的风格完整性,还可对各优选音频片段的语速语调风格、背景音乐风格等音频风格进行整合,并对各优选音频片段进行有效剪辑最终获得电子书语音音频。更优的,在本实施方式的对各优选音频片段的语速语调风格、背景音乐风格等音频风格进行整合的过程中,可采用多种方式实现,举例来说,可针对每一优选音频片段进行语音特征提取,生成各优选音频片段的语音风格;根据各语音风格对各优选音频片段的语音风格进行调整,实现相对统一。

本发明实施例二提供的电子书语音音频的生成方法,在实施例一的基础上,通过设置有与每个文本段落相应的音频上传端口,以实现对每个音频片段对应的电子书的文本段落的确定,从而使得获得语气生动的、能够体现电子书感情色彩的,符合大众视听审美的电子书语音音频,提高了用户体验。

在实施例一的基础上,图3为本发明实施例三提供的一种电子书语音音频的生成方法的流程示意图。如图3所示,该生成方法包括:

步骤301、对音频片段进行语音识别,获得音频片段对应的文本信息。

步骤302、根据所述文本信息,在所述电子书中确定与所述文本信息对应的文本段落。

步骤303、根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段。

步骤304、根据各文本段落在电子书中的段落顺序,对各优选音频片段进行排序;

步骤305、对排序后的各优选音频片段进行剪辑与整合,生成电子书语音音频。

在本实施例三中,与实施例一类似的是,用户可通过智能手机、平板电脑、电子阅读器等智能设备对电子书的语音音频进行收听,还可对本发明电子书的语音音频对应的电子书文本进行阅读。语音音频可根据用户阅读文本的进度进行同步播放,即在用户阅读至某文本内容时播放与该文本内容对应的语音音频;语音音频也可独立于用户的阅读行为而单独播放,即无论用于是否处于阅读文本的状态,一旦用户点击或触发语音音频的播放指令,语音音频可开始播放。

电子书语音音频的生成装置可接收用户上传的音频片段,这些音频片段中包括有用户朗读电子书时的声音信息。其中,音频片段可以为直接录制获得的,即当用户选择上传音频片段时,由电子书语音音频的生成装置开启录音功能,以采集接收到用户朗读电子书的声音信息;也可为用户预先录制并上传的,即用户将预先录制的语音音频通过无线网络传输、近场传输、有线传输等传输方式传输至电子书语音音频的生成装置中,以供其处理。

与实施例一不同的是,在本实施例三中,当接收到用户上传的音频片段之后,可对音频片段进行语音识别,获得音频片段对应的文本信息。其中,语音识别的方法可采用现有技术中的任意一种,本发明不做限制。通过语音识别,可识别获取音频片段所对应的文本信息,随后,根据识别获得的文本信息,在电子书中确定相匹配的文本段落。

再后,与实施例一类似的是,可为每个音频片段提供试听端口,以供用户对这些音频片段进行试听。然后,还将接收由各用户输入或触发的对各音频片段的试听反馈信息,并利用这些试听反馈信息,在每个文本段落对应的多个音频片段中选出每个文本段落的优选音频片段。为了使得获得的电子书语音音频更加生动,符合大众视听习惯和审美需求,优选音频片段可为各用户在试听后反馈结果较好的音频片段。

进一步来说,试听反馈信息包括评分信息,和/或评论信息,和/或试听热度。其中需要说明的是,评分信息以及评论信息均为用户输入或触发的信息,而试听热度则为根据用户试听行为统计获得的信息,如试听播放量、当前试听人数等等。相应的,根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段,包括:根据所述评分信息,和/或评论信息,和/或试听热度,对每个文本段落对应的各音频片段进行排序,以确定优选音频文件。

最后,与实施例一不同的是,根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频具体可包括:根据各文本段落在电子书中的段落顺序,对各优选音频片段进行排序;对排序后的各优选音频片段进行剪辑与整合,生成电子书语音音频。在本实施方式中,在根据段落顺序对各优选音频片段进行排序之后,为了提高生成的电子书语音音频的风格完整性,还可对各优选音频片段的语速语调风格、背景音乐风格等音频风格进行整合,并对各优选音频片段进行有效剪辑最终获得电子书语音音频。更优的,在本实施方式的对各优选音频片段的语速语调风格、背景音乐风格等音频风格进行整合的过程中,可采用多种方式实现,举例来说,可针对每一优选音频片段进行语音特征提取,生成各优选音频片段的语音风格;根据各语音风格对各优选音频片段的语音风格进行调整,实现相对统一。

本发明实施例三提供的电子书语音音频的生成方法,在实施例一的基础上,通过语音识别的方式,以实现对每个音频片段对应的电子书的文本段落的确定,从而使得获得语气生动的、能够体现电子书感情色彩的,符合大众视听审美的电子书语音音频,提高了用户体验。

图4为本发明提供的一种电子书语音音频的生成装置,包括:

通信模块10,用于接收各用户上传的音频片段;

文本段落识别模块20,用于确定与每个音频片段对应的电子书的文本段落;所述音频片段为用户朗读所述文本段落生成的;

语音音频生成模块30,用于根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段;还用于用于根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频。

在其中一种可选的实施方式中,所述通信模块10还包括与电子书中每个文本段落相应的音频上传端口;

所述文本段落识别模块20还用于在接收各用户上传的音频片段,确定与每个音频片段对应的电子书的文本段落之前,对电子书的文本进行拆分,获得至少一个文本段落;

在所述音频上传端口接收到各用户上传的音频片段之后,所述文本段落识别模块20还用于根据音频片段对应的音频上传端口,确定电子书的文本段落。

在其中一种可选的实施方式中,所述文本段落识别模块20,具体用于对音频片段进行语音识别,获得音频片段对应的文本信息,根据所述文本信息,在所述电子书中确定与所述文本信息对应的文本段落。

在其中一种可选的实施方式中,所述试听反馈信息包括评分信息,和/或评论信息,和/或试听热度;

所述语音音频生成模块30具体用于根据所述评分信息,和/或评论信息,和/或试听热度,对每个文本段落对应的各音频片段进行排序,以确定优选音频文件。

在其中一种可选的实施方式中,所述语音音频生成模块30具体用于根据各文本段落在电子书中的段落顺序,对各优选音频片段进行排序,对排序所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程以及相应的有益效果,可以参考前述方法实施例中的对应过程,在此不再赘述。

本发明实施例四提供的电子书语音音频的生成装置,通过接收各用户上传的音频片段,确定与每个音频片段对应的电子书的文本段落;所述音频片段为用户朗读所述文本段落生成的;根据接收的每个音频片段的试听反馈信息,在每个文本段落对应的多个音频片段中选出优选音频片段;根据各文本段落的段落顺序,对各优选音频片段进行整合生成电子书语音音频,从而使得用户可将自己朗读录制的音频片段上传,并通过对从中选出的优选音频片段进行整合,获得语气生动的、能够体现电子书感情色彩的,符合大众视听审美的电子书语音音频,提高了用户体验。

图5为本发明实施例五提供的一种电子书语音音频装置的结构示意图。如图5所示,该电子书语音音频装置包括:存储器41、处理器42及存储在存储器41上并可在处理器42上运行的计算机程序,处理器42运行计算机程序时执行上述任一实施例的方法。

本发明还提供一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行上述任一实施例的方法。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1