识别音频文件的方法、装置、服务器及存储介质与流程

文档序号:20683268发布日期:2020-05-08 18:36阅读:279来源:国知局
识别音频文件的方法、装置、服务器及存储介质与流程

本申请涉及网络技术领域,特别涉及一种识别音频文件的方法、装置、服务器及存储介质。



背景技术:

随着网络技术的快速发展,歌曲的上传、分享也变得更加方便快捷。用户可以在音频服务器中上传歌曲,其他用户可以在音频服务器中下载该歌曲。但是,一些用户在上传歌曲时,为了让其他用户能够搜索到该歌曲,往往将歌曲的名称定义或修改为热门字段,而其上传的歌曲与热门字段并无联系,这种蹭热度的行为会导致其他用户在音频服务器中搜索歌曲时难以找到自己想要的歌曲。因此,对蹭热度的歌曲的识别有重要的意义和价值。

目前,在识别蹭热度的歌曲之前,工作人员根据当前网络上的热门信息维护一个热门词表,该热门词表包括至少一个热门字段。当对待识别的歌曲进行识别时,将该歌曲的名称与热门词表的中热门字段进行比较,从而确定该歌曲是否为蹭热度的歌曲。

由于热门词表仅是工作人员根据当前网络上的热门信息维护的,根据该热门词表对音频文件进行识别,准确率较低。



技术实现要素:

本申请实施例提供了一种识别音频文件的方法、装置、服务器及存储介质,能够提高识别音频文件的准确率。所述技术方案如下:

根据本申请实施例的一方面,提供了一种识别音频文件的方法,所述方法包括:

获取待识别的第一音频文件的权重,所述权重用于表示所述第一音频文件为第一类别音频文件的概率;

若所述第一音频文件的权重不大于第一阈值,则确定所述第一音频文件为第一类别音频文件;

确定所述第一类别音频文件对应的第一热度和时新度,所述第一热度为基于所述第一类别音频文件对应的搜索量和播放量得到的数值,所述时新度为基于所述第一类别音频文件对应的发布时间得到的数值;

根据所述第一类别音频文件对应的第一热度和时新度,确定所述第一类别音频文件对应的热度指数;

若所述第一类别音频文件对应的热度指数大于第二阈值,确定所述第一类别音频文件为第二类别音频文件;

若所述第一类别音频文件对应的热度指数不大于第二阈值,确定所述第一类别音频文件为第三类别音频文件。

在一种可能的实现方式中,所述若所述第一类别音频文件对应的热度指数大于第二阈值,确定所述第一类别音频文件为第二类别音频文件,包括:

若所述第一类别音频文件对应的热度指数大于第二阈值,从音频数据库中确定与所述第一类别音频文件的属性信息相同的第一目标音频文件,所述第一目标音频文件为第三类别音频文件;

确定所述第一类别音频文件的歌词和所述第一目标音频文件的歌词之间的差异度;

若所述差异度大于第三阈值,确定所述第一类别音频文件为第二类别音频文件。

在另一种可能的实现方式中,所述若所述第一类别音频文件对应的热度指数大于第二阈值,确定所述第一类别音频文件为第二类别音频文件,包括:

若所述第一类别音频文件对应的热度指数大于第二阈值,从音频数据库中确定与所述第一类别音频文件的属性信息相同的第二目标音频文件,所述第二目标音频文件为第三类别音频文件;

确定所述第一类别音频文件的创作者和所述第二目标音频文件的创作者;

若所述第一类别音频文件的创作者和所述第二目标音频文件的创作者中没有相同用户,确定所述第一类别音频文件为第二类别音频文件。

在另一种可能的实现方式中,所述确定所述第一类别音频文件对应的第一热度和时新度,包括:

获取音频数据库和历史搜索播放日志,所述音频数据库中包括至少一个第一类别音频文件;

对于所述历史搜索播放日志中的每个第一类别音频文件,根据所述历史搜索播放日志中所述第一类别音频文件对应的搜索量和播放量,确定所述第一类别音频文件对应的第一热度,以及根据所述音频数据库中所述第一类别音频文件对应的发布时间,确定所述第一类别音频文件对应的时新度。

在另一种可能的实现方式中,所述根据所述第一类别音频文件对应的第一热度和时新度,确定所述第一类别音频文件对应的热度指数,包括:

获取与所述第一类别音频文件匹配的至少一个第二音频文件,以及所述第一类别音频文件对应的第三目标音频文件,所述第三目标音频文件为第三类别音频文件;

根据所述每个第二音频文件的发布时间、所述第三目标音频文件的发布时间和第二音频文件的数量,确定所述第一类别音频文件对应的第二热度;

对所述第一类别音频文件对应的第一热度、时新度、所述第二热度和所述第二音频文件的数量进行加权求和,得到所述第一类别音频文件对应的热度指数。

在另一种可能的实现方式中,所述获取待识别的第一音频文件的权重,包括:

获取音频数据库和历史搜索播放日志;

根据所述音频数据库,确定所述第一音频文件对应的演唱者和所述演唱者对应的第三音频文件的数量;

根据所述历史搜索播放日志,确定所述第三音频文件的播放量;

根据所述演唱者对应的第三音频文件的数量和所述第三音频文件的播放量,确定所述第一音频文件的权重。

在另一种可能的实现方式中,所述获取待识别的第一音频文件的权重,包括:

获取所述第一音频文件在指定时间段内的播放量;

根据所述第一音频文件在指定时间段内的播放量,确定所述第一音频文件的权重。

在另一种可能的实现方式中,所述方法还包括:

若确定所述第一类别音频文件为第二类别音频文件,获取所述第二类别音频文件的评论信息;

若确定所述评论信息用于指示所述第二类别音频文件为第三类别音频文件,确定所述第二类别音频文件为第三类别音频文件。

在另一种可能的实现方式中,所述方法还包括:

若确定所述第一类别音频文件为第二类别音频文件,获取所述第二类别音频文件的搜索播放日志;

若确定所述第二类别音频文件的搜索播放日志用于指示所述第二类别音频文件为第三类别音频文件,确定所述第二类别音频文件为第三类别音频文件。

根据本申请实施例的另一方面,提供了一种识别音频文件的装置,所述装置包括:

获取模块,被配置为获取待识别的第一音频文件的权重,所述权重用于表示所述第一音频文件为第一类别音频文件的概率;

确定模块,被配置为若所述第一音频文件的权重不大于第一阈值,则确定所述第一音频文件为第一类别音频文件;

所述确定模块,还被配置为确定所述第一类别音频文件对应的第一热度和时新度,所述第一热度为基于所述第一类别音频文件对应的搜索量和播放量得到的数值,所述时新度为基于所述第一类别音频文件对应的发布时间得到的数值;

所述确定模块,还被配置为根据所述第一类别音频文件对应的第一热度和时新度,确定所述第一类别音频文件对应的热度指数;

所述确定模块,还被配置为若所述第一类别音频文件对应的热度指数大于第二阈值,确定所述第一类别音频文件为第二类别音频文件;

所述确定模块,还被配置为若所述第一类别音频文件对应的热度指数不大于第二阈值,确定所述第一类别音频文件为第三类别音频文件。

在一种可能的实现方式中,所述确定模块,还被配置为若所述第一类别音频文件对应的热度指数大于第二阈值,从音频数据库中确定与所述第一类别音频文件的属性信息相同的第一目标音频文件,所述第一目标音频文件为第三类别音频文件;确定所述第一类别音频文件的歌词和所述第一目标音频文件的歌词之间的差异度;若所述差异度大于第三阈值,确定所述第一类别音频文件为第二类别音频文件。

在另一种可能的实现方式中,所述确定模块,还被配置为若所述第一类别音频文件对应的热度指数大于第二阈值,从音频数据库中确定与所述第一类别音频文件的属性信息相同的第二目标音频文件,所述第二目标音频文件为第三类别音频文件;确定所述第一类别音频文件的创作者和所述第二目标音频文件的创作者;若所述第一类别音频文件的创作者和所述第二目标音频文件的创作者中没有相同用户,确定所述第一类别音频文件为第二类别音频文件。

在另一种可能的实现方式中,所述确定模块,还被配置为获取音频数据库和历史搜索播放日志,所述音频数据库中包括至少一个第一类别音频文件;对于所述历史搜索播放日志中的每个第一类别音频文件,根据所述历史搜索播放日志中所述第一类别音频文件对应的搜索量和播放量,确定所述第一类别音频文件对应的第一热度,以及根据所述音频数据库中所述第一类别音频文件对应的发布时间,确定所述第一类别音频文件对应的时新度。

在另一种可能的实现方式中,所述确定模块,还被配置为获取与所述第一类别音频文件匹配的至少一个第二音频文件,以及所述第一类别音频文件对应的第三目标音频文件,所述第三目标音频文件为第三类别音频文件;根据所述每个第二音频文件的发布时间、所述第三目标音频文件的发布时间和第二音频文件的数量,确定所述第一类别音频文件对应的第二热度;对所述第一类别音频文件对应的第一热度、时新度、所述第二热度和所述第二音频文件的数量进行加权求和,得到所述第一类别音频文件对应的热度指数。

在另一种可能的实现方式中,所述获取模块,还被配置为获取音频数据库和历史搜索播放日志;根据所述音频数据库,确定所述第一音频文件对应的演唱者和所述演唱者对应的第三音频文件的数量;根据所述历史搜索播放日志,确定所述第三音频文件的播放量;根据所述演唱者对应的第三音频文件的数量和所述第三音频文件的播放量,确定所述第一音频文件的权重。

在另一种可能的实现方式中,所述获取模块,还被配置为获取所述第一音频文件在指定时间段内的播放量;根据所述第一音频文件在指定时间段内的播放量,确定所述第一音频文件的权重。

在另一种可能的实现方式中,所述获取模块,还被配置为若确定所述第一类别音频文件为第二类别音频文件,获取所述第二类别音频文件的评论信息;

所述确定模块,还被配置为若确定所述评论信息用于指示所述第二类别音频文件为第三类别音频文件,确定所述第二类别音频文件为第三类别音频文件。

在另一种可能的实现方式中,所述获取模块,还被配置为若确定所述第一类别音频文件为第二类别音频文件,获取所述第二类别音频文件的搜索播放日志;

所述确定模块,还被配置为若确定所述第二类别音频文件的搜索播放日志用于指示所述第二类别音频文件为第三类别音频文件,确定所述第二类别音频文件为第三类别音频文件。

根据本申请实施例的另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现上述任一可能的实现方式所述的识别音频文件的方法。

根据本申请实施例的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一可能的实现方式所述的识别音频文件的方法。

在本申请实施例中,获取待识别的第一音频文件的权重,该权重用于表示第一音频文件为第一类别音频文件的概率;若第一音频文件的权重不大于第一阈值,则确定第一音频文件为第一类别音频文件;确定第一类别音频文件对应的第一热度和时新度,第一热度为基于第一类别音频文件对应的搜索量和播放量得到的数值,时新度为基于第一类别音频文件对应的发布时间得到的数值;根据第一类别音频文件对应的第一热度和时新度,确定第一类别音频文件对应的热度指数;若第一类别音频文件对应的热度指数大于第二阈值,确定第一类别音频文件为第二类别音频文件;若第一类别音频文件对应的热度指数不大于第二阈值,确定第一类别音频文件为第三类别音频文件。基于待识别的第一音频文件的权重和第一音频文件的热度指数,识别第一音频文件所属的类别,由于权重表示第一音频文件为第一类别音频文件的概率,第一热度表示第一类别音频文件对应的搜索量和播放量,时新度表示第一类别音频文件对应的发布时间,通过权重和由第一热度和时新度得到的热度指数确定第一音频文件所属的类别,准确率较高。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图;

图2是本申请实施例提供的一种识别音频文件的方法的流程图;

图3是本申请实施例提供的一种识别音频文件的装置的框图;

图4是本申请实施例提供的一种服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种实施环境的示意图。如图1所示,该实施环境包括第一终端101和服务器102;第一终端101和服务器102之间通过无线或者有线网络连接。并且,第一终端101上可以安装有服务器102提供服务的客户端,第一终端101对应的用户可以通过该客户端实现例如数据传输、消息交互等功能。

第一终端101可以为电脑、手机、平板电脑或者其他电子设备。客户端可以为第一终端101上安装的能够播放音频文件的客户端。例如,该客户端可以为音频播放器或者浏览器等。服务器102可以为该客户端对应的后台服务器。相应的,服务器102可以为音频播放服务器或者浏览器服务器等。

第一终端101可以通过该客户端向服务器102上传第一音频文件,服务器102接收第一终端101上传的第一音频文件,将第一音频文件存储在音频数据库中。

第一终端101上传的第一音频文件可能为蹭热门影视剧的热度的音频文件,例如,第一音频文件的音频文件名为热门影视剧的名称,但第一音频文件并不是热门影视剧的影视原声带,则第一音频文件可能为蹭热门影视剧的热度的音频文件。

第一终端101上传的第一音频文件还可能为蹭热门歌曲的热度的音频文件,例如,第一音频文件的音频文件名为热门歌曲的名称,但第一音频文件与该热门歌曲并不相关,则第一音频文件可能为蹭热门歌曲的热度的音频文件。

第一终端101上传的第一音频文件也可能为蹭热门歌词的热度的音频文件,例如,第一音频文件所属的专辑的名称为热门歌词,但第一音频文件与热门歌词并不相关,则第一音频文件可能为蹭热门歌词的热度的音频文件。

服务器102通过本申请实施例提供的方法对该第一音频文件进行识别。其中,服务器102可以在第一终端101上传第一音频文件时,对该第一音频文件进行识别,也可以接收到第一终端101上传的第一音频文件时,将该第一音频文件存储到音频数据库中,周期性对音频数据库中的第一音频文件进行识别。

服务器102获取第一音频文件的权重,若第一音频文件的权重不大于第一阈值,则确定第一音频文件为第一类别音频文件。权重用于表示第一音频文件为第一类别音频文件的概率。权重也可以表示第一音频文件为非蹭热度的音频文件的可信程度,权重越大,表示第一音频文件为非蹭热度的音频文件的可能性越大,权重越小,表示第一音频文件为非蹭热度的音频文件的可能性越小,即第一音频文件越有可能是第一类别音频文件,也即可能蹭热度的音频文件。因此,若第一音频文件的权重大于第一阈值,则确定第一音频文件为第三类别音频文件,也即非蹭热度的音频文件;若第一音频文件的权重不大于第一阈值,则确定第一音频文件为第一类别音频文件,也即第一音频文件为可能蹭热度的音频文件,需要对第一类别音频文件进行进一步的识别。

服务器102进一步识别第一类别音频文件,确定第一类别音频文件对应的第一热度和时新度,根据第一热度和时新度确定第一类别音频文件对应的热度指数。第一类别音频文件对应的热度指数越高,第一类别音频文件越有可能是蹭热度的音频文件,因此,若第一类别音频文件对应的热度指数大于第二阈值,确定第一类别音频文件为第二类别音频文件,也即蹭热度的音频文件;若第一类别音频文件对应的热度指数不大于第二阈值,确定第一类别音频文件为第三类别音频文件,也即非蹭热度的音频文件。

第一类别音频文件、第二类别音频文件和第三类别音频文件用于表示第一音频文件所属的类别,第一类别音频文件表示权重不大于第一阈值的第一音频文件,也即需要进一步识别是否蹭热度的第一音频文件。第二类别音频文件表示权重不大于第一阈值,且热度指数大于第二阈值的第一音频文件,也即蹭热度的第一音频文件。第三类别音频文件可以表示权重大于第一阈值的第一音频文件;第三类别音频文件也可以表示权重不大于第一阈值,且热度指数不大于第二阈值的第一音频文件,也即非蹭热度的音频文件。

服务器102还可以根据音频文件评论信息和搜索播放日志等信息对第二类别音频文件所属的类别进行动态调整,当第二类别音频文件的评论信息或搜索播放日志等信息指示该第二类别音频文件为第三类别音频文件时,将该第二类别音频文件确定为第三类别音频文件。

该实施环境中还包括第二终端103,第二终端103和服务器102之间通过无线或者有线网络连接。并且,第二终端103上也可以安装有服务器102提供服务的客户端,第二终端103对应的用户可以通过该客户端实现例如数据传输、消息交互等功能。第二终端103可以通过该客户端从服务器102中搜索音频文件,当第二终端103从服务器102中搜索音频文件时,第二终端103向服务器102发送搜索请求,该搜索请求携带搜索字段。服务器102根据搜索字段,从音频数据库中确定与搜索字段匹配的多个第三类别音频文件,向第二终端103返回多个第三类别音频文件。

图2是本申请实施例提供的一种识别音频文件的方法的流程图。如图2所示,该实施例包括:

201、服务器获取待识别的第一音频文件的权重,若第一音频文件的权重不大于第一阈值,则确定第一音频文件为第一类别音频文件。

权重用于表示第一音频文件为第一类别音频文件的概率。若第一音频文件的权重不大于第一阈值,则第一音频文件为蹭热度的可能性较大的音频文件,也即第一音频文件为第一类别音频文件。若第一音频文件为第一类别音频文件,需要进一步识别第一类别音频文件是否为蹭热度的音频文件,也即识别第一类别音频文件为第二类别音频文件或第三类别音频文件中的一种。第一音频文件的权重也可以表示为第一音频文件的权威度。

若第一音频文件的权重大于第一阈值,则第一音频文件为第一类别音频文件的概率较小,第一音频文件蹭热度的可能性较小。若第一音频文件的权重大于第一阈值,则第一音频文件为第三类别音频文件,第三类别音频文件为非蹭热度的音频文件。

在一种可能的实现方式中,服务器确定第一音频文件对应的演唱者的至少一个权重特征,对演唱者的权重特征进行加权求和,得到第一音频文件的权重。相应的,服务器获取待识别的第一音频文件的权重的步骤可以为:服务器获取音频数据库和历史搜索播放日志;根据音频数据库,确定第一音频文件对应的演唱者和演唱者对应的第三音频文件的数量;根据历史搜索播放日志,确定第三音频文件的播放量;根据演唱者对应的第三音频文件的数量和第三音频文件的播放量,确定第一音频文件的权重。

音频数据库包括音频文件和音频文件的属性信息,例如,属性信息包括音频文件的演唱者、创作者、影视原声带和现场版本中的一个或多个。历史搜索播日志包括音频文件的搜索量和播放量。服务器从音频数据库中确定第一音频文件的演唱者和演唱者对应的第三音频文件的数量,从历史搜索播放日志中确定第三音频文件的播放量。第三音频文件为用于表示演唱者的权威特征的音频文件,例如,第三音频文件可以为获奖的音频文件、属性信息为影视原声带的音频文件、属性信息为现场版本的音频文件或者属性信息为综艺类的音频文件中的一个或多个。

相应的,服务器可以通过以下公式一确定第一音频文件的权重:

公式一:

其中,auth(si)表示根据演唱者的权重特征确定的第一音频文件的权重,k表示演唱者权重特征的个数,表示演唱者第k维特征的权重,feaki表示演唱者i的第k维特征的数值,si表示演唱者i,表示对演唱者的第1维特征至第k维特征中的每一维特征的数值进行累加求和。

需要说明的一点是,演唱者第k维特征的权重可以根据音频数据库中演唱者登记的信息,通过pairwise(成对地)训练数据学习得到。需要说明的另一点是,可以选取演唱者累计获奖数目,累计发布影视原声带数目,累计现场版歌曲数目,累计综艺类歌曲数目以及月累计播放量等音频数据库中演唱者的相关特征中的一个或其中几个的结合作为演唱者的权重特征进行权重的计算,其中,演唱者权重特征的原始数值均可根据音频数据库得到,可以将原始数值在进行权重计算之前进行归一化。

在本申请实施例中,考虑到人工录入的音频文件的属性信息可能不够完整,引入了音频文件演唱者的权重来反映音频文件的权重,从而,能够更全面的考察音频文件的权重,避免对非蹭热度音频文件的误伤。

在另一种可能的实现方式中,服务器可以获取第一音频文件在指定时间段内的播放量;根据第一音频文件在指定时间段内的播放量,确定第一音频文件的权重。服务器确定第一音频文件在指定时间段内的播放量,将该播放量确定为第一音频文件的权重。其中,指定时间段可以为以当前时间为基准的前1个月。

在另一种可能的实现方式中,服务器确定第一音频文件的影视字段或版本信息,根据第一音频文件属性信息中的影视字段或版本信息,确定第一音频文件的权重。例如,当第一音频文件的属性信息中的影视字段不为空时,说明该第一音频文件为影视原声带,第一音频文件蹭热度的可能性较小,第一类别音频文件为第三类别音频文件,当第一音频文件属性信息中的版本信息为现场版时,说明该第一音频文件为现场版本的音频文件,第一音频文件蹭热度的可能性较小,第一类别音频文件为第三类别音频文件。

需要说明的一点是,服务器确定第一音频文件的权重时,可以根据以上三种可能的实现方式中的任意一种确定的第一音频文件的权重,也可以根据以上三种可能的实现方式中的任意几种方式的结合确定的第一音频文件的权重。

在本申请实施例中,在对第一音频文件进行识别之前,加入了对第一音频文件权重的判定,通过对第一音频文件权重的考察,将权重符合一定要求的第一音频文件确定为非蹭热度文件,能够减少对非蹭热度音频文件的误伤,更准确的识别出蹭热度的音频文件。

202、服务器确定第一类别音频文件对应的第一热度,第一热度为基于第一类别音频文件对应的搜索量和播放量得到的数值。

在第一种可能的实现方式中,第一类别音频文件可能为蹭热门影视剧的热度的音频文件,即第一类别音频文件的音频文件名或者该第一类别音频文件所属专辑的专辑名为当前较为热门的影视剧的名称,但该第一类别音频文件并不是当前较为热门的影视剧的影视原声带。

当搜索字段为影视剧的名称时,该搜索字段对应的搜索意图为该影视剧的名称对应的影视原声带。该搜索字段对应的搜索结果中包括至少一个第一类别音频文件。服务器可以根据第一类别音频文件对应的搜索字段的搜索量、该搜索字段对应的搜索结果中所有音频文件的播放量和第一类别音频文件的播放量,确定第一类别音频文件的第一热度,服务器确定第一类别音频文件的第一热度可以通过以下步骤(1)至(2)实现:

(1)服务器获取音频数据库和历史搜索播放日志,音频数据库中包括至少一个第一类别音频文件。

历史搜索播放日志包括至少一个搜索播放记录,每个搜索播放记录包括搜索字段和播放记录。搜索字段可以为影视剧的名称等。且搜索字段可以包括至少一个字符。

服务器可以获取任一历史时间段的历史搜索播放日志,还可以获取当前时间之前的预设时长内的历史播放日志;例如,服务器获取当前时间之前的1个月的历史搜索播放日志,或者服务器获取当前时间之前的1天的历史搜索播放日志等。在本申请实施例中,以服务器获取当前时间之前的一个月的历史搜索播放日志为例进行说明。

(2)对于历史搜索播放日志中的每个第一类别音频文件,服务器根据历史搜索播放日志中第一类别音频文件对应的搜索量和播放量,确定第一类别音频文件对应的第一热度。

服务器根据历史搜索播放日志,确定第一类别音频文件对应的搜索字段的第一搜索量、第一类别音频文件对应的搜索字段的第一播放量和第一类别音频文件对应的搜索字段的第二播放量。

第一搜索量为第一类别音频文件对应的搜索字段在第一指定时间段内的每个单位时长内的搜索量。第一播放量为在每个单位时长内该搜索字段对应的播放量;相应的,服务器根据历史搜索播放日志,确定第一类别音频文件对应的搜索字段的第一播放量的步骤可以为:服务器根据历史搜索播放日志,确定该第一类别音频文件对应的搜索字段对应的搜索结果,该搜索结果中包括至少一个第五音频文件,对于每个单位时长,服务器从该搜索结果中获取每个第五音频文件在该单位时长内的播放量,将每个第五音频文件在该单位时长内的播放量之和作为在该单位时长内该搜索字段对应的第一播放量。

至少一个第五音频文件为属性信息与该搜索字段匹配的音频文件。其中,至少一个第五音频文件可以包括属性信息中影视字段与该搜索字段匹配的音频文件、属性信息中歌曲字段与该搜索字段匹配的音频文件和属性信息中歌词字段与该搜索字段匹配的音频文件,至少一个第五音频文件中包括第一类别音频文件。

第二播放量为在每个单位时长内搜索该搜索字段,且属性信息中的影视字段为该搜索字段的被播放的第六音频文件的播放量。相应的,服务器根据历史搜索播放日志,确定第一类别音频文件对应的搜索字段的第二播放量的步骤可以为:服务器根据历史搜索播放日志,确定该搜索字段对应的搜索结果,该搜索结果中包括至少一个第六音频文件。对于每个单位时长,服务器从该第二搜索结果中获取每个第六音频文件在该单位时长内的播放量,将每个第六音频文件在该单位时长内的播放量之和作为在该单位时长内该搜索字段对应的播放量。其中,至少一个第六音频文件为属性信息中的影视字段为该搜索字段的音频文件。

例如,第一指定时间段可以为1个月,单位时长可以为天;再如,第一指定时间段为1天,单位时长可以为小时。

服务器根据该第一类别音频文件对应的搜索字段的第一搜索量,确定该搜索字段在第一指定时间段内的第二搜索量。

服务器可以对每个单位时长内该搜索字段的第一搜索量进行求和,得到该搜索字段在第一指定时间段内的第二搜索量;或者,服务器可以将在每个单位时长内该搜索字段的第一搜索量进行加权求和,得到该搜索字段在第一指定时长内的第二搜索量。当服务器将在每个单位时长内该搜索字段的第一搜索量进行求和,得到该搜索字段在第一指定时长内的第二搜索量时,服务器可以根据以下公式二来确定该搜索字段在第一指定时间段内的第二搜索量:

公式二:

其中,q表示为第二搜索量,d表示第一指定时间段的长度,也即第一指定时间段内包括的单位时长的数量,i表示第一指定时间段内的每个单位时长,q表示该第一类别音频文件对应的搜索字段,pvi(q)表示第一类别音频文件对应的搜索字段在上述每个单位时长内的第一搜索量,表示对第1个单位时长至第d个单位时长中的每个单位时长的第一搜索量进行累加求和。

服务器根据第一播放量和第二播放量,确定该第一类别音频文件对应的搜索字段在第一指定时间段内的播放指数。

该播放指数与该第一播放量呈负相关,与第二播放量呈正相关。在本步骤中,服务器可以根据第一播放量和第二播放量,通过任一与第一播放量呈负相关,与第二播放量呈正相关的公式,确定该第一类别音频文件对应的搜索字段在第一指定时间段内的播放指数。

例如,服务器可以根据第一播放量和第二播放量,通过以下公式三,确定该第一类别音频文件对应的搜索字段在第一指定时间段内的播放指数:

公式三:

其中,s表示该第一类别音频文件对应的搜索字段在第一指定时间段内的播放指数,d表示第一指定时间段的长度,也即第一指定时间段内包括的单位时长的数量,i表示第一指定时间段内的每个单位时长,q表示该第一类别音频文件对应的搜索字段,clki(q)表示第一播放量,clkmoviei(q)表示第二播放量,表示对第1个单位时长至第d个单位时长中的每个单位时长对应的第二播放量与第一播放量的比值进行累加求和。

服务器根据该第一类别音频文件对应的搜索字段的第二搜索量和播放指数,确定该第一类别音频文件对应的第一热度。

该第一类别音频文件对应的第一热度与该第一类别音频文件对应的搜索字段的第二搜索量和播放指数呈正相关。在本步骤中,服务器可以根据该第一类别音频文件对应的搜索字段的第二搜索量和播放指数,通过任一与该第一类别音频文件对应的搜索字段的第二搜索量和播放指数呈正相关的公式,确定该第一类别音频文件对应的第一热度。

例如,服务器可以根据该第一类别音频文件对应的搜索字段的第二搜索量和播放指数,通过以下公式四,确定该第一类别音频文件对应的第一热度:

公式四:hotness(q)=q×s

其中,hotness(q)表示该第一类别音频文件对应的第一热度,q表示该第一类别音频文件对应的搜索字段,q表示该第一类别音频文件对应的搜索字段的第二搜索量,s表示该第一类别音频文件对应的搜索字段的播放指数。

在第二种可能的实现方式中,第一类别音频文件可能为蹭热门歌曲的热度的音频文件,即该第一类别音频文件的音频文件名或者该第一类别音频文件所属专辑的专辑名为当前较为热门的歌曲的名称,但该第一类别音频文件与该热门的歌曲并不相关。

当第一类别音频文件对应的搜索字段为当前较为热门的歌曲的名称时,服务器可以确定第一类别音频文件对应的搜索字段的第一热度,将该搜索字段的第一热度确定为第一类别音频文件对应的第一热度。相应的,服务器确定第一类别音频文件对应的第一热度的步骤可以为:服务器根据历史搜索播放日志,确定第一类别音频文件对应的搜索字段对应的音频文件列表,对于音频文件列表中的每个音频文件,确定该音频文件在第二指定时间段内的第三搜索量和第三播放量。服务器从该音频文件的第三搜索量和该音频文件的第三播放量中选择最大值,从音频文件列表中每个音频文件对应的最大值中选择最大值,将选择的最大值作为搜索字段的第一热度。其中,音频文件列表中的音频文件可以为歌曲名称与搜索字段相同的音频文件。

在一种可能的实现方式中,服务器可以从音频文件列表中每个音频文件对应的最大值中选择最大值,将该选择的最大值作为该搜索字段的第一热度。在另一种可能的实现方式中,服务器可以先对每个音频文件在第二指定时间段内的第三搜索量和第三播放量进行归一化处理,从每个音频文件在第二指定时间段内归一化处理后的第三搜索量和第三播放量中选择最大值,将该选择的最大值作为该搜索字段的第一热度;例如,服务器可以根据以下公式五来确定该搜索字段的第一热度:

公式五:

其中,hotness(n)表示第一类别音频文件对应的搜索字段的第一热度,sn表示搜索字段对应的音频文件列表,s表示音频文件列表中的每一个音频文件,norm表示归一化,searchs表示音频文件s在第二指定时间段内的第三搜索量,plays表示音频文件s在第二指定时间段内的第三播放量,max表示获取最大值。

需要说明的一点是,searchs还可以表示音频文件s和该音频文件的演唱者的名字相结合的搜索字段在第二指定时间段内的第三搜索量。

需要说明的另一点是,上述第三搜索量和第三播放量的数值分布区间可能不同,因此,可以用归一化方法对第三搜索量和第三播放量进行归一化,通过归一化的第三搜索量和第三播放量确定该第一类别音频文件对应的搜索字段的第一热度,提高了准确性。

在第三种可能的实现方式中,第一类别音频文件可能为蹭热门歌词的热度的音频文件,即该第一类别音频文件的音频文件名或者该第一类别音频文件所属专辑的专辑名为当前较为热门的歌词,但该第一类别音频文件与该热门歌词并不相关。

当第一类别音频文件对应的搜索字段为当前较为热门的歌词时,服务器确定第一类别音频文件对应的第一热度与当第一类别音频文件对应的搜索字段为当前较为热门的歌曲的名称时,服务器确定第一类别音频文件对应的第一热度相似,在此不再赘述。

203、服务器确定第一类别音频文件对应的时新度,时新度为基于第一类别音频文件对应的发布时间得到的数值。

在第一种可能的实现方式中,当识别第一类别音频文件是否为蹭热门影视剧热度的音频文件时,服务器可以确定第一类别音频文件对应的影视原声带的发布时间,根据该影视原声带的发布时间,确定第一类别音频文件对应的时新度。相应的,服务器确定第一类别音频文件对应的时新度的步骤可以为:服务器从音频数据库中确定音频文件的属性信息中的影视字段为搜索字段的第一目标音频文件,第一目标音频文件可以是该搜索字段对应的影视原声带;服务器确定第一目标音频文件的发布时间,根据发布时间和当前时间,确定第一类别音频文件对应的时新度。

第一目标音频文件的属性信息中还包括发布时间字段,服务器可以从该发布时间字段中获取该第一目标音频文件的发布时间。服务器根据发布时间和当前时间,确定搜索字段的时新度的步骤可以为:服务器根据该发布时间和当前时间,确定当前时间与发布时间之间的时间差,根据该时间差,确定该第一类别音频文件对应的时新度。

其中,该时间差越小,说明该第一类别音频文件对应的第一目标音频文件的发布时间距离当前时间越近,说明该第一目标音频文件的时新度越高。也即,该第一类别音频文件对应的时新度与该时间差呈正相关;在本步骤中,服务器可以直接将该时间差作为该第一类别音频文件对应的时新度。

在第二种可能的实现方式中,第一类别音频文件可能为蹭热门歌曲的热度的音频文件,服务器可以根据第一类别音频文件对应的第一目标音频文件的发布时间,确定第一类别音频文件对应的时新度。相应的,服务器确定第一类别音频文件对应的时新度可以通过以下步骤(1)至(2)实现:

(1)服务器从音频数据库中确定第一类别音频文件对应的第一目标音频文件。

第一类别音频文件可能为蹭热门歌曲的热度的音频文件,服务器可以根据第一类别音频文件对应的第一目标音频文件的发布时间,确定第一类别音频文件对应的时新度。

第一目标音频文件可以为上述音频文件列表中第一热度最高的音频文件,其中,服务器确定第一热度最高的音频文件的方法可以为:服务器从步骤302中每个音频文件的第三搜索量和每个音频文件的第三播放量中选择最大值,从音频文件列表中每个音频文件对应的最大值中选择最大值,以该最大值对应的音频文件作为第一目标音频文件。即服务器可以根据以下公式六确定第一目标音频文件:

公式六:

其中,maxsong(n)表示第一目标音频文件,sn表示搜索字段对应的音频文件列表,s表示音频文件列表中的每一个音频文件,norm表示归一化,searchs表示音频文件s在第二指定时间段内的第三搜索量,plays表示音频文件s在第二指定时间段内的第三播放量,argmax表示从音频文件列表中获取每个音频文件对应的最大值中的最大值对应的第一目标音频文件。

需要说明的一点是,searchs还可以表示表示音频文件s和该音频文件的演唱者的名字相结合的搜索字段在第二指定时间段内的第三搜索量。

服务器从音频数据库中确定第一目标音频文件的方法还可以为:根据音频数据库,确定第一类别音频文件对应的搜索字段,从该搜索字段对应的音频文件列表中确定标有原唱标记的音频文件为第一目标音频文件。

(2)服务器确定第一目标音频文件的发布时间;将第一目标音频文件的发布时间,确定为第一类别音频文件对应的时新度。

在一种可能的实现方式中,第一目标音频文件的属性信息中还包括发布时间字段,从该发布时间字段中获取该第一目标音频文件的发布时间,将该发布时间,确定为搜索字段的时新度。

在第三种可能的实现方式中,第一类别音频文件可能为蹭热门歌词的热度的音频文件,服务器可以根据第一类别音频文件对应的第三目标音频文件的发布时间,确定第一类别音频文件对应的时新度。第三目标音频文件可以为该热门歌词对应的音频文件中热度最高的音频文件,第三目标音频文件还可以为该热门歌词对应的音频文件携带有原唱标记的音频文件。

服务器可以将第三目标音频文件的发布时间作为第一类别音频文件对应的时新度。当第一类别音频文件为蹭热门歌词的热度的音频文件时,服务器确定第一类别音频文件对应的时新度的步骤与当第一类别音频文件为蹭热门歌曲的热度的音频文件时,服务器确定第一类别音频文件对应的时新度的步骤相似,在此不再赘述。

需要说明的一点是,步骤202和步骤203没有严格的时间先后顺序;可以先执行步骤202,再执行步骤203;也可以先执行步骤203,再执行步骤202;还可以同时执行步骤202和步骤203;在本申请实施例中,对步骤202和步骤203的执行顺序不作限定。

204、服务器根据第一类别音频文件对应的第一热度和时新度,确定第一类别音频文件对应的热度指数。

在一种可能的实现方式中,服务器可以根据该第一类别音频文件对应的第一热度和时新度,确定第一类别音频文件对应的热度指数;并且,热度指数与第一热度和时新度呈正相关。在本申请实施例中,服务器可以根据该第一类别音频文件对应的第一热度和时新度,通过任一与第一热度和时新度呈正相关的公式,确定该第一类别音频文件对应的热度指数。例如,服务器可以根据该第一类别音频文件对应的第一热度和时新度,通过以下公式七,确定该第一类别音频文件对应的热度指数:

公式七:freshness(q)

其中,spamedvalue(q)表示该第一类别音频文件对应的热度指数,hotness(q)表示第一类别音频文件对应的第一热度,表示第一热度hotness(q)的权重,freshness(q)表示第一类别音频文件对应的时新度,表示时新度freshness(q)的权重,q表示第一类别音频文件对应的搜索字段。

需要说明的一点是,即第一热度的权重,可以手动设定,也可以通过机器学习的方法得到。即时新度的权重,可以手动设定,也可以通过机器学习的方法得到。

在另一种可能的实现方式中,服务器除了根据该第一类别音频文件对应的第一热度和时新度,还可以结合其他指标,确定该第一类别音频文件的热度指数。相应的,服务器根据第一类别音频文件对应的第一热度和时新度,确定第一类别音频文件对应的热度指数的步骤还可以为:服务器获取与第一类别音频文件匹配的至少一个第二音频文件,以及第一类别音频文件对应的第三目标音频文件,第三目标音频文件为第三类别音频文件;服务器根据每个第二音频文件的发布时间、第三目标音频文件的发布时间和第二音频文件的数量,确定第一类别音频文件对应的第二热度;服务器对第一类别音频文件对应的第一热度、时新度、第二热度和第二音频文件的数量进行加权求和,得到第一类别音频文件对应的热度指数。

服务器从音频数据库中确定与第一类别音频文件匹配的至少一个第二音频文件;确定每个第二音频文件的发布时间;根据每个第二音频文件的发布时间、第三目标音频文件的发布时间和第二音频文件的数量,确定该第一类别音频文件对应的第二热度。当第一类别音频文件对应的搜索字段为热门影视剧的名称时,第三目标音频文件可以为该搜索字段对应的影视原声带。

服务器从音频数据库中确定与第一类别音频文件匹配的至少一个第二音频文件,当第一类别音频文件对应的搜索字段为影视字段时,该第二音频文件可以是歌曲名称与该影视字段相同的音频文件,服务器根据每个第二音频文件的发布时间、第三目标音频文件的发布时间和第二音频文件的数量,可以通过以下公式八,确定该第一类别音频文件对应的第二热度:

公式八:

其中,spamtime表示该第一类别音频文件对应的第二热度,ti表示第i个第二音频文件的发布时间,t表示第三目标音频文件的发布时间,n表示第二音频文件的数量,|ti-t|表示第i个第二音频文件的发布时间和第三目标音频文件的发布时间之差的绝对值,表示对第1个第二音频文件至第n个第二音频文件中的每个第二音频文件的发布时间与第三目标音频文件的发布时间之差的绝对值进行累加求和。

相应的,服务器根据该第一类别音频文件对应的第一热度和时新度,确定该第一类别音频文件对应的热度指数的步骤可以为:服务器对该第一类别音频文件对应的第一热度、时新度、第二热度和第二音频文件的数量进行加权求和,得到第一类别音频文件对应的热度指数。例如,服务器可以通过以下公式九,对该第一类别音频文件对应的第一热度、时新度、第二热度和第二音频文件的数量进行加权求和,得到第一类别音频文件对应的热度指数,如以下公式九:

公式九:

其中,spamedvalue(q)表示该第一类别音频文件对应的热度指数,hotness(q)表示该第一类别音频文件对应的第一热度,表示第一热度hotness(q)的权重,freshness(q)表示该第一类别音频文件对应的时新度,表示时新度freshness(q)的权重,spamtime表示该第一类别音频文件对应的第二热度,表示第二热度的权重,n表示第二音频文件的数量,表示第二音频文件的数量对应的权重。

需要说明的一点是,即第一类别音频文件对应的第一热度的权重,可以手动设定,也可以通过机器学习的方法得到。即第一类别音频文件对应的时新度的权重,可以手动设定,也可以通过机器学习的方法得到。即第二类别音频文件对应的第二热度的权重,可以手动设定,也可以通过机器学习的方法得到。即第一类别音频文件对应的同名歌曲的数量的权重,可以手动设定,也可以通过机器学习的方法得到,其中,可以为相同的值,也可以为不同的值。

在本申请实施例中,在计算第一类别音频文件对应的热度指数时,增加了第一类别音频文件的第一热度以及第一类别音频文件对应的同名歌曲的数量两个指标,由于,在音频服务器中,当音频文件的影视字段与歌曲同名时,通常歌曲的意图要强一些,当音频服务器中已有与影视字段同名的蹭热度歌曲,对该影视字段进行搜索时,靠前的搜索结果可能大部分是与影视字段同名的蹭热度歌曲,从而得到的播放指数s可能较小,得到的热度指数不能准确的反映第一类别音频文件对应的热度,加入第二热度以及第一类别音频文件对应的同名歌曲的数量两个指标后,得到的热度指数能够更准确的反映出第一类别音频文件对应的热度,从而更准确的识别音频文件所属的类别。

205、若第一类别音频文件对应的热度指数大于第二阈值,服务器确定第一类别音频文件为第二类别音频文件;若第一类别音频文件对应的热度指数不大于第二阈值,服务器确定第一类别音频文件为第三类别音频文件。

在一种可能的实现方式中,第一类别音频文件的权重小于第一阈值,第一类别音频文件为蹭热度的音频文件的概率较高。当识别第一类别音频文件是否为蹭热门影视剧热度的音频文件时,若第一类别音频文件对应的热度指数大于第二阈值,表示第一类别音频文件对应的热度较高,则确定第一类别音频文件为第二类别音频文件,也即第一类别音频文件为蹭热度的音频文件。

在另一种可能的实现方式中,若第一类别音频文件对应的热度指数大于第二阈值,服务器还可以根据第一类别音频文件的属性信息和热门影视剧的名称,确定第一类别音频文件为第二类别音频文件或第三类别音频文件。相应的,若第一类别音频文件对应的热度指数大于第二阈值,服务器确定第一类别音频文件为第二类别音频文件的步骤还可以为:若第一类别音频文件对应的热度指数大于第二阈值,且第一类别音频文件的属性信息与热门影视剧的名称匹配,确定第一类别音频文件为第二类别音频文件。

热门影视剧可以包括一般热门影视剧和超级热门影视剧,若第一类别音频文件对应的热度指数大于第二阈值,且第一类别音频文件的属性信息与一般热门影视剧的名称相同,则确定第一类别音频文件为第二类别音频文件;若第一类别音频文件对应的热度指数大于第二阈值,且第一类别音频文件的属性信息与超级热门影视剧的名称匹配,则确定第一类别音频文件为第二类别音频文件。

超级热门影视剧可以为发布时间与当前时间之差小于第四阈值或搜索量大于第五阈值的热门影视剧。一般热门影视剧可以为搜索量大于第六阈值的热门影视剧。第一类别音频文件的属性信息可以为第一类别音频文件的音频文件名或者第一类别音频文件所属的专辑名。例如,一般热门影视剧的名称为“abc”,若第一类别音频文件的音频文件名为“abc”,则确定该第一类别音频文件为第二类别音频文件。再如,超级热门影视剧的名称为“abcdef”,第一类别音频文件的属性信息与该超级热门影视剧的名称匹配,就确定该第一类别音频文件为第二类别音频文件,例如,第一类别音频文件的音频文件名为“cdef”,就确定该第一类别音频文件为第二类别音频文件。

在另一种可能的实现方式中,当识别第一类别音频文件是否为蹭热门歌曲的热度的音频文件时,若第一类别音频文件的热度较高,则确定第一类别音频文件为第二类别音频文件,也即第一类别音频文件为蹭热度的音频文件。

在另一种可能的实现方式中,当识别第一类别音频文件是否为蹭热门歌曲的热度的音频文件时,若第一类别音频文件的热度指数大于第二阈值,还可以结合第一类别音频文件和第一目标音频文件的歌词的差异度,识别第一类别音频文件为第二类别音频文件或第三类别音频文件。相应的,若第一类别音频文件的热度指数大于第二阈值,服务器确定第一类别音频文件为第二类别音频文件的步骤可以为:若第一类别音频文件的热度指数大于第二阈值,服务器从音频数据库中确定与第一类别音频文件的属性信息相同的第一目标音频文件,第一目标音频文件为第三类别音频文件;确定第一类别音频文件的歌词和第一目标音频文件的歌词之间的差异度;若差异度大于第三阈值,确定第一类别音频文件为第二类别音频文件。

第一目标音频文件可以为第一类别音频文件对应的搜索字段对应的音频文件列表中第一热度最高的音频文件,第一目标音频文件也可以为该音频文件列表中标记有原唱标记的音频文件。

其中,服务器确定第一类别音频文件和第一目标音频文件的歌词之间的差异度可以通过以下公式十来实现:

公式十:

其中,diff(lrc1,lrc2)表示第一类别音频文件和第一目标音频文件歌词的差异度;lcsdiff(lrc1,lrc2)表示表示第一类别音频文件的歌词和第一目标音频文件的歌词在字符串级别的差异度;bowdiff(lrc1,lrc2)表示第一类别音频文件的歌词和第一目标音频文件的歌词在词袋级别的差异度;lrc1和lrc2分别表示第一类别音频文件的歌词和第一目标音频文件的歌词;lcs()表示获取第一类别音频文件和第一目标音频文件的最长公共子串;strlen()表示获取字符串的长度;b1和b2分别表示第一类别音频文件和第一目标音频文件两个音频文件的歌词的词袋,词袋中包括词以及词对应的词频,不考虑词序;w表示第一类别音频文件的词袋和第一目标音频文件的词袋的并集中的词;count1(w)和count2(w)分别表示词w在两个音频文件中的歌词的词频;控制着字符串级别的差异度和词袋级别的差异度的权重,可以手动设定;b1∪b2表示第一类别音频文件的词袋和第一目标音频文件的词袋的并集;count1(w)+count2(w)表示词w在第一类别音频文件中的词频与在第二类别音频文件中的词频之和;表示对第一类别音频文件的词袋和第一目标音频文件的词袋的并集中的每个词w对应的词频之和进行累加求和;|count1(w)-count2(w)|表示第一类别音频文件的词袋和第一目标音频文件的词袋的并集中的词w在第一类别音频文件中的词频与在第二类别音频文件中的词频之差的绝对值;∑w∈b1∪b2|count1(w)-count2(w)|表示对对第一类别音频文件的词袋和第一目标音频文件的词袋的并集中的每个词w对应的词频之差的绝对值进行累加求和;min表示获取最小值。

在另一种可能的实现方式中,当识别第一类别音频文件是否为蹭热门歌曲的热度的音频文件时,若第一类别音频文件的歌词为空,可以根据第一类别音频文件和第一目标音频文件的创作者,确定第一类别音频文件为第二类别音频文件或第三类别音频文件。相应的,若第一类别音频文件的热度指数不大于第二阈值,服务器确定第一类别音频文件为第二类别音频文件的步骤可以为:若第一类别音频文件的热度指数不大于第二阈值,服务器从音频数据库中确定与第一类别音频文件的属性信息相同的第二目标音频文件,第二目标音频文件为第三类别音频文件;服务器确定第一类别音频文件的创作者和第二目标音频文件的创作者;若第一类别音频文件的创作者和第二目标音频文件的创作者中没有相同用户,服务器确定第一类别音频文件为第二类别音频文件。

在另一种可能的实现方式中,当识别第一类别音频文件是否为蹭热门歌词的热度的音频文件时,若第一类别音频文件的热度较高,则确定第一类别音频文件为第二类别音频文件,也即第一类别音频文件为蹭热度的音频文件。

在另一种可能的实现方式中,当识别第一类别音频文件是否为蹭热门歌词的热度的音频文件时,若第一类别音频文件的热度指数大于第二阈值,还可以结合第一类别音频文件的属性信息与热门歌词的相似度,识别第一类别音频文件为第二类别音频文件或第三类别音频文件。相应的,若第一类别音频文件对应的热度指数大于第二阈值,服务器确定第一类别音频文件为第二类别音频文件的步骤可以为:服务器获取热门歌词和第一类别音频文件的属性信息;确定热门歌词和第一类别音频文件的属性信息的相似度;若热门歌词和第一类别音频文件的属性信息的相似度大于第八阈值,确定第一类别音频文件为第二类别音频文件。第一类别音频文件的属性信息可以包括第一类别音频文件的音频文件名或者第一类别音频文件所属专辑的专辑名。

其中,服务器确定热门歌词和第一类别音频文件的属性信息的相似度,可以通过以下公式十一来实现:

公式十一:

其中,editsim(lrc1,lrc2)表示第一类别音频文件的属性信息与热门歌词的相似度,lrc1和lrc2分别表示第一类别音频文件的属性信息和热门歌词,edit_dist()表示第一类别音频文件的属性信息和热门歌词的编辑距离,即利用字符操作,把字符串a转换成字符串b所需要的最少操作数,strlen()表示获取字符串的长度,max表示获取最大值。

需要说明的一点是,执行完步骤205可以直接结束,也可以执行步骤206,引入反馈监测机制,对蹭热度的音频文件进行动态调整。

206、服务器对第二类别音频文件进行动态调整。

在一种可能的实现方式中,服务器可以根据第二类别音频文件的评论信息对第二类别音频文件进行动态调整,相应的,服务器对第二类别音频文件进行动态调整的步骤可以为:若确定第一类别音频文件为第二类别音频文件,获取第二类别音频文件的评论信息;若评论信息用于指示第二类别音频文件为第三类别音频文件,确定第二类别音频文件为第三类别音频文件;若评论信息用于指示第二类别音频文件为第二类别音频文件,服务器不对第二类别音频文件进行动态调整。

相应的,服务器获取第二类别音频文件的评论信息,若评论信息用于指示第二类别音频文件为第三类别音频文件,确定第二类别音频文件为第三类别音频文件的步骤可以为:服务器获取第二类别音频文件的评论信息,从评论信息中提取关键词,将提取出的关键词与指定词进行对比,若与指定词相匹配的关键词的数量在所有关键词的数量中达到指定比例,确定该第二类别音频文件为第三类别音频文件。其中,指定词可以为“好听”、“喜欢”或者“爱”等。

在另一种可能的实现方式中,服务器还可以根据第二类别音频文件的搜索播放日志对第二类别音频文件进行动态调整,相应的,服务器对第二类别音频文件进行动态调整的步骤可以为:若确定第一类别音频文件为第二类别音频文件,获取第二类别音频文件的搜索播放日志;若第二类别音频文件的搜索播放日志用于指示第二类别音频文件为第三类别音频文件,将第二类别音频文件确定为第三类别音频文件。其中,用于指示第二类别音频文件为第三类别音频文件的信息可以为:该第二类别音频文件在第五指定时间段内的搜索量或者播放量大于第七阈值。其中,服务器可以获取第二类别音频文件在指定时间段内的搜索播放日志,例如,该指定时间段可以为当前时间的前一天、当前时间的前一周等。

需要说明的一点是,若第二类别音频文件的评论信息或搜索播放日志用于指示第二类别音频文件为第三类别音频文件,则对第二类别音频文件进行动态调整,确定第二类别音频文件为第三类别音频文件。也就是说,若已被识别为蹭热度的音频文件的评论信息和搜索播放日志表示该音频文件为非蹭热度的音频文件,则将已被识别为蹭热度的音频文件确定为非蹭热度的音频文件。

服务器对第二类别音频文件进行动态调整,是指若识别出第一音频文件为第二类别音频文件,可以根据第二类别音频文件的评论信息或搜索播放日志对第二类别音频文件所属的类别进行动态调整,

服务器确定出第一类别音频文件为第二类别音频文件或第三类别音频文件之后,对第一类别音频文件进行标记。并且,当第二终端从服务器中搜索音频文件时,服务器向第二终端返回第三类别音频文件。

在本申请实施例中,在识别出第一音频文件为第二类别音频文件之后,还能够根据第二类别音频文件的评论信息和搜索播放日志对第二类别音频文件进行动态调整,将评论信息或搜索播放日志符合一定要求的第二类别音频文件确定为第三类别音频文件,能够进一步降低误伤率。

在本申请实施例中,服务器对音频文件进行识别,当第二终端从服务器搜索音频文件时,服务器向第二终端返回的搜索结果中排序靠前的均为非蹭热度的音频文件,从而能够优化用户的搜索体验,提升用户体验度。

在本申请实施例中,获取待识别的第一音频文件的权重,该权重用于表示第一音频文件为第一类别音频文件的概率;若第一音频文件的权重不大于第一阈值,则确定第一音频文件为第一类别音频文件;确定第一类别音频文件对应的第一热度和时新度,第一热度为基于第一类别音频文件对应的搜索量和播放量得到的数值,时新度为基于第一类别音频文件对应的发布时间得到的数值;根据第一类别音频文件对应的第一热度和时新度,确定第一类别音频文件对应的热度指数;若第一类别音频文件对应的热度指数大于第二阈值,确定第一类别音频文件为第二类别音频文件;若第一类别音频文件对应的热度指数不大于第二阈值,确定第一类别音频文件为第三类别音频文件。基于待识别的第一音频文件的权重和第一音频文件的热度指数,识别第一音频文件所属的类别,由于权重表示第一音频文件为第一类别音频文件的概率,第一热度表示第一类别音频文件对应的搜索量和播放量,时新度表示第一类别音频文件对应的发布时间,通过权重和由第一热度和时新度得到的热度指数确定第一音频文件所属的类别,准确率较高。

上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。

图3是本申请实施例提供的一种识别音频文件的装置的框图。如图3所示,该装置包括:

获取模块301,被配置为获取待识别的第一音频文件的权重,权重用于表示第一音频文件为第一类别音频文件的概率;

确定模块302,被配置为若第一音频文件的权重不大于第一阈值,则确定第一音频文件为第一类别音频文件;

确定模块302,还被配置为确定第一类别音频文件对应的第一热度和时新度,第一热度为基于第一类别音频文件对应的搜索量和播放量得到的数值,时新度为基于第一类别音频文件对应的发布时间得到的数值;

确定模块302,还被配置为根据第一类别音频文件对应的第一热度和时新度,确定第一类别音频文件对应的热度指数;

确定模块302,还被配置为若第一类别音频文件对应的热度指数大于第二阈值,确定第一类别音频文件为第二类别音频文件;

确定模块302,还被配置为若第一类别音频文件对应的热度指数不大于第二阈值,确定第一类别音频文件为第三类别音频文件。

在一种可能的实现方式中,确定模块302,还被配置为若第一类别音频文件对应的热度指数大于第二阈值,从音频数据库中确定与第一类别音频文件的属性信息相同的第一目标音频文件,第一目标音频文件为第三类别音频文件;确定第一类别音频文件的歌词和第一目标音频文件的歌词之间的差异度;若差异度大于第三阈值,确定第一类别音频文件为第二类别音频文件。

在另一种可能的实现方式中,确定模块302,还被配置为若第一类别音频文件对应的热度指数大于第二阈值,从音频数据库中确定与第一类别音频文件的属性信息相同的第二目标音频文件,第二目标音频文件为第三类别音频文件;确定第一类别音频文件的创作者和第二目标音频文件的创作者;若第一类别音频文件的创作者和第二目标音频文件的创作者中没有相同用户,确定第一类别音频文件为第二类别音频文件。

在另一种可能的实现方式中,确定模块302,还被配置为获取音频数据库和历史搜索播放日志,音频数据库中包括至少一个第一类别音频文件;对于历史搜索播放日志中的每个第一类别音频文件,根据历史搜索播放日志中第一类别音频文件对应的搜索量和播放量,确定第一类别音频文件对应的第一热度,以及根据音频数据库中第一类别音频文件对应的发布时间,确定第一类别音频文件对应的时新度。

在另一种可能的实现方式中,确定模块302,还被配置为获取与第一类别音频文件匹配的至少一个第二音频文件,以及第一类别音频文件对应的第三目标音频文件,第三目标音频文件为第三类别音频文件;根据每个第二音频文件的发布时间、第三目标音频文件的发布时间和第二音频文件的数量,确定第一类别音频文件对应的第二热度;对第一类别音频文件对应的第一热度、时新度、第二热度和第二音频文件的数量进行加权求和,得到第一类别音频文件对应的热度指数。

在另一种可能的实现方式中,获取模块301,还被配置为获取音频数据库和历史搜索播放日志;根据音频数据库,确定第一音频文件对应的演唱者和演唱者对应的第三音频文件的数量;根据历史搜索播放日志,确定第三音频文件的播放量;根据演唱者对应的第三音频文件的数量和第三音频文件的播放量,确定第一音频文件的权重。

在另一种可能的实现方式中,获取模块301,还被配置为获取第一音频文件在指定时间段内的播放量;根据第一音频文件在指定时间段内的播放量,确定第一音频文件的权重。

在另一种可能的实现方式中,获取模块301,还被配置为若确定第一类别音频文件为第二类别音频文件,获取第二类别音频文件的评论信息;

确定模块302,还被配置为若确定评论信息用于指示第二类别音频文件为第三类别音频文件,确定第二类别音频文件为第三类别音频文件。

在另一种可能的实现方式中,获取模块301,还被配置为若确定第一类别音频文件为第二类别音频文件,获取第二类别音频文件的搜索播放日志;

确定模块302,还被配置为若确定第二类别音频文件的搜索播放日志用于指示第二类别音频文件为第三类别音频文件,确定第二类别音频文件为第三类别音频文件。

需要说明的是:上述实施例提供的识别音频文件的装置在识别音频文件时时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的识别音频文件的装置与识别音频文件的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

在本申请实施例中,基于待识别的第一音频文件的权重和第一音频文件的热度指数,识别第一音频文件所属的类别,由于权重表示第一音频文件为第一类别音频文件的概率,第一热度表示第一类别音频文件对应的搜索量和播放量,时新度表示第一类别音频文件对应的发布时间,通过权重和由第一热度和时新度得到的热度指数确定第一音频文件所属的类别,准确率较高。

图4是本申请实施例提供的一种服务器的框图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)401和一个或一个以上的存储器402,其中,存储器402中存储有至少一条程序代码,至少一条程序代码由处理器401加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。

在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,上述至少一条程序代码可由服务器中的处理器执行以完成上述实施例中的识别音频文件的方法。例如,该计算机可读存储介质可以是rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、cd-rom(compactdiscread-onlymemory,只读光盘)、磁带、软盘和光数据存储设备等。

本申请还提供了一种计算机程序产品,该计算机程序产品包括一个或多个计算机程序,计算机程序被处理器执行时,用于实现上述各个方法实施例提供的识别音频文件的方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1