多媒体搜索方法、装置、电子设备和计算机可读存储介质与流程

文档序号：29853700发布日期：2022-04-30 08:42阅读：68来源：国知局

1.本公开涉及短视频技术领域，尤其涉及一种多媒体搜索方法、装置、电子设备和计算机可读存储介质。

背景技术：

2.随着移动设备和互联网技术的快速发展，人们越来越倾向于借助短视频平台分享生活中的点点滴滴。在短视频的生产和消费过程中，音乐都发挥着举足轻重的作用。因此，能否帮助用户快速搜索到合适的音乐相关内容会直接影响用户的观看和分享体验。但是，短视频中的音乐具有碎片化、复杂多变等特点，导致直接进行音乐的识别与检索是非常困难的，经常出现搜索效率低，或者检索结果与用户实际意图不一的情况。

技术实现要素：

3.本公开提供一种多媒体搜索方法、装置、电子设备和计算机可读存储介质，以至少解决相关技术中的搜索效率低的问题，也可不解决任何上述问题。
4.根据本公开的第一方面，提供了一种多媒体搜索方法，包括：获取目标业务场景下输入的目标搜索词；基于预先建立的音频指纹映射信息，确定与所述目标搜索词相匹配的目标音频指纹，其中，所述音频指纹映射信息表征搜索词与音频指纹之间的映射关系；确定所述目标业务场景对应的多媒体映射信息中，与所述目标音频指纹相匹配的目标多媒体，其中，所述多媒体映射信息表征音频指纹与多媒体之间的映射关系。
5.可选地，所述音频指纹映射信息通过以下步骤建立：获取历史搜索词和所述历史搜索词对应的被操作的历史多媒体；根据所述历史多媒体中的音频信息，确定所述音频信息对应的音频指纹，得到所述历史多媒体对应的历史音频指纹；建立所述历史搜索词与所述历史音频指纹之间的映射关系，得到所述音频指纹映射信息。
6.可选地，所述建立所述历史搜索词与所述历史音频指纹之间的映射关系，得到所述音频指纹映射信息的步骤，包括：确定所述历史搜索词满足设定条件，建立所述历史搜索词与所述历史音频指纹之间的映射关系，得到所述音频指纹映射信息。
7.可选地，所述设定条件包括以下至少之一：所述历史搜索词的搜索次数大于或等于设定次数、与所述历史搜索词相关联的所述历史音频指纹的数量小于设定数量。
8.可选地，所述多媒体映射信息包括音频映射信息，所述音频映射信息通过以下步骤建立：确定多个音频各自对应的音频指纹；建立每个音频与对应的音频指纹之间的映射关系，得到所述音频映射信息。
9.可选地，所述多媒体映射信息包括视频映射信息，所述视频映射信息通过以下步骤建立：提取多个视频中的音频信息；确定每个视频中的音频信息对应的音频指纹；建立每个视频与对应的音频指纹之间的映射关系，得到所述视频映射信息。
10.根据本公开的第二方面，提供了一种多媒体搜索装置，包括：获取单元，被配置为：获取目标业务场景下输入的目标搜索词；第一确定单元，被配置为：基于预先建立的音频指
纹映射信息，确定与所述目标搜索词相匹配的目标音频指纹，其中，所述音频指纹映射信息表征搜索词与音频指纹之间的映射关系；第二确定单元，被配置为：确定所述目标业务场景对应的多媒体映射信息中，与所述目标音频指纹相匹配的目标多媒体，其中，所述多媒体映射信息表征音频指纹与多媒体之间的映射关系。
11.可选地，所述多媒体搜索装置还包括：历史多媒体获取单元，被配置为：获取历史搜索词和所述历史搜索词对应的被操作的历史多媒体；历史音频指纹确定单元，被配置为：根据所述历史多媒体中的音频信息，确定所述音频信息对应的音频指纹，得到所述历史多媒体对应的历史音频指纹；音频指纹映射信息确定单元，被配置为：建立所述历史搜索词与所述历史音频指纹之间的映射关系，得到所述音频指纹映射信息。
12.可选地，所述音频指纹映射信息确定单元还被配置为：确定所述历史搜索词满足设定条件，建立所述历史搜索词与所述历史音频指纹之间的映射关系，得到所述音频指纹映射信息。
13.可选地，所述设定条件包括以下至少之一：所述历史搜索词的搜索次数大于或等于设定次数、与所述历史搜索词相关联的所述历史音频指纹的数量小于设定数量。
14.可选地，所述多媒体映射信息包括音频库映射信息，所述多媒体搜索装置还包括：音频指纹确定单元，被配置为：确定多个音频各自对应的音频指纹；音频映射信息确定单元，被配置为：建立每个音频与对应的音频指纹之间的映射关系，得到所述音频映射信息。
15.可选地，所述多媒体映射信息包括视频映射信息，所述多媒体搜索装置还包括：音频信息提取单元，被配置为：提取多个视频中的音频信息；音频指纹确定单元，被配置为：确定每个视频中的音频信息对应的音频指纹；视频映射信息确定单元，被配置为：建立每个视频与对应的音频指纹之间的映射关系，得到所述视频映射信息。
16.根据本公开的第三方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的多媒体搜索方法。
17.根据本公开的第四方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的多媒体搜索方法。
18.根据本公开的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的多媒体搜索方法。
19.本公开的实施例提供的技术方案至少带来以下有益效果：
20.根据本公开的实施例的多媒体搜索方法和多媒体搜索装置，通过对用户搜索行为进行分析，构建了记载“搜索词-音频指纹”的关联关系的音频指纹映射信息，以及记载“音频指纹-多媒体”的关联关系的多媒体映射信息，可在用户输入搜索词后，先从音频指纹映射信息中检索出搜索词对应的音频指纹，再从多媒体映射信息中搜索出音频指纹对应的多媒体，即可完成音乐搜索，搜索迅速，且返回的搜索结果匹配程度高，有助于提升搜索效率。
21.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
22.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
23.图1是示出根据本公开的示例性实施例的多媒体搜索方法的流程图。
24.图2是示出根据本公开的示例性实施例的多媒体搜索方法的流程示意图。
25.图3是示出根据本公开的示例性实施例的多媒体搜索装置的框图。
26.图4是根据本公开的示例性实施例的电子设备的框图。
具体实施方式
27.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
28.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
29.在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况：(1)包括a；(2)包括b；(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。
30.随着移动设备和互联网技术的快速发展，人们越来越倾向于借助短视频平台分享生活中的点点滴滴。在短视频的生产和消费过程中，音乐都发挥着举足轻重的作用。在生产场景中，用户可能在拍摄完短视频后，需要给视频配乐，此时会进行音乐搜索；也可能在未拍摄之前，想要借助已有的拍摄模版进行拍摄，此时会进行模版搜索，这种情况下会存在部分音乐相关的模版视频。在消费场景中，用户搜索短视频时，会有部分搜索词带有较明显的音乐偏好，用户也可能直接搜索音乐内容。因此，能否帮助用户快速搜索到合适的音乐相关内容会直接影响用户的观看和分享体验。
31.但是，短视频中的音乐具有碎片化、复杂多变等特点。目前对于短视频场景下的音乐搜索问题，解决方案主要有两类：一类是沿用传统的音乐搜索技术，即基于歌名和歌手名等属性特征进行内容的检索和匹配，这种方案对搜索词相关度要求较高，没有充分考虑短视频场景。另一类是计算搜索词和音乐之间的语义相似度，这种方案往往需要引入深度学习模型，会带来较大的时间和性能开销，并且解释性较差。采用这两类方案来搜索音乐，经常出现搜索效率低，或者检索结果与用户实际意图不一的情况。
32.为了解决短视频场景下音乐搜索匹配的困难，根据本公开的示例性实施例基于用户历史数据，提出了一种结合音频指纹技术、库表索引与先验规则的音乐搜索优化方案。该方案对用户搜索行为进行分析，构建了记载“搜索词-音频指纹”的关联关系的音频指纹映射信息，以及记载“音频指纹-多媒体”的关联关系的多媒体映射信息，可在用户输入搜索词
后，先从音频指纹映射信息中检索出搜索词对应的音频指纹，再从多媒体映射信息中搜索出音频指纹对应的多媒体，即可完成音乐搜索，搜索迅速，且返回的搜索结果匹配程度高，有助于提升搜索效率。此外，在构建音频指纹映射信息时可通过先验规则对搜索词进行筛选，过滤掉部分不满足先验规则的关联关系，能够进一步优化不同场景下的音乐搜索结果。根据本公开的示例性实施例中涉及的算法和技术简介如下：
33.音频指纹技术：通过特定的算法将一段音频中独一无二的数字特征以标识符的形式提取出来，能够有效用于识别海量的声音样本或跟踪定位样本在数据库中的位置。此技术为听感上一致的音频片段赋予相同的音频指纹，由于同一首音乐的旋律有重复性和相似性的特点，因此能够较好地解决短视频中音乐碎片化的问题。
34.库表索引：表类索引结构。此为数据库系统的基础结构，具有高效的增删改查能力，能够解决搜索过程时效低的问题。
35.先验规则：基于人工经验总结的规则表达式。利用此类规则能够得到更加符合人们直观感受的结果。
36.下面，将参照图1至图4具体描述根据本公开的示例性实施例的多媒体搜索方法和多媒体搜索装置。
37.图1是示出根据本公开的示例性实施例的多媒体搜索方法的流程图。图2是示出根据本公开的示例性实施例的多媒体搜索方法的流程示意图。应理解，根据本公开的示例性实施例的多媒体搜索方法可以在诸如智能手机、平板电脑、个人电脑(pc)的终端设备(作为短视频平台的客户端)中实现，也可以在诸如服务器的设备(作为短视频平台的服务端)中实现。
38.参照图1，在步骤101，获取目标业务场景下输入的目标搜索词。目标搜索词由用户经客户端输入，以发起搜索。参照图2，如前所述，在生产场景和消费场景中均可接收用户输入的目标搜索词。可以理解的是，若根据本公开的示例性实施例的多媒体搜索方法在客户端中实现，则客户端可直接接收用户输入的目标搜索词，输入方式包括但不限于手写输入、键盘输入、鼠标输入，若在服务端中实现，则服务端可接收客户端上传的目标搜索词。
39.返回参照图1，在步骤102，基于预先建立的音频指纹映射信息，确定与目标搜索词相匹配的目标音频指纹。其中，音频指纹映射信息表征搜索词与音频指纹之间的映射关系，用于将搜索词和音频指纹关联起来，可将音频指纹作为音乐的索引值，解决短视频场景中音乐的碎片化问题。参照图2，音频指纹映射信息具体可采用索引表的形式，此时步骤102对应于图2中心“表检索”的部分，索引表结构简单明确，使用过程仅依赖于音频索引表检索，能够大幅降低搜索过程的时间和性能开销，可解决现有搜索方法时效低的问题。
40.从执行主体的角度来说，建立音频指纹映射信息和调用音频指纹映射信息来执行检索这两个动作，可以由不同的终端实现，也可以由同一终端实现，例如由服务端建立音频指纹映射信息，由客户端调用音频指纹映射信息来执行搜索，又如由服务器建立音频指纹映射信息，并调用音频指纹映射信息来执行搜索，最终将搜索结果下发到客户端。可以理解的是，随着多媒体搜索方法的运行，能够积累更多的历史搜索数据，因而可以适时更新音频指纹映射信息，例如按照设定周期更新，或者在新增的历史搜索数据量达到设定量时更新。
41.可选地，参照图2左侧虚线框内的内容，具体参照其中“解析用户历史数据”的部分，音频指纹映射信息可通过以下步骤建立：获取历史搜索词和历史搜索词对应的被操作
的历史多媒体；根据历史多媒体中的音频信息，确定音频信息对应的音频指纹，得到历史多媒体对应的历史音频指纹；建立历史搜索词与历史音频指纹之间的映射关系，得到音频指纹映射信息。用户的历史搜索数据包括用户曾输入的历史搜索词，以及历史搜索词对应的众多搜索结果中曾被用户操作(例如点击、收藏、点赞、评论)的历史多媒体，由于这些历史多媒体在相应的历史搜索词下被用户操作，就说明这些历史多媒体很可能符合用户的搜索意图。通过确定这些历史多媒体对应的历史音频指纹，进而建立获取的历史音频指纹与对应的历史搜索词之间的映射关系，就能够得到音频指纹映射信息。由于该音频指纹映射信息的建立依据的是用户的历史搜索数据，因而能够提高搜索结果的匹配程度，提升搜索结果符合用户搜索意图的可能。并且，随着数据的不断增加，此方案能够以极低的代价进行迭代更新，提升了音频指纹映射信息的可维护性。具体地，获取历史多媒体对应的历史音频指纹时，可从现有的多媒体映射信息中直接搜索，无需从历史多媒体中提取音频指纹，可大幅降低计算负荷。具体来说，后文将介绍，本公开的多媒体搜索方法还需要配合多媒体映射信息，多媒体映射信息包括音频映射信息和视频映射信息。参照图2，对于短视频平台，由于用户点击的通常是视频，所以这里获取的历史多媒体通常为历史视频，可根据视频映射信息，确定其中与历史视频相匹配的历史音频指纹。
42.可以理解的是，历史搜索数据可以是预定周期内的数据，既有助于控制数据量，降低计算负荷和音频指纹映射信息大小，又可确保音频指纹映射信息的时效性。此外，历史搜索数据可以针对全平台用户收集，例如对于历史搜索词x，可以同时获取全平台发起该搜索的用户点击的历史多媒体，以提升音频指纹映射信息的普适性；历史搜索数据也可以针对满足特定条件的用户收集，例如可结合用户的标签，对具备同一标签的用户建立一个音频指纹映射信息，换言之，音频指纹映射信息的数量为多个，每个音频指纹映射信息与一个用户标签相关联，可以减小单个音频指纹映射信息的数据量。对于后者，在建立音频指纹映射信息时，就针对一个用户标签，获取具备该标签的所有用户的历史搜索数据；在用户发起搜索时，就调用该用户的标签所对应的音频指纹映射信息，当一个用户具备多个标签时，可以调用所有标签对应的音频指纹映射信息，也可以根据各个标签与目标搜索词的关联程度来进行筛选，例如可选择关联程度最高的前n个标签，又如可选择全部标签中一定比例(如50％、60％、80％)的标签，又如可选择关联程度达到设定阈值的标签，关联程度的计算例如可通过语义相近的程度来表示。以上两种历史搜索数据的收集方案都是本公开的实现方式，落入本公开的保护范围之内。
43.可选地，参照图2左侧“构建索引表”的部分，前述的建立历史搜索词与历史音频指纹之间的映射关系，得到音频指纹映射信息的步骤，具体包括：确定历史搜索词满足设定条件，建立历史搜索词与历史音频指纹之间的映射关系，得到音频指纹映射信息。虽然历史多媒体符合用户的搜索意图的可能性较高，但仍然存在历史多媒体与历史搜索词关联程度较低的可能，通过配置设定条件，可以利用人工总结的先验规则对数据进行清洗，从而过滤掉一些无关的搜索词，可以降低后续搜索噪声，提高搜索结果匹配程度，提升搜索效率。
44.作为示例，设定条件可用于判断用户在搜索过程中是否存在误触等无显著意义的行为操作，设定条件包括以下至少之一：历史搜索词的搜索次数大于或等于设定次数、与历史搜索词相关联的历史音频指纹的数量小于设定数量。若某个历史搜索词的搜索次数小于设定次数，就认为该历史搜索词很少被使用，因而没有显著意义，予以丢弃，反之则予以保
留。若某个历史搜索词对应的历史音频指纹的数量大于或等于设定数量，就认为历史搜索词只是用户随意输入的，大概率与音频无显著联系，同样予以丢弃，反之则予以保留。这两个设定条件都易于统计、判断，且能够较为可靠地反映相应的历史搜索词是否具备显著意义，有助于提高数据清洗效率。可以理解的是，当设定条件同时包括前述两项条件时，二者可以是“和”的关系，需同时满足这两项条件才认为满足设定条件，也可以是“或”的关系，只需满足其中一项条件就认为满足设定条件，实践中根据实际搜索要求进行配置即可，本公开在此不作限制。
45.当然，在其他实施例中，还可以设定一些符合特定业务场景的设定条件作为先验规则，以便后续应用过程中能够得到更优的搜索效果，并可节省不同业务场景的重复开发成本。
46.可选地，仍然参照图2左侧“构建索引表”的部分，音频指纹映射信息表征搜索词与音频指纹集合之间的映射关系，一个音频指纹集合包括至少一个音频指纹。应理解，一个搜索词可以对应多个音频指纹，一个音频指纹也可以对应多个搜索词。建立音频指纹映射信息时，通过将一个历史搜索词下被点击的多个历史多媒体对应的多个历史音频指纹集合在一起，再将这个历史搜索词与这个历史音频指纹集合关联映射起来，就可以得到表征搜索词与音频指纹集合之间的映射关系的音频指纹映射信息，能够在搜索词维度对音频指纹进行聚合关联，相对于一一对应的关联存储，可大幅缩减存储量，并便于在步骤102的搜索阶段检索与目标搜索词相关联的目标音频指纹。当然，在其他实施例中，音频指纹映射信息中也可以存储相关联的音频指纹和搜索词集合，还可以将搜索词与音频指纹一一对应存储，这都是本公开的实现方式，落入本公开的保护范围之内。
47.返回参照图1，在步骤103，确定目标业务场景对应的多媒体映射信息中，与目标音频指纹相匹配的目标多媒体。其中，多媒体映射信息表征音频指纹与多媒体之间的映射关系，用于将多媒体和音频指纹关联起来，从而可依据音频指纹最终搜索出相应的目标多媒体，得到搜索结果，可将搜索结果返回给用户。对于执行主体为客户端的情况，可直接输出搜索结果，对于执行主体为服务端的情况，则可将搜索结果下发到客户端，以供客户端进行输出。可选地，多媒体映射信息可以通过在现有的音视频数据库中加入音频指纹信息得到。可以理解的是，参照图2中“表检索”部分上方箭头和下方箭头所指的内容，根据用户的实际搜索内容，可获取不同的数据库。若搜索的是音乐，则可获取如图2所示的含音频指纹信息的音乐库，若搜索的是视频或拍摄视频的模版，则可获取如图2所示的含音频指纹信息的“视频/模版”库。
48.可选地，多媒体映射信息包括音频映射信息，音频映射信息通过以下步骤建立：确定多个音频各自对应的音频指纹；建立每个音频与对应的音频指纹之间的映射关系，得到音频映射信息。通过先明确多个音频，再提取这些音频的音频指纹，进而建立所明确的音频与提取到的音频指纹之间的映射关系，可确保建立的音频映射信息中的映射关系稳定可靠，保障了搜索过程的可靠性。例如，可基于音频指纹技术，对现有音乐库中的所有音频数据内容进行回溯，提取对应的音频指纹，便可以建立含音频指纹信息的音乐库，作为音频映射信息，以供搜索使用。
49.可选地，多媒体映射信息包括视频映射信息，视频映射信息通过以下步骤建立：提取多个视频中的音频信息；确定每个视频中的音频信息对应的音频指纹；建立每个视频与
对应的音频指纹之间的映射关系，得到视频映射信息。通过先明确多个视频，并提取视频中的音频信息，能够将视频中的音频与画面分离开，可去除画面数据，降低处理的数据量，继而有针对性地提取分离出的音频信息的音频指纹，最后建立所明确的视频与提取到的音频指纹之间的映射关系，可确保建立的视频映射信息中的映射关系稳定可靠，保障了搜索过程的可靠性。以视频映射信息为含音频指纹信息的视频库为例，在对现有视频库中的视频内容进行回溯时，需执行包括“音频提取
→
静默片段去除
→
(人声&伴奏声分离)
→
音频指纹识别和匹配”等步骤。此外，此过程也需要用到含音频指纹信息的音频库进行匹配，如果确定是一个未被记录过的音频指纹时，还需要将该音频指纹和音频加入前述的音乐库(即加入音频映射信息)。
50.可选地，对于多媒体映射信息的建立，可以在现有基本的音视频库的基础上做音频指纹提取，再在用户每上传一个短视频之后就更新多媒体映射信息，以保障多媒体映射信息的内容完善。
51.图3是示出根据本公开的示例性实施例的多媒体搜索装置的框图。应理解，根据本公开的示例性实施例的多媒体搜索装置可以在诸如智能手机、平板电脑、个人电脑(pc)的终端设备(作为短视频平台的客户端)中以软件、硬件或软件硬件结合的方式实现，也可以在诸如服务器的设备(作为短视频平台的服务端)中实现。
52.参照图3，多媒体搜索装置300包括获取单元301、第一确定单元302、第二确定单元303。
53.获取单元301可获取目标业务场景下输入的目标搜索词。目标搜索词由用户经客户端输入，以发起搜索。参照图2，如前所述，在生产场景和消费场景中均可接收用户输入的目标搜索词。可以理解的是，若根据本公开的示例性实施例的多媒体搜索装置300在客户端中实现，则获取单元301可直接接收用户输入的目标搜索词，输入方式包括但不限于手写输入、键盘输入、鼠标输入，若在服务端中实现，则获取单元301可接收客户端上传的目标搜索词。
54.第一确定单元302可基于预先建立的音频指纹映射信息，确定与目标搜索词相匹配的目标音频指纹。其中，音频指纹映射信息表征搜索词与音频指纹之间的映射关系，用于将搜索词和音频指纹关联起来，可将音频指纹作为音乐的索引值，解决短视频场景中音乐的碎片化问题。参照图2，音频指纹映射信息具体可采用索引表的形式，此时步骤102对应于图2中心“表检索”的部分，索引表结构简单明确，使用过程仅依赖于音频索引表检索，能够大幅降低搜索过程的时间和性能开销，可解决现有搜索方法时效低的问题。
55.从执行主体的角度来说，建立音频指纹映射信息和调用音频指纹映射信息来执行检索这两个动作，可以由不同的终端实现，也可以由同一终端实现，例如由服务端建立音频指纹映射信息，由客户端调用音频指纹映射信息来执行搜索，又如由服务器建立音频指纹映射信息，并调用音频指纹映射信息来执行搜索，最终将搜索结果下发到客户端。可以理解的是，随着多媒体搜索方法的运行，能够积累更多的历史搜索数据，因而可以适时更新音频指纹映射信息，例如按照设定周期更新，或者在新增的历史搜索数据量达到设定量时更新。
56.可选地，参照图2左侧虚线框内的内容，具体参照其中“解析用户历史数据”的部分，为建立音频指纹映射信息，多媒体搜索装置还可包括历史多媒体获取单元、历史音频指纹确定单元、音频指纹映射信息确定单元。其中，历史多媒体获取单元可获取历史搜索词和
历史搜索词对应的被操作的历史多媒体；历史音频指纹确定单元可根据历史多媒体中的音频信息，确定音频信息对应的音频指纹，得到历史多媒体对应的历史音频指纹；音频指纹映射信息确定单元可建立历史搜索词与历史音频指纹之间的映射关系，得到音频指纹映射信息。用户的历史搜索数据包括用户曾输入的历史搜索词，以及历史搜索词对应的众多搜索结果中曾被用户操作(例如点击、收藏、点赞、评论)的历史多媒体，由于这些历史多媒体在相应的历史搜索词下被用户操作，就说明这些历史多媒体很可能符合用户的搜索意图。通过确定这些历史多媒体对应的历史音频指纹，进而建立获取的历史音频指纹与对应的历史搜索词之间的映射关系，就能够得到音频指纹映射信息。由于该音频指纹映射信息的建立依据的是用户的历史搜索数据，因而能够提高搜索结果的匹配程度，提升搜索结果符合用户搜索意图的可能。并且，随着数据的不断增加，此方案能够以极低的代价进行迭代更新，提升了音频指纹映射信息的可维护性。具体地，获取历史多媒体对应的历史音频指纹时，是从现有的多媒体映射信息中直接搜索，无需从历史多媒体中提取音频指纹，可大幅降低计算负荷。具体来说，后文将介绍，第二确定单元303还将应用多媒体映射信息，多媒体映射信息包括音频映射信息和视频映射信息。参照图2，对于短视频平台，由于用户点击的通常是视频，所以这里获取的历史多媒体通常为历史视频，可根据视频映射信息，确定其中与历史视频相匹配的历史音频指纹。
57.可以理解的是，历史搜索数据可以是预定周期内的数据，既有助于控制数据量，降低计算负荷和音频指纹映射信息大小，又可确保音频指纹映射信息的时效性。此外，历史搜索数据可以针对全平台用户收集，例如对于历史搜索词x，可以同时获取全平台发起该搜索的用户点击的历史多媒体，以提升音频指纹映射信息的普适性；历史搜索数据也可以针对满足特定条件的用户收集，例如可结合用户的标签，对具备同一标签的用户建立一个音频指纹映射信息，换言之，音频指纹映射信息的数量为多个，每个音频指纹映射信息与一个用户标签相关联，可以减小单个音频指纹映射信息的数据量。对于后者，在建立音频指纹映射信息时，就针对一个用户标签，获取具备该标签的所有用户的历史搜索数据；在用户发起搜索时，就调用该用户的标签所对应的音频指纹映射信息，当一个用户具备多个标签时，可以调用所有标签对应的音频指纹映射信息，也可以根据各个标签与目标搜索词的关联程度来进行筛选，例如可选择关联程度最高的前n个标签，又如可选择全部标签中一定比例(如50％、60％、80％)的标签，又如可选择关联程度达到设定阈值的标签，关联程度的计算例如可通过语义相近的程度来表示。以上两种历史搜索数据的收集方案都是本公开的实现方式，落入本公开的保护范围之内。
58.可选地，参照图2左侧“构建索引表”的部分，前述的音频指纹映射信息确定单元具体可在确定历史搜索词满足设定条件的情况下，建立历史搜索词与历史音频指纹之间的映射关系，得到音频指纹映射信息。虽然历史多媒体符合用户的搜索意图的可能性较高，但仍然存在历史多媒体与历史搜索词关联程度较低的可能，通过配置设定条件，可以利用人工总结的先验规则对数据进行清洗，从而过滤掉一些无关的搜索词，可以降低后续搜索噪声，提高搜索结果匹配程度，提升搜索效率。
59.作为示例，设定条件可用于判断用户在搜索过程中是否存在误触等无显著意义的行为操作，设定条件包括以下至少之一：历史搜索词的搜索次数大于或等于设定次数、与历史搜索词相关联的历史音频指纹的数量小于设定数量。若某个历史搜索词的搜索次数小于
设定次数，就认为该历史搜索词很少被使用，因而没有显著意义，予以丢弃，反之则予以保留。若某个历史搜索词对应的历史音频指纹的数量大于或等于设定数量，就认为历史搜索词只是用户随意输入的，大概率与音频无显著联系，同样予以丢弃，反之则予以保留。这两个设定条件都易于统计、判断，且能够较为可靠地反映相应的历史搜索词是否具备显著意义，有助于提高数据清洗效率。可以理解的是，当设定条件同时包括前述两项条件时，二者可以是“和”的关系，需同时满足这两项条件才认为满足设定条件，也可以是“或”的关系，只需满足其中一项条件就认为满足设定条件，实践中根据实际搜索要求进行配置即可，本公开在此不作限制。
60.当然，在其他实施例中，还可以设定一些符合特定业务场景的设定条件作为先验规则，以便后续应用过程中能够得到更优的搜索效果，并可节省不同业务场景的重复开发成本。
61.可选地，仍然参照图2左侧“构建索引表”的部分，音频指纹映射信息表征搜索词与音频指纹集合之间的映射关系，一个音频指纹集合包括至少一个音频指纹。应理解，一个搜索词可以对应多个音频指纹，一个音频指纹也可以对应多个搜索词。建立音频指纹映射信息时，通过将一个历史搜索词下被点击的多个历史多媒体对应的多个历史音频指纹集合在一起，再将这个历史搜索词于这个历史音频指纹集合关联映射起来，就可以得到表征搜索词与音频指纹集合之间的映射关系的音频指纹映射信息，能够在搜索词维度对音频指纹进行聚合关联，相对于一一对应的关联存储，可大幅缩减存储量，并便于第一确定单元302检索与目标搜索词相关联的目标音频指纹。当然，在其他实施例中，音频指纹映射信息中也可以存储相关联的音频指纹和搜索词集合，还可以将搜索词与音频指纹一一对应存储，这都是本公开的实现方式，落入本公开的保护范围之内。
62.第二确定单元303可确定目标业务场景对应的多媒体映射信息中，与目标音频指纹相匹配的目标多媒体。其中，多媒体映射信息表征音频指纹与多媒体之间的映射关系，用于将多媒体和音频指纹关联起来，从而可依据音频指纹最终搜索出相应的目标多媒体，得到搜索结果，可将搜索结果返回给用户。对于执行主体为客户端的情况，可直接输出搜索结果，对于执行主体为服务端的情况，则可将搜索结果下发到客户端，以供客户端进行输出。可选地，多媒体映射信息可以通过在现有的音视频数据库中加入音频指纹信息得到。可以理解的是，参照图2中“表检索”部分上方箭头和下方箭头所指的内容，根据用户的实际搜索内容，可获取不同的数据库。若搜索的是音乐，则可获取如图2所示的含音频指纹信息的音乐库，若搜索的是视频或拍摄视频的模版，则可获取如图2所示的含音频指纹信息的“视频/模版”库。
63.可选地，多媒体映射信息包括音频映射信息，为建立音频映射信息，多媒体搜索装置还可包括音频指纹确定单元和音频映射信息确定单元。其中，音频指纹确定单元可确定多个音频各自对应的音频指纹；音频映射信息确定单元可建立每个音频与对应的音频指纹之间的映射关系，得到音频映射信息。通过先明确多个音频，再提取这些音频的音频指纹，进而建立所明确的音频与提取到的音频指纹之间的映射关系，可确保建立的音频映射信息稳定可靠，保障了搜索过程的可靠性。例如，可基于音频指纹技术，对现有音乐库中的所有音频数据内容进行回溯，提取对应的音频指纹，便可以建立含音频指纹信息的音乐库，作为音频映射信息，以供搜索使用。
64.可选地，多媒体映射信息包括视频映射信息，为建立视频映射信息，多媒体搜索装置还可包括音频信息提取单元、音频指纹确定单元和视频映射信息确定单元。其中，音频信息提取单元可提取多个视频中的音频信息；音频指纹确定单元可确定每个视频中的音频信息对应的音频指纹；视频映射信息确定单元可建立每个视频与对应的音频指纹之间的映射关系，得到视频映射信息。通过先明确多个视频，并提取视频中的音频信息，能够将视频中的音频与画面分离开，可去除画面数据，降低处理的数据量，继而有针对性地提取分离出的音频信息的音频指纹，最后建立所明确的视频与提取到的音频指纹之间的映射关系，可确保建立的视频映射信息中的映射关系稳定可靠，保障了搜索过程的可靠性。以视频映射信息为含音频指纹信息的视频库为例，在对现有视频库中的视频内容进行回溯时，需执行包括“音频提取
→
静默片段去除
→
(人声&伴奏声分离)
→
音频指纹识别和匹配”等步骤。此外，此过程也需要用到含音频指纹信息的音频库进行匹配，如果确定是一个未被记录过的音频指纹时，还需要将该音频指纹和音频加入前述的音乐库(即加入音频映射信息)。
65.应理解，在建立音频映射信息和视频映射信息时，都会使用音频指纹确定单元来确定音频对应的音频指纹，音频指纹确定单元执行的动作是一样的。在建立音频映射信息和视频映射信息时，可以共用一个音频指纹确定单元；也可以配置两个音频指纹确定单元，将一个音频指纹确定单元与音频映射信息确定单元封装在一起，以专门建立音频映射信息，并将另一个音频指纹确定单元与音频信息提取单元、视频映射信息确定单元封装在一起，以专门建立视频映射信息。这都是本公开的实现方式，落入本公开的保护范围之内。
66.可选地，对于多媒体映射信息的建立，可以在现有基本的音视频库的基础上做音频指纹提取，再在用户每上传一个短视频之后就更新多媒体映射信息，以保障多媒体映射信息的内容完善。
67.图4是根据本公开的示例性实施例的电子设备的框图。
68.参照图4，电子设备400包括至少一个存储器401和至少一个处理器402，所述至少一个存储器401中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器402执行时，执行根据本公开的示例性实施例的多媒体搜索方法。
69.作为示例，电子设备400可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备400并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备400还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。
70.在电子设备400中，处理器402可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
71.处理器402可运行存储在存储器401中的指令或代码，其中，存储器401还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。
72.存储器401可与处理器402集成为一体，例如，将ram或闪存布置在集成电路微处理器等之内。此外，存储器401可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器401和处理器402可在操作上进行耦合，或者可例如通
过i/o端口、网络连接等互相通信，使得处理器402能够读取存储在存储器中的文件。
73.此外，电子设备400还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备400的所有组件可经由总线和/或网络而彼此连接。
74.根据本公开的示例性实施例，还可提供一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的多媒体搜索方法。这里的计算机可读存储介质的示例包括：只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如，多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
75.根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的多媒体搜索方法。
76.根据本公开的示例性实施例的多媒体搜索方法和多媒体搜索装置，通过对用户搜索行为进行分析，构建了记载“搜索词-音频指纹”的关联关系的音频指纹映射信息，以及记载“音频指纹-多媒体”的关联关系的多媒体映射信息，可在用户输入搜索词后，先从音频指纹映射信息中检索出搜索词对应的音频指纹，再从多媒体映射信息中搜索出音频指纹对应的多媒体，即可完成音乐搜索，搜索迅速，且返回的搜索结果匹配程度高，有助于提升搜索效率。
77.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
78.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余文梦张冉
技术所有人：北京达佳互联信息技术有限公司
我是此专利的发明人

上一篇：日志处理方法、装置、设备、介质和程序产品与流程
上一篇：一种抛光液及其制备方法和应用与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。