一种音频处理方法、装置、终端以及存储介质与流程

文档序号：27130906发布日期：2021-10-29 21:10阅读：175来源：国知局

1.本技术涉及计算机技术领域，尤其涉及一种音频处理方法、装置、终端以及存储介质。

背景技术：

2.音频内容与人们的日常生活息息相关，音频内容可以包括音乐、语音等形式。例如，音乐是一种用于表达用户情感需求的艺术形式，语音是用户进行社交时的一种传播媒介。用户可以通过对语音、音乐等音频内容的发送、接收、播放等行为进行沟通交流。在基于音频内容进行沟通交流的过程中，音频内容的播放形式比较单一，信息量也不够丰富，在此情况下，如何丰富音频内容的播放形式成为需要解决的问题。

技术实现要素：

3.本技术一个或多个实施例提供了一种音频处理方法及音频处理装置，可丰富音频内容的播放形式。
4.一方面，本技术一个或多个实施例提供一种音频处理方法，该音频处理方法包括：
5.在显示界面中显示待播放的音频内容的音频信息；
6.获取目标视频集合，目标视频集合包括与音频内容相匹配的n个视频，n为大于或等于1的正整数；
7.响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的视频。
8.本技术一个或多个实施例能够获取与音频内容相匹配的视频，并在显示界面中播放与音频内容相匹配的视频，能够在显示界面中丰富音频内容的播放形式。
9.另一方面，本技术一个或多个实施例提供一种音频处理方法，该音频处理方法包括：
10.在社交应用的动态发布界面中显示待发布的音频内容的音频信息；动态发布界面中显示有动态发布控件和视频获取控件；
11.响应于针对视频获取控件的第一触发操作，获取共享视频集合，共享视频集合包括与音频内容相匹配的p个共享视频，p为大于或等于1的正整数；
12.响应于针对动态发布控件的第二触发操作，将音频内容和共享视频集合关联，以便于在音频内容被播放时同时播放共享视频集合中的共享视频。
13.本技术一个或多个实施例应用于社交应用场景下，能够在社交应用的动态发布界面中丰富音频内容的发布形式，在检测到音频内容被播放时同时播放共享视频集合中的共享视频，进一步丰富音频内容的播放形式。
14.再一方面，本技术一个或多个实施例提供一种音频处理装置，该音频处理装置包括：
15.显示单元，用于在显示界面中显示待播放的音频内容的音频信息；
16.处理单元，用于获取目标视频集合，目标视频集合包括与音频内容相匹配的n个视频，n为大于或等于1的正整数；
17.显示单元，还用于响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的视频。
18.在一个或多个实施例中，处理单元，具体用于：响应于针对视频获取控件的触发操作，获取目标视频集合；其中，视频获取控件显示在显示界面中；
19.显示单元，具体用于：在显示界面的视频播放区中播放目标视频集合中的目标视频；其中，目标视频为基于默认播放顺序确定的视频、基于随机播放模式确定的视频或响应于第一选择操作而确定的视频。
20.在一个或多个实施例中，显示界面为社交应用的社交动态界面，音频信息为发布至社交动态界面的社交动态；显示单元，还用于：
21.目标视频播放完成后，在视频播放区中播放目标视频集合中除目标视频之外的其他视频；或者，
22.响应于对目标视频的切换操作，则在视频播放区中播放目标视频集合中除目标视频之外的其他视频；或者，
23.响应于第二选择操作，在视频播放区播放第二选择操作选择的视频。
24.在一个或多个实施例中，显示界面为社交应用的会话界面，音频内容为语音，音频信息为语音消息，处理单元，还用于：
25.对语音进行类型分析，得到语音类型；
26.显示单元，还用于：
27.若语音类型是音乐类型，则在语音消息的关联位置处显示视频获取控件。
28.在一个或多个实施例中，目标视频集合还与目标账号关联的行为数据匹配，目标账号为登录社交应用的登录账号，社交应用显示显示界面；处理单元，具体用于：
29.根据音频内容所对应的音频标签集合，从视频库中获取初始视频集合，初始视频集合包括与音频标签集合相匹配的m个视频，m为大于或等于1的正整数且m大于或等于n；
30.根据目标账号关联的行为数据，从初始视频集合中确定目标视频集合。
31.在一个或多个实施例中，处理单元，具体用于：
32.获取音频内容所对应的音频标签集合，音频标签集合包括x个音频标签，x为大于或等于1的正整数；
33.从视频库中获取待匹配视频，并获取所述待匹配视频的视频标签集合，视频标签集合包括y个视频标签，y为大于或等于1的正整数；
34.根据音频标签集合和视频标签集合，计算音频内容和待匹配视频之间的相似度；
35.若相似度大于或等于预定阈值，则将待匹配视频记录至初始视频集合中。
36.在一个或多个实施例中，视频标签集合是根据目标标签集合中的各个初始标签的标签概率确定的，目标标签集合包括的初始标签是指s组标签预测结果中出现的所有标签或部分标签，标签概率是根据对应的初始标签的所有预测概率之和计算得到的，s为大于或等于1的正整数；
37.在一个或多个实施例中，s组标签预测结果中的第i组标签预测结果包括：对s个帧图像中的第i个帧图像进行预测得到的多个标签，以及每个标签的预测概率，i为小于或等
于s的正整数；s组标签预测结果是采用标签预测模型分别对s个帧图像中的每个帧图像进行标签预测得到的；s个帧图像是对待匹配视频进行帧解析得到的。
38.在一个或多个实施例中，音频标签集合是根据音频信息和音频内容的关联信息提取得到的，音频信息的关联信息包括：音频内容关联的分享评论信息、音频内容关联的会话评论信息中的任意一个或者两者的组合；
39.待匹配视频是按照视频过滤策略从视频库中获取到的，视频过滤策略包括：质量过滤策略、文字过滤策略、时长过滤策略以及安全性过滤策略中的任意一种或多种。
40.在一个或多个实施例中，处理单元，具体用于：
41.将音频标签集合中的x个音频标签转换为对应的x个音频标签词向量，并对x个音频标签词向量进行归一化处理，得到第一平均词向量；
42.将视频标签集合中的y个视频标签转换为对应的y个视频标签词向量，并对y个视频标签词向量进行归一化处理，得到第二平均词向量；
43.基于第一平均词向量与第二平均词向量的内积，得到相似度。
44.在一个或多个实施例中，处理单元，具体用于：
45.将音频标签集合中的x个音频标签转换为对应的音频标签词向量，得到x个音频标签词向量；
46.将视频标签集合中的y个视频标签转换为对应的视频标签词向量，得到y个视频标签词向量；
47.计算x个音频标签词向量中的每个音频标签词向量与y个视频标签词向量之间内积，得到x个音频标签词向量与y个视频标签词向量之间的x
×
y个内积；
48.基于x
×
y个内积的平均值，得到相似度。
49.又一方面，本技术一个或多个实施例提供一种音频处理装置，该音频处理装置包括：
50.显示单元，用于在社交应用的动态发布界面中显示待发布的音频内容的音频信息；动态发布界面中显示有动态发布控件和视频获取控件；
51.处理单元，用于响应于针对所述视频获取控件的第一触发操作，获取共享视频集合，所述共享视频集合包括与所述音频内容相匹配的p个共享视频，p为大于或等于1的正整数；
52.处理单元，还用于响应于针对所述动态发布控件的第二触发操作，将所述音频内容和所述共享视频集合关联，以便于在所述音频内容播放时同时播放所述共享视频集合中的共享视频。
53.在一个或多个实施例中，显示单元，还用于：根据第二触发操作显示分享对象列表，分享对象列表包括一个或多个分享对象；
54.处理单元，还用于：响应于对分享对象列表中的目标分享对象的选中操作，将音频内容、音频信息以及更新后的共享视频集合发送至目标分享对象；其中，更新后的共享视频集合是根据目标分享对象关联的行为数据从共享视频集合中确定的。
55.在一个或多个实施例中，共享视频集合还与目标账号的行为数据相匹配，目标账号为登录社交应用的登录账号；处理单元，具体用于：
56.根据音频内容所对应的音频标签集合，从视频库中获取原始视频集合，原始视频
集合包括与音频标签集合相匹配的q个共享视频，q为大于或等于1的正整数且q大于或等于p；
57.根据目标账号关联的行为数据，从原始视频集合中确定共享视频集合。
58.相应地，本技术一个或多个实施例还提供一种智能终端，该智能终端包括：存储器和处理器；
59.所述存储器，用于存储计算机程序，所述处理器，用于执行所述计算机程序，实现上述的音频处理方法。
60.另一方面相应地，本技术一个或多个实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被计算机设备的处理器读取并执行时，实现上述的音频处理方法。
61.相应地，本技术一个或多个实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，实现上述的音频处理方法。
62.本技术一个或多个实施例能够获取与音频内容相匹配的视频，并播放与音频内容相匹配的视频，可丰富音频内容的播放形式。
附图说明
63.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
64.图1是本技术一个或多个实施例提供的音频处理方法的流程示意图；
65.图2a是本技术一个或多个实施例提供的一显示界面的界面示意图；
66.图2b是本技术一个或多个实施例提供的另一显示界面的界面示意图；
67.图2c是本技术一个或多个实施例提供的另一显示界面的界面示意图；
68.图2d是本技术一个或多个实施例提供的一视频切换播放过程的示意图；
69.图2e是本技术一个或多个实施例提供的一视频查看方式的界面示意图；
70.图3是本技术一个或多个实施例提供的另一音频处理方法的流程示意图；
71.图4是本技术一个或多个实施例提供的另一音频处理方法的流程示意图；
72.图5是本技术一个或多个实施例提供的一音频信息与视频匹配过程的流程示意图；
73.图6是本技术一个或多个实施例提供的另一音频处理方法的流程示意图；
74.图7a是本技术一个或多个实施例提供的一音频内容的发布过程的界面示意图；
75.图7b是本技术一个或多个实施例提供的另一音频内容的发布过程的界面示意图；
76.图8是本技术一个或多个实施例提供的一音频处理装置的结构示意图；
77.图9是本技术一个或多个实施例提供的一智能终端的结构示意图。
具体实施方式
78.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
79.本技术一个或多个实施例涉及音频内容。本技术一个或多个实施例涉及的音频内容是指人类能够听到的所有声音的总称；例如说话声、歌声、乐器声、噪声等都属于音频内容。本技术一个或多个实施例提及的音频内容可以包括音乐和语音等类型；音乐可以理解为是一种艺术作品，例如音乐可以是由乐器弹奏的纯音乐、由歌手演唱的歌曲等等；语音是指由人类的发声器官发出的声音。当音频内容是音乐时，音频内容通常以音频信息的形式显示于显示界面中，此处的音频信息可以包括但不限于以下至少一种：歌曲信息(例如歌手信息、作词者信息、作曲者信息、歌曲类型等)、歌词信息、专辑信息、音频播放链接等等；通过触发音频播放链接可以对音频内容进行播放，音乐播放链接在显示界面中的展现形态可以包括文本形态(例如包括歌曲名称和歌手名字等文本的文本形态)、图片形态(例如包括专辑封面图片的图片形态)、文本与图片的组合形态(例如包括歌曲名称、歌手名字和专辑封面图片等的组合形态)等等。当音频内容是语音时，此处的音频信息是指语音消息，即语音以语音消息的形式显示于显示界面中，通过触发语音消息可以对语音进行播放。
80.基于此，本技术一个或多个实施例提供一种音频处理方案，该音频处理方案能够获取目标视频集合，并在显示界面中播放目标视频集合中的视频；其中，目标视频集合包括与音频内容相匹配的n个视频，n为大于或等于1的正整数。
81.在一个或多个实施例中，用户可以在显示界面中聆听播放的音频内容的过程中，在显示界面中观看目标视频集合中的视频，丰富了音频内容在显示界面中的播放形式。视频作为音频内容的补充与增强，充分调动了用户的视听体验，有效提升用户在显示界面中聆听音频内容的体验。
82.在一个或多个实施例中，目标视频集合中的视频还与目标账号关联的行为数据相匹配，目标账号为登录社交应用的登录账号，社交应用对显示界面进行显示，即显示界面是社交应用中的一个界面，社交应用是智能终端中运行的一个应用程序。对于同一音频内容，不同账号关联的行为数据不同，从而不同账号匹配到的视频也不相同；例如对于同一音频内容，与该音频内容的音频信息相匹配、且与第一账号关联的行为数据相匹配的视频为第一视频，而与该音频内容的音频信息相匹配、且与第二账号关联的行为数据相匹配的视频为第二视频，第一视频与第二视频不相同；采用行为数据进行匹配，实现了“千人千面”的视频匹配效果，满足用户多样的视频匹配需求，为用户提供了定制化的视频匹配服务，使得音频内容的匹配过程更加灵活。
83.此处的智能终端可以包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、车载设备、智能音箱、智能手表或智能可穿戴设备等等，智能终端中往往配置有显示装置，显示装置可以为显示器、显示屏、触摸屏等等，触摸屏可以为触控屏、触控面板等等。
84.本技术一个或多个实施例提供的音频处理方案涉及人工智能的机器学习、计算机视觉技术、语音技术、自然语言处理技术等等。本技术一个或多个实施例采用机器学习、计算机视觉技术训练得到的神经网络模型对待匹配的视频进行处理；采用语音技术对语音进
行处理；采用自然语言处理技术对音频信息进行处理，最终实现本技术实施例提供的音频处理方案。其中：
85.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
86.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
87.计算机视觉技术(computer vision，cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr(o ptical character recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d(3
‑
dimension)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
88.语音技术(speech technology)的关键技术有自动语音识别技术(automa tic speech recognition，asr)和语音合成技术(text to speech，tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
89.自然语言处理(nature language processing，nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
90.基于上述描述，请参见图1，图1是本技术一个或多个实施例提供的一音频处理方法的流程示意图，该音频处理方法可以由智能终端执行，智能终端可以包括智能手机、平板电脑、笔记本电脑、台式计算机、车载设备、智能音箱、智能手表或智能可穿戴设备等具备显示功能的设备，该音频处理方法可以包括以下步骤s101至步骤s103：
91.s101，在显示界面中显示待播放的音频内容的音频信息。本技术实施例提及的音频内容可以包括但不限于音乐或语音等类型。
92.在一个或多个实施例中，显示界面是指社交应用的社交动态界面(例如qq空间(一种社交动态界面)、朋友圈(一种社交动态界面)、微博动态页(一种社交动态界面)等社交动态界面)，社交动态界面用于展示两个及两个以上用户之间的社交动态；社交动态可以用于展示用户的社交行为状态，例如社交动态是用户发布的文章，可以用于展示用户的心情状态，或者社交动态是用户转发的文章，可以用于展示用户的社交行为等等；此处音频内容是指音乐，音频内容通常以音频信息的形式显示于显示界面中，即在社交动态界面中显示待播放的音频内容的音频信息。此处音频信息可以是指发布至社交动态界面的社交动态，所谓发布至社交动态界面的社交动态是指音频信息是由参与社交的多个(例如两个或两个以上)账号(或用户)中的任一个发布至社交动态界面中的社交动态；此处的音频信息可以包括但不限于以下至少一种：歌曲信息(例如歌手信息、作词者信息、作曲者信息、歌曲类型等)、歌词信息、专辑信息、音频播放链接等等；通过触发音频播放链接可以对音频进行播放，音乐播放链接在社交动态界面中的展现形态可以包括文本形态(例如包括歌曲名称和歌手名字等文本的文本形态)、图片形态(例如包括专辑封面图片的图片形态)、文本与图片的组合形态(例如包括歌曲名称、歌手名字和专辑封面图片等的组合形态)等等。
93.图2a是本技术一个或多个实施例提供的一显示界面的界面示意图，如图2a所示，显示界面是社交应用的社交动态界面20，社交动态界面20中显示有待播放的音频内容的音频信息201；音频信息201是指文本与图片的组合形态的音乐播放链接，文本与图片的组合形态的音乐播放链接中包括歌曲名称2013、歌手名字2014以及专辑封面图片2015；通过触发文本与图片的组合形态的音乐播放链接可以对音频内容进行播放。
94.在一个或多个实施例中，显示界面是指社交应用的会话界面(例如qq(一种即时通信应用)、微信(一种即时通信应用)、直播应用(一种实时视频播放应用)、短视频应用(一种短视频播放应用)等社交应用中的聊天界面)，社交应用的会话界面用于展示两个及两个以上用户之间的会话内容(例如会话消息、会话文件、会话图片等等)；此处音频内容可以是指在会话界面中接收到的语音，在会话界面中显示的音频信息是指在会话界面中接收到的语音消息；语音消息可以包括语音提示信息，语音提示信息可以包括文本提示信息(例如包括语音的时间长度的文本提示信息)，也可以包括图形提示信息，通过触发语音消息可以对语音进行播放。
95.图2b是本技术一个或多个实施例提供的另一显示界面的界面示意图，如图2b所示，显示界面是社交应用的会话界面21，接收到的语音消息211显示于社交应用的会话界面21中，语音消息211包括文本提示信息2111和图形提示信息2112，文本提示信息2111指示语音的时间长度为3秒，通过触发语音消息211可以对语音进行播放。
96.s102，获取目标视频集合。显示界面中显示有与音频信息关联的视频获取控件，视频获取控件可以以按钮、标签等形式显示于显示界面中。获取目标视频集合的步骤是在检测到对视频获取控件的触发操作时触发执行的；即可以判断是否检测到对视频获取控件的触发操作，若检测到对视频获取控件的触发操作，则响应于针对视频获取控件的触发操作，触发执行获取目标视频集合的步骤，并在显示界面中显示视频播放区。如图2a所示，社交动态界面20中显示有与音频信息201关联的视频获取控件202，若检测到对视频获取控件202
的触发操作，则获取目标视频集合，并在显示界面20中显示视频播放区203。
97.在一个或多个实施例中，目标视频集合可以包括从视频库中获取到的与音频内容相匹配的n个视频，n为大于或等于1的正整数。本技术实施例提及的视频库可以包括社交应用中的多个社交视频服务账号(例如公众号、视频号等)所发布的视频。在一个或多个实施例中，目标视频集合中的视频还与目标账号的行为数据相匹配，目标账号是登录社交应用的登录账号、显示界面是社交应用中的一个界面，即目标视频集合包括与音频内容相匹配，且与目标账号的行为数据相匹配的n个视频。其中，目标账号关联的行为数据是指用于指示目标账号对社交应用的访问规律的数据。例如，目标账号关联的行为数据可以包括但不限于以下至少一种：在目标账号访问的一个或多个社交视频服务账号中，目标账号对每个社交视频服务账号的访问次数；或者在目标账号访问的一个或多个类型的视频中，目标账号对每个类型的视频的访问次数等等。获取目标视频集合可以包括：根据音频内容所对应的音频标签集合，从视频库中获取初始视频集合，初始视频集合包括与音频标签集合相匹配的m个视频，m为大于或等于1的正整数且m大于或等于n；根据目标账号关联的行为数据，从初始视频集合中确定目标视频集合；需要说明的是，获取目标视频集合的具体执行过程可以参见图3所示实施例中步骤s302至步骤s303的描述。
98.在显示界面中显示视频播放区之后，还可以在视频播放区中显示目标视频集合中的视频。在一个或多个实施例中，在视频播放区中显示目标视频集合中的视频可以是指：在视频播放区中显示目标视频的视频画面，目标视频可以包括一个或多个帧图像，目标视频的视频画面可以是指目标视频的任一个帧图像。目标视频可以是基于默认播放顺序或随机播放模式从目标视频集合确定的视频；所谓默认播放顺序是指按照目标视频集合中的n个视频的排列顺序进行播放，即目标视频是按照目标视频集合中的n个视频的排列顺序从目标视频集合中确定的视频，例如目标视频可以是目标视频集合中排列在首位的视频；所谓随机播放模式是指对目标视频集合中的n个视频进行随机排序后，按照随机排序后的排列顺序进行播放，即目标视频是按照随机排序后的排列顺序从目标视频集合中确定的视频，例如目标视频可以是对目标视频集合中的n个视频进行随机排序后，在随机排序后的目标视频集合中排列在首位的视频；如图2a所示，视频播放区203中显示有目标视频的视频画面2031。在一个或多个实施例中，在视频播放区中显示目标视频集合中的视频是指：在视频播放区中显示视频列表，视频列表包括目标视频集合中的全部或部分视频的视频信息，视频信息可以包括视频画面和视频标题。图2c是本技术一个或多个实施例提供的另一显示界面的界面示意图，如图2c所示，视频播放区203中显示有视频列表204，视频列表204中包括目标视频集合中的视频1的视频信息2041和目标视频集合中的视频2的视频信息2042，视频1的视频信息2041包括视频1的视频画面和视频1的标题(如图2c中的“视频1”)，视频2的视频信息2042包括视频2的视频画面和视频2的标题(如图2c中的“视频2”)。
99.s103，响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的视频。响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的目标视频。其中，目标视频为基于默认播放顺序确定的视频、基于随机播放模式确定的视频或响应于第一选择操作而确定的视频，第一选择操作是指从视频列表中选中目标视频的视频信息的操作。
100.在一个或多个实施例中，针对目标视频集合的播放触发操作可以包括以下任一
种：
101.(1)选中视频获取控件的操作。针对目标视频集合的播放触发操作是指：选中视频获取控件的操作；即选中视频获取控件，确定检测到对视频获取控件的触发操作，在显示界面中显示视频播放区，并在显示界面中显示视频播放区时在视频播放区中播放目标视频。通过这种方式，选中视频获取控件即触发在视频播放区中播放目标视频，对目标视频的执行播放触发操作时更加快捷。
102.(2)选中视频被播放区中的视频播放控件的操作。针对目标视频集合的播放触发操作是指：选中视频被播放区中的视频播放控件的操作，视频播放控件可以以按钮、标签等形式显示于视频播放区中；如图2a所示，视频播放区203中显示有目标视频的视频画面2031和视频播放控件2032，选中视频播放控件2032，在视频播放区203中播放目标视频。通过这种方式，可以通过目标视频的视频画面选择播放目标视频或不播放目标视频，更加符合用户的视频播放习惯。
103.(3)第一选择操作(即选中视频列表中的目标视频的视频信息的操作)。针对目标视频集合的播放触发操作是指：选中视频列表中的目标视频的视频信息的操作；如图2c所示，视频播放区203中显示有视频列表204，视频列表204中包括目标视频集合中的视频1的视频信息2041和目标视频集合中的视频2的视频信息2042，选中视频1的视频信息2041，此处目标视频是视频1，在视频播放区203中播放目标视频。通过这种方式，可以在视频列表中选择一个视频进行播放，更加符合用户的视频播放习惯。
104.在一个或多个实施例中，当音频内容是语音时，显示界面是指会话界面，音频信息是指会话界面接收到的语音消息，即语音消息显示于会话界面中。在执行步骤s102之前，可以根据接收到的语音的语音特征(例如时域特征、频域特征、语音对应的文字内容等特征)对语音消息进行类型分析，得到语音类型；若语音类型是音乐类型，则在语音消息的关联位置处显示视频获取控件；若检测到对视频获取控件的触发操作，则触发执行步骤s102，即触发执行获取目标视频集合的步骤，并在显示界面中显示视频播放区；响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的目标视频。响应于针对目标视频集合的播放触发操作可以包括以下至少一种：选中视频获取控件的操作、选中视频被播放区中的视频播放控件的操作或选中视频列表中的目标视频的视频信息的操作。如图2b所示，若语音类型是音乐类型，则在语音消息211的关联位置处显示视频获取控件212；若检测到对视频获取控件212的触发操作，则在会话界面21中显示视频播放区213，并在视频播放区213中显示目标视频的视频画面2131；视频播放区中还显示有视频播放控件2132，选中视频播放控件2132，在视频播放区213中播放目标视频。由此可见，本技术一个或多个实施例支持对音乐类型的语音进行视频匹配。
105.在一个或多个实施例中，视频播放区中播放的视频支持切换。当目标视频在视频播放区播放完成后，在视频播放区中播放目标视频集合中除目标视频之外的其他视频，以实现对目标视频的切换播放。或者，响应于对目标视频的切换操作，则在视频播放区中播放目标视频集合中除目标视频之外的其他视频，以实现对目标视频的切换播放；对目标视频的切换操作例如可以是指在视频播放区执行左右滑动操作或者执行上下滑动操作。或者，响应于第二选择操作，在视频播放区域播放第二选择操作选择的视频，以实现对目标视频的切换播放；视频播放区中显示有视频列表控件，视频列表控件可以以按钮、标签等形式显
示于视频播放区中，第二选择操作是指在选中视频列表控件触发显示的视频列表中选择任一个视频进行播放的操作；具体来说，视频播放区中显示有视频列表控件，若视频列表控件被选中，则在视频播放区中显示视频列表，视频列表包括目标视频集合中的全部视频或部分视频的视频信息，视频信息可以包括视频画面和视频标题；若视频列表中任一视频的视频信息被选中，则在视频播放区中播放选中的视频。
106.图2d是本技术一个或多个实施例提供的一视频切换播放过程的示意图，如图2d所示，视频播放区203中包括视频列表控件2033，若视频列表控件2033被选中，则在视频播放区中显示视频列表204，视频列表204中包括目标视频集合中的视频1的视频信息2041、目标视频集合中的视频2的视频信息2042和目标视频集合中的视频3的视频信息2043；选中视频2的视频信息2042，在视频播放区203中播放选中的视频2。由此可见，存在多种在视频播放区中对视频进行切换播放的方式，用户可以选择任意一种或多种方式对视频播放区中的视频进行切换，满足用户的视频切换需求，进一步提升用户体验。
107.在一个或多个实施例中，视频播放区还显示有视频查看控件，通过视频查看控件可以对视频播放区中播放的视频进行进一步地查看，视频查看控件可以以按钮、标签等形式显示于视频播放区中。具体来说，若目标视频是由目标社交视频服务账号发布的，则在视频播放区播放目标视频的过程中，当检测到对视频查看控件的触发操作时，显示社交应用的视频查看界面，视频查看界面中显示有与目标视频相关的视频；与目标视频相关的视频可以包括与目标视频相同类型的一个或多个视频、或者由目标社交视频服务账号发布的其他视频等等。例如目标视频的类型为搞笑视频，那么视频查看界面中包括一个或多个搞笑类型的视频。
108.又如，图2e是本技术一个或多个实施例提供的一视频查看方式的界面示意图，在一个或多个实施例中，如图2e所示，目标视频播放于社交动态界面20的视频播放区203中，视频播放区中显示有视频查看控件2034，若视频查看控件2034被选中，则显示社交应用的社交查看界面22，社交查看界面22中显示有目标社交视频服务账号发布的3个与目标视频相关的视频。通过这种方式，拓展了用户的视频获取渠道，增加了用户能够查看的视频数量，扩展了用户的视频触达边界。
109.在一个或多个实施例中，当音频内容是音乐时，可以获取与音频内容相匹配、且与目标账号的用户行为数据相匹配的目标视频集合，并在显示界面播放目标视频集合中的视频；当音频内容是音乐类型的语音时，可以获取与音频内容相匹配、且与目标账号的用户行为数据相匹配的目标视频集合，并在显示界面播放目标视频集合中的视频；有效提升了在显示界面中播放音乐或语音时的丰富性。另外，本技术实施例存在多种在视频播放区中对视频进行切换播放的方式，用户可以选择任意一种或多种方式对视频播放区中的视频进行切换，满足用户的视频切换需求，进一步提升用户体验。
110.请参见图3，图3是本技术一个或多个实施例提供的另一音频处理方法的流程示意图，该音频处理方法可以由智能终端执行，智能终端可以包括智能手机、平板电脑、笔记本电脑、车载设备、台式计算机、智能音箱、智能手表或智能可穿戴设备等具备显示功能的设备，该音频处理方法可以包括以下步骤s301至步骤s304：
111.s301，在显示界面显示待播放的音频内容的音频信息。
112.本技术一个或多个实施例中步骤s301的执行过程与图1所示的一个或多个实施例
中步骤s101的执行过程相同，可参见图1所示实施例的具体描述，在此不再赘述。
113.s302，根据音频内容所对应的音频标签集合，从视频库中获取初始视频集合。根据音频内容所对应的音频标签集合，从视频库中获取初始视频集合的过程可以包括：获取音频内容所对应的音频标签集合，音频标签集合包括x个音频标签，x为大于或等于1的正整数。从视频库中获取待匹配视频，并获取待匹配视频的视频标签集合。视频标签集合包括y个视频标签，y为大于或等于1的正整数；根据音频标签集合和视频标签集合，计算音频内容和待匹配视频之间的相似度。若相似度大于或等于预定阈值，则将待匹配视频记录至初始视频集合中。本技术实施例中步骤s302的具体执行过程可以参见图4所示实施例中步骤s404至步骤s407的描述。
114.在一个或多个实施例中，相似度可以用于指示音频内容与待匹配视频之间的匹配程度，相似度大于或等于预定阈值，表示待匹配视频与音频内容相匹配，则可以将待匹配视频记录至初始视频集合中。若相似度小于预定阈值，表示待匹配视频与音频信息不匹配。预定阈值可以是根据经验值设置的数值。
115.s303，根据目标账号关联的行为数据，从初始视频集合中确定目标视频集合。
116.在一个或多个实施例中，目标账号是登录社交应用的登录账号，目标账号关联的行为数据是指用于指示目标账号对社交应用的访问规律的数据。例如，目标账号关联的行为数据可以包括但不限于以下至少一种：在目标账号访问的一个或多个社交视频服务账号中，目标账号对每个社交视频服务账号的访问次数；或者在目标账号访问的一个或多个类型的视频中，目标账号对每个类型的视频的访问次数等等。
117.在一个或多个实施例中，可以根据目标账号关联的行为数据，从初始视频集合中确定目标视频集合。具体来说，可以按照目标账号对每个社交视频服务账号的访问次数对初始视频集合进行排序，得到目标视频集合。在一个或多个实施例中，可以按照目标账号对各个类型的视频的访问次数对初始视频集合进行排序，得到目标视频集合。在一个或多个实施例中，可以按照目标账号对每个社交视频服务账号的访问次数，对初始视频集合中的视频进行筛选，得到目标视频集合。或者，可以按照目标账号对各个类型的视频的访问次数对初始视频集合中的视频进行筛选，得到目标视频集合。举例来说，获取到的初始视频集合包括视频1和视频2，视频1和视频2在初始视频集合中的排列顺序是视频1排列于视频2之前；视频1是由社交视频服务账号1发布的，视频2是由社交视频服务账号2发布的；目标账号关联的行为数据包括目标账号对社交视频服务账号1的访问次数和目标账号对社交视频服务账号2的访问次数，若目标账号对社交视频服务账号2的访问次数高于目标账号对社交视频服务账号1的访问次数，那么从初始视频集合确定得到的目标视频集合中，视频2排列于视频1之前。
118.在一个或多个实施例中，初始视频集合中包括第一类型的视频和第二类型的视频，目标账号关联的行为数据包括目标账号对第一类型的视频的访问次数和目标账号对第二类型的视频的访问次数，若目标账号对第一类型的视频的访问次数远远高于目标账号对第二类型的视频的访问次数，那么可以从初始视频集合中删除第二类型的视频，从而确定得到的目标视频集合中包括第一类型的视频。通过这种方式，对于不同的账号，最终确定得到的目标视频集合所包含的视频是不相同的，满足用户多样的视频匹配需求，为用户提供了定制化的视频匹配服务。
119.s304，响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的视频。
120.本技术一个或多个实施例中步骤s304的执行过程与图1所示一个或多个实施例中步骤s103的执行过程相同，可参见图1所示一个或多个实施例的具体描述，在此不再赘述。
121.在一个或多个实施例中，可以根据目标账号关联的行为数据从初始视频集合中确定出目标视频集合，目标视频集合中的视频与音频内容相匹配、且与目标账号关联的行为数据相匹配，对于不同的账号，最终确定得到的目标视频集合所包含的视频是不相同的，满足用户多样的视频匹配需求，使得音频内容与视频的匹配过程更具针对性，更加灵活。
122.请参见图4，图4是本技术一个或多个实施例提供的另一音频处理方法的流程示意图，该音频处理方法可以由智能终端执行，智能终端可以包括智能手机、平板电脑、笔记本电脑、车载设备、台式计算机、智能音箱、智能手表或智能可穿戴设备等具备显示功能的设备，该音频处理方法可以包括以下步骤s401至步骤s407：
123.s401，在显示界面显示待播放的音频内容的音频信息。
124.本技术一个或多个实施例中步骤s401的执行过程与图1所示一个或多个实施例中步骤s103的执行过程相同，可参见图1所示一个或多个实施例的具体描述，在此不再赘述。
125.在一个或多个实施例中，可以判断显示界面是否为会话界面，若显示界面是社交应用的会话界面，则音频为语音，音频信息为语音消息，此时执行步骤s402，即执行对语音进行类型分析，得到语音类型的步骤。若显示界面不是社交应用的会话界面，例如显示界面是社交应用的社交动态界面，音频信息是发布至社交动态界面的社交动态，此时显示界面中显示有视频获取控件，可直接执行步骤s404，即直接执行响应于针对视频获取控件的触发操作，获取音频内容所对应的音频标签集合的步骤。
126.s402，对语音进行类型分析，得到语音类型。
127.s403，若语音类型是音乐类型，则在语音消息的关联位置处显示视频获取控件。
128.本技术一个或多个实施例中，步骤s402和步骤s403的执行过程可参见图1所示一个或多个实施例的相关描述。
129.s404，响应于针对视频获取控件的触发操作，获取音频内容所对应的音频标签集合。音频内容所对应的音频标签集合可以是在开始获取目标视频集合之前的任意时刻获取到的。音频内容所对应的音频标签集合可以是根据在检测到需要为该音频信息所对应的音频内容确定匹配的视频时，开始基于音频信息以及音频内容的关联信息计算得到的，或者是已经为该音频信息所对应的音频内容进行分析确定并预置了音频标签集合，因此在步骤s402中能够直接获取该预置的音频标签集合。例如该音频信息所对应的音频内容为一首歌曲，该歌曲已经被预置了音频标签集合。
130.在一个或多个实施例中，对于根据音频信息以及音频内容的关联信息计算得到音频信息的音频标签集合的情况，音频内容所对应的音频标签集合可以是从音频信息以及音频内容的关联信息中提取到的。在一个或多个实施例中，采用音频标签提取模型从音频信息以及音频内容的关联信息中提取音频标签集合，音频内容的关联信息可以包括音频内容关联的分享评论信息(例如图2a所示社交动态界面20中获取到的与音频内容关联的分享评论消息2012)，或者音频内容关联的会话评论信息(例如图2b所示会话界面21中获取到的会话评论消息214)中的任意一种或两种的组合，音频标签集合包括x个音频标签，x为大于或
等于1的正整数。音频标签提取模型中采用tf
‑
idf(term frequencyinverse document frequency)算法进行音频标签提取；tf(term frequency，词频)用于表示词条在文件集或语料库中出现的频率，idf(inverse document frequency，逆文本频率)是一个词条在文件集或语料库中普遍重要性的度量。tf
‑
idf是一种用于信息检索与文本挖掘的常用加权技术，是一种统计方法，用以评估一个词条对于一个文件集或一个语料库中的其中一份文件的重要程度。词条的重要性随着它在文件中出现的次数呈正比增加，但同时会随着它在文件集或语料库中出现的频率呈反比下降。tf
‑
idf加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。也就是说，本技术实施例提取到的音频标签集合中的各个音频标签需要在音频信息和音频内容的关联信息中出现的频率较高，即tf较高，而在其他音频内容(即除本技术实施例提及的音频内容之外的其他音频内容)的音频信息以及其他音频内容的关联信息中出现的频率较低，即idf较低，则音频标签集合中的各个音频标签具有较好的区分能力，能够有效提升音频内容与视频进行匹配时的准确率。
131.s405，从视频库中获取待匹配视频，并获取待匹配视频的视频标签集合。同样，一个或者多个待匹配视频的视频标签集合也可以是预先设置得到的，但也可以是在需要获取目标视频集合时，再对从视频库中筛选出来的多个合适的待匹配视频进行计算并确定的。
132.本技术一个或多个实施例提及的视频库可以包括社交应用中的多个社交视频服务账号(例如公众号、视频号等)所发布的视频。
133.在一个或多个实施例中，为了避免视频库中的视频参差不齐、质量不一，从视频库中获取待匹配视频之前，需要按照视频过滤策略对视频库中的视频进行过滤，即待匹配视频是按照视频过滤策略从视频库中获取到的，视频过滤策略可以包括以下至少一种：(1)质量过滤策略。所谓质量过滤策略是指选择浏览次数多、支持率高(例如评论次数多、点赞次数多等)、质量好(例如视频画面清晰度高)的视频，对普通长尾视频进行过滤；所谓普通长尾视频是指浏览次数少、支持率低(例如评论次数少、点赞次数少等)、质量差(例如视频画面剧烈抖动，视频画面清晰度低等)的视频。(2)文字过滤策略。所谓文字过滤策略是指通过对视频进行帧粒度的文字检测，即对视频包含的各个帧图像逐一进行文字检测，选择包含较少文字或不包含文字的视频，对包含大量文字的视频进行过滤。(3)安全性过滤策略。所谓安全性过滤策略是指选择安全的视频，对非安全的视频进行过滤；所谓安全的视频是指表达积极向上等主题思想的视频；所谓非安全的视频是指表达消极悲观等主题思想的视频、涉及违法内容的视频或违背道德规范的视频等等。(4)时长过滤策略。所谓时长过滤策略是指选择时长适中(例如时长一般为15秒至20秒)视频，对时长过长或过短视频进行过滤。通过对视频库中的视频进行过滤，能够保证参与匹配过程的视频均是优质视频，有效提升视频的视觉呈现效果。
134.在一个或多个实施例中，待匹配视频是过滤后的视频库中的任一个视频，视频标签集合包括y个视频标签，y为大于或等于1的正整数；对于根据待匹配视频计算得到待匹配视频的视频标签集合的情况，待匹配视频的视频标签集合可以是从待匹配视频中提取得到的，从待匹配视频中提取视频标签集合的过程可以包括：可以对待匹配视频进行帧解析，得到s个帧图像，s为大于或等于1的正整数；采用标签预测模型分别对s个帧图像中的每个帧图像进行标签预测，得到s组标签预测结果；其中，s组标签预测结果中的第i组标签预测结果包括：对s个帧图像中的第i个帧图像进行预测得到的多个标签，以及每个标签的预测概
率，i为小于或等于s的正整数，第i组标签预测结果是对第i个帧图像进行标签预测得到的。进一步地，可以根据s组标签预测结果，计算目标标签集合中的各个初始标签的标签概率；目标标签集合包括的初始标签是指s组标签预测结果中出现的所有标签或部分标签，标签概率是根据对应的初始标签的所有预测概率之和计算得到的；根据各个初始标签的标签概率确定视频标签集合。
135.在一个或多个实施例中，目标标签集合包括的初始标签可以是指s组标签预测结果中出现的所有标签；可以理解为，对s组标签预测结果中出现的所有标签的出现次数进行统计；若一个标签在s组标签预测结果中出现一次，则该标签作为目标标签集合中的初始标签的标签概率等于该标签的预测概率；若一个标签在s组标签预测结果中出现多次(例如两次及两次以上)，则该标签作为目标标签集合中的初始标签的标签概率是根据该标签的所有预测概率之和计算得到的，例如初始标签的标签概率是该标签的所有预测概率之和，或者初始标签的标签概率是该标签的所有预测概率的平均值。
136.例如，采用标签预测模型分别对待匹配视频的2个帧图像中的每个帧图像进行标签预测，得到2组标签预测结果；第一组标签预测结果包括标签1以及标签1的预测概率、标签2以及标签2的预测概率；第二组标签预测结果包括标签2以及标签2的预测概率、标签3以及标签3的预测概率；标签1出现一次，则标签1作为目标标签集合中的初始标签1的标签概率等于标签1的预测概率；标签2出现两次，则标签2作为目标标签集合中的初始标签2的标签概率等于两个标签2的预测概率之和，或者等于两个标签2的预测概率的平均值；标签3出现一次，则标签3作为目标标签集合中的初始标签3的标签概率等于标签3的预测概率。通过这种方式，目标集合标签中的初始标签覆盖面比较广，能够保证目标集合标签中的初始标签更具广度。
137.在一个或多个实施例中，目标标签集合包括的初始标签可以是指s组标签预测结果中出现的部分标签；可以理解为，对s组标签预测结果中出现的所有标签的出现次数进行统计后，对出现次数低于次数阈值的标签进行过滤，次数阈值可以根据经验值设置；过滤得到的标签作为目标标签集合中的初始标签的标签概率是根据该标签的所有预测概率之和计算得到的，例如初始标签的标签概率是该标签的所有预测概率之和，或者初始标签的标签概率是该标签的所有预测概率的平均值。
138.例如，采用标签预测模型分别对待匹配视频的3个帧图像中的每个帧图像进行标签预测，得到3组标签预测结果；第一组标签预测结果包括标签1以及标签1的预测概率、标签2以及标签2的预测概率；第二组标签预测结果包括标签2以及标签2的预测概率、标签3以及标签3的预测概率；第三组标签预测结果包括标签2以及标签2的预测概率、标签1以及标签1的预测概率；标签1出现两次，标签2出现三次，标签3出现一次，若次数阈值设置为2次，则将标签3过滤；目标标签集合包括标签1和标签2，标签1出现两次，则标签1作为目标标签集合中的初始标签1的标签概率等于两个标签1的预测概率之和，或者等于两个标签1的预测概率的平均值；标签2出现三次，则标签2作为目标标签集合中的初始标签2的标签概率等于三个标签2的预测概率之和，或者等于三个标签2的预测概率的平均值。通过这种方式，目标集合标签中的初始标签更具针对性和代表性，能够保证目标标签集合中的初始标签更具深度。
139.在一个或多个实施例中，，视频标签集合是根据目标视频集合中的各个初始标签
的标签概率确定得到的。在一个或多个实施例中，目标标签集合即是视频标签集合，即将目标标签集合中的所有初始标签确定为视频标签集合中的视频标签。在一个或多个实施例中，，还可以根据各个初始标签的标签概率对初始标签进一步过滤，具体是指对标签概率低于概率阈值的初始标签进行过滤，并将过滤得到的初始标签作为视频标签集合中的视频标签。通过这种方式，视频集合标签中的视频标签更具针对性和代表性，能够保证视频标签集合中的视频标签更具深度。
140.在一个或多个实施例中，标签预测模型是采用图像数据库训练得到的卷积神经网络模型，图像数据库可以包括多张训练图像，以及每张训练图像对应的多个标签(例如每张训练图像对应7个或8个标签)。卷积神经网络模型(convolutional neural networks，cnn)是众多科学领域的研究热点之一，特别是在模式分类领域，由于cnn避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。本技术采用的卷积神经网络具体可以是指inception v3(一种卷积神经网络第三版)；采用的损失函数具体可以是交叉熵损失函数(cross entropy loss)，交叉熵损失函数可以用于度量预测概率分布与真实概率分布间之间的相似程度。inception网络的核心思想是将尺寸较大的卷积层替换为多个尺寸较小的卷积层之间的并联结构或串联结构，从而减小对inception网络进行训练时的模型参数的参数量。需要说明的是，标签预测模型可以在对视频库中的视频进行预测的过程中不断训练更新，图像数据库中的图像和标签也可以进行更新，满足不同时期的视频获取需求，并在一定程度上提升对音频信息与视频进行匹配时的准确率。
141.s406，根据音频标签集合和视频标签集合，计算音频内容和待匹配视频之间的相似度。
142.图5是本技术一个或多个实施例提供的一音频信息与视频匹配过程的流程示意图，如图5所示，分别将音频标签集合中的x个音频标签转换为对应的x个音频标签词向量；分别将视频标签集合中的y个视频标签转换为对应的y个视频标签词向量；根据x个音频标签词向量和y个视频标签词向量，计算相似度。所谓词向量(word embedding)是指从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。
143.在一个或多个实施例中，根据x个音频标签词向量和y个视频标签词向量，计算相似度可以包括：对x个音频标签词向量进行归一化处理，得到第一平均词向量；对y个视频标签词向量进行归一化处理，得到第二平均词向量；基于第一平均词向量与第二平均词向量的内积，得到相似度。在另一个实施例中，根据x个音频标签词向量和y个视频标签词向量，计算相似度还可以包括：计算x个音频标签词向量中的每个音频标签词向量与y个视频标签词向量之间内积，得到x个音频标签词向量与y个视频标签词向量之间的x
×
y个内积；基于x
×
y个内积的平均值，得到相似度。
144.s407，若相似度大于或等于预定阈值，则将待匹配视频记录至初始视频集合中。相似度可以用于指示音频内容与待匹配视频之间的匹配程度，若相似度数值大于或等于预定阈值，表示待匹配视频与音频内容相匹配，则可以将待匹配视频记录至初始视频集合中。若相似度数值小于预定阈值，表示待匹配视频与音频信息不匹配。预定阈值可以是根据经验值设置的数值。
145.s408，根据目标账号关联的行为数据，从初始视频集合中确定目标视频集合。
146.本技术一个或多个实施例中步骤s406的执行过程与图3所示一个或多个实施例中
步骤s303的执行过程相同，可参见图3所示一个或多个实施例的具体描述，在此不再赘述。
147.s409，响应于针对目标视频集合的播放触发操作，在显示界面的视频播放区中播放目标视频集合中的目标视频。
148.步骤s409之后，可以采用三种方式对目标视频进行切换播放：目标视频播放完成后，在视频播放区中播放目标视频集合中除目标视频之外的其他视频；或者，响应于对目标视频的切换操作，在视频播放区中播放目标视频集合中除目标视频之外的其他视频；或者，响应于第二选择操作，在视频播放区中播放第二选择操作选择的视频。对目标视频进行切换播放的三种方式具体可以参见图1所示一个或多个实施例中步骤s103的描述。
149.在一个或多个实施例中，在步骤s409之后，目标视频播放完成后，可执行步骤s410，在视频播放区中播放目标视频集合中排列于目标视频之后的第一个视频。或者，在步骤s409之后，响应于视频切换操作，可执行步骤s411，在视频播放器中播放视频切换操作切换到的视频，例如视频切换操作是指在视频播放区执行向右滑动两次的操作，向右滑动一次，切换到的视频是目标视频集合中排列于目标视频之后的第一个视频，向右滑动两次，切换到的视频是目标视频集合中排列于目标视频之后的第二个视频，即若视频切换操作是指在视频播放区执行向右滑动两次的操作，则视频切换操作切换到的视频是指目标视频集合中排列于目标视频之后的第二个视频。或者，在步骤s409之后，响应于第二选择操作，第二选择操作是指在选中视频列表控件触发显示的视频列表中选择任一个视频进行播放的操作，可执行步骤s412，在视频播放区中播放在视频列表中选中的视频。
150.本技术一个或多个实施例中以视频库中的待匹配视频为例，对音频内容与待匹配视频的匹配过程进行介绍，从音频信息和音频内容的关联信息中提取音频标签集合，从视频库中获取待匹配视频，并从待匹配视频中提取视频标签集合。在一个或多个实施例中，，根据音频标签集合和视频标签集合，计算音频内容和待匹配视频之间的相似度，若相似度大于或等于预定阈值，则将待匹配视频添加至初始视频集合中。在音频信息与待匹配视频的匹配过程中，按照视频过滤策略对视频库中的视频进行过滤，能够保证参与匹配过程的视频均是优质视频，有效提升视频的视觉呈现效果；采用tf
‑
idf算法从音频信息和音频内容的关联信息中提取音频标签集合，使得音频标签集合中的各个音频标签具有较好的区分能力，能够有效提升音频信息与待匹配视频进行匹配时的准确率。在一个或多个实施例中，，通过对s组标签预测结果中的标签进行筛选，使得视频集合标签中的视频标签更具针对性和代表性，能够保证视频标签集合中的视频标签更具深度，进一步提升音频信息与待匹配视频进行匹配时的准确率。
151.请参见图6，图6是本技术一个或多个实施例提供的另一音频处理方法的流程示意图，该音频处理方法可以由智能终端执行，智能终端可以包括智能手机、平板电脑、笔记本电脑、台式计算机、车载设备、智能音箱、智能手表或智能可穿戴设备等具备显示功能的设备，该音频处理方法可以包括以下步骤s601至步骤s603：
152.s601，在社交应用的动态发布界面中显示待发布的音频内容的音频信息。
153.在一个或多个实施例中，社交应用的动态发布界面用于发布社交动态，发布的社交动态可以显示于社交动态界面中。显示社交应用的动态发布界面，并在动态发布界面中显示待发布的音频内容的音频信息。此处的音频内容是指共享音乐，此处的音频信息可以包括但不限于以下至少一种：歌曲信息(例如歌手信息、作词者信息、作曲者信息、歌曲类型
等)、歌词信息、专辑信息、音频播放链接等等；通过触发音频播放链接可以对音频内容进行播放，音乐播放链接在动态发布界面中的展现形态可以包括文本形态(例如包括歌曲名称和歌手名字等文本的文本形态)、图片形态(例如包括专辑封面图片的图片形态)、文本与图片的组合形态(例如包括歌曲名称、歌手名字和专辑封面图片等的组合形态)等等。图7a是本技术实施例提供的一音频内容的发布过程的界面示意图，动态发布界面70中显示有待发布的音频内容的音频信息701，音频内容的音频信息701包括文本与图片的组合形态(例如包括歌曲名称、歌手名字以及专辑封面图片等)的音频播放链接，通过触发文本与图片的组合形态的音频播放链接可以对音频内容进行播放。
154.s602，响应于针对视频获取控件的第一触发操作，获取共享视频集合。
155.在一个或多个实施例中，动态发布界面中显示有视频获取控件，视频获取控件可以以按钮、标签等形式显示于动态发布界面中，获取共享视频集合的步骤是在检测到针对视频获取控件的第一触发操作时触发执行的，第一触发操作可以是指选中视频获取控件的操作；即可以判断是否检测到针对视频获取控件的第一触发操作，若检测到针对视频获取控件的第一触发操作，则响应于针对视频获取控件的第一触发操作，触发执行获取共享视频集合的步骤，并在动态发布界面中显示视频播放区。如图7a所示，动态发布界面70中显示有视频获取控件702，若检测到对视频获取控件702的触发操作，则在动态发布界70中显示视频播放区703。
156.在一个或多个实施例中，共享视频集合可以包括与音频内容的音频信息相匹配的p个共享视频，p为大于或等于1的正整数。共享视频集合中的共享视频还可以与目标账号关联的行为数据相匹配，目标账号是登录社交应用的社交账号，即共享视频集合可以包括与音频内容相匹配、且与目标账号关联的行为数据相匹配的p个共享视频。此时获取共享视频集合的过程可以包括：根据音频内容所对应的音频标签集合，从视频库中获取原始视频集合，原始视频集合包括与音频标签集合相匹配的q个共享视频，q为大于或等于1的正整数且q大于或等于p；根据目标账号关联的行为数据，从原始视频集合中确定共享视频集合。此处获取共享视频集合的执行过程与获取目标视频集合的执行过程相似，可以参见图3或图4所示实施例中关于获取目标视频集合的描述。
157.在一个或多个实施例中，在动态发布界面中显示视频播放区之后，还可以在视频播放区中显示共享视频集合中的共享视频。在视频播放区中显示共享视频集合中的共享视频是指：在视频播放区中显示共享视频列表，共享视频列表包括共享视频集合中的全部共享视频或部分共享视频的视频信息，视频信息可以包括视频画面和视频标题。如图7a所示，视频播放区703中显示有共享视频列表704，共享视频列表704中包括共享视频集合中的共享视频1的视频信息7041和共享视频集合中的共享视频2的视频信息7042，共享视频1的视频信息7041包括共享视频1的视频画面和共享视频1的标题(如图7a中的“共享视频1”)，共享视频2的视频信息7042包括共享视频2的视频画面和共享视频2的标题(如图7a中的“共享视频2”)。
158.s603，响应于针对动态发布控件的第二触发操作，将音频内容和共享视频集合关联，以便于在音频内容被播放时同时播放共享视频集合中的共享视频。
159.在一个或多个实施例中，动态发布界面中还显示有动态发布控件，动态发布控件用于发布社交动态，动态发布控件可以以按钮、标签等形式显示于动态发布界面中。当检测
到的针对动态发布控件的第二触发操作时，响应于针对动态发布控件的第二触发操作，将音频内容和共享视频集合关联，并将音频内容和共享视频集合中的共享视频发布至社交动态界面中，以便于在社交动态界面中检测到音频内容被播放时同时播放共享视频集合中的共享视频，第二触发操作可以是指选中动态发布控件的操作。
160.在一个或多个实施例中，当检测到的针对动态发布控件的触发操作时，响应于检测到的针对动态发布控件的触发操作，将音频内容和共享视频集合关联，并将音频内容和共享视频集合中的全部共享视频发布至社交动态界面中。在一个或多个实施例中，可以在共享视频列表中选择目标共享视频，目标共享视频是共享视频列表中的任一个；当检测到的针对动态发布控件的第二触发操作时，响应于针对动态发布控件的第二触发操作，将音频内容和共享视频集合关联，并将音频内容和选中的目标共享视频发布至社交动态界面中。
161.在一个或多个实施例中，如图7a所示，动态发布控件705显示于动态发布界面70中，选中共享视频列表704中的共享视频1的视频信息7041，则在视频播放区603中显示共享视频1的视频画面，还可以在视频播放区703中播放共享视频1；当动态发布控件705被选中时，将音频内容和共享视频1关联，并将音频内容和选中的共享视频1发布至社交动态界面71中；社交动态界面71显示有音频内容的音频信息711和视频播放区713，视频播放区713中显示有选中的共享视频1的视频画面；若在社交动态界面71中检测到音频内容被播放时同时播放共享视频1。
162.在一个或多个实施例中，共享视频集合可以包括与音频内容的音频信息相匹配的p个共享视频，p为大于或等于1的正整数。当检测到针对动态发布控件的第二触发操作时，响应于针对动态发布控件的第二触发操作，可以根据第二触发操作显示分享对象列表，分享对象列表包括一个或多个分享对象，分享对象可以是指社交应用的用户；响应于对分享对象列表中的目标分享对象的选中操作，将音频内容、音频信息以及更新后的共享视频集合发送至目标分享对象；其中，更新后的共享视频集合目标视频集合是根据目标分享对象关联的行为数据从共享视频集合中确定的。也就是说，发送至目标分享对象的更新后的共享视频集合可以包括与音频内容相匹配、且与目标分享对象关联的行为数据相匹配的共享视频，从而目标分享对象可以播放更新后的共享视频集合中的视频。通过这种方式，可以在音频内容的发布过程中，发送至目标分享对象的更新后的共享视频集合中的共享视频与音频内容相匹配、且与目标分享对象关联的行为数据相匹配，可以使得音频内容与共享视频的匹配过程更具针对性、匹配方式更加灵活。
163.在一个或多个实施例中，目标分享对象关联的行为数据是指用于指示目标分享对象对社交应用的访问规律的数据。例如，目标分享对象关联的行为数据可以包括但不限于以下至少一种：在目标分享对象访问的一个或多个社交视频服务账号中，目标分享对象对每个社交视频服务账号的访问次数；或者在目标分享对象访问的一个或多个类型的视频中，目标分享对象对每个类型的视频的访问次数等等。
164.图7b是本技术一个或多个实施例提供的另一音频内容的发布过程的界面示意图，如图7b所示，当检测到针对动态发布控件705的第二触发操作时，响应于针对动态发布控件705的第二触发操作，可以根据第二触发操作显示分享对象列表706，分享对象列表706包括6个分享对象(即用户a、用户b、用户c、用户d、用户e和用户f)，响应于对分享对象列表706中
的目标分享对象7061(例如图7b中的用户c)的选中操作，将音频内容、音频信息以及更新后的共享视频集合发送至用户c，更新后的共享视频集合包括与音频内容相匹配、且与用户c关联的行为数据相匹配的共享视频，从而用户c可以播放更新后的共享视频集合中的视频。在一个或多个实施例中，根据目标分享对象关联的行为数据从共享视频集合中确定更新后的共享视频集合的过程，与图3或图4所示实施例中根据目标账号关联的行为数据从初始视频集合中确定目标视频集合的过程相似，可参见图3或图4所示实施例的描述。
165.在一个或多个实施例中，当检测到对社交应用的显示界面包括的视频获取控件的触发操作，可以获取共享视频集合，共享视频集合包括与待发布的音频内容的音频信息相匹配、且与目标账号关联的行为数据相匹配的p个共享视频，p为正整数，社交应用在智能终端中登陆了目标账号；当检测到针对显示界面包括的动态发布控件的触发操作时，将音频内容和共享视频集合关联，并将音频内容和共享视频集合中的共享视频发布至社交动态界面中，可以丰富音频的发布形式。音频内容和共享视频集合中的共享视频发布至社交动态界面后，若在社交动态界面中检测到音频内容被播放时触发播放共享视频集合中的共享视频；由此可见，在社交动态界面中可以播放音频内容，也可以播放共享视频集合中的共享视频，可以丰富音频在社交动态界面的播放形式。
166.上述详细阐述了本技术实施例的方法，为了便于更好地实施本技术实施例的上述方案，相应地，下面提供了本技术实施例的装置。
167.请参见图8，图8是本技术一个或多个实施例提供的一种音频处理装置的结构示意图，该音频处理装置80可以设置于智能终端中，智能终端可以包括智能手机、平板电脑、笔记本电脑、台式计算机、车载设备、智能音箱、智能手表或智能可穿戴设备等具备显示功能的设备。
168.在一个或多个实施例中，音频处理装置80可以用于执行图1、图3或图4所示的音频处理方法中的相应步骤，该音频处理装置80可以包括：
169.显示单元801，用于在显示界面中显示待播放的音频内容的音频信息；
170.处理单元802，用于获取目标视频集合，目标视频集合包括与音频内容相匹配的n个视频，n为大于或等于1的正整数；
171.显示单元801，还用于响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的视频。
172.在一个或多个实施例中，处理单元802，具体用于：响应于针对视频获取控件的触发操作，获取目标视频集合；其中，视频获取控件显示在显示界面中；
173.显示单元801，具体用于：在显示界面的视频播放区中播放目标视频集合中的目标视频；其中，目标视频为基于默认播放顺序确定的视频、基于随机播放模式确定的视频或响应于第一选择操作而确定的视频。
174.在一个或多个实施例中，显示界面为社交应用的社交动态界面，音频信息为发布至社交动态界面的社交动态；显示单元801，还用于：
175.目标视频播放完成后，在视频播放区中播放目标视频集合中除目标视频之外的其他视频；或者，
176.响应于对目标视频的切换操作，则在视频播放区中播放目标视频集合中除目标视频之外的其他视频；或者，
177.响应于第二选择操作，在视频播放区播放第二选择操作选择的视频。
178.在一个或多个实施例中，显示界面为社交应用的会话界面，音频内容为语音，音频信息为语音消息，处理单元802，还用于：
179.对语音进行类型分析，得到语音类型；
180.显示单元801，还用于：
181.若语音类型是音乐类型，则在语音消息的关联位置处显示视频获取控件。
182.在一个或多个实施例中，目标视频集合还与目标账号关联的行为数据匹配，目标账号为登录社交应用的登录账号，社交应用显示显示界面；处理单元802，具体用于：
183.根据音频内容所对应的音频标签集合，从视频库中获取初始视频集合，初始视频集合包括与音频标签集合相匹配的m个视频，m为大于或等于1的正整数且m大于或等于n；
184.根据目标账号关联的行为数据，从初始视频集合中确定目标视频集合。
185.在一个或多个实施例中，处理单元802，具体用于：
186.获取音频内容所对应的音频标签集合，音频标签集合包括x个音频标签，x为大于或等于1的正整数；
187.从视频库中获取待匹配视频，并获取所述待匹配视频的视频标签集合，视频标签集合包括y个视频标签，y为大于或等于1的正整数；
188.根据音频标签集合和视频标签集合，计算音频内容和待匹配视频之间的相似度；
189.若相似度大于或等于预定阈值，则将待匹配视频记录至初始视频集合中。
190.在一个或多个实施例中，视频标签集合是根据目标标签集合中的各个初始标签的标签概率确定的，目标标签集合包括的初始标签是指s组标签预测结果中出现的所有标签或部分标签，标签概率是根据对应的初始标签的所有预测概率之和计算得到的，s为大于或等于1的正整数；
191.在一个或多个实施例中，s组标签预测结果中的第i组标签预测结果包括：对s个帧图像中的第i个帧图像进行预测得到的多个标签，以及每个标签的预测概率，i为小于或等于s的正整数；s组标签预测结果是采用标签预测模型分别对s个帧图像中的每个帧图像进行标签预测得到的；s个帧图像是对待匹配视频进行帧解析得到的。
192.在一个或多个实施例中，音频标签集合是根据音频信息和音频内容的关联信息提取得到的，音频信息的关联信息包括：音频内容关联的分享评论信息、音频内容关联的会话评论信息中的任意一个或者两者的组合；
193.待匹配视频是按照视频过滤策略从视频库中获取到的，视频过滤策略包括：质量过滤策略、文字过滤策略、时长过滤策略以及安全性过滤策略中的任意一种或多种。
194.在一个或多个实施例中，处理单元802，具体用于：
195.将音频标签集合中的x个音频标签转换为对应的x个音频标签词向量，并对x个音频标签词向量进行归一化处理，得到第一平均词向量；
196.将视频标签集合中的y个视频标签转换为对应的y个视频标签词向量，并对y个视频标签词向量进行归一化处理，得到第二平均词向量；
197.基于第一平均词向量与第二平均词向量的内积，得到相似度。
198.在一个或多个实施例中，处理单元802，具体用于：
199.将音频标签集合中的x个音频标签转换为对应的音频标签词向量，得到x个音频标
签词向量；
200.将视频标签集合中的y个视频标签转换为对应的视频标签词向量，得到y个视频标签词向量；
201.计算x个音频标签词向量中的每个音频标签词向量与y个视频标签词向量之间内积，得到x个音频标签词向量与y个视频标签词向量之间的x
×
y个内积；
202.基于x
×
y个内积的平均值，得到相似度。
203.在一个或多个实施例中，音频处理装置80可以用于执行图6所示的音频处理方法中的相应步骤，该音频处理装置80可以包括：
204.显示单元801，用于在社交应用的动态发布界面中显示待发布的音频内容的音频信息；动态发布界面中显示有动态发布控件和视频获取控件；
205.处理单元802，用于响应于针对视频获取控件的第一触发操作，获取共享视频集合，共享视频集合包括与音频内容相匹配的p个共享视频，p为大于或等于1的正整数；
206.处理单元802，还用于响应于针对动态发布控件的第二触发操作，将音频内容和共享视频集合关联，以便于在音频内容播放时同时播放共享视频集合中的共享视频。
207.在一个或多个实施例中，显示单元801，还用于：根据第二触发操作显示分享对象列表，分享对象列表包括一个或多个分享对象；
208.处理单元802，还用于：响应于对分享对象列表中的目标分享对象的选中操作，将音频内容、音频信息以及更新后的共享视频集合发送至目标分享对象；其中，更新后的共享视频集合是根据目标分享对象关联的行为数据从共享视频集合中确定的。
209.在一个或多个实施例中，共享视频集合还与目标账号的行为数据相匹配，目标账号为登录社交应用的登录账号；处理单元802，具体用于：
210.根据音频内容所对应的音频标签集合，从视频库中获取原始视频集合，原始视频集合包括与音频标签集合相匹配的q个共享视频，q为大于或等于1的正整数且q大于或等于p；
211.根据目标账号关联的行为数据，从原始视频集合中确定共享视频集合。
212.在一个或多个实施例中，图8所示的音频处理装置80中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再划分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本技术的其它实施例中，该音频处理装置80也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本技术的另一个实施例，可以通过在包括例如中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图1、图3、图4或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8中所示的音频处理装置80，以及来实现本技术实施例的音频处理方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。
213.本技术一个或多个实施例能够获取与音频内容相匹配的视频，并播放与音频内容相匹配的视频，可丰富音频内容的播放形式。
214.请参见图9，图9是本技术一个或多个实施例提供的一种智能终端的结构示意图，智能终端可以是指智能手机、平板电脑、笔记本电脑、台式计算机、车载设备、智能音箱、智能手表或智能可穿戴设备等具备显示功能的设备。该智能终端90至少包括处理器901以及存储器902。其中，处理器901以及存储器902可通过总线或者其它方式连接。
215.处理器901可以是中央处理器(central processing unit，cpu)。处理器901还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(applicatio n
‑
specific integrated circuit，asic)，可编程逻辑器件(programmable logic device，pld)等。上述pld可以是现场可编程逻辑门阵列(field
‑
programma ble gate array，fpga)，通用阵列逻辑(generic array logic，gal)等。
216.存储器902可以包括易失性存储器(volatile memory)，例如随机存取存储器(random
‑
access memory，ram)；存储器902也可以包括非易失性存储器(non
‑
volatile memory)，例如快闪存储器(flash memory)，固态硬盘(s olid
‑
state drive，ssd)等；存储器902还可以包括上述种类的存储器的组合。
217.存储器902用于存储计算机程序，计算机程序包括计算机指令，处理器901用于执行计算机指令。处理器901(或称cpu(central processing unit，中央处理器))是智能设备90的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
218.在一个或多个实施例中，该存储器902中存储有计算机程序，由处理器901执行该计算机程序，以实现图1、图3或图4所示方法实施例中的相应步骤；具体实现中，处理器901，运行所述计算机程序，用于：
219.在显示界面中显示待播放的音频内容的音频信息；
220.获取目标视频集合，目标视频集合包括与音频内容相匹配的n个视频，n为大于或等于1的正整数；
221.响应于针对目标视频集合的播放触发操作，在显示界面中播放目标视频集合中的视频。
222.在一个或多个实施例中，所述处理器901用于：
223.响应于针对视频获取控件的触发操作，获取目标视频集合；其中，视频获取控件显示在显示界面中；
224.在显示界面的视频播放区中播放目标视频集合中的目标视频；其中，目标视频为基于默认播放顺序确定的视频、基于随机播放模式确定的视频或响应于第一选择操作而确定的视频。
225.在一个或多个实施例中，显示界面为社交应用的社交动态界面，音频信息为发布至社交动态界面的社交动态；所述处理器901用于：
226.目标视频播放完成后，在视频播放区中播放目标视频集合中除目标视频之外的其他视频；或者，
227.响应于对目标视频的切换操作，则在视频播放区中播放目标视频集合中除目标视频之外的其他视频；或者，
228.响应于第二选择操作，在视频播放区播放第二选择操作选择的视频。
229.在一个或多个实施例中，显示界面为社交应用的会话界面，音频内容为语音，音频
信息为语音消息，所述处理器901用于：
230.对语音进行类型分析，得到语音类型；
231.若语音类型是音乐类型，则在语音消息的关联位置处显示视频获取控件。
232.在一个或多个实施例中，目标视频集合还与目标账号关联的行为数据匹配，目标账号为登录社交应用的登录账号，社交应用显示显示界面；所述处理器901用于：
233.根据音频内容所对应的音频标签集合，从视频库中获取初始视频集合，初始视频集合包括与音频标签集合相匹配的m个视频，m为大于或等于1的正整数且m大于或等于n；
234.根据目标账号关联的行为数据，从初始视频集合中确定目标视频集合。
235.在一个或多个实施例中，所述处理器901用于：
236.获取音频内容所对应的音频标签集合，所述音频标签集合包括x个音频标签，x为大于或等于1的正整数；
237.从视频库中获取待匹配视频，并获取待匹配视频的视频标签集合，视频标签集合包括y个视频标签，y为大于或等于1的正整数；
238.根据音频标签集合和视频标签集合，计算音频内容和待匹配视频之间的相似度；
239.若相似度大于或等于预定阈值，则将待匹配视频记录至初始视频集合中。
240.在一个或多个实施例中，视频标签集合是根据目标标签集合中的各个初始标签的标签概率确定的，目标标签集合包括的初始标签是指s组标签预测结果中出现的所有标签或部分标签，标签概率是根据对应的初始标签的所有预测概率之和计算得到的，s为大于或等于1的正整数；
241.在一个或多个实施例中，s组标签预测结果中的第i组标签预测结果包括：对s个帧图像中的第i个帧图像进行预测得到的多个标签，以及每个标签的预测概率，i为小于或等于s的正整数；s组标签预测结果是采用标签预测模型分别对s个帧图像中的每个帧图像进行标签预测得到的；s个帧图像是对待匹配视频进行帧解析得到的。
242.在一个或多个实施例中，音频标签集合是根据音频信息和音频内容的关联信息提取得到的，音频内容的关联信息包括：音频内容关联的分享评论信息、音频内容关联的会话评论信息中的任意一个或者两者的组合；
243.待匹配视频是按照视频过滤策略从视频库中获取到的，视频过滤策略包括：质量过滤策略、文字过滤策略、时长过滤策略以及安全性过滤策略中的任意一种或多种。
244.在一个或多个实施例中，所述处理器901用于：
245.将音频标签集合中的x个音频标签转换为对应的x个音频标签词向量，并对x个音频标签词向量进行归一化处理，得到第一平均词向量；
246.将视频标签集合中的y个视频标签转换为对应的x个视频标签词向量，并对y个视频标签词向量进行归一化处理，得到第二平均词向量；
247.基于第一平均词向量与第二平均词向量的内积，得到相似度。
248.在一个或多个实施例中，所述处理器901用于：
249.将音频标签集合中的x个音频标签转换为对应的音频标签词向量，得到x个音频标签词向量；
250.将视频标签集合中的y个视频标签转换为对应的视频标签词向量，得到y个视频标签词向量；
251.计算x个音频标签词向量中的每个音频标签词向量与y个视频标签词向量之间内积，得到x个音频标签词向量与y个视频标签词向量之间的x
×
y个内积；
252.基于x
×
y个内积的平均值，并得到相似度。
253.在一个或多个实施例中，该存储器902中存储有计算机程序，计算机程序包括一条或多条计算机指令；由处理器901加载并执行一条或多条计算机指令，以实现图6所示方法实施例中的相应步骤；具体实现中，所述处理器901用于：
254.在社交应用的动态发布界面中显示待发布的音频内容的音频信息；动态发布界面中显示有动态发布控件和视频获取控件；
255.响应于针对视频获取控件的第一触发操作，获取共享视频集合，共享视频集合包括与音频内容相匹配的p个共享视频，p为大于或等于1的正整数；
256.响应于针对动态发布控件的第二触发操作，将音频内容和共享视频集合关联，以便于在音频内容播放时同时播放共享视频集合中的共享视频。
257.在一个或多个实施例中，所述处理器901用于：
258.根据第二触发操作显示分享对象列表，分享对象列表包括一个或多个分享对象；
259.响应于对分享对象列表中的目标分享对象的选中操作，将音频内容、音频信息以及更新后的共享视频集合发送至目标分享对象；其中，更新后的共享视频集合是根据目标分享对象关联的行为数据从共享视频集合中确定的。
260.在一个或多个实施例中，共享视频集合还与目标账号的行为数据相匹配，目标账号为登录社交应用的登录账号；所述处理器901用于：
261.根据音频内容所对应的音频标签集合，从视频库中获取原始视频集合，原始视频集合包括与音频标签集合相匹配的q个共享视频，q为大于或等于1的正整数且q大于或等于p；
262.根据目标账号关联的行为数据，从原始视频集合中确定共享视频集合。
263.本技术一个或多个实施例能够获取与音频内容相匹配的视频，并播放与音频内容相匹配的视频，可丰富音频内容的播放形式。
264.在一个或多个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选方式中提供的音频处理方法。
265.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，计算机可读存储介质可以包括：闪存盘、只读存储器(read
‑
only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
266.以上所揭露的仅为本技术一种或多种较佳实施例而已，当然不能以此来限定本技术之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本技术权利要求所作的等同变化，仍属于本技术所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李岩;王汉杰;毛懿荣
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：车辆车道偏移的测量方法与流程
上一篇：一种用于评价气藏固井水泥石自愈合性能的实验方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。