直播封面的处理方法、装置、电子设备与流程

文档序号：30946803发布日期：2022-07-30 05:34阅读：66来源：国知局

1.本技术涉及互联网技术，尤其涉及一种直播封面的处理方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.人工智能(ai，artificial intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。例如，直播在人们的日常生活(如休闲娱乐、购物、了解时事新闻等)中发挥着重要的作用，通过人工智能技术向用户展现可能感兴趣的直播间，能够实现信息的高效和精准地传递。
3.直播封面是用户进入直播间前感知直播间的重要途径，承载了个性化展示直播间的功能，然而，相关技术提供的制作直播封面的技术侧重于直播封面的视觉效果，而直播间自身的信息无法通过封面得到有效的传递，用户不得不反复进入和退出直播间以寻找有价值的信息，这影响了通过直播来传递信息的效率，同时对于终端设备和服务器的资源也造成了不必要的消耗。

技术实现要素：

4.本技术实施例提供一种直播封面的处理方法、装置、电子设备及计算机可读存储介质，能够赋予直播封面准确和动态地展示直播间的能力，以资源节约的方式提高通过直播传递信息的效率。
5.本技术实施例的技术方案是这样实现的：
6.本技术实施例提供一种直播封面的处理方法，包括：
7.基于直播间的直播内容，获取与所述直播间中的互动事件对应的动态信息；
8.基于所述动态信息以及直播图像进行组合操作，得到对应的候选直播封面；
9.获取多个所述候选直播封面分别对应的操作行为数据；
10.基于多个所述候选直播封面分别对应的操作行为数据，在所述多个候选直播封面中确定符合推荐指标的第一直播封面；
11.发送所述第一直播封面。
12.本技术实施例提供一种直播封面的处理装置，包括：
13.获取模块，用于基于直播间的直播内容，获取与所述直播间中的互动事件对应的动态信息；
14.组合模块，用于基于所述动态信息以及直播图像进行组合操作，得到对应的候选直播封面；
15.所述获取模块，还用于获取多个所述候选直播封面分别对应的操作行为数据；
16.确定模块，用于基于多个所述候选直播封面分别对应的操作行为数据，在所述多个候选直播封面中确定符合推荐指标的第一直播封面；
17.发送模块，用于发送所述第一直播封面。
18.上述方案中，所述组合模块，还用于：
19.从所述直播内容提取包括主播的直播图像；
20.将所述动态信息分别叠加到每个所述直播图像中，以得到对应的候选直播封面。
21.上述方案中，所述组合模块，还用于：
22.基于所述直播内容进行图像识别处理，以得到包括主播的多个视频帧；
23.基于所述直播内容所属的直播类型确定每个视频帧的评分，并筛选出超过评分阈值的视频帧作为直播图像。
24.上述方案中，所述获取模块，还用于：
25.将每个候选直播封面发送至对应的测试设备集合中的每个测试终端设备；
26.获取每个测试终端设备在显示所接收的候选直播封面时收集到的操作行为数据；
27.其中，所述测试设备集合是直播平台的全部终端设备的子集；
28.其中，所述操作行为数据用于至少表征以下一种操作：进入直播间的点击操作、反馈是否对直播感兴趣的点击操作。
29.上述方案中，所述获取模块，还用于：
30.针对每个候选直播封面执行以下处理：
31.在用户画像数据库中查找与所述候选直播封面中的动态信息匹配的多个用户画像；
32.将多个所述用户画像关联的终端设备，组合为与所述候选直播封面对应的测试设备集合。
33.上述方案中，当所述操作行为数据表征进入直播间的点击操作时，所述推荐指标包括点击率；所述确定模块，还用于：
34.基于所述操作行为数据确定每个候选直播封面的点击率，将多个所述候选直播封面的点击率进行降序排序，并选取排序靠前的至少一个候选直播封面作为待推荐的第一直播封面。
35.上述方案中，当所述操作行为数据表征反馈是否对直播感兴趣的点击操作时，所述推荐指标包括偏好比例；所述确定模块，还用于：
36.基于所述操作行为数据确定每个候选直播封面的偏好比例，将多个所述候选直播封面的偏好比例进行降序排序，并选取排序靠前的至少一个候选直播封面作为待推荐的第一直播封面。
37.上述方案中，所述获取模块，还用于：
38.对所述直播间的直播内容进行语音识别，以得到针对直播间中的互动事件的发言内容；
39.从所述发言内容中识别至少一个关键词，并基于所述至少一个关键词查询互动词库，得到与所述至少一个关键词关联的动态信息；
40.其中，所述动态信息包括与所述互动事件相关的文本和图像至少之一。
41.上述方案中，所述确定模块，还用于：
42.基于所述直播间的更新的直播内容，确定与所述直播间中更新的互动事件对应的第二直播封面；
43.发送所述第二直播封面，以替换在所述第二直播封面之前已经发送的第一直播封
面。
44.本技术实施例提供一种直播封面的处理方法，包括：
45.显示直播间的第一直播封面；
46.响应于所述直播间中发生了互动事件，显示第二直播封面以替代所述第一直播封面；
47.其中，所述第二直播封面包括直播图像以及与所述互动事件对应的动态信息。
48.本技术实施例提供一种直播封面的处理装置，包括：
49.显示模块，用于显示直播间的第一直播封面；以及用于响应于所述直播间中发生了互动事件，显示第二直播封面以替代所述第一直播封面；其中，所述第二直播封面包括直播图像以及与所述互动事件对应的动态信息。
50.上述方案中，所述显示模块，还用于：
51.响应于未接收到从所述第一直播封面进入所述直播间的点击操作、且所述直播间中发生了互动事件，显示第二直播封面以替代所述第一直播封面；或
52.响应于接收到反馈对直播感兴趣的点击操作、且所述直播间中发生了互动事件，显示第二直播封面以替代所述第一直播封面。
53.本技术实施例提供一种电子设备，包括：
54.存储器，用于存储可执行指令；
55.处理器，用于执行所述存储器中存储的可执行指令时，实现本技术实施例提供的直播封面的处理方法。
56.本技术实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本技术实施例提供的直播封面的处理方法。
57.本技术实施例具有以下有益效果：
58.通过将直播过程中的动态信息与直播图像结合来形成直播封面，使得直播封面能够及时反映直播间中的互动事件，从而基于直播封面可以直观感知直播间是否满足信息需求，从而能够高效和准确地选择直播间以获取信息，节约了直播的资源消耗。
附图说明
59.图1是本技术实施例提供的直播处理系统10的架构示意图；
60.图2a是本技术实施例提供的直播封面的处理方法的流程示意图；
61.图2b是本技术实施例提供的直播封面的处理方法的流程示意图；
62.图2c是本技术实施例提供的直播封面的处理方法的流程示意图；
63.图2d是本技术实施例提供的直播封面的处理方法的流程示意图；
64.图3a是本技术实施例提供的直播封面的示意图；
65.图3b是本技术实施例提供的直播间的平铺页面示意图；
66.图3c是本技术实施例提供的直播间的平铺页面示意图；
67.图3d是本技术实施例提供的直播封面的示意图；
68.图3e是本技术实施例提供的直播封面的示意图；
69.图3f是本技术实施例提供的直播间的页面示意图；
70.图4是本技术实施例提供的生成直播封面的流程示意图；
71.图5是本技术实施例提供的音频帧的交叠示意图；
72.图6a是本技术实施例提供的服务器200的结构示意图；
73.图6b是本技术实施例提供的终端400-1的结构示意图。
具体实施方式
74.为了使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术作进一步地详细描述，所描述的实施例不应视为对本技术的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
75.在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。
76.在以下的描述中，所涉及的术语“第一/第二/第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
77.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
78.对本技术实施例进行进一步详细说明之前，对本技术实施例中涉及的名词和术语进行说明，本技术实施例中涉及的名词和术语适用于如下的解释。
79.1)直播内容：直播过程中持续性生成的音频和视频。
80.2)互动事件：直播过程中发生的用于引起互动的事件或包括互动行为的事件。
81.就互动事件是用于促进互动的事件来说，可以是主播侧的事件，例如主播的表演、商品营销等，用于促进观众的收藏、订购等行为；也可以是观众侧的事件，例如观众针对主播的点赞、评论、打赏和送礼物的行为，用于促进主播的进一步表演的兴趣。
82.就互动事件本身是包括互动行为的事件来说，也可以是彼此关联的主播侧事件和观众侧事件，例如主播的营销行为和观众在主播营销后的收藏、订购行为，再例如主播公布谜题的行为和观众回复谜题的竞猜行为。
83.3)动态信息：与互动事件相关的信息，其形式可以是文本或图像。例如，当互动事件为竞猜时，对应的动态信息可以是谜题或者谜底。动态信息可以以文本形式在候选直播封面中呈现，或以图像形式在候选直播封面中呈现。当互动事件为商品营销时，对应的动态信息可以是商品的图像和/或商品的价格/商品促销信息等。
84.4)互动词库：由单个的词和短语构成，基于互动词库中的词和/或短语可以得到对应的动态信息。例如，词为“清仓大促销”，直播间正在促销的商品为文具，可得到对应的动态信息为“文具清仓大促销”。
85.5)直播类型：根据直播内容或直播性质将直播划分为不同的类型。例如，直播类型可以是营销、日常生活记录、经验分享交流等。
86.6)a/b测试：为同一个目标制定两个方案或多个方案，在同一时间维度，让不同组相同人数的用户分别使用这两个方案或多个方案，并收集各组用户的使用数据，以确定出
最符合设计目标的方案。
87.7)squeezenet神经网络模型：一种轻量且高效的卷积神经网络模型，它通过减少参数，并对单个卷积层进行优化设计来进行模型压缩。
88.8)音素：根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。
89.随着直播行业的发展，越来越多的人开始直播带货。直播封面是直接影响直播间点击率的重要因素。相关技术中，直播平台中直播间的直播封面有2种，一种是截取直播内容的图像，对图像特征进行评分，选取分数高的作为直播封面；另一种是实时透传直播内容的动态画面。这2种方案在只从美观度和实时性出发来显示直播封面，使得直播间自身的信息无法通过直播封面得到有效的传递，用户不得不反复进入和退出直播间以寻找有价值的信息，这影响了通过直播来传递信息的效率，同时对于终端设备和服务器的资源也造成了不必要的消耗。
90.本技术实施例提供一种直播封面的处理方法，能够赋予直播封面准确和动态地展示直播间的能力，以资源节约的方式提高通过直播传递信息的效率。
91.本技术实施例提供的直播封面的处理方法可以由各种电子设备实施，例如，可以由终端单独实施，也可以由服务器单独实施，也可以由终端和服务器协同实施。例如终端独自承担下文所述的直播封面的处理方法，或者，终端向服务器发送直播封面处理请求，服务器根据接收的直播封面处理请求执行直播封面的处理方法。
92.本技术实施例提供的用于直播封面的处理的电子设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器；终端可以是平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术实施例对此不做限制。
93.以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务(aiaas，ai as a service)，aiaas平台会把几类常见的ai服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个ai主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用aiaas平台提供的一种或者多种人工智能服务。
94.例如，其中的一种人工智能云服务可以为直播封面的处理服务，即云端的服务器封装有本技术实施例提供的直播封面的处理的程序。终端通过调用云服务中的直播封面的处理服务，以使部署在云端的服务器对直播的音频和视频进行处理，得到符合推荐指标的第一直播图像，并将第一直播图像返回给终端。
95.在一些实施例中，以服务器和终端协同实施本技术实施例提供的直播封面的处理方法为例进行说明一个示例性的直播封面的处理系统。参见图1，图1是本技术实施例提供的直播处理系统10的架构示意图。终端400-1和终端400-2通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。终端向服务器发送携带直播的音频和视频的直播封面处理请求，服务器根据接收的直播封面的处理请求执行直播封面的处理方法。
96.在一些实施例中，主播的终端400-1将携带直播的音频和视频的直播封面处理请求实时发送给服务器200，服务器200对音频进行语音识别，以确定动态信息。同时服务器200从视频中提取出包括主播的直播封面，将动态信息与直播封面组合，得到多个候选直播封面，确定符合推荐指标的候选直播封面，并将其作为第一直播封面发送给所有的观众的终端400-2。
97.在另一些实施例中，主播的终端400-1对直播的音频进行语音识别，确定对应的动态信息；并对直播的视频进行图像识别，确定包括主播的直播图像；将动态信息和直播图像组合成多个候选直播封面，通过服务器200将多个候选直播封面分别发送给不同的终端进行测试，并通过服务器200收集每个候选直播封面对应的操作行为数据。之后，主播的终端400-1基于每个候选直播封面对应的操作行为数据确定符合推荐指标的第一直播封面，通过服务器200将第一直播封面发送给所有的观众的终端400-2。
98.在另一些实施例中，在候选直播封面和第一直播封面的确定的过程中，主播的终端400-1和服务器200可以分别执行部分操作。例如，可以由服务器200进行图像识别，以确定包括主播的直播图像，以及基于操作行为数据确定第一直播封面；而由主播的终端400-1进行语音识别，以确定动态信息，将动态信息和直播图像组合成多个候选直播封面，向不同的终端分发候选直播封面，以收集操作行为数据。本技术实施例对二者具体执行的操作不做限制。
99.在一些实施例中，以本技术实施例提供的电子设备为终端为例，终端通过运行计算机程序来实现本技术实施例提供的直播封面的处理方法，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(native)应用程序(app，application)，即需要在操作系统中安装才能运行的直播封面的处理程序；也可以是小程序，即只需要下载到任意客户端的浏览器环境中就可以运行的直播封面的处理小程序。总而言之，上述计算机程序可以是任意可以是任意形式的应用程序、模块或插件。
100.下面将结合附图对本技术实施例提供的直播封面的处理方法进行说明。参见图2a，图2a是本技术实施例提供的直播封面的处理方法的流程示意图，将结合图2a示出的步骤进行说明。
101.在步骤101中，基于直播间的直播内容，获取与直播间中的互动事件对应的动态信息。
102.在一些实施例中，动态信息包括与互动事件相关的文本和图像至少之一，因为直播间的直播内容是直播过程中生成的视频和/或音频，所以对直播内容中的音频分析可以得到与互动事件对应的文本，例如当互动事件为蛋糕促销时，对音频分析得到的对应的文本可以是“全场蛋糕一折起”。对直播内容中的视频分析可以得到与互动事件对应的图像。例如，得到蛋糕样品的图像。其中，直播间中的互动事件可以是实时发生的互动事件，也可以是一段时间中发生的互动事件。对于后者，当一段时间中存在多个互动事件时，获取多个互动事件分别对应的动态信息。在一些可能的示例中，对直播间的直播内容中的音频进行语音识别，可以得到针对直播间中的互动事件的发言内容。例如，当互动事件为蛋糕促销时，主播相应的发言内容为蛋糕的介绍以及促销信息。在语音识别过程中，先对音频进行预处理，去除音频首尾端的静音部分。然后，对去除了静音部分的音频进行分帧处理，得到多个音频帧；对每个音频帧进行声学特征提取处理，得到对应的声学特征；识别声学特征的状
态，并将相连的多个声学特征的状态进行组合，得到多个音素。最后，将多个音素组合成文本，得到针对直播间中的互动事件的发言内容。
103.在识别出主播的发言内容后，对发言内容进行去停用词、分词以及去助词等处理，得到至少一个关键词。之后，基于至少一个关键词查询互动词库，以从关键词中筛选得到与直播类型以及当前互动事件密切相关的词语。例如，对于学习交流类型的直播，当前互动事件为主播向进入直播间的观众普及普洱茶的相关知识，则对应的相关词语可以是“普洱茶”、“茶艺”、“茶文化交流”等。基于筛选得到的相关词语可以得到与至少一个关键词关联的动态信息，如“普洱茶文化交流”。
104.在另一些可能的示例中，对直播间的直播内容中的视频进行图像识别，可以得到互动事件对应的图像。例如，当互动事件为蛋糕促销时，可通过包围框回归的方法，或通过图像分割的方法(如基于阈值的分割方法、基于边缘检测的分割方法等)确定出直播图像中蛋糕的成像区域，将成像区域的图像，即一个更小的图像作为该互动事件对应的图像。
105.在步骤102中，基于动态信息以及直播图像进行组合操作，得到对应的候选直播封面。
106.在一些实施例中，基于动态信息以及直播图像进行组合操作，得到对应的候选直播封面，可以采用如下方式实现：从直播内容提取包括主播的直播图像；将动态信息分别叠加到每个直播图像中，以得到对应的候选直播封面。
107.在一些可能的示例中，将动态信息分别叠加到每个直播图像中，即将动态信息如文本或图像与包括主播的直播图像一起绘制在预设大小的画布中，得到对应的候选直播封面。其中，动态信息可以有多个，包括主播的直播图像也可以有多个，对二者进行随机组合，可生成多个候选直播封面。参见图3a，图3a是本技术实施例提供的直播封面的示意图，图3a的直播封面401中加入了动态信息402“慕斯蛋糕低至9.9元抢”。
108.在一些可能的示例中，从直播内容提取包括主播的直播图像，可通过图2b所示步骤1021至步骤1023实现，图2b是本技术实施例提供的直播封面的处理方法的流程示意图。
109.在步骤1021中，基于直播内容进行图像识别处理，以得到包括主播的多个视频帧。
110.在一些实施例中，基于直播内容进行图像识别处理，即对直播内容中的视频进行图像识别处理，直播内容中的视频可以是直播过程中任意时间点或时间段的视频，也可以是互动事件对应的时间段中的视频。
111.在图像识别处理过程中，首先，对直播内容的视频中的每个视频帧进行卷积处理，得到每个视频帧中多个像素块的图像特征。其中，图像特征表征了像素块的位置信息和像素信息等。因为每个视频帧由多个像素块构成，而每个像素块的重要程度不同，所以还需要对视频帧进行采样处理，得到每个视频帧中重要的像素块。例如，可以通过采样处理去掉空白的像素块或背景部分的像素块，从而减少后续图像处理的任务量。基于图像特征对每个视频帧进行采样处理，得到采样结果，即视频帧中重要的像素块对应的图像特征。基于采样结果进行识别处理，例如，可通过分类函数如softmax函数对采样结果进行识别处理，以确定视频帧包括主播的概率，并将超过概率阈值的视频帧作为包括主播的视频帧。
112.在步骤1022中，基于直播内容所属的直播类型确定每个视频帧的评分。
113.在一些实施例中，根据直播类型预先训练了多个神经网络模型，用于对不同类型的直播图像进行美学评分。美学评分主要基于图像的美观程度、清晰度和内容完整程度等
对图像进行评分。为了减少神经网络模型的模型体积，提高运行速度，可以使用squeezenet神经网络模型进行评分。squeezenet神经网络模型由一层卷积层、至少一个firemodule模块、一层卷积层和一层平均池化层构成。第一层卷积层用于对视频帧进行卷积处理，得到对应的主播图像特征。firemodule模块包括压缩部分和扩展部分，压缩部分由卷积核为1
×
1的卷积层构成，扩展部分由卷积核为1
×
1以及卷积核为3
×
3的两个卷积层共同构成。压缩部分用于对主播图像特征进行降维，以降低参数数量，并得到相应的压缩结果。之后，扩展部分通过上述两个卷积层分别对压缩结果进行扩展处理，即进行特征提取，并拼合所提取的特征，得到扩展结果。通过最后一层卷积层对扩展结果进行卷积处理，并对卷积结果进行平均池化处理，得到每个视频帧中的每个像素块的评分。最后，对每个视频帧中的每个像素块的评分加权平均，得到每个视频帧对应的评分。在一些可能的示例中，在经过firemodule模块处理后，图像特征的维数将增多，因此，在每个firemodule模块处理后，还可以通过最大池化层进行降维处理。
114.在一些实施例中，还可以基于内容完整性对视频帧进行评分，例如，视频帧中的人脸被遮挡的比例越低，评分越高。
115.在步骤1023中，筛选出超过评分阈值的视频帧作为直播图像。
116.例如，设置的评分阈值为4分，有3个视频帧的评分超过4分，则通过组合这3个视频帧与动态信息，得到候选直播图像。因为用于组合得到候选直播图像的视频帧的美学评分均高于评分阈值，所以保证了候选直播图像的清晰程度和美观程度。又因为候选直播图像中包含了动态信息，使得候选直播图像的特点更为鲜明，有利于用户了解直播内容，从而提高用户的点击转化率。
117.在步骤103中，获取多个候选直播封面分别对应的操作行为数据。
118.在一些实施例中，通过与候选直播封面对应的测试设备集合来获取操作行为数据。测试设备集合是直播平台的全部终端设备的子集。可在用户画像数据库中查找与候选直播封面中的动态信息匹配的多个用户画像。其中，用户画像数据库中存储了直播平台的用户的画像数据，如年龄、性别、平台登录时长、购物记录、关注直播类型、兴趣爱好等。例如，当动态信息为“蛋糕促销”时，可在用户画像数据库中查找兴趣爱好为美食、购物记录包括蛋糕等食物或关注直播类型为营销的用户。
119.在查找到与动态信息匹配的多个用户画像后，确定用户画像所对应的用户以及与这些用户关联的终端设备，将终端设备组合为测试设备集合。将每个候选直播封面发送至对应的测试设备集合中的每个测试终端设备以进行显示，并获取每个测试终端设备在显示所接收的候选直播封面时收集到的操作行为数据；其中，操作行为数据用于至少表征以下一种操作：进入直播间的点击操作、反馈是否对直播感兴趣的点击操作。
120.在一些可能的示例中，每个候选直播封面对应的测试设备集合中的测试终端设备的数量可以相同，也可以不同。每个候选直播封面对应的测试设备集合彼此之间可以不存在交集，也可以存在交集，例如，终端设备q可以同时属于候选直播封面a、b、c分别对应的测试设备集合，在一段时间内，先后向终端设备q发送候选直播封面a、b、c。
121.在步骤104中，基于多个候选直播封面分别对应的操作行为数据，在多个候选直播封面中确定符合推荐指标的第一直播封面。
122.在一些实施例中，当操作行为数据表征进入直播间的点击操作时，推荐指标包括
点击率。基于操作行为数据确定每个候选直播封面的点击率，将多个候选直播封面的点击率进行降序排序，并选取排序靠前的至少一个候选直播封面作为待推荐的第一直播封面。
123.在另一些实施例中，当操作行为数据表征反馈是否对直播感兴趣的点击操作时，推荐指标包括偏好比例。候选直播封面的偏好比例为通过候选直播封面对该直播感兴趣的用户数量与候选直播封面对应的测试终端设备的数量之比。参见图3b，图3b是本技术实施例提供的直播间的平铺页面示意图。当用户点击右上角直播间的封面中的按钮403时，出现图3c所示的区域404，区域404中包括“感兴趣”和“不感兴趣”。当用户点击“感兴趣”时，终端设备收集到相应的操作行为数据。基于操作行为数据确定每个候选直播封面的偏好比例，将多个候选直播封面的偏好比例进行降序排序，并选取排序靠前的至少一个候选直播封面作为待推荐的第一直播封面。
124.如此，通过用户的操作行为数据可以确定出最受用户欢迎的候选直播封面，将该候选直播封面作为发送给所有用户的第一直播封面，可以帮助用户更快地确定想观看的直播间，节约了终端设备和服务器的资源。
125.在步骤105中，发送第一直播封面。
126.在一些实施例中，发送第一直播封面可以是主播的终端设备/服务器响应于观众的终端设备的直播间列表请求，向观众的终端设备发送多个直播间的第一直播封面。其中，多个直播间可以是根据用户偏好，从直播平台的全部直播间中筛选出来的。发送第一直播封面也可以是主播的终端设备/服务器主动向直播平台的全部用户的终端设备推送直播间的第一直播封面；还可以是服务器向安装了信息流客户端(例如社交网络应用或浏览器等)的终端设备发送信息流，信息流中包括至少一个直播间的第一直播封面，至少一个直播间可以是符合终端设备的用户的偏好的。
127.在一些实施例中，在发送第一直播封面之后，还可以基于直播间更新的直播内容，确定与直播间中直播内容中更新的互动事件对应的第二直播封面。当第二直播封面对应的推荐指标(点击率、偏好比例等)高于第一直播封面对应的推荐指标时，向所有观众的终端设备发送第二直播封面，以替换在第二直播封面之前已经发送的第一直播封面。
128.如此，在直播的过程中，不断地根据更新的互动事件测试，确定推荐指标更高的直播封面，以替代之前的直播封面，通过这种动态调整直播封面的方法，使得直播封面能够及时反映直播间中的互动事件，使用户可以基于直播封面直观感知直播间是否满足信息需求。
129.可以看出，本技术实施例通过将直播过程中的动态信息与直播图像结合，生成候选直播封面，提高了候选直播封面的辨识度，帮助用户通过候选直播封面的动态信息了解直播内容；基于各个候选直播封面对应的用户的操作行为数据确定出符合推荐指标的第一直播封面，如此，第一直播封面可以符合大部分用户的需求，帮助用户更快地确定想观看的直播间，节约了不必要的反复查找直播间的操作，节约了终端设备和服务器的资源。
130.参见图2c，图2c是本技术实施例提供的直播封面的处理方法的流程示意图，将结合图2c示出的步骤说明由终端实施本技术实施例提供的直播封面的处理方法的过程。
131.在步骤201中，显示直播间的第一直播封面。
132.在一些实施例中，在人机交互界面中显示直播平台的直播间列表，直播间列表包括直播平台的多个直播间分别对应的第一直播封面；或者在人机交互界面中显示信息流，
信息流中包括直播平台的至少一个直播间对应的第一直播封面。
133.在一些可能的示例中，信息流可以是服务器根据终端设备的用户的偏好推送的，如图3b所示，信息流中的信息的类型可以是单一类型，即都是直播间的封面；如图3a所示，信息的类型也可以是混合类型，包括新闻、社交网络动态、直播间封面等。
134.在一些可能的示例中，第一直播封面可以是直播开始前的默认直播封面，如主播上传的直播封面，其可以包括直播图像(例如主播画像)和直播的介绍信息；第一直播封面也可以是直播过程中的动态直播封面，即通过前文所述的直播封面的处理方法得到的第一直播封面。
135.在步骤202中，响应于直播间中发生了互动事件，显示第二直播封面以替代第一直播封面；其中，第二直播封面包括直播图像以及与互动事件对应的动态信息。
136.在一些实施例中，响应于未接收到从第一直播封面进入直播间的点击操作、且直播间中发生了互动事件、接收到服务器发送的第二直播封面，显示第二直播封面以替代第一直播封面。
137.在一些可能的示例中，当直播间中发生了互动事件，相应地，在终端人机交互界面中显示该互动事件对应的第一直播封面。当未接收到从第一直播封面进入直播间的点击操作，同时，直播间中发生了另一互动事件，且终端接收到服务器发送的针对该互动事件的第二直播封面时，在终端中显示第二直播封面。
138.在另一些实施例中，响应于接收到反馈对直播感兴趣的点击操作、且直播间中发生了互动事件，接收到服务器发送的第二直播封面，显示第二直播封面以替代第一直播封面。
139.在一些可能的示例中，当直播间中发生了互动事件，相应地，在终端人机交互界面中显示该互动事件对应的第一直播封面。此时，终端接收到用户反馈对直播感兴趣的点击操作，同时，直播间中发生了另一互动事件，且终端接收到服务器发送的针对该互动事件的第二直播封面时，在终端中显示第二直播封面。
140.可以看出，在本技术实施例中，在发生互动事件后，可以及时地更新直播封面，使用户及时了解直播间的动态变化，以决定是否要进入，避免反复进入和退出多个直播间，才能确定满足信息需求的直播间，导致资源的浪费，也帮助用户更快地确定出想观看的直播间。
141.在一些实施例中，参见图2d，图2d是本技术实施例提供的直播封面的处理方法的流程示意图，下面将结合图2d中的步骤301至步骤307说明由终端和服务器协同实施本技术实施例提供的直播封面的处理方法的过程。
142.在步骤301中，终端向服务器发送直播封面处理请求。
143.其中，直播封面处理请求携带直播内容，即携带直播的音频和视频。直播封面处理请求用于请求服务器基于直播的音频和视频确定在终端中呈现的直播封面。例如，当用户进入直播应用时，直播应用响应于用户的进入，向服务器发送直播封面处理请求，请求服务器在直播应用的首页以列表形式显示多个直播间封面。
144.在步骤302中，服务器基于直播间的直播内容，获取与直播间中的互动事件对应的动态信息。
145.在步骤303中，服务器基于动态信息以及直播图像进行组合操作，得到对应的候选
直播封面。
146.在步骤304中，服务器将多个候选直播封面发送给不同的终端。
147.在步骤305中，终端将候选直播封面对应的操作行为数据发送给服务器。
148.在步骤306中，服务器基于每个候选直播封面分别对应的操作行为数据，在多个候选直播封面中确定符合推荐指标的第一直播封面。
149.在步骤307中，服务器向终端发送第一直播封面。
150.需要说明的是，在前文中已对上述步骤进行了详细的描述，此处不再赘述。
151.在一些实施例中，作为替换方案，步骤302至步骤307可以在步骤301之前执行，即服务器针对每个直播间实时获取对应的直播封面，从而在直播应用请求时可以实时返回各个直播间更新的直播封面。
152.可以看出，通过上述步骤302至步骤307，直播间的封面得以不断更新，从而可以在直播应用发出一次直播封面处理请求后，更新直播应用缓存的封面数据，显示更新的直播封面。当用户从一个直播间退出返回首页时，看到的直播间的封面都是实时更新的封面，不需要再次向服务器请求。
153.下面将说明本技术实施例在一个具体的直播场景中的示例性应用。
154.参见图3a，图3a中的直播封面401由主播在直播开播前上传，然后分发到对应的直播频道中。当用户未点击图3d中的直播封面405，且检测出直播间当前的利益点(具有营销性质的卖点)，如主播在介绍一款特价产品，则生成与当前的利益点对应的文本(即动态信息)，并将生成的文本与此时的直播图像结合，生成多个直播封面，每个直播封面包含不同的利益点，如图3a中包含文本“慕斯蛋糕低至9.9元抢”，图3e中包含文本“全场蛋糕1元抢完即止”。将不同的直播封面发送给不同的终端进行点击率测试。并将检测到的点击率最高的直播封面全量推送给所有终端。当用户点击图3a中的直播封面401或图3e中的直播封面406进入直播间时，会看到图3f所示的直播间的页面示意图，在直播间的页面示意图的左下角有商品购物袋入口407，用户可通过商品购物袋入口407选择商品进行购买。
155.以下将结合图4所示的流程对生成直播封面的过程进行介绍。
156.首先，通过服务器对直播内容的音频进行语音识别，以生成与利益点对应的文字。
157.在语音识别之前，需要对音频进行预处理，即通过静音切除操作技术对音频进行分析，将音频中包括静音部分的首尾端切除，以降低对后续步骤造成的干扰，并对切除首尾端后的音频进行分帧处理，得到多个音频段，每个音频段为一帧，每帧的长度为25毫秒。如图5所示，帧与帧之间是有交叠的，每两帧之间有25-10＝15毫秒的交叠。根据人耳的生理特性，对每个音频段进行波形变换，得到对应的多维向量，即进行声学特征提取。
158.提取声学特征之后，应用动态时间规整算法(dtw，dynamictime waplng)算法将声学特征与参考模板进行比较，得到相似度，将相似度最高的参考模板所对应的文本作为音频对应的文本，即主播的发言内容。从发言内容中确定至少一个关键词，将至少一个关键词与互动词库进行比对，以筛选出与利益点相关的关键词，并基于利益点相关的关键词生成文本，例如“低至5折”。其中，互动词库是根据全网电商大数据的卖点生成的，卖点如：低至5折、全场只要9.9元、限时秒杀只要1元等，这些卖点大多是电商促销的常用词汇。
159.然后，从直播内容中提取包括主播的直播图像，并从中选取美学评分超过评分阈值的直播图像。
160.从直播内容中提取包括主播的直播图像需要通过卷积神经网络进行图像识别，卷积神经网络利用“同一图像中相邻像素的强关联性和强相似度”这一原理进行图像识别。这一原理具体而言就是，在一张图像中的两个相邻像素，比图像中两个分开的像素更具有关联性。
161.图像识别包括信息的获取、预处理、特征抽取和选择以及分类。
162.信息的获取是指通过传感器，将光或声音等信息转化为电信息，也就是获取直播间图像的基本信息并通过卷积神经网络的方法将其转变为机器能够理解的信息。
163.预处理是指通过图像处理中的去噪、平滑、变换等操作，强化图像中的重要特征。
164.特征抽取和选择是通过卷积神经网络的卷积层和汇聚层实现的。卷积层将直播图像分散成1
×
1/3
×
3/5
×
5的小像素块，将分散的像素块排列在一个三维图组中，图组的数轴分别代表高度、宽度和颜色(即像素)，如此，得到了每一个像素块的三维数值表达。汇聚层通过采样函数对三维图组中的像素块采样，得到一个仅包含直播图像中相对重要的部分的联合数组。
165.通过卷积神经网络中的分类函数如softmax函数等确定直播图像包括主播的概率，将超过概率阈值的直播图像作为包括主播的直播图像。
166.基于图像的美观程度、清晰度和内容完整程度对包括主播的直播图像进行美学评分，例如可以通过squeezenet神经网络模型进行美学评分。squeezenet神经网络模型包括firemodule模块，firemodule模块包括压缩部分和扩展部分，压缩部分由卷积核为1
×
1的卷积层构成，扩展部分由卷积核为1
×
1以及卷积核为3
×
3的两个卷积层共同构成。压缩部分用于进行降维操作，以降低参数数量，扩展部分通过两个卷积层分别提取特征并对提取的特征进行拼合。如此，可以使模型参数有效地减少，整个模型大小仅有1.5m左右，运行速度较快。
167.根据产品需求可以将直播分为5类，对于不同类型直播的直播图像，可以调用对应的squeezenet神经网络模型，以根据图像的美观程度、清晰度和内容完整程度对直播图像赋予1～5分的美学评分。将squeezenet神经网络模型的输出向量中的每个元素(即直播图像中每个像素块的评分)进行加权平均，即得到美学评分。
168.之后，将美学评分超过评分阈值的直播图像与利益点对应的文本随机组合，生成多个候选直播封面。
169.服务器将美学评分超过评分阈值的直播图像a1、a2、a3
……
an与利益点对应的文本b1、b2、b3
……
bn进行随机组合，并使用h5的canvas画布来绘制封面，生成多个候选直播封面。
170.最后，将多个候选直播封面发送给不同的终端进行点击率测试，以确定点击率最高的直播封面，将点击率最高的直播封面全量推送给所有终端。
171.服务器通过canvas将生成的不同的直播封面以图片流的形式发送给不同的终端，以对不同的终端用户进行定量a/b测试。在固定的时间内(如1分钟)，在相同投放号码包量的情况下，将不同候选直播封面的点击率进行降序排序，最后将点击率排序最高的候选直播封面全量发送给所有终端。在直播过程中服务器会实时检测直播间的利益点和直播图像，生成对应的新的直播封面。新的直播封面中的文字会随着利益点变化的变化，新的直播封面中的图像可以不变也可以变化。当生成的新的直播封面对应的点击率比原有的直播封
面对应的点击率更高时，即转化率更高时，使用新的直播封面替代原有的直播封面。如此，可以确保在主播直播的过程中，根据主播的行动和表现动态生成高点击率的直播封面。
172.可以看出，本技术实施例基于语音识别技术识别主播的发言内容，当检测到发言内容中有利益点时，会生成对应的文本，并结合包括主播的直播图像智能生成多个包含不同利益点的候选直播封面。将包含不同利益点的候选直播封面分发给不同的终端进行点击率测试，并将检测到的点击率最高的候选直播封面全量推送给所有终端。在后续的直播过程中，还会持续测试，根据直播封面的点击率不断优化直播封面，从而提高封面的点击转化率。
173.以实施本技术实施例的电子设备为图1示出的服务器200为例，说明本技术实施例提供的电子设备的结构。参见图6a，图6a是本技术实施例提供的服务器200的结构示意图，图6a所示的服务器200包括：至少一个处理器210、存储器240、至少一个网络接口220。服务器200中的各个组件通过总线系统230耦合在一起。可理解，总线系统230用于实现这些组件之间的连接通信。总线系统230除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6a中将各种总线都标为总线系统230。
174.处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(dsp，digital signal processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。
175.存储器240可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器440可选地包括在物理位置上远离处理器210的一个或多个存储设备。
176.存储器240包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom，read only memory)，易失性存储器可以是随机存取存储器(ram，random access memory)。本技术实施例描述的存储器240旨在包括任意适合类型的存储器。
177.在一些实施例中，存储器240能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。
178.操作系统241，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；
179.网络通信模块242，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(wifi)、和通用串行总线(usb，universal serial bus)等；
180.在一些实施例中，本技术实施例提供的直播封面的处理装置可以采用软件方式实现，图6a示出了存储在存储器240中的直播封面的处理装置243，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块2431、组合模块2432、确定模块2433和发送模块2434，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
181.获取模块2431，用于基于直播间的直播内容，获取与直播间中的互动事件对应的动态信息；组合模块2432，用于基于动态信息以及直播图像进行组合操作，得到对应的候选
直播封面；获取模块2431，还用于获取多个候选直播封面分别对应的操作行为数据；确定模块2433，用于基于多个候选直播封面分别对应的操作行为数据，在多个候选直播封面中确定符合推荐指标的第一直播封面；发送模块2434，用于发送第一直播封面。
182.在一些实施例中，组合模块2432，还用于从直播内容提取包括主播的直播图像；将动态信息分别叠加到每个直播图像中，以得到对应的候选直播封面。
183.在一些实施例中，组合模块2432，还用于基于直播内容进行图像识别处理，以得到包括主播的多个视频帧；基于直播内容所属的直播类型确定每个视频帧的评分，并筛选出超过评分阈值的视频帧作为直播图像。
184.在一些实施例中，获取模块2431，还用于将每个候选直播封面发送至对应的测试设备集合中的每个测试终端设备；获取每个测试终端设备在显示所接收的候选直播封面时收集到的操作行为数据；其中，测试设备集合是直播平台的全部终端设备的子集；其中，操作行为数据用于至少表征以下一种操作进入直播间的点击操作、反馈是否对直播感兴趣的点击操作。
185.在一些实施例中，获取模块2431，还用于针对每个候选直播封面执行以下处理：在用户画像数据库中查找与候选直播封面中的动态信息匹配的多个用户画像；将多个用户画像关联的终端设备，组合为与候选直播封面对应的测试设备集合。
186.在一些实施例中，当操作行为数据表征进入直播间的点击操作时，推荐指标包括点击率；确定模块2433，还用于基于操作行为数据确定每个候选直播封面的点击率，将多个候选直播封面的点击率进行降序排序，并选取排序靠前的至少一个候选直播封面作为待推荐的第一直播封面。
187.在一些实施例中，当操作行为数据表征反馈是否对直播感兴趣的点击操作时，推荐指标包括偏好比例；确定模块2433，还用于基于操作行为数据确定每个候选直播封面的偏好比例，将多个候选直播封面的偏好比例进行降序排序，并选取排序靠前的至少一个候选直播封面作为待推荐的第一直播封面。
188.在一些实施例中，获取模块2431，还用于对直播间的直播内容进行语音识别，以得到针对直播间中的互动事件的发言内容；从发言内容中识别至少一个关键词，并基于至少一个关键词查询互动词库，得到与至少一个关键词关联的动态信息；其中，动态信息包括与互动事件相关的文本和图像至少之一。
189.在一些实施例中，确定模块2433，还用于基于直播间的更新的直播内容，确定与直播间中更新的互动事件对应的第二直播封面；发送第二直播封面，以替换在第二直播封面之前已经发送的第一直播封面。
190.以实施本技术实施例的电子设备为图1示出的终端400-1为例，说明本技术实施例提供的电子设备的结构。参见图6b，图6b是本技术实施例提供的终端400-1的结构示意图，图6b所示的终端400-1包括：至少一个处理器410、存储器440、至少一个网络接口420和用户接口430。终端400-1中的各个组件通过总线系统440耦合在一起。用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，还包括一个或多个输入装置432。
191.在一些实施例中，存储器包括操作系统451、网络通信模块452、呈现模块453、输入处理模块454。本技术实施例提供的直播封面的处理装置455可以采用软件方式实现，图6b示出了存储在存储器450中的直播封面的处理装置455，其可以是程序和插件等形式的软
件，包括显示模块4551。当然，本技术实施例提供的直播封面的处理装置455也可以采用硬件方式实现，本技术实施例在此不再赘述。将在下文中说明各个模块的功能。
192.显示模块4551，用于显示直播间的第一直播封面；以及用于响应于直播间中发生了互动事件，显示第二直播封面以替代第一直播封面；其中，第二直播封面包括直播图像以及与互动事件对应的动态信息。
193.在一些实施例中，显示模块4551，还用于响应于未接收到从第一直播封面进入直播间的点击操作、且直播间中发生了互动事件，显示第二直播封面以替代第一直播封面；或响应于接收到反馈对直播感兴趣的点击操作、且直播间中发生了互动事件，显示第二直播封面以替代第一直播封面。
194.本技术实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本技术实施例提供的直播封面的处理方法，例如，如图2a示出的直播封面的处理方法。
195.在一些实施例中，存储介质可以是fram、rom、prom、eprom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器；也可以是包括上述存储器之一或任意组合的各种设备。
196.在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
197.作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(html，hyper text markup language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。
198.作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。
199.综上所述，本技术实施例通过将直播过程中的动态信息与直播图像结合，生成候选直播封面，提高了候选直播封面的辨识度，帮助用户通过候选直播封面的动态信息了解直播内容；基于各个候选直播封面对应的用户的操作行为数据确定出符合推荐指标的第一直播封面，如此，帮助用户更快地确定想观看的直播间，节约了终端设备和服务器的资源。
200.以上所述，仅为本技术的实施例而已，并非用于限定本技术的保护范围。凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈春勇
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：光学系统、镜头模组及电子设备的制作方法
上一篇：设备联网方法和装置、存储介质和电子装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。