视频处理方法、电子设备以及存储介质与流程

文档序号：38301281发布日期：2024-06-14 10:37阅读：18来源：国知局

本申请涉及大模型技术、直播领域，具体而言，涉及一种视频处理方法、电子设备以及存储介质。

背景技术：

1、目前，直播电商是当前电商平台的重要组成，对直播电商内容的采集和分析是平台运营的重要环节，例如，价格对比、优惠活动对比，传统电商也有此环节，但传统电商是以网页中的文本加图像作为主展示产品，目前对文本或图像的分析技术已经成熟，完全可以实现自动化，但是直播电商主要是靠口述和实物讲解为主展现商品，且过程中存在较多干扰问题，导致原始视频的处理准确率较低。

2、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种视频处理方法、电子设备以及存储介质，以至少解决相关技术中对视频的处理准确率较低的技术问题。

2、根据本申请实施例的一个方面，提供了一种视频处理方法，包括：获取原始视频和预存的产品列表，其中，原始视频包括至少一个产品的内容展示，产品列表包含用于描述至少一个产品的属性的描述文本；对原始视频进行信息抽取，得到多个语音片段和语音片段对应的关键视频帧；基于描述文本、多个语音片段和关键视频帧对原始视频进行切分，得到至少一个产品的子视频。

3、根据本申请实施例的一个方面，还提供了一种视频处理方法，包括：对至少一个商品的直播售卖过程进行拍摄，生成原始视频，其中，原始视频包括至少一个商品的内容展示；获取包含用于描述至少一个商品的属性的描述文本的商品列表；对原始视频进行信息抽取，得到多个语音片段和语音片段对应的关键视频帧；基于描述文本、多个语音片段和关键视频帧对原始视频进行切分，得到至少一个商品的子视频。

4、根据本申请实施例的一个方面，还提供了一种视频处理方法，包括：响应作用于操作界面上的输入指令，在操作界面上显示直播过程中生成的原始视频和预存的产品列表，其中，原始视频包括至少一个产品的内容展示，产品列表包含用于描述至少一个产品的属性的描述文本；响应作用于操作界面上的视频切分指令，在操作界面上显示至少一个产品的子视频，其中，至少一个产品的子视频是基于描述文本、多个语音片段和语音片段对应的关键视频帧对原始视频进行切分得到的，多个语音片段和关键视频帧是对原始视频进行信息抽取得到的。

5、根据本申请实施例的一个方面，还提供了一种视频处理方法，包括：通过调用第一接口获取直播过程中生成的原始视频和预存的产品列表，其中，第一接口包括第一参数，第一参数的参数值包括原始视频和产品列表，原始视频包括至少一个产品的内容展示，产品列表包含用于描述至少一个产品的属性的描述文本；对原始视频进行信息抽取，得到多个语音片段和语音片段对应的关键视频帧；基于描述文本、多个语音片段和关键视频帧对原始视频进行切分，得到至少一个产品的子视频；通过调用第二接口输出至少一个产品的子视频，其中，第二接口包括第二参数，第二参数的参数值包括至少一个产品的子视频。

6、根据本申请实施例的一个方面，还提供了一种视频切分模型的训练方法，包括：获取训练视频和训练产品列表，其中，训练视频包括至少一个训练产品的内容展示，训练产品列表包含用于描述至少一个训练产品的属性的描述文本；对训练视频进行信息抽取，得到多个训练语音片段和训练语音片段对应的训练视频帧；确定训练视频的多个训练切分时间点，以及训练产品列表中训练切分时间点对应的训练产品的训练描述文本；基于多个训练语音片段、训练视频帧、多个训练切分时间点以及训练切分时间点对应的训练产品的训练描述文本，构建训练数据；利用训练数据对初始模型进行训练，得到视频切分模型。

7、根据本申请实施例的一个方面，还提供了一种电子设备，包括：存储器，存储有可执行程序；处理器，用于运行程序，其中，程序运行时执行上述实施例中任意一项的方法。

8、根据本申请实施例的一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的可执行程序，其中，在可执行程序运行时控制计算机可读存储介质所在设备执行上述实施例中任意一项的方法。

9、根据本申请实施例的一个方面，还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行上述实施例中任意一项的方法。

10、在本申请实施例中，可以获取原始视频和预存的产品列表，其中，原始视频包括至少一个产品的内容展示，产品列表包含用于描述至少一个产品的属性的描述文本；对原始视频进行信息抽取，得到多个语音片段和语音片段对应的关键视频帧；基于描述文本、多个语音片段和关键视频帧对原始视频进行切分，得到至少一个产品的子视频，实现了提高对直播过程中生成的原始视频的处理准确度；容易注意到的是，通过对原始视频进行信息抽取，可以得到多个语音片段和语音片段对应的关键视频帧，可以将产品的属性的描述文本、多个语音片段和关键视频帧互为补充来对原始视频中的产品进行内容理解，以提高后续对原始视频进行切分的准确度，从而得到准确度较高的至少一个产品的子视频，进而解决了相关技术中对视频的处理准确率较低的技术问题。

11、容易注意到的是，上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释，并不构成对本申请的限定。

技术特征：

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述描述文本、所述多个语音片段和所述关键视频帧对所述原始视频进行切分，得到所述至少一个产品的子视频，包括：

3.根据权利要求2所述的方法，其特征在于，所述视频切分模型包括：图像编码器、分词器和多模态大模型；

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述原始视频进行信息抽取，得到多个语音片段和所述语音片段对应的关键视频帧，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述多个文本片段和所述至少一个产品的描述文本，从所述原始视频中抽取出所述关键视频帧，包括：

7.一种视频处理方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，基于所述描述文本、所述多个语音片段和所述关键视频帧对所述原始视频进行切分，得到所述至少一个商品的子视频，包括：

9.根据权利要求8所述的方法，其特征在于，所述视频切分模型包括：图像编码器、分词器和多模态大模型，利用视频切分模型基于所述描述文本、所述多个文本片段和所述关键视频帧对所述原始视频进行切分，得到多个切分时间点，包括：

10.一种视频处理方法，其特征在于，包括：

11.一种视频处理方法，其特征在于，包括：

12.一种视频切分模型的训练方法，其特征在于，包括：

13.根据权利要求12所述的方法，其特征在于，所述利用所述训练数据对初始模型进行训练，得到视频切分模型，包括：

14.根据权利要求13所述的方法，其特征在于，所述初始模型包括：图像编码器、分词器和多模态大模型；

15.一种电子设备，其特征在于，包括：

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的可执行程序，其中，在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至14中任意一项所述的方法。

17.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至14中任意一项所述的方法。

技术总结
本申请公开了一种视频处理方法、电子设备以及存储介质，涉及大模型技术、直播领域。其中，该方法包括：获取原始视频和预存的产品列表，其中，原始视频包括至少一个产品的内容展示，产品列表包含用于描述至少一个产品的属性的描述文本；对原始视频进行信息抽取，得到多个语音片段和语音片段对应的关键视频帧；基于描述文本、多个语音片段和关键视频帧对原始视频进行切分，得到至少一个产品的子视频。本申请解决了相关技术中对视频的处理准确率较低的技术问题。

技术研发人员：余天予,王潇斌,蒋勇,谢朋峻
受保护的技术使用者：阿里巴巴（中国）有限公司
技术研发日：
技术公布日：2024/6/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余天予,王潇斌,蒋勇,谢朋峻
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

上一篇：陶瓷渣浆泵加工用的干混料机的制作方法
上一篇：烤箱发热体结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。