一种音频/视频文件的解码方法、装置、设备及可读介质与流程

文档序号：30084282发布日期：2022-05-18 05:14阅读：75来源：国知局

1.本技术涉及音视频文件解码技术领域，尤其涉及一种音频/视频文件的解码方法、装置、设备及可读介质。

背景技术：

2.在当下的音视频解码领域，大多数在线音视频解码都采取了在线云服务器集中解码的方式，这种方案的前提是前期需采购和部署大量的gpu服务器群组，虽然通过云端方式解决了用户数据统一转换的问题，但是，其缺点就在于成本极其高昂，任何想要提供在线非编类功能的企业，都必须花费大量的资金和人力，部署大量的云端gpu服务器群组。
3.因此，有必要提供一种低成本的且能够对待解码音视频文件进行有效解码的方法。

技术实现要素：

4.本说明书实施例提供一种音频/视频文件的解码方法、装置、设备及可读介质，以能够低成本且有效地对待解码音频/视频文件进行解码。
5.为解决上述技术问题，本说明书实施例是这样实现的：
6.本说明书实施例提供的一种音频/视频文件的解码方法，此方法包括：
7.接收待解码文件；
8.获取所述待解码文件的编码信息，基于所述编码信息判断本地浏览器是否支持对所述待解码文件的解码处理，得到判断结果；
9.若所述判断结果为否，接收服务器端发送的与所述编码信息对应的解码插件；
10.基于所述解码插件对所述待解码文件进行解码，得到解码结果。
11.本说明书实施例提供的一种音频/视频文件的解码装置，包括：
12.文件接收模块，用于接收待解码文件；
13.判断模块，用于获取所述待解码文件的编码信息，基于所述编码信息判断本地浏览器是否支持对所述待解码文件的解码处理，得到判断结果；
14.解码模块确定模块，用于若所述判断结果为否，接收服务器端发送的与所述编码信息对应的解码插件；
15.解码模块，用于基于所述解码插件对所述待解码文件进行解码，得到解码结果。
16.本说明书实施例提供的一种音频/视频文件的解码设备，包括：
17.至少一个处理器；以及，
18.与所述至少一个处理器通信连接的存储器；其中，
19.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：
20.接收待解码文件；
21.获取所述待解码文件的编码信息，基于所述编码信息判断本地浏览器是否支持对
所述待解码文件的解码处理，得到判断结果；
22.若所述判断结果为否，接收服务器端发送的与所述编码信息对应的解码插件；
23.基于所述解码插件对所述待解码文件进行解码，得到解码结果。
24.本说明书实施例提供的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现一种音频/视频文件的解码方法。
25.本说明书中提供的至少一个实施例能够达到以下有益效果：
26.本实施例技术方案在对待解码音频/视频文件进行解码时，直接使用用户当前电脑设备的cpu和gpu，集中本地算力，不依靠云端，甚至可以在完全脱离网络的情况下，完成音视频文件的解码工作，从而极大丰富了终端用户的使用场景，可以让用户脱离网络限制完成转码非编工作。而且，本实施例技术方案的音视频文件的解码由于通过浏览器完成，从而无需安装任何客户端软件，能够做到最大程度轻量化用户的安装成本。当本地浏览器不支持对待解码音频/视频文件进行解码时，能够从服务器端获取与待解码音频/视频文件的编码信息对应的解码插件，即，当本地浏览器不支持对待解码音频/视频文件进行解码时，动态地加载对应的解码插件，一方面能够支持浏览器端完成解码工作，另一方面由于服务器端向浏览器端传送的只是解码插件，而不是全部的解码插件打包后的解码控件，细粒度高，流量带宽可控。
附图说明
27.为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
28.图1为本说明书实施例提供的一种音频/视频文件的解码方法的流程示意图；
29.图2为对应于图1的一种音频/视频文件解码装置的结构示意图；
30.图3为本说明书实施例提供的一种音频/视频文件的解码方法中对子文件进行并行编码的示意图；
31.图4为本说明书实施例提供的一种音频/视频文件的解码设备的结构示意图。
具体实施方式
32.为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书一个或多个实施例保护的范围。
33.图1为本说明书实施例提供的一种音频/视频文件的解码方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器或应用终端的程序。
34.如图1所示，该流程可以包括以下步骤：
35.步骤s102：接收待解码文件。
36.本实施例技术方案中，浏览器端接收服务器端分发的待解码文件，待解码文件可
以为音频文件或者视频文件，在一个具体的场景中，待解码文件可以为用户选择播放的音/视频文件。服务器端可以通过内容分发网络快速、稳定地将待解码文件分发到浏览器端。
37.步骤s104：获取所述待解码文件的编码信息，基于所述编码信息判断本地浏览器是否支持对所述待解码文件的解码处理，得到判断结果。
38.在通过网络将音/视频文件进行传输前，需要通过特定的压缩技术将待传输音/视频文件进行编码，即将某种格式的音/视频转换成另一种格式的音/视频文件，然后再将编码后的音/视频文件进行传输。比如视频流传输中最为重要的编码标准有国际电联的h.261、h.263、h.264，运动静止图像专家组的m-jpeg和国际标准化组织运动图像专家组的mpeg系列标准。当通过网络获取到压缩后的音/视频文件后，需要对其进行解码，以便于在本地进行播放。
39.从而，本实施例技术方案中的编码信息可以指获取此待解码文件在编码过程中采用的编码方式，从而便于后续过程采用相应的解码方式对待解码文件进行解码。
40.现有的商业浏览器本身一般支持播放若干种编码标准的音/视频文件，从而在本步骤中在获取到待解码文件的编码信息后，可以基于待解码文件的编码信息判断本地浏览器是否能对此待解码文件进行解码，得到判断结果。
41.步骤s106：若所述判断结果为否，接收服务器端发送的与所述编码信息对应的解码插件。
42.当本地浏览器不支持对此待解码文件进行解码时，在本发明实施例技术方案中，浏览器端从服务器端获取对应的解码插件，即能够对此待解码文件进行解码的插件。在本发明中，由于待解码文件可能为音频文件，也可能为视频文件，而且每种浏览器对采用不同编码标准的音频文件或视频文件的解码支持情况不同，在本发明技术方案中可以从现有的解码软件中抽取解码模块，构造若干解码插件，然后独立存储，即不将这些若干解码插件封装为统一的一个大的解码控件。比如从ffmpeg等多款解码软件中抽取尽可能多的解码控件，构造一个解码插件库，预先存储在服务端中。
43.在步骤s104中得到浏览器是否能对此待解码文件进行解码，得到判断结果的基础上，若判断结果为否，即本地浏览器不能对待解码文件进行解码，可接收服务器端发送的与所述编码信息对应的解码插件，从而对待解码文件进行解码。
44.步骤s108：基于所述解码插件对所述待解码文件进行解码，得到解码结果。
45.本实施例技术方案在对待解码音频/视频文件进行解码时，直接使用用户当前电脑设备的cpu和gpu，集中本地算力，不依靠云端，甚至可以在完全脱离网络的情况下，完成音视频文件的解码工作，从而极大丰富了终端用户的使用场景，可以让用户脱离网络限制完成转码非编工作。而且，本实施例技术方案的音视频文件的解码由于通过浏览器完成，从而无需安装任何客户端软件，能够做到最大程度轻量化用户的安装成本。当本地浏览器不支持对待解码音频/视频文件进行解码时，能够从服务器端获取与待解码音频/视频文件的编码信息对应的解码插件，即，当本地浏览器不支持对待解码音频/视频文件进行解码时，动态地加载对应的解码插件，一方面能够支持浏览器端完成解码工作，另一方面由于服务器端向浏览器端传送的只是解码插件，而不是全部的解码插件打包后的解码控件，细粒度高，流量带宽可控。
46.在可选的实施例技术方案中，所述接收待解码文件之前，包括：预先构造本地浏览
器自身支持编码的编码信息列表；
47.所述解码插件为所述服务器端预先制作的，具体包括：
48.基于现有的解码模块，预先制作若干解码插件，将所述若干解码插件中的每个解码插件独立存储在所述服务端中。
49.在可选的实施例技术方案中，所述获取所述待解码文件的编码信息之前，包括：
50.构造无锁环形缓冲数据队列，设置第一指针和第二指针，所述第一指针指向下一次读的位置，所述第二指针指向下一次写的位置，利用所述锁环形缓冲数据队列存储所述待解码文件。
51.在可选的实施例技术方案中，所述获取所述待解码文件的编码信息，具体包括：
52.基于所述第一指针和所述第二指针，将所述第一指针指向所述待解码文件的文件头，将所述第二指针指向所述待解码文件的文件尾，利用解封装模块读取所述待解码文件的文件头和/或文件尾包含的字节流，从而获取所述待解码文件的编码信息；其中，所述待解码文件基于所述无锁环形缓冲数据队进行存储。
53.因为所有的音频文件或者视频文件在媒介中均以二进制形式存储，文件主要分为文件头、数据体、文件尾(可能没有)三大部分，不同的文件通过文件头、尾进行标识。文件头、尾是位于文件开头或者尾部的一段承担一定任务、记录文件属性信息的数据。本发明实施例技术方案中通过指针映射模式，映射到具体的媒体文件偏移位置，因为媒体文件中头尾部占用的字节数比例较少，这种方式可以有效的减少浏览器端物理内存的占用，避免整个媒体文件的内存加载。
54.在可选的实施例技术方案中，若所述待解码文件为视频文件，所述基于所述解码插件对所述待解码文件进行解码，得到解码结果，具体包括：
55.将所述待解码文件进行切割，得到若干视频帧序列；
56.对于所述若干视频帧序列中的任意一个视频帧，将所述任意一个视频帧对应的可并行解码的数据点并行解码；或，
57.将所述任意一个视频帧按gop帧段处理，通过多线程方式每一个线程处理一个gop帧段，分段并行加速解码。
58.在可选的实施例技术方案中，若所述待解码文件为音频文件，
59.所述基于所述解码插件对所述待解码文件进行解码，得到解码结果之后，还包括：对所述解码结果进行变频、变速或混音处理；或，
60.若所述待解码文件为视频文件，所述利用所述解码模块对所述待解码文件进行解码，得到解码结果之后，还包括：对所述解码结果中的视频帧进行压条、滤镜或转场处理。
61.在可选的实施例技术方案中，所述得到解码结果之后还包括，对解码后得到的音频/视频文件进行编码，具体包括：
62.将解码后的音频/视频文件进行切割，得到子文件序列，所述子文件序列中的任意一个子文件包含若干数量的连续字节流；
63.对于所述子文件序列中的任意两个序号连续的子文件，序号小的子文件为第一子文件，序号大的子文件为第二子文件，所述第一子文件的尾部和所述第二子文件的头部存在若干数量的重合的字节流；
64.利用第一子线程对所述第一子文件进行解码，得到第一解码结果，利用第二子线
程对所述第二子文件进行解码，得到第二解码结果，所述第一子线程和所述第二子线程并行运算。
65.针对音频文件，在现有技术中aac编码初期存在丢包现象，故而现有技术一般采用线性编码，而不采用并行编码方案，因为采用并行编码方案的话，由于初期存在丢包现象，可能编码得到的结果不完整。所以本发明设计了如图2所示的方案，先对整体的待编码音频文件进行切割，得到子文件序列，以其中连续的两个字文件，即第一子文件和第二子文件，来对本发明的并行编码方案进行说明。第一线程和第二线程处理的字节流存在重叠部分，具体的，第二线程会可冗余一定数量(2*1024字节以上)的音频字节，来缓冲aac编码初期的丢包，这种算法既能并行加速编码又能保证关键数据的不损失，从而第一线程和第二线程可并行地进行编码处理，即第一线程处理第一子文件，同时，第二线程处理第二子文件，在得到编码结果后，再进行拼接即可。拼接过程中，由于预先知悉第一线程和第二线程所重叠部分的位置(从第一子文件的角度出发，可知悉重叠部分在第一子文件中的位置，从第二子文件的角度出发，也可知悉重叠部分在第二子文件中的位置)，从而根据重叠部分的位置即可顺利实现拼接，此处不再赘述。
66.针对视频文件，可利用着色器脚本在gpu层把rgb格式数据转换为yuv格式，再通过readpixels把gpu层数据交换到cpu层的内存中。视频编码这块采用两种方案，第一种方案：yuv数据的编码可采用h264的simd算法编码，另外在编码时再采用多线程模式处理，实际测试1080p(1024*1920)视频帧编码能接近1倍速。第二种方案采用浏览器内核提供的webcodec模块，利用浏览器内部的编码模块加速编码，这种编码模块能充分利用gpu编码器的能力，达到加速编码的效果。
67.基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图3为本说明书实施例提供的对应于图1的音频/视频文件的解码装置的结构示意图。如图3所示，该装置可以包括：
68.文件接收模块302，用于接收待解码文件；
69.判断模块304，用于获取所述待解码文件的编码信息，基于所述编码信息判断本地浏览器是否支持对所述待解码文件的解码处理，得到判断结果；
70.解码模块确定模块306，用于若所述判断结果为否，接收服务器端发送的与所述编码信息对应的解码插件；
71.解码模块308，用于基于所述解码插件对所述待解码文件进行解码，得到解码结果。
72.基于同样的思路，本说明书实施例还提供了上述方法对应的设备。
73.图4为本说明书实施例提供的对应于图1的一种音频/视频文件的解码设备的结构示意图。如图4所示，设备400可以包括：
74.至少一个处理器410；以及，
75.与所述至少一个处理器通信连接的存储器430；其中，
76.所述存储器430存储有可被所述至少一个处理器410执行的指令420，所述指令被所述至少一个处理器410执行。
77.所述指令可以使所述至少一个处理器410能够：
78.接收待解码文件；
79.获取所述待解码文件的编码信息，基于所述编码信息判断本地浏览器是否支持对所述待解码文件的解码处理，得到判断结果；
80.若所述判断结果为否，接收服务器端发送的与所述编码信息对应的解码插件；
81.基于所述解码插件对所述待解码文件进行解码，得到解码结果。
82.上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
83.在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gate array，fpga))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字符系统“集成”在一片pld上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(hardware description language，hdl)，而hdl也并非仅有一种，而是有许多种，如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等，目前最普遍使用的是vhdl(very-high-speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。
84.控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit，asic)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
85.上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
86.为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
87.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
88.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
89.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
90.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
91.在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
92.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
93.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字符多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
94.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
95.本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
96.本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
97.以上所述仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈晓勇
技术所有人：天脉拓道（北京）科技有限公司
我是此专利的发明人

上一篇：一种组合飞片及其制备方法、应用与流程
上一篇：一种仪表气密性检测装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。