一种图像处理及模型训练方法、装置、设备、存储介质

文档序号:30728887发布日期:2022-07-13 02:21阅读:75来源:国知局
一种图像处理及模型训练方法、装置、设备、存储介质

1.本技术涉及但不限于信息技术领域,尤其涉及一种图像处理及模型训练方法、装置、设备、存储介质及计算机程序产品。


背景技术:

2.在图像处理领域中,通常会使用训练样本集对模型进行训练。而在相关技术中,由于训练样本集中通常仅包含部分图像类别的图像样本,训练后的模型仅能识别训练样本集中学习过的图像类别,对于训练样本集中未出现过的图像类别通常识别准确率较低,从而导致模型的泛化能力较差。


技术实现要素:

3.有鉴于此,本技术实施例提供一种图像处理及模型训练方法、装置、设备、存储介质及计算机程序产品。
4.本技术实施例的技术方案是这样实现的:
5.一方面,本技术实施例提供一种图像处理方法,所述方法包括:
6.获取待处理图像的图像特征;
7.基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息;
8.基于每一所述类别提示信息,确定每一所述图像类别的文本特征;
9.基于每一所述图像类别的文本特征,对所述图像特征进行分类处理,得到所述待处理图像的分类结果。
10.另一方面,本技术实施例提供一种模型训练方法,所述方法包括:
11.利用待训练的模型,对图像样本进行处理,得到所述图像样本的分类结果;其中,利用所述模型对所述图像样本进行的处理包括:获取所述图像样本的图像特征;基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息;基于每一所述类别提示信息,确定每一所述图像类别的文本特征;基于每一所述图像类别的文本特征,对所述图像特征进行分类处理,得到所述图像样本的分类结果;
12.基于所述分类结果和所述图像样本的类别标签,对所述模型的网络参数进行至少一次更新,得到训练后的所述模型。
13.另一方面,本技术实施例提供一种图像处理装置,所述装置包括:
14.获取模块,用于获取待处理图像的图像特征;
15.第一确定模块,用于基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息;
16.第二确定模块,用于基于每一所述类别提示信息,确定每一所述图像类别的文本特征;
17.分类模块,用于基于每一所述图像类别的文本特征,对所述图像特征进行分类处理,得到所述待处理图像的分类结果。
18.再一方面,本技术实施例提供一种模型训练装置,所述装置包括:
19.处理模块,用于利用待训练的模型,对图像样本进行处理,得到所述图像样本的分类结果;其中,利用所述模型对所述图像样本进行的处理包括:获取所述图像样本的图像特征;基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息;基于每一所述类别提示信息,确定每一所述图像类别的文本特征;基于每一所述图像类别的文本特征,对所述图像特征进行分类处理,得到所述图像样本的分类结果;
20.更新模块,用于基于所述分类结果和所述图像样本的类别标签,对所述模型的网络参数进行至少一次更新,得到训练后的所述模型。
21.再一方面,本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
22.又一方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
23.又一方面,本技术实施例提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算机设备中运行时,所述展示设备中的处理器执行用于实现上述方法中的部分或全部步骤。
24.又一方面,本技术实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。
25.本技术实施例中,通过获取待处理图像的图像特征,基于该图像特征,确定图像类别集合中每一图像类别的类别提示信息,基于每一类别提示信息,确定每一图像类别的文本特征,基于每一图像类别的文本特征,对该图像特征进行分类处理,得到该待处理图像的分类结果。这样,针对每一个待处理图像,由于每一图像类别的类别提示信息是基于该待处理图像的图像特征动态确定的,因而基于该动态确定的类别提示信息得到的每一图像类别的文本特征可以更好地体现该待处理图像的特征,从而可以提高图像识别的准确性。此外,由于相关技术中静态的类别提示信息通常是由本领域技术人员根据经验、实际应用场景等先验信息设定的,或者是通过模型训练进行学习后确定的,从而该静态的类别提示信息可能会过度拟合于先验信息和/或模型训练过程中学习的图像类别。因此,相较于静态的类别提示信息,本技术实施例中动态确定的类别提示信息还可以减少过度拟合于先验信息和/或模型训练过程中学习的图像类别的情况,从而基于该动态确定的类别提示信息可以提高对先验信息中未考虑的图像类别和/或模型训练过程中未涉及的图像类别的识别能力,进而可以提高图像分类识别的泛化能力。
附图说明
26.图1为本技术实施例提供的一种图像处理方法的实现流程示意图;
27.图2为本技术实施例提供的一种图像处理方法的实现流程示意图;
28.图3为本技术实施例提供的一种图像处理方法的实现流程示意图;
29.图4为本技术实施例提供的一种图像处理方法的实现流程示意图;
30.图5a为本技术实施例提供的一种视觉语言模型的实现架构示意图;
31.图5b为本技术实施例提供的一种模型训练方法的实现流程示意图;
32.图6为本技术实施例提供的一种图像处理装置的组成结构示意图;
33.图7为本技术实施例提供的一种模型训练装置的组成结构示意图;
34.图8为本技术实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
35.为了使本技术的目的、技术方案和优点更加清楚,下面结合附图和实施例对本技术的技术方案进一步详细阐述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
36.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
37.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术的目的,不是旨在限制本技术。
38.为了更好地理解本技术实施例,首先对相关技术中的对图像进行分类识别的方案进行说明。
39.以视觉语言模型为例,视觉语言模型的核心在于利用对比学习损失函数来对齐图像编码器和文本编码器的输出,并通过将含有类别名称的提示信息输入到文本编码器,从而产生分类权重。在部署视觉语言模型到下游图像识别任务的过程中,最大的技术难点是提示信息的设计,因为设计合适的提示信息需要在一组测试数据上花费大量的时间进行字词(如单词、汉字、词语等)的微调。
40.针对这一问题,相关技术中提出了一种连续型提示信息学习方法,其主要思想是把提示信息中的上下文字词转换成随机向量,然后通过将梯度从文本编码器回传到这些随机向量来进行学习,从而得到训练后的视觉语言模型。但是,发明人在实施本技术实施例的过程中发现,该连续型提示信息学习方法学习到的提示信息在训练后即被固定,也即在利用训练后的视觉语言模型进行图像识别的过程中提示信息是保持静态不变的,而静态的提示信息通常过拟合于本领域技术人员的经验、实际应用场景等先验信息和/或模型训练期间学习到的图像类别,不适用于训练样本集中没有出现过的图像类别,从而导致训练后的视觉语言模型泛化能力较低。
41.本技术实施例提供一种图像处理方法,该方法可以由计算机设备的处理器执行。其中,计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。图1为本技术实施例提供的一种图像处理方法的实现流程示意图,如图1所示,该方法包括如下步骤s101至步骤s104:
42.步骤s101,获取待处理图像的图像特征。
43.这里,待处理图像可以是任意合适的图像,在实施时,本领域技术人员可以根据实际应用场景选择合适的待处理图像,本技术实施例并不限定。例如,待处理图像可以包括但不限于摄像头拍摄的图像、视频或者图像帧序列中的图像帧、医学影像、采用计算机技术生成的图像等中的至少一种。
44.待处理图像的图像特征可以是采用任意合适的特征提取方式从该待处理图像中提取得到的。例如,可以采用卷积神经网络、循环神经网络或基于转换器的特征提取网络等对待处理图像进行提取,得到图像特征。在实施时,可以获取预先从待处理图像中提取的图像特征,也可以实时对待处理图像进行特征提取获取图像特征,这里并不限定。
45.步骤s102,基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息。
46.这里,图像类别可以是根据实际业务场景确定的任意合适的类别,可以包括但不限于图像中包含的对象的类别(如人、猫、狗、兔子、老虎等)、图像表示的场景的类别(如室内、机场、车站、商场等)、图像中目标对象的状态类别(如有缺陷、无缺陷等)、图像中人体的姿态类别(如站立、坐下、平躺等)等中的至少一种。
47.图像类别集合可以是待进行识别的至少一种图像类别的集合。在实施时,本领域技术人员可以在实施时根据实际情况采用合适的方式确定图像类别集合中的图像类别,本技术实施例对此并不限定。例如,图像类别集合可以是预先设定的,也可以是基于当前的图像识别任务确定的,还可以是基于待处理图像的来源确定的。
48.图像类别的类别提示信息可以是用于对该图像类别进行描述的提示信息,可以包括文本形式的描述信息,也可以包括至少一个词嵌入向量,这里并不限定。基于待处理图像的图像特征确定图像类别集合中每一图像类别的类别提示信息,可以得到能够体现该待处理图像的特征的类别提示信息。在实施时,本领域技术人员可以根据实际情况采用合适的方式基于待处理图像的图像特征确定图像类别集合中每一图像类别的类别提示信息,这里并不限定。
49.例如,在类别提示信息包括至少一个词嵌入向量的情况下,可以将图像特征映射至预设维度,得到至少一个具有预设维度的词嵌入向量,并针对每一图像类别,将该至少一个具有预设维度的词嵌入向量与该图像类别的类名对应的词嵌入向量进行组合,得到组合后的词嵌入向量组,该词嵌入向量组即为该图像类别的类别提示信息;在类别提示信息包括文本描述信息的情况下,可以将图像特征映射至预设维度,得到至少一个具有预设维度的词嵌入向量,并针对每一图像类别,将每一个词嵌入向量对应的词语和该图像类别的类名进行组合,得到一条文本描述信息,该文本描述信息即为该图像类别的类别提示信息。
50.步骤s103,基于每一所述类别提示信息,确定每一所述图像类别的文本特征。
51.这里,针对每一图像类别,可以基于该图像类别的类别提示信息,确定该图像类别的文本特征。在实施时,可以是采用任意合适的文本特征提取算法从类别提示信息中提取文本特征,这里并不限定。例如,可以采用文本编码器网络,如基于转换器(transformer)的编码器网络,对类别提示信息进行编码,得到文本特征。
52.步骤s104,基于每一所述图像类别的文本特征,对所述图像特征进行分类处理,得到所述待处理图像的分类结果。
53.这里,可以通过将图像特征与每一图像类别的文本特征进行匹配,确定该图像特征与每一文本特征的匹配程度,从而得到待处理图像的分类结果。
54.待处理图像的分类结果可以包括任意合适的用于表征该待处理图像所属分类的信息,这里并不限定。例如,待处理图像的分类结果中可以包括该待处理图像所属的图像类别。又如,待处理图像的分类结果中可以包括该待处理图像属于每一图像类别的概率。
55.在一些实施方式中,可以基于图像特征与每一图像类别的文本特征之间的相似度,确定待处理图像的分类结果。
56.在一些实施例中,所述分类结果包括所述待处理图像属于每一所述图像类别的概率;上述步骤s104可以包括如下步骤s111至步骤s112:
57.步骤s111,确定所述图像特征与每一所述图像类别的文本特征之间的相似度。
58.这里,可以采用任意合适的方式确定图像特征与每一图像类别的文本特征之间的相似度,本技术实施例并不限定。例如,可以基于欧氏距离、皮尔逊相关系数、余弦相似度、曼哈顿距离等,确定图像特征与文本特征之间的相似度。
59.步骤s112,基于每一所述相似度,确定所述待处理图像属于每一所述图像类别的概率。
60.这里,根据图像特征与每一图像类别的文本特征之间的相似度,可以确定该图像特征与每一文本特征的匹配程度,从而可以确定待处理图像属于每一图像类别的概率。在实施时,本领域技术人员可以根据实际情况采用合适的方式基于图像特征与每一图像类别的文本特征之间的相似度,确定待处理图像属于每一图像类别的概率,本技术实施例并不限定。
61.在一些实施方式中,可以对图像特征与每一图像类别的文本特征之间的相似度进行归一化处理,得到待处理图像属于每一图像类别的概率。例如,可以利用归一化指数函数(softmax),采用如下公式1所示的方式,确定待处理图像属于第y个图像类别的概率p(y|x):
[0062][0063]
其中,x为待处理图像的图像特征,ti为第i个图像类别的类别提示信息,g(ti)为第i个图像类别的文本特征,sim(x,g(ti))为待处理图像的图像特征与第i个图像类别的文本特征之间的余弦相似度,y为大于或等于1且小于或等于k的整数,k为大于1的整数,τ为设定的温度参数。
[0064]
本技术实施例中,通过获取待处理图像的图像特征,基于该图像特征,确定图像类别集合中每一图像类别的类别提示信息,基于每一类别提示信息,确定每一图像类别的文本特征,基于每一图像类别的文本特征,对该图像特征进行分类处理,得到该待处理图像的分类结果。这样,针对每一个待处理图像,由于每一图像类别的类别提示信息是基于该待处理图像的图像特征动态确定的,因而基于该动态确定的类别提示信息得到的每一图像类别的文本特征可以更好地体现该待处理图像的特征,从而可以提高图像识别的准确性。此外,由于相关技术中静态的类别提示信息通常是由本领域技术人员根据经验、实际应用场景等先验信息设定的,或者是通过模型训练进行学习后确定的,从而该静态的类别提示信息可能会过度拟合于先验信息和/或模型训练过程中学习的图像类别。因此,相较于静态的类别
提示信息,本技术实施例中动态确定的类别提示信息还可以减少过度拟合于先验信息和/或模型训练过程中学习的图像类别的情况,从而基于该动态确定的类别提示信息可以提高对先验信息中未考虑的图像类别和/或模型训练过程中未涉及的图像类别的识别能力,进而可以提高图像分类识别的泛化能力。
[0065]
本技术实施例提供一种图像处理方法,该方法可以由计算机设备的处理器执行。如图2所示,该方法包括如下步骤s201至步骤s205:
[0066]
步骤s201,获取待处理图像的图像特征。
[0067]
这里,步骤s201对应于前述步骤s101,在实施时可以参照前述步骤s101的具体实施方式。
[0068]
步骤s202,基于所述图像特征,确定图像标记信息。
[0069]
这里,图像标记信息可以用于对该图像特征进行表征,作为该待处理图像的标记。例如,图像标记信息可以包括该图像特征的表征向量。在实施时,本领域技术人员可以根据实际情况采用合适的方式基于图像特征确定图像标记信息,这里并不限定。
[0070]
在一些实施方式中,可以预先根据实际情况设定合适的映射策略,基于该映射策略对图像特征进行映射处理,得到用于对图像特征进行表征的图像标记信息。例如,可以采用线性映射的方式将图像特征映射至设定维度,得到映射后的表征向量,该表征向量即可作为图像标记信息。
[0071]
在一些实施方式中,可以利用已训练的神经网络对图像特征进行处理,得到用于对该图像特征进行表征的图像标记信息。
[0072]
步骤s203,基于所述图像标记信息和设定的上下文语义信息,确定图像类别集合中每一图像类别的类别提示信息。
[0073]
这里,可以基于图像标记信息和上下文语义信息对图像类别的类名进行扩展,得到用于对该图像类别进行描述的提示信息,也即该图像类别的类别提示信息。在每一图像类别的类别提示信息中均能体现该上下文语义信息以及图像标记信息。在实施时,本领域技术人员可以根据实际情况采用合适的方式基于图像标记信息和设定的上下文语义信息,确定图像类别集合中每一图像类别的类别提示信息,本技术实施例对此并不限定。
[0074]
在一些实施方式中,可以针对图像类别集合中每一图像类别,将图像标记信息、上下文语义信息以及图像类别的类名进行合并,得到该图像类别的类别提示信息。
[0075]
设定的上下文语义信息可以是随机初始化的,也可以是从预设的词字典中获取的,还可以是通过对图像样本进行训练得到的,这里并不限定。
[0076]
步骤s204,基于每一所述类别提示信息,确定每一所述图像类别的文本特征。
[0077]
步骤s205,基于每一所述图像类别的文本特征,对所述图像特征进行分类处理,得到所述待处理图像的分类结果。
[0078]
这里,步骤s204至步骤s205对应于前述步骤s103至步骤s104,在实施时可以参照前述步骤s103至步骤s104的具体实施方式。
[0079]
本技术实施例中,基于图像特征确定图像标记信息,并基于图像标记信息和上下文语义信息,确定图像类别集合中每一图像类别的类别提示信息。这样,在每一图像类别的类别提示信息中综合考虑了上下文语义信息以及待处理图像的图像特征,相较于单考虑图像特征的情况,可以进一步提高图像识别的准确性,而相较于单考虑上下文语义信息的情
况,可以减少类别提示信息过度拟合于上下文语义信息适用的图像类别的问题,从而可以进一步提高对上下文语义信息依赖的先验信息和/或上下文语义信息学习过程中未涉及的图像类别的识别能力,进而可以进一步提高图像分类识别的泛化能力。
[0080]
在一些实施例中,上述步骤s203可以包括:
[0081]
步骤s211,针对图像类别集合中的每一图像类别,基于所述图像标记信息、上下文语义信息和所述图像类别对应的词嵌入向量,确定所述图像类别的类别提示信息。
[0082]
这里,每一图像类别可以对应一个词嵌入向量。在实施时,可以采用任意合适的方式将图像类别的类名的特征映射至较低维度的向量,得到该图像类别对应的词嵌入向量,本技术实施例对此并不限定。例如,可以采用独热(one-hot)编码、连续词袋模型(continuous bag-of-word model,cbow)、跳字(skip-gram)模型等将每一图像类别的类名映射为一个设定维度的词嵌入向量。
[0083]
在一些实施方式中,可以将图像类别对应的词嵌入向量与图像标记信息、上下文语义信息进行合并,得到该图像类别的类别提示信息。在实施时,可以根据实际情况确定对图像类别对应的词嵌入向量、图像标记信息和上下文语义信息进行合并的方式,这里并不限定。例如,可以对图像类别对应的词嵌入向量、图像标记信息和上下文语义信息进行组合、叠加等至少一种操作,得到图像类别的类别提示信息。
[0084]
在一些实施例中,所述上下文语义信息包括至少一个上下文向量,所述图像标记信息包括图像标记向量,所述类别提示信息包括类别提示向量。上述步骤s211中所述的基于所述图像标记信息、上下文语义信息和所述图像类别对应的词嵌入向量,确定所述图像类别的类别提示信息,可以包括如下步骤s221至步骤s222:
[0085]
步骤s221,针对每一所述上下文向量,基于所述图像标记向量和所述上下文向量,确定一个图像上下文向量。
[0086]
这里,可以将图像标记向量与每一上下文向量分别进行合并,得到至少一个图像上下文向量。在实施时,可以采用任意合适的方式对图像标记向量和上下文向量进行合并,包括但不限于对图像标记向量和上下文向量进行叠加、连接、叉乘等至少一种操作,本技术实施例对此并不限定。
[0087]
在一些实施方式中,针对每一上下文向量,可以将待处理图像的图像标记向量与该上下文向量进行叠加,得到一个图像上下文向量。
[0088]
上下文语义信息中包括的上下文向量的数量可以是本领域技术人员根据实际情况设定的,例如,可以是4、8、16等。在实施时,本领域技术人员可以根据实际图像识别任务的困难程度、执行模型训练方法的硬件设备的计算资源等确定数量合适的上下文向量,这里并不限定。例如,在图像识别任务中待识别的多个图像类别之间差异较小的情况下,可以设置较多的上下文向量,以提高图像识别的准确性;在图像识别任务中待识别的多个图像类别之间差异较大的情况下,可以设置较少的上下文向量,以减少模型训练过程中学习的参数的数量,从而提高模型训练的效率。又如,在执行模型训练方法的硬件设备的计算资源较多的情况下,可以设置较多的上下文向量,以提高图像识别的准确性;在执行模型训练方法的硬件设备的计算资源较少的情况下,可以设置较少的上下文向量,以减少模型训练过程中学习的参数的数量,从而提高模型训练的效率。
[0089]
步骤s222,基于每一所述图像上下文向量和所述词嵌入向量,确定所述图像类别
的类别提示向量。
[0090]
这里,可以针对每一图像类别,将每一图像上下文向量与该图像类别对应的词嵌入向量进行连接,得到该图像类别的类别提示向量。在实施时,可以将图像类别对应的词嵌入向量连接在各图像上下文向量之后,也可以将图像类别对应的词嵌入向量连接在各图像上下文向量之前,还可以将图像类别对应的词嵌入向量连接在各图像上下文向量之间,本技术实施例对此并不限定。
[0091]
上述实施例中,针对图像类别集合中的每一图像类别,可以基于待处理图像的图像标记信息、上下文语义信息和该图像类别对应的词嵌入向量,确定该图像类别的类别提示信息。这样,可以快速为图像类别集合中的每一图像类别确定合适的类别提示信息,从而可以提高图像分类识别的效率。
[0092]
在一些实施例中,所述上下文语义信息包括以下至少之一:随机生成的至少一个上下文向量;从设定的词字典中获取的至少一个上下文向量。这里,词字典中的上下文向量可以包括预先确定的表征上下文语义的词嵌入向量,每一表征上下文语义的词嵌入向量可以对应人工设计的上下文词语,也可以是基于测试数据微调后确定的上下文词语;词字典中的上下文向量还可以包括预先基于图像样本训练后得到的至少一个上下文向量,本技术实施例对此并不限定。
[0093]
上述实施例中,在上下文语义信息包括随机生成的至少一个上下文向量的情况下,可以简单快速地生成至少一个上下文向量;在上下文语义信息包括从设定的词字典中获取的至少一个上下文向量的情况下,由于词字典中的上下文向量为可以表征上下文语义的词嵌入向量,从而可以进一步提高图像识别的准确性。
[0094]
本技术实施例提供一种图像处理方法,该方法可以由计算机设备的处理器执行。如图3所示,该方法包括如下步骤s301至步骤s304:
[0095]
步骤s301,利用模型中的图像特征提取网络,对待处理图像进行特征提取,得到所述待处理图像的图像特征。
[0096]
步骤s302,利用所述模型中的提示信息生成网络,基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息。
[0097]
步骤s303,利用所述模型中的文本特征提取网络,对每一所述类别提示信息进行特征提取,得到每一所述图像类别的文本特征。
[0098]
这里,该模型可以是已训练的深度学习模型,包括图像特征提取网络、文本特征提取网络、提示信息生成网络。在实施时,图像特征提取网络可以是任意合适的用于进行图像特征提取的网络,可以包括但不限于残差网络(residual networks,resnets)、视觉转换器(vision transformer,vit)网络等;文本特征提取网络可以是任意合适的用于进行文本特征提取的网络,可以包括但不限于基于转换器的编码器网络、双向长短时记忆神经网络等;提示信息生成网络可以是任意合适的用于基于图像特征生成图像类别的类别提示信息的网络,可以是简单的多层感知器,也可以是更复杂的网络结构,还可以是不包含感知器的特征处理模块等。本领域技术人员可以根据实际情况为图像特征提取网络、文本特征提取网络以及提示信息生成网络选择合适的网络结构,本技术实施例并不限定。
[0099]
在一些实施方式中,该模型为视觉语言模型,图像特征提取网络可以是该视觉语言模型中的图像编码器网络,可以是基于卷积神经网络、循环神经网络和/或基于转换器的
特征提取网络等实现的;文本特征提取网络可以是该视觉语言模型中的文本编码器网络,可以采用任意合适的编码器网络结构,例如基于转换器的特征提取网络。
[0100]
步骤s304,基于每一所述图像类别的文本特征,对所述图像特征进行分类处理,得到所述待处理图像的分类结果。
[0101]
这里,步骤s304对应于前述步骤s104,在实施时可以参照前述步骤s104的具体实施方式。
[0102]
在一些实施例中,所述提示信息生成网络包括标记提取子网络和信息生成子网络;上述步骤s302可以包括如下步骤s311至步骤s312:
[0103]
步骤s311,利用所述标记提取子网络,对所述图像特征进行处理,得到图像标记信息。
[0104]
这里,标记提取网络可以用于为输入的图像特征生成图像标记信息,该图像标记信息可以用于对该图像特征进行表征,作为该待处理图像的标记。例如,图像标记信息可以包括该图像特征的表征向量。
[0105]
在实施时,标记提取网络可以是简单的多层感知器,也可以是更复杂的网络结构,还可以是不包含感知器的特征处理模块,本领域技术人员可以根据实际情况采用合适的结构实现标记提取网络,本技术实施例对此并不限定。例如,可以采用两层瓶颈结构构建标记提取网络,并在隐藏层将输入维度减少16。
[0106]
步骤s312,利用所述信息生成子网络,基于所述图像标记信息和设定的上下文语义信息,确定图像类别集合中每一图像类别的类别提示信息。
[0107]
这里,信息生成子网络可以是任意合适的能够对图像标记信息和设定的上下文语义信息进行处理,得到每一图像类别的类别提示信息的网络,这里并不限定。在实施时,本领域技术人员可以根据实际采用的基于图像标记信息和上下文语义信息,确定每一图像类别的类别提示信息的方式确定合适的信息生成子网络。
[0108]
在一些实施方式中,上下文语义信息可以包括至少一个上下文向量,图像标记信息可以包括图像标记向量,类别提示信息可以包括类别提示向量;信息生成子网络可以用于基于图像标记向量和每一上下文向量,确定至少一个图像上下文向量;并基于每一图像上下文向量和每一图像类别对应的词嵌入向量,确定每一图像类别的类别提示向量。
[0109]
本技术实施例中,利用模型中的图像特征提取网络,对待处理图像进行特征提取,得到待处理图像的图像特征;利用该模型中的提示信息生成网络,基于图像特征确定图像类别集合中每一图像类别的类别提示信息;利用该模型中的文本特征提取网络,对每一类别提示信息进行特征提取得到每一图像类别的文本特征。这样,由于深度学习模型中的各网络是可学习的,通过深度学习模型可以提升提取的待处理图像的图像特征以及每一图像类别的文本特征的准确性,从而可以提高待处理图像的分类结果的准确性。
[0110]
本技术实施例提供一种模型训练方法,该方法可以由计算机设备的处理器执行。如图4所示,该方法包括如下步骤s401至步骤s402:
[0111]
步骤s401,利用待训练的模型,对图像样本进行处理,得到所述图像样本的分类结果;其中,利用所述模型对所述图像样本进行的处理包括:获取所述图像样本的图像特征;基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息;基于每一所述类别提示信息,确定每一所述图像类别的文本特征;基于每一所述图像类别的文本特征,对所
述图像特征进行分类处理,得到所述图像样本的分类结果。
[0112]
这里,待训练的模型可以是任意合适的深度学习模型,这里并不限定。在实施时,本领域技术人员可以根据实际情况采用合适的网络结构构建待训练的模型。
[0113]
利用待训练的模型对图像样本进行处理得到图像样本的分类结果的过程对应于前述实施例中的步骤s101至步骤s104中对待处理图像进行处理的过程,在实施时可以参照前述步骤s101至步骤s104的具体实施方式。
[0114]
步骤s402,基于所述分类结果和所述图像样本的类别标签,对所述模型的网络参数进行至少一次更新,得到训练后的所述模型。
[0115]
这里,可以基于图像样本的分类结果和类别标签,确定是否对模型的网络参数进行更新,在确定对模型的网络参数进行更新的情况下,采用合适的参数更新算法对模型的网络参数进行更新,并利用参数更新后的模型重新确定图像样本的分类结果,以基于重新确定的分类结果和图像样本的类别标签,确定是否对模型的网络参数进行继续更新。在确定不对模型的网络参数进行继续更新的情况下,将最终更新后的模型确定为训练后的模型。
[0116]
在一些实施方式中,可以基于图像样本的分类结果和类别标签确定损失值,并在该损失值不满足预设条件的情况下,对模型的网络参数进行更新,在损失值满足预设条件或对模型的网络参数进行更新的次数达到设定阈值的情况下,停止对模型的网络参数进行更新,并将最终更新后的模型确定为训练后的模型。预设条件可以包括但不限于损失值小于设定的损失阈值、损失值的变化收敛等至少之一。在实施时,预设条件可以根据实际情况设定,本技术实施例对此并不限定。
[0117]
对模型的网络参数进行更新的方式可以是根据实际情况确定的,可以包括但不限于梯度下降法、牛顿动量法等中的至少一种,这里并不限定。
[0118]
本技术实施例中,通过利用待训练的模型,获取图像样本的图像特征、基于图像特征确定图像类别集合中每一图像类别的类别提示信息、基于每一类别提示信息确定每一图像类别的文本特征、以及基于每一图像类别的文本特征对图像特征进行分类处理得到图像样本的分类结果,并基于分类结果和图像样本的类别标签,对模型的网络参数进行至少一次更新,得到训练后的模型。这样,在模型训练过程中,由于每一图像类别的类别提示信息是基于图像样本的图像特征动态确定的,因而基于该动态确定的类别提示信息得到的每一图像类别的文本特征可以更好地体现各图像样本的特征,从而可以提高训练后的模型进行图像识别的准确性。并且,相较于静态的类别提示信息,动态确定的类别提示信息还可以减少过度拟合于模型训练过程中学习的图像类别的情况,从而基于该动态确定的类别提示信息可以提高对模型训练过程中未涉及的图像类别的识别能力,进而可以提高图像分类识别的泛化能力。在一些实施方式中,可以将训练后的模型迁移至与用于训练的图像样本之间跨领域的其他图像识别任务中,并能提高迁移后的模型在跨领域的其他图像识别任务中的性能。
[0119]
在一些实施例中,上述步骤s402可以包括如下步骤s411至步骤s412:
[0120]
步骤s411,基于所述分类结果和所述图像样本的类别标签,确定损失值;
[0121]
步骤s412,基于所述损失值,对所述模型的网络参数进行至少一次更新,得到训练后的所述模型。
[0122]
这里,可以采用任意合适的损失函数确定图像样本的分类结果和类别标签之间的损失值,这里并不限定。例如,损失函数可以包括但不限于绝对值损失函数、最小平方误差损失函数、余弦损失函数、交叉熵损失函数等中的至少一种。
[0123]
在一些实施例中,所述方法还包括以下步骤s421和步骤s422中的至少之一:
[0124]
步骤s421,基于随机生成的至少一个上下文向量,对所述上下文语义信息进行初始化。
[0125]
步骤s422,基于设定的词字典中的至少一个上下文向量,对所述上下文语义信息进行初始化。
[0126]
这里,可以将随机生成的至少一个上下文向量确定为上下文语义信息的初始值,从而可以简单快速地确定上下文语义信息的初始值,便于模型训练;也可以将词字典中获取的至少一个上下文向量确定为上下文语义信息的初始值,这样,由于词字典中的上下文向量为可以表征上下文语义的词嵌入向量,因此可以提升模型初始的图像识别能力,从而可以提升模型的训练效率,并能进一步提高训练后的模型进行图像识别的准确性。
[0127]
在一些实施例中,所述模型中包括图像特征提取网络、提示信息生成网络和文本特征提取网络,上述步骤s401可以包括如下步骤s431至步骤s434:
[0128]
步骤s431,利用图像特征提取网络,对图像样本进行特征提取,得到所述图像样本的图像特征。
[0129]
步骤s432,利用提示信息生成网络,基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息。
[0130]
步骤s433,利用文本特征提取网络,对每一所述类别提示信息进行特征提取,得到每一所述图像类别的文本特征。
[0131]
步骤s434,基于每一所述图像类别的文本特征,对所述图像特征进行分类处理,得到所述图像样本的分类结果。
[0132]
这里,步骤s431至步骤s434分别对应于前述步骤s301至步骤s304,在实施时可以参照前述步骤s301至步骤s304的具体实施方式。
[0133]
在一些实施方式中,图像特征提取网络的网络参数和文本特征提取网络的网络参数可以是通过任意合适的预训练方式预训练好之后固定的,在模型的当前训练过程中,图像特征提取网络的网络参数和文本特征提取网络的网络参数保持不变。这样,可以减少模型训练过程中需要学习的参数的数量,从而可以提高模型训练的效率。
[0134]
在一些实施例中,上述步骤s402可以包括:
[0135]
步骤s441,基于所述分类结果和所述图像样本的类别标签,对所述提示信息生成网络的网络参数进行至少一次更新,得到训练后的所述模型。
[0136]
这里,可以基于图像样本的分类结果和类别标签,确定是否对提示信息生成网络的网络参数进行更新,在确定对提示信息生成网络的网络参数进行更新的情况下,采用合适的参数更新算法对提示信息生成网络的网络参数进行更新,并基于参数更新后的提示信息生成网络重新确定图像样本的分类结果,以基于重新确定的分类结果和图像样本的类别标签,确定是否对提示信息生成网络的网络参数进行继续更新。在确定不对提示信息生成网络的网络参数进行继续更新的情况下,将最终更新后的信息生成网络的网络参数确定为训练后的模型中信息生成网络的网络参数,从而得到训练后的模型。
[0137]
在一些实施方式中,可以基于图像样本的分类结果和类别标签确定损失值,并在该损失值不满足预设条件的情况下,对信息生成网络的网络参数进行更新,在损失值满足预设条件或对信息生成网络的网络参数进行更新的次数达到设定阈值的情况下,停止对信息生成网络的网络参数进行更新,得到训练后的模型。预设条件可以包括但不限于损失值小于设定的损失阈值、损失值的变化收敛等至少之一。在实施时,预设条件可以根据实际情况设定,本技术实施例对此并不限定。
[0138]
对提示信息生成网络的网络参数进行更新的方式可以是根据实际情况确定的,可以包括但不限于梯度下降法、牛顿动量法等中的至少一种,这里并不限定。
[0139]
在一些实施方式中,提示信息生成网络中可学习的网络参数可以包括但不限于标记提取子网络的网络参数、上下文语义信息等中的至少一种。
[0140]
上述实施例中,通过基于分类结果和图像样本的类别标签,对待训练的模型中的提示信息生成网络的网络参数进行至少一次更新,得到训练后的模型,这样,可以减少待训练的模型中待学习的参数的数量,从而可以使得模型训练能够适用于少量样本的学习,进而可以减少模型训练使用的样本数量,并能提高训练效率。
[0141]
在一些实施例中,所述提示信息生成网络包括标记提取子网络和信息生成子网络;上述步骤s432可以包括如下步骤s451至步骤s452:
[0142]
步骤s451,利用所述标记提取子网络,对所述图像特征进行处理,得到图像标记信息。
[0143]
步骤s452,利用所述信息生成子网络,基于所述图像标记信息和上下文语义信息,确定图像类别集合中每一图像类别的类别提示信息。
[0144]
这里,步骤s451至步骤s452分别对应于前述步骤s311至步骤s312,在实施时可以参照前述步骤s311至步骤s312的具体实施方式。
[0145]
在一些实施例中,上述步骤s402可以包括:
[0146]
步骤s461,基于所述分类结果和所述类别标签,对所述标记提取子网络的网络参数和所述上下文语义信息进行至少一次更新,得到训练后的所述模型。
[0147]
这里,可以对标记提取子网络的网络参数和上下文语义信息进行同时更新。在实施时,对标记提取子网络的网络参数和上下文语义信息进行更新的方式均可以是根据实际情况确定的,可以包括但不限于梯度下降法、牛顿动量法等中的至少一种,这里并不限定。对标记提取子网络的网络参数进行更新的方式与对上下文语义信息进行更新的方式可以是相同的,也可以是不同的。
[0148]
上述实施例中,基于分类结果和类别标签,对标记提取子网络的网络参数和上下文语义信息进行至少一次更新,得到训练后的模型。这样,可以同时对待训练模型中的标记提取子网络的网络参数和上下文语义信息进行学习,从而可以进一步减少待训练的模型中待学习的参数的数量,进而可以进一步减少模型训练使用的样本数量,并能提高训练效率。
[0149]
本技术实施例提供一种视觉语言模型,图5a为本技术实施例提供的一种视觉语言模型的实现架构示意图,如图5a所示,该视觉语言模型包括图像特征提取网络51、提示信息生成网络52和文本特征提取网络53,提示信息生成网络52包括标记提取子网络521和信息生成子网络522,其中,图像特征提取网络51用于对输入的待处理图像g1进行特征提取,得到该待处理图g1的图像特征x1;标记提取子网络521用于对图像特征x1进行处理,得到图像
标记信息π;信息生成子网络522用于:将图像标记信息π与一组上下文向量[v1,v2,

,vm]中的每一上下文向量叠加,得到一组图像标记向量[v1+π,v2+π,

,vm+π];将该组图像标记向量与图像类别集合中每一图像类别的类名的词嵌入向量ci进行组合,得到每一图像类别的类别提示信息ti;文本特征提取网络53用于对每一图像类别的类别提示信息ti进行特征提取,得到每一图像类别的文本特征yi;基于图像特征x1和每一图像类别的文本特征yi,可以确定待处理图像属于每一图像类别的概率pi,其中,m为大于1的整数,图像类别集合中图像类别的数量为k,k为正整数,i为不超过k的正整数。
[0150]
在实施时,图像特征提取网络51可以是基于transformer的编码器网络,也可以是卷积神经网络等;文本特征提取网络53可以是基于transformer的编码器网络;提示信息生成网络52中,标记提取子网络521可以是简单的多层感知器,也可以包含更复杂的网络结构,信息生成子网络522可以是简单的计算模块。信息生成子网络522中采用的上下文向量可以是随机初始化的,也可以从设定的词字典中获取的,上下文向量的数量并不限定,可以是4、8、16等。
[0151]
本技术实施例提供的视觉语言模型,可以利用提示信息生成网络,基于视觉语言模型中图像编码器网络输出的每一图像样本的图像特征,动态生成图像类别集合中的每一图像类别的类别提示信息。
[0152]
基于该视觉语言模型,本技术实施例提供一种模型训练方法,图5b为本技术实施例提供的一种模型训练方法的实现流程示意图,如图5b所示,该方法包括如下步骤s501至步骤s503:
[0153]
步骤s501,利用待训练的视觉语言模型,对图像样本进行处理,得到所述图像样本的分类结果;
[0154]
步骤s502,确定所述分类结果和所述图像样本的类别标签之间的交叉熵损失;
[0155]
步骤s503,基于该交叉熵损失,对该视觉语言模型中标记提取子网络的网络参数和信息生成子网络中采用的至少一个上下文向量进行至少一次更新,得到训练后的视觉语言模型。
[0156]
本技术实施例提供的模型训练方法,在模型训练过程中,由于每一图像类别的类别提示信息是基于图像样本的图像特征动态确定的,因而基于该动态确定的类别提示信息得到的每一图像类别的文本特征可以更好地体现各图像样本的特征,从而可以提高训练后的模型进行图像识别的准确性。并且,相较于静态的类别提示信息,动态确定的类别提示信息还可以减少过度拟合于模型训练过程中学习的图像类别的情况,从而基于该动态确定的类别提示信息可以提高对模型训练过程中未涉及的图像类别的识别能力,进而可以提高训练后的视觉语言模型在图像分类识别任务中的泛化能力。在一些实施方式中,可以将训练后的模型迁移至与用于训练的图像样本之间跨领域的其他图像识别任务中,并能提高迁移后的模型在跨领域的其他图像识别任务中的性能。此外,通过对视觉语言模型中的标记提取子网络的网络参数和上下文向量进行学习,可以保持待训练的模型中待学习的参数的数量较少,从而可以减少模型训练使用的样本数量,并能提高训练效率。
[0157]
本技术实施例提供的图像处理方法及模型训练方法可以应用于任意合适的图像识别场景,例如,对图像中包含的对象的类别(如人、猫、狗、兔子、老虎等)进行识别的场景、对图像表示的场景的类别(如室内、机场、车站、商场等)进行识别的场景、对图像中目标对
象的状态类别(如有缺陷、无缺陷等)进行识别的场景、对图像中人体的姿态类别(如站立、坐下、平躺等)进行识别的场景等。下面以对图像中包含的对象的类别进行识别的场景为例,说明本技术实施例提供的模型训练方法和图像处理方法。其中,模型训练方法可以包括:
[0158]
步骤s511,获取包含至少一个图像样本的训练样本集,每一图像样本具有一个用于表征该图像样本中包含的对象的类别的类别标签;
[0159]
步骤s512,利用待训练的视觉语言模型,对该图像特征进行分类处理,得到该图像样本中包含的对象的分类结果,并确定该分类结果和该图像样本的类别标签之间的交叉熵损失;
[0160]
步骤s513,基于该交叉熵损失,对该视觉语言模型中标记提取子网络的网络参数和信息生成子网络中采用的至少一个上下文向量进行至少一次更新,得到训练后的视觉语言模型。
[0161]
利用该训练后的视觉语言模型可以对任意包含对象的图像(也即待处理图像)进行识别,得到该图像中包含的对象的类别。在利用该训练后的视觉语言模型对该图像进行识别的过程中,可以首先利用训练后的图像特征提取网络,对该图像进行特征提取,得到该图像的图像特征;其次,利用训练后的标记提取子网络,对该图像特征进行处理,得到图像标记信息,并基于该图像标记信息和训练后的上下文语义信息,确定图像类别集合中每一图像类别的类别提示信息;基于该图像特征,确定图像类别集合中每一图像类别的类别提示信息;然后,利用训练后的文本特征提取网络,对每一类别提示信息进行特征提取,得到每一图像类别的文本特征;最后基于每一图像类别的文本特征,对该图像特征进行分类处理,得到该图像的分类结果,即该图像中包含的对象的类别。这里,图像类别集合中的每一图像类别可以是一个对象类别,图像类别集合中的对象类别可以是训练样本集中的图像样本涉及的对象类别,也可以是训练样本集中的图像样本未涉及的对象类别。这样,在对图像中包含的对象的类别进行识别的过程中,由于每一图像类别的类别提示信息是基于该图像的图像特征动态确定的,因而基于该动态确定的类别提示信息得到的每一图像类别的文本特征可以更好地体现该图像的特征,从而可以提高对图像中包含的对象的类别进行识别的准确性,并且基于该动态确定的类别提示信息还可以提高对模型训练过程中未涉及的对象类别的识别能力。
[0162]
图6为本技术实施例提供的一种图像处理装置的组成结构示意图,如图6所示,图像处理装置600包括:获取模块610、第一确定模块620、第二确定模块630和分类模块640,其中:
[0163]
获取模块610,用于获取待处理图像的图像特征;
[0164]
第一确定模块620,用于基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息;
[0165]
第二确定模块630,用于基于每一所述类别提示信息,确定每一所述图像类别的文本特征;
[0166]
分类模块640,用于基于每一所述图像类别的文本特征,对所述图像特征进行分类处理,得到所述待处理图像的分类结果。
[0167]
在一些实施例中,所述第一确定模块还用于:基于所述图像特征,确定图像标记信
息;基于所述图像标记信息和设定的上下文语义信息,确定图像类别集合中每一图像类别的类别提示信息。
[0168]
在一些实施例中,所述第一确定模块还用于:针对图像类别集合中的每一图像类别,基于所述图像标记信息、上下文语义信息和所述图像类别对应的词嵌入向量,确定所述图像类别的类别提示信息。
[0169]
在一些实施例中,所述上下文语义信息包括至少一个上下文向量,所述图像标记信息包括图像标记向量,所述类别提示信息包括类别提示向量;所述第一确定模块还用于:针对每一所述上下文向量,基于所述图像标记向量和所述上下文向量,确定一个图像上下文向量;基于每一所述图像上下文向量和所述词嵌入向量,确定所述图像类别的类别提示向量。
[0170]
在一些实施例中,所述上下文语义信息包括以下至少之一:随机生成的至少一个上下文向量;从设定的词字典中获取的至少一个上下文向量。
[0171]
在一些实施例中,所述获取模块还用于:利用模型中的图像特征提取网络,对待处理图像进行特征提取,得到所述待处理图像的图像特征;所述第一确定模块还用于:利用所述模型中的提示信息生成网络,基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息;所述第二确定模块还用于:利用所述模型中的文本特征提取网络,对每一所述类别提示信息进行特征提取,得到每一所述图像类别的文本特征。
[0172]
在一些实施例中,所述提示信息生成网络包括标记提取子网络和信息生成子网络;所述第一确定模块还用于:利用所述标记提取子网络,对所述图像特征进行处理,得到图像标记信息;利用所述信息生成子网络,基于所述图像标记信息和设定的上下文语义信息,确定图像类别集合中每一图像类别的类别提示信息。
[0173]
在一些实施例中,所述分类结果包括所述待处理图像属于每一所述图像类别的概率;所述分类模块还用于:确定所述图像特征与每一所述图像类别的文本特征之间的相似度;基于每一所述相似度,确定所述待处理图像属于每一所述图像类别的概率。
[0174]
图7为本技术实施例提供的一种模型训练装置的组成结构示意图,如图7所示,模型训练装置700包括:处理模块710和更新模块720,其中:
[0175]
处理模块710,用于利用待训练的模型,对图像样本进行处理,得到所述图像样本的分类结果;其中,利用所述模型对所述图像样本进行的处理包括:获取所述图像样本的图像特征;基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息;基于每一所述类别提示信息,确定每一所述图像类别的文本特征;基于每一所述图像类别的文本特征,对所述图像特征进行分类处理,得到所述图像样本的分类结果;
[0176]
更新模块720,用于基于所述分类结果和所述图像样本的类别标签,对所述模型的网络参数进行至少一次更新,得到训练后的所述模型。
[0177]
在一些实施例中,所述模型中包括图像特征提取网络、提示信息生成网络和文本特征提取网络;所述处理模块,包括:第一提取模块,用于利用所述图像特征提取网络,对图像样本进行特征提取,得到所述图像样本的图像特征;第三确定模块,用于利用所述提示信息生成网络,基于所述图像特征,确定图像类别集合中每一图像类别的类别提示信息;第二提取模块,用于利用所述文本特征提取网络,对每一所述类别提示信息进行特征提取,得到每一所述图像类别的文本特征;分类模块,用于基于每一所述图像类别的文本特征,对所述
图像特征进行分类处理,得到所述图像样本的分类结果。
[0178]
在一些实施例中,所述更新模块还用于基于所述分类结果和所述图像样本的类别标签,对所述提示信息生成网络的网络参数进行至少一次更新,得到训练后的所述模型。
[0179]
在一些实施例中,所述提示信息生成网络包括标记提取子网络和信息生成子网络;所述第三确定模块还用于:利用所述标记提取子网络,对所述图像特征进行处理,得到图像标记信息;利用所述信息生成子网络,基于所述图像标记信息和上下文语义信息,确定图像类别集合中每一图像类别的类别提示信息。
[0180]
在一些实施例中,所述更新模块还用于基于所述分类结果和所述类别标签,对所述标记提取子网络的网络参数和所述上下文语义信息进行至少一次更新,得到训练后的所述模型。
[0181]
在一些实施例中,所述更新模块还用于:基于所述分类结果和所述图像样本的类别标签,确定损失值;基于所述损失值,对所述模型的网络参数进行至少一次更新,得到训练后的所述模型。
[0182]
在一些实施例中,所述装置还包括以下至少之一:第一初始化模块,用于基于随机生成的至少一个上下文向量,对所述上下文语义信息进行初始化;第二初始化模块,用于基于设定的词字典中的至少一个上下文向量,对所述上下文语义信息进行初始化。
[0183]
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本技术装置实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
[0184]
需要说明的是,本技术实施例中,如果以软件功能模块的形式实现上述的图像处理方法或模型训练方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本技术实施例不限制于任何特定的硬件和软件结合。
[0185]
本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。
[0186]
本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
[0187]
本技术实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
[0188]
这里需要指出的是:以上存储介质、计算机程序产品和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本技术存储介质、计
算机程序产品和设备实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
[0189]
需要说明的是,图8为本技术实施例中计算机设备的一种硬件实体示意图,如图8所示,该计算机设备800的硬件实体包括:处理器801、通信接口802和存储器803,其中:
[0190]
处理器801通常控制计算机设备800的总体操作。
[0191]
通信接口802可以使计算机设备通过网络与其他终端或服务器通信。
[0192]
存储器803配置为存储由处理器801可执行的指令和应用,还可以缓存待处理器801以及计算机设备800中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(flash)或随机访问存储器(random access memory,ram)实现。
[0193]
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0194]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0195]
在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0196]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0197]
另外,在本技术各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0198]
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0199]
或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品
销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0200]
以上所述,仅为本技术的实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1