模型训练数据获取方法、装置、计算机设备和存储介质与流程

文档序号：31704890发布日期：2022-10-01 10:28阅读：59来源：国知局

1.本技术涉及计算机技术领域，特别是涉及一种模型训练数据获取方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

2.随着计算机技术的发展，出现了人工智能(artificial intelligence,ai)技术，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
3.而在使用人工智能技术时，如使用人工智能技术中的机器学习(machinelearning,ml)技术时，需要针对需要构建的机器学习模型收集相应的模型训练数据，如对于服饰检索(识别)模型，一般需要利用服饰图片数据来作为模型训练数据，如从开源视频集合中提取出带有物品的图片数据作为模型训练数据。然而由于视频中镜头和图片帧量较大，因此对这些数据进行标注来获取模型训练数据的效率较低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提高模型训练数据获取效率的模型训练数据获取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面，本技术提供了一种模型训练数据获取方法。所述方法包括：
6.获取待标注的视频数据；
7.提取所述待标注的视频数据中同一人物对应的目标图片；
8.对所述目标图片进行物品检测处理，得到人物对应的目标物品标识；
9.对所述人物对应的目标物品标识进行聚类处理，以将所述人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到所述目标图片中同一人物对应的多种目标物品标识；
10.根据所述目标图片中同一人物对应的多种目标物品标识对所述目标图片进行标注，得到用于机器学习模型训练的模型训练数据。
11.第二方面，本技术还提供了一种模型训练数据获取装置。所述装置包括：
12.数据获取模块，用于获取待标注的视频数据；
13.轨迹提取模块，用于提取所述待标注的视频数据中同一人物对应的目标图片；
14.目标物品检测模块，用于对所述目标图片进行物品检测处理，得到人物对应的目标物品标识；
15.聚类处理模块，用于对所述人物对应的目标物品标识进行聚类处理，以将所述人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到所述目标图片中同一
人物对应的多种目标物品标识；
16.数据标注模块，用于根据所述目标图片中同一人物对应的多种目标物品标识对所述目标图片进行标注，得到用于机器学习模型训练的模型训练数据。
17.第三方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
18.获取待标注的视频数据；
19.提取所述待标注的视频数据中同一人物对应的目标图片；
20.对所述目标图片进行物品检测处理，得到人物对应的目标物品标识；
21.对所述人物对应的目标物品标识进行聚类处理，以将所述人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到所述目标图片中同一人物对应的多种目标物品标识；
22.根据所述目标图片中同一人物对应的多种目标物品标识对所述目标图片进行标注，得到用于机器学习模型训练的模型训练数据。
23.第四方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
24.获取待标注的视频数据；
25.提取所述待标注的视频数据中同一人物对应的目标图片；
26.对所述目标图片进行物品检测处理，得到人物对应的目标物品标识；
27.对所述人物对应的目标物品标识进行聚类处理，以将所述人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到所述目标图片中同一人物对应的多种目标物品标识；
28.根据所述目标图片中同一人物对应的多种目标物品标识对所述目标图片进行标注，得到用于机器学习模型训练的模型训练数据。
29.第五方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
30.获取待标注的视频数据；
31.提取所述待标注的视频数据中同一人物对应的目标图片；
32.对所述目标图片进行物品检测处理，得到人物对应的目标物品标识；
33.对所述人物对应的目标物品标识进行聚类处理，以将所述人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到所述目标图片中同一人物对应的多种目标物品标识；
34.根据所述目标图片中同一人物对应的多种目标物品标识对所述目标图片进行标注，得到用于机器学习模型训练的模型训练数据。
35.上述模型训练数据获取方法、装置、计算机设备、存储介质和计算机程序产品，通过获取待标注的视频数据；提取待标注的视频数据中同一人物对应的目标图片；而后对目标图片进行物品检测处理，得到人物对应的目标物品标识；对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识；根据目标图片中同一人物对应的多种目标物品标识对目标图片进行标注，得到用于机器学习模型训练的模型训练数据。本技术的方
案，在需要从视频数据中提取出与人物结合的目标物品相关的模型训练数据时，可以先从视频数据中提取出包含同一人物的目标图片，并通过检测获取其中人物对应的目标物品标识，而后对人物对应的目标物品标识进行聚类处理，而后再进行标注，通过聚类可以有效地减少人物轨迹图片中同类目标物品的数量，从而提高模型训练数据标注过程的标注效率，综合提高模型训练数据的获取效率。
附图说明
36.图1为一个实施例中模型训练数据获取方法的应用环境图；
37.图2为一个实施例中模型训练数据获取方法的流程示意图；
38.图3为一个实施例中对待标注的视频数据进行切分步骤的流程示意图；
39.图4为一个实施例中通过人脸识别进行人物轨迹追踪步骤的流程示意图；
40.图5为一个实施例中人脸识别处理后得到的人物轨迹图片示例图；
41.图6为另一个实施例中人脸识别处理后得到的人物轨迹图片示例图；
42.图7为一个实施例中对人物对应的目标物品标识进行聚类处理步骤的流程示意图；
43.图8为一个实施例中交叉构建四种特征提取模型的示意图；
44.图9为一个实施例中metric loss-triplet loss的样本距离示意图；
45.图10为一个实施例中基于目标物品特征对人物对应的目标物品标识进行聚类处理步骤的流程示意图；
46.图11为一个实施例中服务器向观看者提供的视频页面示意图；
47.图12为一个实施例中模型训练数据获取方法的简易流程示意图；
48.图13为另一个实施例中模型训练数据获取方法的流程示意图；
49.图14为一个实施例中服饰聚类过程的具体流程示意图；
50.图15为一个实施例中服饰聚类结果的示意图；
51.图16为一个实施例中模型训练数据获取装置的结构框图；
52.图17为一个实施例中计算机设备的内部结构图。
具体实施方式
53.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
54.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习(machine learning,ml)/深度学习等几大方向。
55.本技术主要涉及人工智能中的机器学习技术以及计算机视觉技术(computervision,cv)。其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新
的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
56.而计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
57.本技术实施例提供的模型训练数据获取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。当终端102方需要基于已有的视频数据来获取相关的模型训练数据时，可以通过向服务器104提交待标注的视频数据，以请求服务器104来从视频中提取出相应的模型训练数据，首先，服务器104获取待标注的视频数据；提取待标注的视频数据中同一人物对应的目标图片，目标图片用于表征同一人物对应的人物轨迹；对目标图片进行物品检测处理，得到人物对应的目标物品标识；对人物对应的目标物品标识进行聚类处理，获取目标图片中同一人物对应的多种目标物品标识；根据人物轨迹图片中同一人物对应的多种目标物品标识对人物轨迹图片进行标注，得到模型训练数据。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
58.在一个实施例中，如图2所示，提供了一种模型训练数据获取方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：
59.步骤201，获取待标注的视频数据。
60.步骤203，提取待标注的视频数据中同一人物对应的目标图片。
61.其中，待标注的视频数据是指由终端102提交的视频数据，其中包含有需要标注的内容。而本技术中模型训练数据获取的目的即为从视频数据中提取出需要标注的图片，并对其进行相应的标注。面对视频数据量大且丰富，但是都是待标注数据的场景，如何使用这些待标注的视频数据来提高业务场景下模型的效果，是本技术所面临的主要问题,目前已有的对待标注数据进行预标注的方法主要以人工标注，而视频中图片数量较多，标注任务繁重且耗时，因此可以通过本技术的模型训练数据获取，来提取待标注的视频数据中的图片，并对其进行标注，从而获得模型训练数据。在其中一个实施例中，本技术用于对视频内包含的服饰数据进行标注，从而获取对服饰检索模型或服饰识别模型进行训练的模型训练数据，此时待标注的视频数据可以从业务场景的历史数据中获取。而同一人物对应的目标图片则是指在视频中，在提取出包含人物的图片后，由于物品比如服饰等与人一般有强关联的关系，从而可以基于同一人物来识别出相应的物品进行标注，因此可以识别出同一个
人物所对应的目标图片，将其分为一类。同时，由于在视频中，同一人物的轨迹可以基于人物本身的特征来聚合得到，因此，可以在得到待标注的视频数据后，直接提取出其中同一人物对应的目标图片，以备后续标注过程使用。
62.具体地，当用户需要实现从视频数据中提取出用于对模型进行训练所用到的训练数据时，可以通过终端102提交待标注的视频数据至服务器104，通过服务器104来实现对这些视频数据进行提取与标注的操作，从而获得可用的模型训练数据。首先服务器104需要获取待标注的视频数据，而后，为了进行视频中目标物品的识别，可以先提取待标注的视频数据中同一人物对应的目标图片。这些目标图片具体用于表征视频中同一人物在视频中运动的人物轨迹，因此可以对这些目标图片中的相似物品进行关联，从而有效地进行标注，得到模型训练数据。
63.步骤205，对目标图片进行物品检测处理，得到人物对应的目标物品标识。
64.其中，物品检测是计算机视觉技术的一种，其目的是用框去标出图像中物品的位置，并给出物品的类别。对目标图片进行物品检测处理的目的在于检测出图片中需要标注的目标物品的位置以及目标物品的具体类别。目标物品标识则是指用于表征目标物品的身份，如对于服饰类的目标物品，其目标物品标识具体可以是指该服饰对应的id标识。值得注意的是，此处的物品检测为初步检测，只能检测出物品的大致类别，因此需要通过后续的聚类来实现对物品的精准标注。
65.具体地，当得到与人物轨迹对应的目标图片后，为了对图片中的物品进行标注，需要先通过计算机视觉技术中的物品检测技术来对图片进行相应处理，从而提取出其中包含的物品位置以及物品对应的标识，以便后续对这些物品进行标注处理，从而获得更加有效的模型训练数据。在其中一个实施例中，物品检测具体可以通过预先训练好的检测模型来实现，例如当检测的目标物品为人物对应的服饰时，可以通过预先训练好的服饰检测模型来实现，得到目标图片中的单个服饰主体。而后服饰检测模型可以对检测后的单个服饰主体，通过多个服饰检索模型聚类的方式得到一个人物下的多个不同服饰，最后，由于视频中的物体相邻帧间相似性较高，所以对同一服饰的id通过特征相似度进行筛选。
66.步骤207，对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识。
67.其中，聚类处理是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程，由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。目标图片中同一人物对应的多种目标物品标识具体是指将目标图片中相同目标物品标识的物品聚合处理后，可以得到多个不同的聚类簇以及噪声点，而每个聚类簇或者噪声点都可以对应有一种目标物品标识。因此，通过聚类处理可以得到目标图片中同一人物对应的多种目标物品标识。
68.具体地，在基于目标图片中的物品，得到对应的人物对应的目标物品标识后，可以进一步地对这些人物对应的目标物品标识进行聚类处理，将这些图片中，相同或相似的目标物品标识进行聚合，得到目标图片中同一人物对应的目标物品标识的聚类簇，从而获取目标图片中同一人物对应的多种目标物品标识。在其中一个实施例中，本技术的模型训练数据获取具体用于获取服饰识别模型的模型训练数据。此时，具体可以将服饰分为上衣、下
衣以及连衣这三组。在聚类处理的过程中，对于每一组的服饰类型，都可以分别进行聚类处理，在聚类处理时，则具体可以使用knn(k-nearest neighbor，k最邻近分类)算法来对同一人物下的每个组进行聚类，对于每个样本在组内找出与这个样本最近的 50个样本作为一个基础簇，对每个样本做同样的操作，并将有交集的簇进行合并，合并后就得到每个服饰的服饰id下不同组下的服饰标签。
69.步骤209，根据目标图片中同一人物对应的多种目标物品标识对目标图片进行标注，得到用于机器学习模型训练的模型训练数据。
70.具体地，由于聚类过程中，将同一类物品聚类到一起进行处理。因此，可以直接基于聚类簇中心的目标物品标识来作为聚类簇中目标物品的标识来对其进行标注。因此，只需要针对聚类处理后的噪声点来进行标注即可获取模型训练数据。例如对服饰数据的标注，由于视频中镜头和图片帧量较大，人工标注比较耗时，假设需要n个类别的服饰数据，每个类内都包含有50张图片，则需要标注n*50张图片，使用本技术方法后，则只需要对远离聚类中心的噪声点进行标注，大概为类内图片数量的10％，n个类别需要标注的数量为n*50*10％，标注数量为之前的1/10，从而可以有效提高模型训练数据的获取效率，而得到的模型训练数据也可以用于用于目标物品标识相关的机器学习模型训练，如当目标物品标识为服饰标识时，得到的模型训练数据可用于服饰检索模型或者服饰识别模型的训练。
71.上述模型训练数据获取方法，通过获取待标注的视频数据；提取待标注的视频数据中同一人物对应的目标图片；而后对目标图片进行物品检测处理，得到人物对应的目标物品标识；对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识；根据目标图片中同一人物对应的多种目标物品标识对目标图片进行标注，得到用于机器学习模型训练的模型训练数据。本技术的方案，在需要从视频数据中提取出与人物结合的目标物品相关的模型训练数据时，可以先从视频数据中提取出包含同一人物的目标图片，并通过检测获取其中人物对应的目标物品标识，而后对人物对应的目标物品标识进行聚类处理，而后再进行标注，通过聚类可以有效地减少人物轨迹图片中同类目标物品的数量，从而提高模型训练数据标注过程的标注效率，综合提高模型训练数据的获取效率。
72.在一个实施例中，如图3所示，步骤203包括：
73.步骤302，对待标注的视频数据进行镜头切分处理，得到切分视频数据。
74.步骤304，对切分视频数据中的同一人物进行人物识别处理，得到同一人物对应的目标图片。
75.其中，镜头切分是一种视频预处理的方法，由于需要针对不同的镜头来做不一样的处理，所以在做进一步处理之前，要通过镜头切分来将整段视频进行分割处理。而对于人物识别，由于人体目标的活跃性和随机性，对场景中的人体目标进行检测和识别一直都是识别领域研究的热点。人体是行为的主体，是场景检测的重点。通过人物识别方法对单个片段内的同一个人物进行关联，从而得到同一个人的轨迹图片。
76.具体地，由于一段完整视频会包含有若干的镜头，而不同镜头之中的人物可能存在区别，为了保证目标图片的提取效率，可以先将完整的待标注视频分为若干的视频镜头，视频切分具体可以通过边缘监测来实现，通过边缘检测识别出视频数据中镜头边缘帧，而后依据镜头边缘帧对完整的待标注视频数据进行切分处理，从而得到切分视频数据。而后
则可对每段视频数据进行人物识别处理，从而在视频中识别出同一个人物对应的一个完整人物轨迹。在其中一个实施例中，本技术中对人物识别检测的方法具体可以为deepsort算法，通过人物识别方法对单个片段内的同一个人物进行关联，得到同一个人的轨迹图片。本实施例中，通过镜头切分以及人物识别，能够有效地从完整的视频数据中，提取出各个镜头下，同一人物对应的目标图片，通过目标图片可以有效地对当前人物进行轨迹追踪，从而提高目标图片的有效性，提高模型训练数据获取的准确性。
77.在其中一个实施例中，如图4所示，步骤304包括：
78.步骤401，识别切分视频数据中包含人脸的人脸视频帧。
79.步骤403，对人脸视频帧进行人脸识别处理，得到相同人脸对应的人脸视频帧。
80.步骤405，将相同人脸对应的人脸视频帧，作为同一人物对应的目标图片。
81.其中，人脸识别是一种基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和追踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术，通常也叫做人像识别、面部识别。本技术中主要通过人脸识别技术来识别出切分视频中的相同人脸，从而实现对同一人物的人物识别。
82.具体地，由于人物识别的准确率有限，可能存在同一个人物处于不同id的情况出现，所以此处会使用人脸识别的方式，对于有切分视频数据中，存在人脸的人物进行人脸识别，来得到相同人脸对应的人脸视频帧，从而将同一个人物的不同轨迹进行合并。由于不是所有轨迹都包含人脸，所以没有人脸的人物轨迹不能通过这种方法被合并，因此对于这部分不包含人脸的视频帧，可以直接忽略。图5以及图6分别是随机抽取出来的两个不同人物在人脸识别处理后得到的两组人物轨迹图片。本实施例中，通过人脸识别处理来提取出相同人脸对应的人物轨迹图片，从而可以有效保证人物轨迹图片识别的准确性。
83.在其中一个实施例中，步骤207包括：通过多模型投票法对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识人物。
84.其中，多模型投票法是指通过不同的基础模型来对目标图片进行特征提取后，再基于特征拼接处理来得到图片对应的拼接特征后，再依据拼接特征来进行物品识别与聚类后，得到同一人物对应的多种目标物品标识。
85.具体地，为了进行特征提取，可以基于不同网络结构以及不同损失函数的分别构建出多个基础模型，而后基于这些基础模型，通过多模型投票法对单个视频内的人物轨迹中的目标物品进行关联从而得到相似的目标物品，实现对目标物品的精准聚类处理。通过多模型投票法对目标物品标识进行聚类处理，其具体是指基于目标物品的特征来对目标物品标识进行聚类，将特征相同或者相似的目标物品聚合到一起，即可同一人物对应的多种目标物品标识，其中每一种目标物品标识都对应有一个目标物品标识的聚簇或者噪声点，这样就可以在后续的过程中进行高效地标注，得到模型训练数据。本实施例中，通过多模型投票法的方式来对人物对应的目标物品标识进行聚类处理，可以有效提高聚类过程的准确性，从而确保所得模型训练数据的有效性。
86.在其中一个实施例中，如图7所示，通过多模型投票法对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得
到目标图片中同一人物对应的多种目标物品标识的步骤具体包括：
87.步骤702，通过不同的预设特征提取模型对包含目标物品标识的目标图片进行特征提取处理，得到基础物品特征。
88.步骤704，将不同的预设特征提取模型提取得到的基础物品特征进行拼接处理，获取目标物品特征。
89.步骤706，基于目标物品特征对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识。
90.具体地，多模型投票法中可以采用结合不同网络结构以及不同损失函数的预设特征提取模型，来对目标图片进行特征提取处理，每个预设特征提取模型对于每张目标图片，都可以提取出相应的基础物品特征。而对于一张目标图片中的目标物品，将不同模型对包含该目标物品的目标图片中提取的基础物品特征进行拼接组合，所得到的即为目标物品特征。而后即可基于目标物品特征来对人物对应的目标物品标识进行聚类处理，基于目标物品标识来将具相似和相同目标物品特征的目标物品聚合到一起，从而获取目标图片中同一人物对应的多种目标物品标识。本实施例中，通过不同的预设特征提取模型提取得到的基础物品特征进行拼接处理，可以有效结合不同模型的特点来提取出目标图片内目标物品的特征，从而有效保证聚合处理的准确性。
91.在其中一个实施例中，预设特征提取模型包括第一特征提取模型、第二特征提取模型、第三特征提取模型以及第四特征提取模型；
92.通过不同的预设特征提取模型对包含目标物品标识的目标图片进行特征提取处理，得到基础物品特征之前，还包括：
93.通过预设第一算法与预设第三算法构建第一特征提取模型，通过预设第二算法与预设第三算法构建第二特征提取模型，通过预设第一算法与预设第四算法构建第三特征提取模型，通过预设第二算法与预设第四算法构建第四特征提取模型。
94.具体地，预设第一算法以及预设第二算法具体可以为模型网络结构算法，而预设第三算法以及预设第四算法则为损失函数算法，通过结合两种不同的网络解构算法以及损失函数算法，可以相应的构建出四个完全不同的模型。在一个具体的实施例中，预设第一算法以及预设第二算法分别为resnet50算法以及 efficientnet-b3算法，而预设第三算法以及预设第四算法则分别为交叉熵损失函数以及三元组损失函数metric loss-triplet loss。如图8所示，结合四种算法可以相应的构建出四种模型，同时可以基于历史数据来对构建出的四种模型进行训练，得到最终需要的特征提取模型。模型训练的方式具体包括以下类型：
95.a：第一特征提取模型，resnet50+交叉熵：例如数据集合的组织方式为，一个sku下的图片为一个类别，挑选出所有服饰相关的sku，共80万张图片， 10万个类别，采用公开数据集合imagenet训练的resnet50为预训练权重，将 resnet50最后一个block的输出结果进行average pooling之后输出为2048维度的向量，由于京东数据包含100000个类别，所以分类全连接层为2048*10000。采用随机初始化的方式初始化，将全量数据随机划分成多个批次(多个batch)输入网络，使用sgd进行优化。loss方面采用交叉熵为损失函数，每个batch数据经过前向传播后得到预测结果，计算预测结果与图片的类别标签的交叉熵损失，然后
计算损失函数对各层神经网络的梯度，进行权重更新。所有样本训练完成称为完成一轮训练，一共进行50轮的训练。
96.b：第二特征提取模型，efficientnet-b3+交叉熵：数据源以及组织方式，loss 计算，优化方法，预训练权重与第一特征提取模型相同，区别在于将网络结构由resnet50换成efficientnetb3。
97.c：第三特征提取模型，resnet50+metric loss-triplet loss：与分类模型相比， tripletloss是metric loss中的经典方法。输入为一个三元组《a,p,n》,其中a是一个随机的样本，p是与a同一个类别的样本，n是与a不同类的样本，优化的目标是拉近同类样本之间的距离，扩大不同类样本之间的距离。使得同一个类别间的样本距离加上一个固定值与不同类别之间的距离接近。具体可以参照图9。由于输入形式为三元组，所以数据组织形式更复杂一些，每一张图片随机选出一个同类别的样本做正样本(positive)以及一张不同类别的样本做负样本 (negative)。采用公开数据集合imagenet训练的resnet50为预训练权重，将 resnet50最后一个block的输出结果进行average pooling之后输出为2048维度的向量，具体可以使用2048维向量距离度量的向量，是用sgd进行优化。将全量数据随机划分成多个批次的三元组(多个batch)输入网络，使用resnet50进行特征提取，根据三元组之间的欧式距离计算triplet loss，然后计算损失函数对各层神经网络的梯度，进行权重更新。所有样本训练完成称为完成一轮训练，一共进行50轮的训练。
98.d:第四特征提取模型efficientnet-b3+metric loss-triplet loss：数据源以及组织方式，loss计算，优化方法，预训练权重与第四特征提取模型相同，区别在于将网络结构由resnet50换成efficientnetb3。
99.通过两两结合的方式来构建出不同的四种特征提取模型，从而有效地对包含目标物品标识的人物轨迹图片进行特征提取处理，从而得到可用的基础物品特征，保证后续聚类处理的有效性。
100.在其中一个实施例中，如图10所示，步骤706包括：
101.步骤1001，基于目标物品特征，对人物对应的目标物品标识进行聚类处理，得到目标物品标识聚类簇。
102.步骤1003，识别目标物品标识聚类簇中的噪声点数据。
103.步骤1005，获取噪声点数据对应的噪声点过滤数据。
104.步骤1007，基于噪声点过滤数据对目标物品标识聚类簇中的噪声点进行过滤处理。
105.步骤1009，基于过滤处理后的目标物品标识聚类簇，得到目标图片中同一人物对应的多种目标物品标识。
106.其中，噪声点中包含有需要保存的噪声点以及不需要保存的噪声点，因此需要在聚类得到噪声点后，还需要进一步地对噪声点进行过滤处理，去除其中的部分噪声点。
107.具体地，对于聚类处理的过程，首先可以基于目标物品特征，对人物对应的目标物品标识进行聚类处理，得到目标物品标识聚类簇。在其中一个实施例中，聚类具体可以使用knn的方式对同一人物下的目标物品进行聚类，在聚类过程中，对于每个样本在组内找出与这个样本最近的top50的样本作为一个基础簇，对每个样本做同样的操作，而后并将有交集的簇进行合并，合并后就得到目标物品标识聚类簇，同时为了保证样本均衡，将样本数量大
于3000的和小于 5的目标物品标识聚类簇去掉。同时，聚类结果还包含噪声点，因此还需要识别目标物品标识聚类簇中的噪声点数据，识别过程具体可以通过对得到的每个类别使用dbscan聚类来获取噪声点数据；而后则需要获取噪声点数据对应的噪声点过滤数据，这个过程则可以通过人工过滤来实现，过滤方法主要是将噪声点与类内数据进行对比，决定是否保留噪声数据，当噪声数据过多时，会带来标注成本增加的问题，故放弃噪声数据过多的类别。在其他实施例中，还可以通过机器学习模型来实现噪声过滤的处理过程。最后即可基于过滤处理后的目标物品标识聚类簇，得到目标图片中同一人物对应的多种目标物品标识。在其中一个实施例中，由于从视频中获得的数据存在相似度较高的问题，所以我们对过滤后的数据，再次dbscan聚类，将密度相近的图片随机去除，保留训练数据的多样性。本实施例中，通过聚类以及噪声过滤等处理，可以有效地对目标物品标识进行聚类，从而得到目标图片中同一人物对应的多种目标物品标识。
108.在其中一个实施例中，步骤1009包括：基于过滤处理后的目标物品标识聚类簇中聚类中心对应的目标物品标识，对目标物品标识聚类簇进行标记，获取目标物品标识聚类簇对应的目标物品标识；根据目标物品标识聚类簇中噪声点对应的目标物品标识，对噪声点进行标记，获取噪声点对应的目标物品标识；根据目标物品标识聚类簇对应的目标物品标识，以及噪声点对应的目标物品标识，获取人物轨迹图片中同一人物对应的多种目标物品标识。
109.具体地，对于图片的标注过程，具体可以基于最终得到的目标物品标识聚类簇以及噪声点来进行。对于聚类簇的标注，可以基于过滤处理后的目标物品标识聚类簇中聚类中心对应的目标物品标识，对目标物品标识聚类簇进行标记，从而获取目标物品标识聚类簇对应的目标物品标识；而对于噪声点，则是根据目标物品标识聚类簇中噪声点对应的目标物品标识，对噪声点进行标记，获取噪声点对应的目标物品标识；最终结合目标物品标识聚类簇对应的目标物品标识，以及噪声点对应的目标物品标识，可以得到人物轨迹图片中同一人物对应的多种目标物品标识。例如对服饰数据的标注，由于视频中镜头和图片帧量较大，人工标注比较耗时，假设需要n个类别的服饰数据，每个类内包含50张图片，则需要标注n*50张图片，使用本技术方法后，则只需要对远离聚类中心的噪声点进行标注，大概为类内图片数量的10％，n个类别需要标注的数量为 n*50*10％，标注数量为之前的1/10，从而可以有效提高模型训练数据的获取效率。本实施中，通过分别对目标物品标识聚类簇以及噪声点进行标注，可以有效地得到物轨迹图片中同一人物对应的多种目标物品标识，从而可以有效地得到模型训练数据。
110.本技术还提供一种应用场景，该应用场景应用上述的模型训练数据获取方法。具体地，该模型训练数据获取方法在该应用场景的应用如下：
111.如图11所示，服务器可以向观看者提供视频页面以及视频页面对应的购买链接，当视频页面的观看者点击视频页面上的购物车后，服务器可以通过使用服饰检索模型对视频画面中的服饰与检索库中的服饰进行对比，找到最相似的服饰并且给用户推荐。而为了对服饰检索模型进行训练，在获取服饰检索模型的模型训练数据时，可以预先提取出电视剧或者综艺节目等视频内容中的人物服饰图片，而后基于对这些人物服饰图片的标注来获取模型训练数据，此时具体可以通过本技术的模型训练数据获取方法来获取这些模型训练数据。本技术的大致流程可以参照图12所示，包括基础模型训练，人物id轨迹获取加服饰聚
类，以及服饰数据筛选三个步骤。而其中除基础模型训练外的完整流程则可以参照图13所示，大致可以分为三个部分a：首先通过镜头拆分+人物识别的方法得到单个视频内的人物轨迹；b：然后通过多模型投票的方式对单个视频内的人物轨迹中的服饰进行关联从而得到相似款服饰的id；c：视频中前后帧图像往往差异较小，所以通过追踪得到的数据相似性较高，相似性很高的数据对于训练的意义不大，所以后面我们通过特征密度对不同类的服饰进行筛选。具体地，首先对于基础模型训练，可以选取resnet50与efficientnet-b3的网络结构，以及交叉熵损失函数与metric loss-triplet loss损失函数，通过两两组合来得到 4个服饰检索基础模型，这些模型可以用于实现对图片内服饰特征数据的提取处理。而后是人物轨迹提取处理，首先可以通过镜头切分模块对长视频进行镜头切分，通过人物识别方法对单个片段内的同一个人物进行关联，得到同一个人的轨迹图片，由于人物识别的准确率有限，可能存在同一个人物处于不同id的情况出现，所以此处会可以通过人脸识别技术，对于有人脸的人物id轨迹进行人脸识别，将同一个人物的不同轨迹进行合并，由于不是所有轨迹都包含人脸，所以没有人脸的人物轨迹不能通过这种方法被合并，因此可以将不包含人脸的部分舍弃。而后是服饰聚类处理的流程，将同一个人轨迹通过人物id聚合后，进行服饰检测，对检测后的单个服饰主体，通过多个服饰检索模型聚类的方式得到一个人物下的多个不同服饰，最后，由于视频中的物体相邻帧间相似性较高，所以对同一服饰id通过特征相似度进行筛选。详细步骤可以参照图14所示。为了检测的准确率，还可以对单个人物id下的图片进行服饰检测并按照上衣、下衣以及连衣分为三组，分别使用上述得到的四个基础模型来做特征提取，并对特征进行拼接，而后使用knn的方式对每个人物id下的每个组进行聚类，对于每个样本在组内找出与这个样本最近的top50的样本作为一个基础簇，对每个样本做同样的操作，并将有交集的簇进行合并，合并后就得到每个服饰的服饰id下不同组下的服饰标签，同时为了保证样本均衡，将样本数量大于3000 的和小于5的服饰类别去掉，图15为从聚类结果中随机抽取的一些图片的可视化结果。最后是服饰聚类以及服饰数据筛选的流程，通过聚类得到的服饰数据存在噪声，因此可以对得到的每组服饰数据再使用dbscan聚类，对得到的噪声点进行人工过滤或者是模型过滤，过滤方法主要是将噪声点与类内数据进行对比，决定是否保留噪声数据，当噪声数据过多时，会带来标注成本增加的问题，故放弃噪声数据过多的类别。对于不同人物穿着相同服饰的问题该方法上不能给出很好的解决方案，由于在电视剧，电影中这种情况出现较少，所以也不会带来很严重的数据噪声。同时由于从视频中获得的数据存在相似度较高的问题，因此需要对过滤后的数据，再次dbscan聚类，将密度相近的图片随机去除，得到最终需要的模型训练数据，同时保留这些模型训练数据的多样性。
112.应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
113.基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的模型训
练数据获取方法的模型训练数据获取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个模型训练数据获取装置实施例中的具体限定可以参见上文中对于模型训练数据获取方法的限定，在此不再赘述。
114.在一个实施例中，如图16所示，提供了一种模型训练数据获取装置，包括：
115.数据获取模块1601，用于获取待标注的视频数据；
116.轨迹提取模块1603，用于提取待标注的视频数据中同一人物对应的目标图片；
117.目标物品检测模块1605，用于对目标图片进行物品检测处理，得到人物对应的目标物品标识；
118.聚类处理模块1607，用于对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识；
119.数据标注模块1609，用于根据目标图片中同一人物对应的多种目标物品标识对目标图片进行标注，得到用于机器学习模型训练的模型训练数据。
120.在一个实施例中，轨迹提取模块1603具体用于：对待标注的视频数据进行镜头切分处理，得到切分视频数据；对切分视频数据中的同一人物进行人物识别处理，得到同一人物对应的目标图片。
121.在一个实施例中，轨迹提取模块1603还用于：识别切分视频数据中包含人脸的人脸视频帧；对人脸视频帧进行人脸识别处理，得到相同人脸对应的人脸视频帧；将相同人脸对应的人脸视频帧，作为同一人物对应的目标图片。
122.在一个实施例中，聚类处理模块1607具体用于：通过多模型投票法对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识。
123.在一个实施例中，聚类处理模块1607还用于：通过不同的预设特征提取模型对包含目标物品标识的目标图片进行特征提取处理，得到基础物品特征；将不同的预设特征提取模型提取得到的基础物品特征进行拼接处理，获取目标物品特征；基于目标物品特征对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识。
124.在一个实施例中，预设特征提取模型包括第一特征提取模型、第二特征提取模型、第三特征提取模型以及第四特征提取模型；还包括模型构建模块，用于：通过预设第一算法与预设第三算法构建第一特征提取模型，通过预设第二算法与预设第三算法构建第二特征提取模型，通过预设第一算法与预设第四算法构建第三特征提取模型，通过预设第二算法与预设第四算法构建第四特征提取模型。
125.在一个实施例中，聚类处理模块1607还用于：基于目标物品特征，对人物对应的目标物品标识进行聚类处理，得到目标物品标识聚类簇；识别目标物品标识聚类簇中的噪声点数据；获取噪声点数据对应的噪声点过滤数据；基于噪声点过滤数据对目标物品标识聚类簇中的噪声点进行过滤处理；基于过滤处理后的目标物品标识聚类簇，得到目标图片中同一人物对应的多种目标物品标识。
126.在一个实施例中，聚类处理模块1607还用于：基于过滤处理后的目标物品标识聚类簇中聚类中心对应的目标物品标识，对目标物品标识聚类簇进行标记，获取目标物品标
识聚类簇对应的目标物品标识；根据目标物品标识聚类簇中噪声点对应的目标物品标识，对噪声点进行标记，获取噪声点对应的目标物品标识；根据目标物品标识聚类簇对应的目标物品标识，以及噪声点对应的目标物品标识，得到人物轨迹图片中同一人物对应的多种目标物品标识。
127.上述模型训练数据获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
128.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output，简称i/o)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型训练数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型训练数据获取方法。
129.本领域技术人员可以理解，图17中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
130.在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：
131.获取待标注的视频数据；
132.提取待标注的视频数据中同一人物对应的目标图片；
133.对目标图片进行物品检测处理，得到人物对应的目标物品标识；
134.对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识；
135.根据目标图片中同一人物对应的多种目标物品标识对目标图片进行标注，得到用于机器学习模型训练的模型训练数据。
136.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：
137.获取待标注的视频数据；
138.提取待标注的视频数据中同一人物对应的目标图片；
139.对目标图片进行物品检测处理，得到人物对应的目标物品标识；
140.对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识；
141.根据目标图片中同一人物对应的多种目标物品标识对目标图片进行标注，得到用于机器学习模型训练的模型训练数据。
142.在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：
143.获取待标注的视频数据；
144.提取待标注的视频数据中同一人物对应的目标图片；
145.对目标图片进行物品检测处理，得到人物对应的目标物品标识；
146.对人物对应的目标物品标识进行聚类处理，以将人物对应的目标物品标识中相似度满足相似条件的物品标识聚合，得到目标图片中同一人物对应的多种目标物品标识；
147.根据目标图片中同一人物对应的多种目标物品标识对目标图片进行标注，得到用于机器学习模型训练的模型训练数据。
148.需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
149.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory，mram)、铁电存储器 (ferroelectric random access memory，fram)、相变存储器(phase changememory，pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器 (random access memory，ram)或外部高速缓冲存储器等。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random accessmemory，sram)或动态随机存取存储器(dynamic random access memory， dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。
150.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
151.以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本技术专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高树会曲直裴唯一
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：用于光模块的温控夹紧装置、压接盒以及误码测试装置的制作方法
上一篇：光学镜头的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。