一种人脸识别深度学习训练平台的优化方法及系统与流程

文档序号:16390225发布日期:2018-12-22 11:19阅读:347来源:国知局
一种人脸识别深度学习训练平台的优化方法及系统与流程

本发明深度学习领域,更具体地,特别是指一种人脸识别深度学习训练平台的优化方法及系统。

背景技术

20世纪50年代“人工智能(ai,artificialintelligence)”第一次出现在人们的视野中,中间经历了多次高潮和低谷。其中,影响人工智能发展的一个重要因素是计算平台的性能,随着计算数据的不断增加和网络算法复杂度的不断提高,计算平台的性能决定着技术是否可以实用并投产。现阶段随着cpu+gpu、cpu+fpga、tpu等计算设备性能的不断提升,人工智能技术成果及相关产业迎来了爆发式增长。

目前,人工智能渗透到各行各业,在金融、安防等行业出现了大量基于深度学习的人工智能应用,其中研究应用广泛的是人脸识别深度学习应用。人脸识别技术是基于人的脸部特征,对输入的人脸图像或者视频流。首先判断其是否存在人脸,如果存在人脸,则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息。并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份。深度学习算法的发展使人脸识别技术在行业内掀起研究热潮,众多厂商纷纷推出了相关产品,如针对公安行业的人脸大数据作战平台、人脸识别闸机、安防人脸布控系统等。这一轮的人工智能人脸识别技术得益于数据、计算力和算法的共同助力才得以快速发展。但是,随着数据规模不断增大,算法复杂度不断提高,对平台计算能力的要求日益苛刻;如目前研究火热的3d人脸识别技术、人脸活体识别技术,其要求的数据量规模巨大、算法更加复杂,如何搭建深度学习训练平台提高计算能力、计算效率成为保证技术发展、技术进步的关键因素。

目前人脸识别深度学习训练平台,普遍采用的是通用服务器搭配计算设备,在模型简单计算相对容易的初期阶段,可以满足模型训练的需求;但是随着深度学习模型的出现,模型复杂度提升,通用服务器已经不能满足训练需要,很多解决方案只靠单纯堆积中央处理器(cpu)、内存、图像处理单元(gpu,graphicsprocessingunit)等硬件来提升性能,但结果往往是花费较多代价,带来的提升却很有限。

服务器性能的提升是一个系统的、各部件耦合的过程,尤其针对人脸识别这样特定的应用,必须深入分析应用特点才能有针对性的对平台进行性能优化。目前,对于人脸识别线下训练平台大部分的性能提升方法是花费大量金钱去堆积硬件,在通用服务器上一味改变配置达不到很好的性价比收益。如果按照此方式去优化平台,不仅会浪费大量的成本,还有可能使性能不升反降。

现有技术中尚未披露一种过调整搭配方案提高人脸识别线下训练应用的性能,并且通过对人脸识别应用特点进行分析得到平台优化的方法和步骤,最终形成一套基本的硬件搭配方案。



技术实现要素:

有鉴于此,本发明的目的在于提出一种人脸识别深度学习训练平台的优化方法及系统,通过对预定平台的配置、部件参数及其部件连接关系进行优化,从而节约成本、有效提高了训练速度、生产效率。

基于上述目的,本发明实施例的一方面,提供了一种人脸识别深度学习训练平台的优化方法,包括以下步骤:

运行预定人脸识别模型;

测试cpu的使用情况;

测试磁盘数据的读写情况和iops情况;

测试gpu显存带宽使用率和gpu显存核心使用率;

测试根据运行的gpu卡的数量抓取的gpu使用情况;

根据全部所述测试的测试结果,对预定平台的配置、部件参数及其部件连接关系进行优化。

在一些实施例中,测试cpu的使用情况包括:对测试时cpu的核心使用率、系统负载使用率、空闲率以及io等待占用百分比随时间的利用率进行分析,得出是否核心使用率和系统负载使用率很低、空闲率很高、并且i/o等待占用百分比很小的判断。

在一些实施例中,测试磁盘数据的读写情况和iops情况包括:对磁盘的读写速度和iops进行分析,得出是否磁盘中数据的存储和读取影响平台线下训练效率的判断。

在一些实施例中,测试gpu显存带宽使用率和gpu显存核心使用率包括:对gpu指标监控分析以得出影响gpu显存带宽和gpu显存核心使用的因素,其中,该因素包括以下至少之一:内存带宽、拓扑、gpu主频。

在一些实施例中,测试根据运行的gpu卡的数量抓取的gpu使用情况包括:通过定卡测试,验证内存带宽、内存容量以及gpu的使用情况。

在一些实施例中,对预定平台的配置、部件参数及其部件连接关系进行优化包括对磁盘的i/o性能进行优化,这进一步包括:

调整数据布局,将i/o合理分配到所有物理磁盘中;

磁盘排列为磁盘阵列(raid),选取合适的raid方法,尽量使应用程序i/o等于条带尺寸或者条带尺寸的倍数;

增大磁盘驱动程序的队列深度;

应用缓存技术减少应用存取磁盘的次数,可以应用在文件系统级别或者应用程序级别;

其中,磁盘i/o性能监控的指标包括以下至少之一:每秒的i/o数(iops或tps)、吞吐量、平均i/o数据尺寸、磁盘活动时间百分比、服务时间、i/o等待队列长度、等待时间。

在一些实施例中,对预定平台的配置、部件参数及其部件连接关系进行优化包括对内存带宽进行优化,这进一步包括:

在新平台上减少内存条数,12通道对应12条内存条,使用2666hz的ddr4内存,内存容量上选择32g/条。

在一些实施例中,对预定平台的配置、部件参数及其部件连接关系进行优化包括对拓补结构及超线程进行优化,这进一步包括:

修改拓补结构,将原拓扑结构修改为cpu1下分别挂载两个选择交换器(switch),每个选择交换器下分别挂载4个gpu,以保证gpu之间全部p2p通信,减少gpu卡之间数据传输的延迟时间;

打开超线程,以增加多进程读取数据的能力。

在一些实施例中,对预定平台的配置、部件参数及其部件连接关系进行优化包括对gpu参数进行优化,这进一步包括:

开启gpu超频(boost)并且将运行频率设置为最大值、关闭错误检测与纠错(ecc)以保证训练速度和训练稳定性;

将计算设备型号调整为v100,增大批量尺寸(batchsize)得到人脸识别应用的训练速度。

在一些优选实施例中,对预定平台的配置、部件参数及其部件连接关系进行优化包括以下各项中的至少一项:

存储数据的介质由机械硬盘转换为固态硬盘,以加快数据i/o;

内存条16根减少为12根,由2200mhz频率变换为2666mhz频率,以避免降频现象出现,提高内存带宽;

更换计算设备由p100转换为v100,以增加核心处理能力;

修改所述gpu的boost频率为最大;

打开所述cpu的超线程,以增强数据读取能力;以及

将拓补结构变换为每个所述gpu之间可以点对点通信,以减少延迟。

本发明实施例的另一方面,还提供了一种人脸识别深度学习训练平台的优化系统,包括:

处理器;

存储器,所述存储器存储有所述处理器可执行的指令,所述处理器在执行所述指令时实现上述方法。

本发明具有以下有益技术效果:本发明实施例提供的一种人脸识别深度学习训练平台的优化方法及系统,通过对预定平台的配置、部件参数及其部件连接关系进行优化,调整了服务器硬件搭配方案,解决了现有技术中单纯依靠堆积硬件并且在通用服务器上一味改变配置而导致的性价比低,浪费成本限制性能提升等问题,最终节约了成本、有效提高了训练速度、训练稳定性以及生产效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种人脸识别深度学习训练平台的优化方法的实施例的流程示意图;

图2为本发明提供的yc-rec152八卡测试cpu使用情况的一个实施例的示意图;

图3a为本发明提供的硬盘读写数据量随时间的变化的一个实施例的示意图;

图3b为本发明提供的iops(每秒进行读写(i/o)操作的次数)情况的一个实施例的示意图;

图4为本发明提供的gpu显存带宽使用率与gpu显存核心使用率的一个实施例的示意图;

图5a为本发明提供的前4gpu卡、后4gpu卡以及8gpu卡的内存容量、内存带宽对比情况的一个实施例的示意图;

图5b为本发明提供的前4gpu卡的gpu1使用情况的一个实施例的示意图;

图5c为本发明提供的后4gpu卡的gpu5使用情况的一个实施例的示意图;

图6为本发明提供的基于yc-res152人脸识别模型在agx2平台上进行优化的一个实施例的柱状图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。

需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”和“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。

基于上述目的,本发明实施例的第一个方面,提出了一种人脸识别深度学习训练平台的优化方法的一个实施例。图1示出了本发明提供的人脸识别深度学习训练平台的优化方法的实施例的流程示意图。

一种人脸识别深度学习训练平台的优化方法,可选地,包括以下步骤:

步骤s100,运行预定人脸识别模型;

步骤s101,测试cpu的使用情况;

步骤s102,测试磁盘数据的存储和读取情况;

步骤s103,测试gpu显存带宽使用率和gpu显存核心使用率;

步骤s104,测试根据运行的gpu卡的数量抓取的gpu使用情况;

步骤s105,根据全部所述测试的测试结果,对预定平台的配置、部件参数及其部件连接关系进行优化。

其中,预定人脸识别模型为yc-res152人脸识别模型。预定平台为agx2平台。为了形成一套针对人脸识别的深度学习训练平台优化方案,将针对一款人脸识别模型yc-resnet(residualnetworks,深度残差网络)152模型进行性能测试,通过得到yc-resnet152模型在计算时训练平台的表现数据,有针对性的对平台进行优化,形成一套基于人脸识别深度学习训练平台优化方案。其中,yc-resnet152模型基于resnet152模型改进,属于深度学习卷积神经网络。

为了提高人脸识别应用深度学习训练性能同时提高平台的计算能力,以yc-res152人脸识别模型为支撑,对其应用特点在浪潮agx2(nf5288m5浪潮倚天服务器2u8gpu卡高密度服务器)平台上的表现作为参考,对平台进行优化。agx2平台在未调整之前的基本配置为:

针对人脸识别应用深度学习线下训练任务的特点对深度学习平台配置及基本硬件参数进行搭配及调优。

agx-2平台cpu与gpu之间的拓扑形式为:cpu0下通过总线交换器(switch)挂载4个gpu,cpu1下通过switch挂载4个gpu。yc-res152模型利用深度学习框架caffe(convolutionalarchitectureforfastfeatureembedding)在agx-2平台上做测试时其训练速度为:

在agx-2平台上测试了基本的基准(benchmark)性能:cpu测试浮点运算峰值为479gflops(每秒10亿次的浮点运算数)、内存带宽为130g/s、gpu-带宽(bandwidth)为500g/s、cpu+gpu浮点运算峰值为23.7tflops(每秒1万亿次的浮点运算)。我们最终通过调整硬件配置提升测试基本性能和yc-res152人脸识别应用模型训练速度。

基于cpu+gpu的深度学习平台已成为目前ai领域的标准配置,使用基于cpu+gpu的ai服务器提高人脸识别应用线下训练效率、加快模型发布进度可以加快ai业务的发展;通过对ai训练平台的优化,可以降低投入成本、获得更高的训练效率、提高训练的稳定性。

图2示出了本发明提供的yc-rec152八卡测试cpu使用情况一个实施例的示意图。在一个优选实施例中,测试了平台在人脸识别应用运行时cpu的使用情况,包括,对测试时cpu的核心使用率、系统负载使用率、空闲率以及io等待占用百分比随时间的利用率进行分析得出是否核心使用率和系统负载使用率很低、空闲率很高、并且io等待占用百分比很小的判断。

如图2所示,测试了上述agx-2平台在人脸识别应用运行时,cpu的使用情况:cpu的性能可能会在一定程度上影响模型处理的速度,在深度学习线下训练应用中,cpu的主要功能为控制程序逻辑、处理gpu回传的模型参数、控制内存的数据传送等。利用天眼分析工具(teye)抓取yc-res152应用测试时机器的cpu使用情况,进行分析。从下图使用情况可以明显看出核心使用率(cpu_user)201和系统负载使用率(cpu_sys)202很低、空闲率(cpu_idle)203很高、并且i/o等待(cpu_iowait)占用百分比204很小。以上可知,cpu的性能不是机器性能提升的瓶颈。其中,天眼分析工具是应用特征监控分析工具。其中,天眼是浪潮高性能团队自主研发的一款性能监控软件,可以实时监控深度学习应用运行时机器的性能指标。通过对性能指标监测、分析,可以保证系统运行稳定、资源利用充分,还可以分析带宽、计算资源利用率,寻找应用瓶颈点优化算法应用。深度学习集群搭载天眼分析工具,可以节省成本、不断提高集群及算法效能。

结合yc-res152模型在深度学习训练平台的性能表现,利用浪潮teye工具的分析可以得到下述结论:通过对cpu使用分析可知,平台cpu核心使用率和系统负载使用率很低,cpu的性能不是机器性能提升的瓶颈。

图3a为本发明提供的硬盘读写数据量随时间的变化的一个实施例的示意图。图3b为本发明提供的iops(每秒进行读写(i/o)操作的次数)情况的一个实施例的示意图。在一个优选实施例中,测试了平台在人脸识别应用运行时磁盘数据的读写情况和iops情况,包括,对磁盘的读写速度和iops进行分析得出是否磁盘中数据的存储和读取影响平台线下训练效率的判断。

如图3a-3b所示,测试了上述agx-2平台在人脸识别应用运行时,磁盘数据的读写情况图,其中,disk_read_mb301为读取磁盘数据量、disk_write_mb302为写入磁盘数据量以及disk_iops为磁盘每秒进行读写(i/o)操作的次数。yc-res152模型在disk_read_mb指标上达到了17m/s左右,但在120秒和1542秒左右出现了波动,硬盘读写速度到达了110m/s和70m/s(如图3a所示)。查询训练的日志(log),发现这段时间中每秒处理的图像数目出现了波动。同时检测了硬盘的iops(每秒进行读写(i/o)操作的次数)情况,disk1_iops(如图3b所示))在120s和1543s左右突变也能很好的解释图像处理速度的波动现象。磁盘的读写及iops都属于磁盘i/o问题,除去应用程序的优化,可以采用更多磁盘做磁盘阵列(raid)堆积i/o或者改用ssd硬盘。上述的分析表明,数据的存储及读取影响了yc-res152线下训练的效率,提高训练平台的数据读写能力将有助于提高线下训练的效率。

结合yc-res152模型在深度学习训练平台的性能表现,利用浪潮teye工具的分析可以得到下述结论:通过对磁盘的iops及读写速度分析可知,数据的存储及读取影响了平台线下训练的效率,提高训练平台的数据读写能力将有助于提高线下训练的效率。

图4示出了本发明提供的gpu显存带宽使用率与gpu显存核心使用率的一个实施例的示意图。在一个优选实施例中,测试了平台在人脸识别应用运行时gpu显存带宽使用率和gpu显存核心使用率,包括,对gpu指标监控分析以得出影响gpu显存带宽和gpu显存核心使用的因素,其中,该因素包括以下至少之一:内存带宽、拓扑、gpu主频。

如图4可知,测试了上述agx-2平台在人脸识别应用运行时,显存带宽与显存核心使用率(如图4所示),其中,gpu1_rate401表示gpu1的显存核心使用率,gpu1_mem_rate402表示gpu1的显存带宽使用率。显存带宽使用率变化很大,从0%~100%之间波动。不过大部分时间带宽的使用率都是100%。teye抓取的数据显示gpu使用率和显存带宽使用率各卡之间存在差异。且带宽使用不稳定影响gpu核心使用情况。因此,平台需要通过调整拓补、磁盘带宽等达到提高显存带宽使用率的目的。

结合yc-res152模型在深度学习训练平台的性能表现,利用浪潮teye工具的分析可以得到下述结论:通过对gpu指标监控分析可知,显存带宽及核心的使用情况直接表征了平台的处理效率和能力,影响显存带宽及核心使用的诸项因素(内存带宽、拓补、gpu主频)等都会影响处理效率。

图5a示出了本发明提供的前4gpu卡、后4gpu卡以及8gpu卡的内存容量、内存带宽对比情况的一个实施例的示意图。图5b示出了本发明提供的前4gpu卡的gpu1使用情况的一个实施例的示意图。图5c示出了本发明提供的后4gpu卡的gpu5使用情况的一个实施例的示意图。在一个优选实施例中,测试了平台在人脸识别应用运行时根据运行的gpu卡的数量抓取的gpu使用情况,包括,通过定卡测试,验证内存带宽、内存容量以及gpu的使用情况。

如图5a-5c所示,测试了上述agx-2平台在人脸识别应用运行时,按照运行的gpu卡的数量抓取的gpu使用情况。其中前4卡_memused_kb501表示前4卡内存带宽、内存容量使用情况,后4卡_memused_kb502表示后4卡内存带宽、内存容量使用情况,8卡_memused_kb503表示全部8卡内存带宽、内存容量使用情况,gpu1_rate504表示gpu1的显存核心使用率,gpu1_mem_rate505表示gpu1的显存带宽使用率,gpu5_rate506表示gpu5的显存核心使用率,gpu5_mem_rate507表示gpu5的显存带宽使用率。我们进行一组定卡测试,使用的数据不变,测试分为三组,绑定gpu卡0,1,2,3为一组测试;绑定gpu卡4,5,6,7为第二组测试;再测一次整体八卡。该测试的主要目的是验证内存带宽、内存容量(下图1所示),gpu的使用情况(下图2所示)。通过对比4卡与8卡应用的内存容量使用情况可以得出,使用容量几乎一致,内存容量不存在瓶颈;对比4卡与8卡之间内存带宽的使用情况,得出带宽的使用率并未呈现线性增长,内存带宽成为限制应用的瓶颈点;可以发现前4卡测试中的显存带宽使用率要比后4卡显存带宽使用率表现的略稳定;对比4卡与8卡测试时gpu的使用情况,4卡使用更加充分,内存带宽成为限制后影响了gpu的使用率,平台数据传输能力提高即内存带宽需要提高。测试结果表明,在数据处理量较小情况下,平台的gpu带宽及核心使用情况较好,因此在传输数据环节上八卡的模型训练,平台数据传输能力还需提高。

结合yc-res152模型在深度学习训练平台的性能表现,利用浪潮teye工具的分析可以得到下述结论:通过定卡分析可知,降低内存带宽负载,提高内存带宽可以提高gpu显存带宽及核心的使用效率。

在一个优选实施例中,对预定平台的配置、部件参数及其部件连接关系进行优化包括对磁盘的io性能进行优化,这进一步包括:

调整数据布局,将i/o合理分配到所有物理磁盘中;

磁盘排列为磁盘阵列(raid),选取合适的raid方法,尽量使应用程序i/o等于条带尺寸或者条带尺寸的倍数;

增大磁盘驱动程序的队列深度;

应用缓存技术减少应用存取磁盘的次数,可以应用在文件系统级别或者应用程序级别;

其中,磁盘i/o性能监控的指标包括以下至少之一:每秒的i/o数(iops或tps)、吞吐量、平均i/o数据尺寸、磁盘活动时间百分比、服务时间、i/o等待队列长度、等待时间。

做磁盘i/o性能优化,磁盘的最主要作用为存储数据以供应用程序读写数据,磁盘的i/o性能指标为磁盘性能指标的最主要方面。磁盘i/o性能监控的指标主要包括:每秒的i/o数(iops或tps)、吞吐量、平均i/o数据尺寸、磁盘活动时间百分比、服务时间、i/o等待队列长度、等待时间等。对于平台来讲有一些常用的优化方法,如1、调整数据布局,将i/o合理分配到所有物理磁盘中;2、磁盘做raid,选取合适的raid方法,尽量使应用程序i/o等于条带尺寸或者条带尺寸的倍数;3、增大磁盘驱动程序的队列深度;4、应用缓存技术减少应用存取磁盘的次数,可以应用在文件系统级别或者应用程序级别。

在一个优选实施例中,对预定平台的配置、部件参数及其部件连接关系进行优化包括对内存带宽进行优化,这进一步包括:

在新平台上减少内存条数,12通道对应12条内存条,使用2666hz的ddr4内存,内存容量上选择32g/条。

内存带宽的优化,通过在新平台上减少内存条数12通道对应12条内存条,使用2666hz的ddr4内存,内存容量上选择32g/条。内存带宽调整之后,yc-res152人脸识别应用在平台上的处理速度为:

在一个优选实施例中,对预定平台的配置、部件参数及其部件连接关系进行优化包括对拓补结构及超线程进行优化,这进一步包括:

修改拓补结构,将原拓扑结构修改为cpu1下分别挂载两个选择交换器(switch),每个选择交换器下分别挂载4个gpu,以保证gpu之间全部p2p通信,减少gpu卡之间数据传输的延迟时间;

打开超线程,该打开超线程增加了多进程读取数据的能力,提高了应用测试性能。

超线程及拓补结构的优化,打开超线程会增加多进程读取数据的能力,在一定程度上会提高应用测试性能;修改拓补结构,改为cpu1下分别挂两个switch,每一个switch下分别挂4个gpu,这样可以保证gpu之间全部p2p通信,减少卡之间数据传输的延迟时间。如下表所示为调整超线程、拓补之后应用的测试性能:

在一个优选实施例中,对预定平台的配置、部件参数及其部件连接关系进行优化包括对gpu参数进行优化,这进一步包括:

开启gpu超频(boost)并且将运行频率设置为最大值、关闭错误检测与纠错(ecc)以保证训练速度和训练稳定性;

将计算设备型号调整为v100,增大批量尺寸(batchsize)得到人脸识别应用的训练速度。

gpu参数的调整优化,通过开启gpuboost并设置运行频率至最大、关闭ecc纠错检查等来保证训练速度和训练稳定性;然后通过调整计算设备型号为v100,增大批量尺寸(batchsize)等最终得到人脸识别应用的训练速度:

图6为本发明提供的基于yc-res152人脸识别模型在agx2平台上进行优化的一个实施例的柱状图。在一个优选实施例中,对预定平台的配置、部件参数及其部件连接关系进行优化包括以下各项中的至少一项:

存储数据的介质由机械硬盘转换为固态硬盘,以加快数据i/o;

内存条16根减少为12根,由2200mhz频率变换为2666mhz频率,以避免降频现象出现,提高内存带宽;

更换计算设备由p100转换为v100,以增加核心处理能力;

修改所述gpu的boost频率为最大;

打开所述cpu的超线程,以增强数据读取能力;以及

将拓补结构变换为每个所述gpu之间可以点对点通信,以减少延迟。

其中,p100为_nv_24g_tesla-p100_4096b_s_cac英伟达特斯拉p100显卡,v100为_nv_16g_tesla-v100_s_cac英伟达特斯拉v100显卡。通过对m5平台采用的一系列优化策略(如图6所示),yc-res152模型初始的训练速度为1300samples/s;经过磁盘带宽优化即更换将数据改换到ssd硬盘之后提高为1350samples/s左右;经过内存带宽优化后,数据处理速度达1450samples/s;经过不同情况拓补的对比,可得gpu卡之间全部点对点通信的拓补形式训练速度最为稳定,通过打开超线程yc-res152模型在m5平台的处理速度为1500samples/s;通过开启gpuboost并设置运行频率至最大、关闭ecc纠错检查,处理速度为1600samples/s;通过更换计算volta机构的设备v100,处理速度达到3400samples/s,优化后性能是初始性能的2.6x。

该优化是基于浪潮agx2ai人脸识别应用深度学习训练平台搭建方案及优化方案,浪潮的ai服务器平台agx2通过该套方法流程的优化可以更好的满足客户深度学习训练的需求,提高训练效率,提高ai服务器的ai业务解决能力和市场竞争力。基于cpu+gpu的深度学习平台已成为目前ai领域的标准配置,使用基于cpu+gpu的ai服务器提高人脸识别应用线下训练效率、加快模型发布进度可以加快ai业务的发展;通过对ai训练平台的优化,可以降低投入成本、获得更高的训练效率、提高训练的稳定性。

yc-res152模型在人脸识别线下模型训练领域具有代表性,根据yc-res152模型测试得到的结论以及优化后的性能表现,平台基本的配置可以重新按照人脸识别深度学习的应用要求进行搭配。(下表)为基于人脸识别应用的深度学习训练平台基本参数。平台基本参数确定后,其拓扑结构是cpu1下2x16分别挂载4张卡,8张卡之间可以p2p通信。线下训练时超线程打开,gpu开启boost并设置运行频率至最大。

从上述实施例可以看出,本发明实施例提供的一种深度学习训练平台的优化方法,基于人脸识别模型对人脸识别应用特点进行分析,针对线下训练应用在服务器平台上出现的瓶颈点,通过对平台的配置、部件参数及其部件连接关系进行优化,调整了服务器硬件搭配方案,解决了现有技术中单纯依靠堆积硬件并且在通用服务器上一味改变配置而导致的性价比低,浪费成本限制性能提升等问题,最终节约了成本、有效提高了训练速度、训练稳定性以及生产效率。

需要特别指出的是,上述深度学习训练平台的优化方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于深度学习训练平台的优化方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例,上述本发明实施例公开的顺序仅仅为了描述,不代表实施例的优劣。但是应当注意,以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子,在不背离权利要求限定的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。

基于上述目的,本发明实施例的第二个方面,提出了一种人脸识别深度学习训练平台的优化系统,包括:处理器;存储器,所述存储器存储有所述处理器可执行的指令,所述处理器在执行所述指令时实现上述方法。

本发明实施例提供的深度学习训练平台的优化系统,基于人脸识别模型对人脸识别应用特点进行分析,针对线下训练应用在服务器平台上出现的瓶颈点,通过对平台的配置、部件参数及其部件连接关系进行优化,调整了服务器硬件搭配方案,解决了现有技术中单纯依靠堆积硬件并且在通用服务器上一味改变配置而导致的性价比低,浪费成本限制性能提升等问题,最终节约了成本、有效提高了训练速度、训练稳定性以及生产效率。

需要特别指出的是,上述深度学习训练平台的优化系统的实施例采用了所述深度学习训练平台的优化系统的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述深度学习训练平台的优化方法的其他实施例中。当然,由于所述深度学习训练平台的优化方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于深度学习训练平台的优化系统也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。

当前各行业中的ai应用中线下训练平台都或多或少存在性能瓶颈,大多数采用简单的硬件设备叠加来做平台优化。随着人工智能的大发展以及深度学习数据规模的变化,有条理、有针对性的对训练平台进行优化可以提高训练速度、提高生产效率。此套方案不仅可以针对人脸识别线下训练应用平台,对于语音识别线下训练平台、自然语言处理线下训练平台也可以无缝移植,提高平台优化针对性。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1