终端设备的AI推理性能评测方法及装置、存储介质、终端与流程

文档序号:31861957发布日期:2022-10-19 05:32阅读:57来源:国知局
终端设备的AI推理性能评测方法及装置、存储介质、终端与流程
终端设备的ai推理性能评测方法及装置、存储介质、终端
技术领域
1.本发明涉及计算机应用技术领域,尤其涉及一种终端设备的ai推理性能评测方法及装置、存储介质、终端。


背景技术:

2.随着人工智能(artificial intelligence,ai)技术的快速发展和应用,电子智能设备的ai推理性能正在不断提升。在智能终端领域,硬件层面(例如芯片)的ai推理性能已成为各大芯片与终端厂商的产品竞争力的一个重要指标。
3.当前,机器翻译已经成为了ai领域的热门研究与应用方向。虽然已经有不少评测机构开发了智能设备的ai性能评测软件,用以判定手机等智能设备的芯片及相关硬件(含硬件驱动)的ai推理性能。但是,现有的评测软件集中应用在图像处理技术领域,例如目标识别/分类、目标检测/跟踪、图像语义分割等。此外,现有的ai评测软件在自然语言处理(natural language processing,nlp)技术领域的应用也主要涉及关键词提取、语音问答等,而没有涉及机器翻译应用场景。
4.由于不同厂商之间产品设计的区别,以及同一系列产品软硬件更新换代的影响,不同的终端设备在执行同一机器翻译任务时,ai推理性能可能会存在较大差异。然而,在现有技术中,由于缺乏对终端设备执行机器翻译任务的ai推理性能进行评测的有效方案,导致用户无法直观准确地了解/对比不同终端设备在执行相同的机器翻译任务时的ai推理性能。并且,也无法对终端设备的ai推理性能进行多维度、全面、准确的评测。
5.因此,亟需一种终端设备的ai推理性能评测方法,填补技术空白,可以直观、准确地对终端设备执行机器翻译任务的ai推理性能进行评测。


技术实现要素:

6.本发明实现的目的之一是提供一种终端设备的ai推理性能评测方法,可以准确地对终端设备在执行机器翻译任务的ai推理性能进行评测。
7.为实现上述目的,本发明实施例提供一种终端设备的ai推理性能评测方法,包括以下步骤:采用待评测的终端设备和机器翻译模型对多条语句进行翻译,得到每条语句的候选译文;计算将各条语句翻译成所述候选译文的翻译时长均值,以及基于各条语句的候选译文与参考译文确定翻译质量评价结果;基于所述翻译时长均值和所述翻译质量评价结果,对所述终端设备执行机器翻译任务的ai推理性能进行评测;其中,所述翻译时长均值越小,所述翻译质量评价结果的数值越大,所述终端设备执行机器翻译任务的ai推理性能越强。
8.可选的,所述采用待评测的终端设备和机器翻译模型对多条语句进行翻译,得到每条语句的候选译文包括:采用所述待评测的终端设备运行ai推理性能评测软件;采用所述ai推理性能评测软件加载所述机器翻译模型和包含多条所述语句的测试数据集,并采用所述机器翻译模型对所述测试数据集进行翻译,得到每条语句的候选译文。
9.可选的,所述机器翻译模型为采用预设的训练数据集对预设模型进行训练后得到的;所述预设模型选自:神经网络机器翻译nmt模型、统计机器翻译smt模型。
10.可选的,所述基于各条语句的候选译文与参考译文确定翻译质量评价结果包括:对于每条语句,采用预设的翻译质量评价指标,基于该条语句的候选译文与参考译文确定初步翻译质量评价结果。
11.可选的,所述基于各条语句的候选译文与参考译文确定翻译质量评价结果还包括:对所得到的各个初步翻译质量评价结果进行平均计算,以采用各个初步翻译质量评价结果的均值作为所述翻译质量评价结果;或者,对所得到的各个初步翻译质量评价结果进行中位数计算,以采用各个初步翻译质量评价结果的中位数作为所述翻译质量评价结果;或者,对所得到的各个初步翻译质量评价结果进行加权计算,以采用各个初步翻译质量评价结果的加权运算值作为所述翻译质量评价结果。
12.可选的,所述翻译质量评价指标选自以下一项或多项:双语评估替补评价指标bleu、基于召回率的翻译质量评价指标rouge以及有序翻译质量评价指标meteor。
13.可选的,所述基于所述翻译时长均值和所述翻译质量评价结果,对所述终端设备执行机器翻译任务的ai推理性能进行评测包括:根据所述翻译时长均值和所述翻译质量评价结果确定评测得分;基于所述评测得分对所述终端设备执行机器翻译任务的ai推理性能进行评测;其中,所述评测得分越高,所述终端设备执行机器翻译任务的ai推理性能越强。
14.可选的,根据所述翻译时长均值和所述翻译质量评价结果确定评测得分包括:采用预设的权重比例,对所述翻译时长均值和所述翻译质量评价结果进行加权运算,得到所述评测得分。
15.可选的,在得到所述评测得分之后,所述方法还包括:将所述翻译时长均值、所述翻译质量评价结果以及所述评测得分反馈给用户。
16.可选的,计算将各条语句翻译成所述候选译文的翻译时长均值包括:确定翻译的语句数量以及确定将各条语句翻译成所述候选译文的总翻译时长;采用所述总翻译时长与翻译的语句数量的商值,作为所述翻译时长均值。
17.本发明实施例还提供一种终端设备的ai推理性能评测装置,包括:机器翻译模块,用于采用待评测的终端设备和机器翻译模型对多条语句进行翻译,得到每条语句的候选译文;评测参数确定模块,用于计算将各条语句翻译成所述候选译文的翻译时长均值,以及基于各条语句的候选译文与参考译文确定翻译质量评价结果;推理性能评测模块,用于基于所述翻译时长均值和所述翻译质量评价结果,对所述终端设备执行机器翻译任务的ai推理性能进行评测;其中,所述翻译时长均值越小,所述翻译质量评价结果的数值越大,所述终端设备执行机器翻译任务的ai推理性能越强。
18.本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述终端设备的ai推理性能评测方法的步骤。
19.本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述终端设备的ai推理性能评测方法的步骤。
20.与现有技术相比,本发明实施例的技术方案具有以下有益效果:
21.在本发明实施例中,采用待评测的终端设备和机器翻译模型对多条语句进行翻
译,得到每条语句的候选译文;计算将各条语句翻译成所述候选译文的翻译时长均值,以及基于各条语句的候选译文与参考译文确定翻译质量评价结果;基于所述翻译时长均值和所述翻译质量评价结果,对所述终端设备执行机器翻译任务的ai推理性能进行评测;其中,所述翻译时长均值越小,所述翻译质量评价结果的数值越大,所述终端设备执行机器翻译任务的ai推理性能越强。本技术公开的方案通过综合考虑翻译时长、翻译质量评价结果(可以用于指示翻译得到的候选译文与参考译文之间的相关性),对终端设备执行机器翻译任务的ai推理性能进行评测。由此,可以填补现有的ai性能评测技术中对终端设备执行机器翻译任务的ai推理性能进行评测的技术空白,从而让用户可以直观、准确地了解/对比不同终端设备在执行相同的机器翻译任务时的ai推理性能。
22.进一步,所述采用待评测的终端设备和机器翻译模型对多条语句进行翻译,得到每条语句的候选译文包括:采用所述待评测的终端设备运行ai推理性能评测软件;采用所述ai推理性能评测软件加载所述机器翻译模型和包含多条所述语句的测试数据集,并采用所述机器翻译模型对所述测试数据集进行翻译,得到每条语句的候选译文。由于现有的ai推理性能评测软件并未涉及机器翻译的测试场景,评测维度并不全面,而本发明实施例通过采用待评测的终端设备运行所述ai推理性能评测软件,并在评测软件中增加对终端设备执行机器翻译任务的ai推理性能测试。由此,可以多维度、全面、客观地评估所述终端设备的ai推理性能。
23.进一步,所述基于所述翻译时长均值和所述翻译质量评价结果,对所述终端设备执行机器翻译任务的ai推理性能进行评测包括:根据所述翻译时长均值和所述翻译质量评价结果确定评测得分;基于所述评测得分对所述终端设备执行机器翻译任务的ai推理性能进行评测;其中,所述评测得分越高,所述终端设备执行机器翻译任务的ai推理性能越强。在本发明实施例中,可以根据不同应用场景的需要,对所述权重比例进行合理设置。例如,在翻译时长更为重要的应用场景下,对所述翻译时长均值设置更高权重值。反之,在翻译质量更为重要的应用场景下,则对所述翻译质量评价结果设置更高权重值。如此,可以在各类应用场景中,准确确定及比较各个待评测终端设备执行机器翻译任务的ai推理性能。
附图说明
24.图1是本发明实施例中一种终端设备的ai推理性能评测方法的流程图;
25.图2是图1中步骤s13的一种具体实施方式的流程图;
26.图3是本发明实施例中一种终端设备的ai推理性能评测装置的结构示意图。
具体实施方式
27.如前所述,随着人工智能(artificial intelligence,ai)技术的快速发展和应用,硬件层面(例如芯片)的ai推理性能已成为各大芯片与终端厂商的产品竞争力的一个重要指标。
28.在现有技术中,虽然已经有不少评测机构开发了相应的智能设备性能评测软件,用以判定手机等智能设备的芯片及相关硬件(含硬件驱动)的ai推理性能,但现有的评测软件集中应用在图像处理技术领域,例如目标识别/分类、目标检测/跟踪、图像语义分割等。此外,现有的ai评测软件在自然语言处理(natural language processing,nlp)技术领域
的应用也主要涉及关键词提取、语音问答等,而没有涉及机器翻译应用场景。
29.由于不同厂商之间产品设计的区别,以及同一系列产品软硬件更新换代的影响,不同的终端设备在执行同一机器翻译任务时,ai推理性能可能会存在较大差异。然而,在现有技术中,尚缺乏对终端设备执行机器翻译任务的ai推理性能进行评测的有效方案,导致用户无法直观准确地了解/对比不同终端设备在执行相同的机器翻译任务时执行机器翻译任务的ai推理性能。并且,也无法从多个维度全面、客观地评估终端设备的ai推理性能。
30.为解决上述技术问题,本发明实施例提供一种终端设备的ai推理性能评测方法,具体包括:采用待评测的终端设备和机器翻译模型对多条语句进行翻译,得到每条语句的候选译文;计算将各条语句翻译成所述候选译文的翻译时长均值,以及基于各条语句的候选译文与参考译文确定翻译质量评价结果;基于所述翻译时长均值和所述翻译质量评价结果,对所述终端设备执行机器翻译任务的ai推理性能进行评测;其中,所述翻译时长均值越小,所述翻译质量评价结果的数值越大,所述终端设备执行机器翻译任务的ai推理性能越强。
31.由上,本发明实施例通过综合考虑翻译时长、翻译质量评价结果(可以用于指示翻译得到的候选译文与参考译文之间的相关性),对终端设备执行机器翻译任务执行机器翻译任务的ai推理性能进行评测。由此,可以填补现有技术对终端设备执行机器翻译任务的ai推理性能进行评测的技术空白,供用户直观、准确地了解/对比不同终端设备在执行相同的机器翻译任务时执行机器翻译任务的ai推理性能。
32.为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细说明。
33.参照图1,图1是本发明实施例中一种终端设备的ai推理性能评测方法的流程图。所述方法可以包括步骤s11至步骤s13:
34.步骤s11:采用待评测的终端设备和机器翻译模型对多条语句进行翻译,得到每条语句的候选译文;
35.步骤s12:计算将各条语句翻译成所述候选译文的翻译时长均值,以及基于各条语句的候选译文与参考译文确定翻译质量评价结果;
36.步骤s13:基于所述翻译时长均值和所述翻译质量评价结果,对所述终端设备执行机器翻译任务的ai推理性能进行评测。
37.其中,所述翻译时长均值越小,所述翻译质量评价结果的数值越大,所述终端设备执行机器翻译任务的ai推理性能越强。
38.可以理解的是,在具体实施中,所述方法可以采用软件程序的方式实现,该软件程序运行于芯片或芯片模组内部集成的处理器中;或者,该方法可以采用硬件或者软硬结合的方式来实现。
39.在步骤s11的具体实施中,所述终端设备可以是能够运行翻译应用程序对语句进行翻译的各类智能终端设备,例如手机、平板电脑、台式电脑、智能语音机器人、可穿戴设备(如智能手表)等。所述语句可以是自然语言语句,例如中文语句、英文语句以及其他各种语言语句。进一步地,所述步骤s11可以包括:采用所述待评测的终端设备运行ai推理性能评测软件;采用所述ai推理性能评测软件加载所述机器翻译模型和包含多条所述语句的测试数据集,并采用所述机器翻译模型对所述测试数据集进行翻译,得到每条语句的候选译文。
explicit ordering,meteor)是综合考虑基于整个语料库上的准确率和召回率,最终得出翻译质量评价结果的评价指标。在评价句子流畅性的时候,采用单词块(chunk)的概念即候选译文和参考译文能够对齐的、空间排列上连续的单词形成一个chunk,chunk数目越少意味着每个chunk的平均长度越长,也就是说候选译文和参考译文的语序越一致。meteot只能计算整个翻译语句测试集的整体翻译质量评价结果,而不是对每条语句单独评测。
52.更进一步地,所述步骤s12还可以包括:对所得到的各个初步翻译质量评价结果进行平均计算,以采用各个初步翻译质量评价结果的均值作为所述翻译质量评价结果;或者,对所得到的各个初步翻译质量评价结果进行中位数计算,以采用各个初步翻译质量评价结果的中位数作为所述翻译质量评价结果;或者,对所得到的各个初步翻译质量评价结果进行加权计算,以采用各个初步翻译质量评价结果的加权运算值作为所述翻译质量评价结果。
53.在步骤s13的具体实施中,可以对所述翻译时长均值和翻译质量评价结果进行数学换算,并采用分数作为计量方式。也可以预先划分多个级别,并采用评级作为计量方式。可以理解的是,所述翻译时长均值和所述翻译质量评价结果的得分越高或评级越高,意味着被评测的终端设备执行机器翻译任务的ai推理性能越强。
54.参照图2,图2是图1中步骤s13的一种具体实施方式的流程图。所述基于所述翻译时长均值和所述翻译质量评价结果,对所述终端设备执行机器翻译任务的ai推理性能进行评测可以包括步骤s21至步骤s22,以下对各步骤进行说明:
55.在步骤s21中,根据所述翻译时长均值和所述翻译质量评价结果确定评测得分。
56.进一步,所述步骤s21可以包括:采用预设的权重比例,对所述翻译时长均值和所述翻译质量评价结果进行加权运算,得到所述评测得分。
57.在具体实施中,可以根据不同应用场景的需要,对所述权重比例进行合理设置。例如,在翻译时长更为重要的应用场景下,对所述翻译时长均值设置更高权重值。反之,在翻译质量更为重要的应用场景下,则对所述翻译质量评价结果设置更高权重值。如此,可以依据评测场景的需要准确确定及比较各个待评测终端设备执行机器翻译任务的ai推理性能。
58.在步骤s22中,基于所述评测得分对所述终端设备执行机器翻译任务的ai推理性能进行评测。
59.其中,所述评测得分越高,所述终端设备执行机器翻译任务的ai推理性能越强。
60.进一步地,在得到所述评测得分之后,所述方法还可以包括:将所述翻译时长均值、所述翻译质量评价结果以及所述评测得分反馈给用户。
61.作为一些非限制性的实施例,所述翻译时长均值、所述翻译质量评价结果以及所述评测得分可以显示于被评测终端设备的显示屏上,也可以通过语音播报形式反馈给用户,但不限于此。在具体实施中,可以根据实际应用场景的不同采用其他直观的方式将上述评测相关结果反馈给用户。
62.在本发明实施例中,在不同的终端设备(例如不同生产/研发厂商设计的终端设备或同一系列产品的不同版本)上采用同一评测软件、同一翻译模型以及相同的翻译语句、参考译文进行翻译性能评测,并综合考虑翻译时长、翻译质量评价结果,对终端设备执行机器翻译任务执行机器翻译任务的ai推理性能进行评测。由此,可以填补现有技术对终端设备执行机器翻译任务的ai推理性能进行评测的技术空白,供用户直观、准确地了解/对比不同
终端设备在执行相同的机器翻译任务时执行机器翻译任务的ai推理性能。
63.参照图3,图3是本发明实施例中一种终端设备的ai推理性能评测装置的结构示意图。所述装置可以包括:
64.机器翻译模块31,用于采用待评测的终端设备对多条语句进行翻译,得到每条语句的候选译文;
65.评测参数确定模块32,用于计算将各条语句翻译成所述候选译文的翻译时长均值,以及基于各条语句的候选译文与参考译文确定翻译质量评价结果;
66.ai推理性能评测模块33,用于基于所述翻译时长均值和所述翻译质量评价结果,对所述终端设备执行机器翻译任务的ai推理性能进行评测;
67.其中,所述翻译时长均值越小,所述翻译质量评价结果的数值越大,所述终端设备执行机器翻译任务的ai推理性能越强。
68.在具体实施中,上述终端设备的ai推理性能评测装置可以对应于具有终端设备的ai推理性能评测功能的芯片;或者对应于终端中具有终端设备的ai推理性能评测功能的芯片模组,或者对应于终端。
69.关于上述终端设备的ai推理性能评测装置的原理、具体实现和有益效果请参照前文及图1至图2示出的关于终端设备的ai推理性能评测方法的相关描述,此处不再赘述。
70.本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述图1和图2所示的终端设备的ai推理性能评测方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器,还可以包括光盘、机械硬盘、固态硬盘等。
71.具体地,在本发明实施例中,所述处理器可以为中央处理单元(central processing unit,简称cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(fieldprogrammable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
72.还应理解,本技术实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,简称rom)、可编程只读存储器(programmable rom,简称prom)、可擦除可编程只读存储器(erasable prom,简称eprom)、电可擦除可编程只读存储器(electrically eprom,简称eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,简称ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,简称ram)可用,例如静态随机存取存储器(static ram,简称sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(synchronous dram,简称sdram)、双倍数据速率同步动态随机存取存储器(double datarate sdram,简称ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram,简称esdram)、同步连接动态随机存取存储器(synchlink dram,简称sldram)和直接内存总线随机存取存储器(direct rambus ram,简称dr ram)。
73.本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上存储有能
够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述图1和图2所示的终端设备的ai推理性能评测方法的步骤。所述终端可以包括但不限于手机、计算机、平板电脑等终端设备,还可以为服务器、云平台等。
74.上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。
75.在本技术所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
76.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。例如,对于应用于或集成于芯片的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于芯片模组的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片模组内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于终端的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端内同一组件(例如,芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于终端内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。
77.应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。
78.本技术实施例中出现的“多个”是指两个或两个以上。
79.本技术实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本技术实施例中对设备个数的特别限定,不能构成对本技术实施例的任
何限制。
80.需要指出的是,本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。
81.虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1