1.一种用于提高卷积效率的装置,所述装置包括:
数据处理元件(dpe)库存引擎,其用于识别被包括在dpe阵列中的平台可用的dpe;
模式选择器,其用于确定所述dpe中的所识别的dpe的卷积布置;
dpe配置优化器,其用于基于所述dpe中的所识别的dpe来确定dpe利用率;以及
卷积引擎,其用于当所述dpe利用率满足dpe利用率门限时,使用所述dpe中的所识别的dpe来促进卷积运算。
2.根据权利要求1所述的装置,其中,所述卷积引擎用于:
将(a)输入通道的输入位置的激活值与(b)对应于所述输入位置的滤波器系数相乘以生成卷积输出;以及
计算所述卷积输出的总和,以生成输出通道的输出位置。
3.根据权利要求2所述的装置,其中,所述输出位置是第一输出位置,并且所述卷积引擎用于:
计算包括包含所述第一输出位置在内的输出位置的池区域;以及
计算所述池区域的平均值或最大值中的至少一个。
4.根据权利要求3所述的装置,其中,所述卷积引擎用于对所述池区域的至少一个平均值或最大值执行偏置操作、缩放操作、参数整流器线性单元操作或整流器线性单元操作中的至少一个。
5.根据权利要求1所述的装置,其中,所述卷积布置是第一卷积布置,并且所述dpe利用率是第一dpe利用率,并且所述dpe配置优化器用于:
比较所述第一dpe利用率和所述dpe利用率门限;
当所述第一dpe利用率不满足所述dpe利用率门限时,阻止对所述卷积运算的所述促进;
将与第二卷积布置相关联的第二dpe利用率和所述dpe利用率门限进行比较;以及
所述卷积引擎用于基于所述比较,当所述第二dpe利用率满足所述dpe利用率门限时,使用所述第二卷积布置来促进所述卷积运算。
6.根据权利要求1所述的装置,其中,所述dpe阵列包括256个dpe。
7.根据权利要求1所述的装置,其中,所述卷积布置是1*256、2*128、4*64、8*32或16*16卷积布置中的至少一个。
8.根据权利要求1所述的装置,其中,所述卷积引擎使用所述dpe中的所识别的dpe来实质上并行地促进所述卷积运算。
9.根据权利要求1所述的装置,其中,所述卷积引擎通过调整累加器的整数比特数以修改所述累加器的范围或调整所述累加器的小数比特数以修改所述累加器的精度中的至少一个来促进所述卷积运算。
10.一种非暂时性计算机可读存储介质,其包括指令,所述指令当被执行时使机器至少执行:
识别被包括在数据处理元件(dpe)阵列中的平台可用的dpe;
确定所述dpe中的所识别的dpe的卷积布置;
基于所述dpe中的所识别的dpe来确定dpe利用率;以及
当所述dpe利用率满足dpe利用率门限时,使用所述dpe中的所识别的dpe来促进卷积运算。
11.根据权利要求10所述的非暂时性计算机可读存储介质,其还包括指令,所述指令当被执行时使所述机器至少执行:
将(a)输入通道的输入位置的激活值与(b)对应于所述输入位置的滤波器系数相乘以生成卷积输出;以及
计算所述卷积输出的总和,以生成输出通道的输出位置。
12.根据权利要求11所述的非暂时性计算机可读存储介质,其中,所述输出位置是第一输出位置,并且所述非暂时性计算机可读存储介质还包括指令,所述指令当被执行时使所述机器至少执行:
计算包括包含所述第一输出位置在内的输出位置的池区域;以及
计算所述池区域的平均值或最大值中的至少一个。
13.根据权利要求12所述的非暂时性计算机可读存储介质,还包括指令,所述指令当被执行时,使所述机器至少对所述池区域的至少一个平均值或最大值执行偏置操作、缩放操作、参数整流器线性单元操作或整流器线性单元操作中的至少一个。
14.根据权利要求10所述的非暂时性计算机可读存储介质,其中,所述卷积布置是第一卷积布置,并且所述dpe利用率是第一dpe利用率,并且所述非暂时性计算机可读存储介质还包括指令,所述指令当被执行时使所述机器至少执行:
比较所述第一dpe利用率和所述dpe利用率门限;
当所述第一dpe利用率不满足所述dpe利用率门限时,阻止对所述卷积运算的所述促进;
将与第二卷积布置相关联的第二dpe利用率和所述dpe利用率门限进行比较;以及
基于所述比较,当所述第二dpe利用率满足所述dpe利用率门限时,使用所述第二卷积布置来促进所述卷积运算。
15.根据权利要求10所述的非暂时性计算机可读存储介质,其中,所述dpe阵列包括256个dpe。
16.根据权利要求10所述的非暂时性计算机可读存储介质,其中,所述卷积布置是1*256、2*128、4*64、8*32或16*16卷积布置中的至少一个。
17.根据权利要求10所述的非暂时性计算机可读存储介质,其中,所述dpe中的所识别的dpe实质上并行地促进所述卷积。
18.根据权利要求10所述的非暂时性计算机可读存储介质,还包括指令,所述指令当被执行时使所述机器至少调整累加器的整数比特数以修改所述累加器的范围或调整所述累加器的小数比特数以修改所述累加器的精度。
19.一种用于提高卷积效率的方法,所述方法包括:
识别被包括在数据处理元件(dpe)阵列中的平台可用的dpe;
确定所述dpe中的所识别的dpe的卷积布置;
基于所述dpe中的所识别的dpe来确定dpe利用率;以及
当所述dpe利用率满足dpe利用率门限时,使用所述dpe中的所识别的dpe来促进卷积运算。
20.根据权利要求19所述的方法,还包括:
将(a)输入通道的输入位置的激活值与(b)对应于所述输入位置的滤波器系数相乘以生成卷积输出;以及
计算所述卷积输出的总和,以生成输出通道的输出位置。
21.根据权利要求20所述的方法,其中,所述输出位置是第一输出位置,所述方法还包括:
计算包括包含所述第一输出位置在内的输出位置的池区域;以及
计算所述池区域的平均值或最大值中的至少一个。
22.根据权利要求21所述的方法,还包括对所述池区域的至少一个平均值或最大值执行偏置操作、缩放操作、参数整流器线性单元操作或整流器线性单元操作中的至少一个。
23.根据权利要求19所述的方法,其中,所述卷积布置是第一卷积布置,并且所述dpe利用率是第一dpe利用率,并且所述方法还包括:
比较所述第一dpe利用率和所述dpe利用率门限;
当所述第一dpe利用率不满足所述dpe利用率门限时,阻止对所述卷积运算的所述促进;
将与第二卷积布置相关联的第二dpe利用率和所述dpe利用率门限进行比较;以及
基于所述比较,当所述第二dpe利用率满足所述dpe利用率门限时,使用所述第二卷积布置来促进所述卷积运算。
24.根据权利要求19所述的方法,其中,所述dpe阵列包括256个dpe。
25.根据权利要求19所述的方法,其中,所述卷积布置是1*256、2*128、4*64、8*32或16*16卷积布置中的至少一个。
26.根据权利要求19所述的方法,其中,所述dpe中的所识别的dpe实质上并行地促进所述卷积。
27.根据权利要求19所述的方法,其中,促进所述卷积运算包括调整累加器的整数比特数以修改所述累加器的范围或调整所述累加器的小数比特数以修改所述累加器的精度中的至少一个。
28.一种用于提高卷积效率的装置,该装置包括:
用于识别被包括在dpe阵列中的平台可用的dpe的第一单元;
用于确定所述dpe中的所识别的dpe的卷积布置的第二单元;
用于基于所述dpe中的所识别的dpe来确定dpe利用率的第三单元;以及
用于当所述dpe利用率满足dpe利用率门限时使用所述dpe中的所识别的dpe来促进卷积运算的第四单元。
29.根据权利要求28所述的装置,其中,所述第四单元用于:
将(a)输入通道的输入位置的激活值与(b)对应于所述输入位置相对应的滤波器系数相乘以生成卷积输出;以及
计算所述卷积输出的总和,以生成输出通道的输出位置。
30.根据权利要求29所述的装置,其中,所述输出位置是第一输出位置,并且所述第四单元用于:
计算包括包含所述第一输出位置在内的输出位置的池区域;以及
计算所述池区域的平均值或最大值中的至少一个。
31.根据权利要求30所述的装置,其中,所述第四单元用于对所述池区域的至少一个平均值或最大值执行偏置操作、缩放操作、参数整流器线性单元操作或整流器线性单元操作中的至少一个。
32.根据权利要求28所述的装置,其中,所述卷积布置是第一卷积布置,并且所述dpe利用率是第一dpe利用率,并且所述第三单元用于:
比较所述第一dpe利用率和所述dpe利用率门限;
当所述第一dpe利用率不满足所述dpe利用率门限时,阻止对所述卷积运算的所述促进;
将与第二卷积布置相关联的第二dpe利用率和所述dpe利用率门限进行比较;以及
所述第四单元用于基于所述比较,当所述第二dpe利用率满足所述dpe利用率门限时,使用所述第二卷积布置来促进所述卷积运算。
33.根据权利要求28所述的装置,其中,所述dpe阵列包括256个dpe。
34.根据权利要求28所述的装置,其中,所述卷积布置是1*256、2*128、4*64、8*32或16*16卷积布置中的至少一个。
35.根据权利要求28所述的装置,其中,所述第四单元使用所述dpe中的所识别的dpe来实质上并行地促进所述卷积运算。
36.根据权利要求28所述的装置,其中,所述第四单元通过调整累加器的整数比特数以修改所述累加器的范围或调整所述累加器的小数比特数以修改所述累加器的精度中的至少一个来促进所述卷积运算。