一种兼容多维度矩阵乘法的运算单元

文档序号:32305376发布日期:2022-11-23 09:48阅读:来源:国知局

技术特征:
1.一种兼容多维度矩阵乘法的pe阵列结构,包括:64个pe单元,每个pe单元在pe阵列中地址记为(i,j),i表示行,j表示列;pe阵列有两种输入,包括8个a方向输入a0~a7,和64个w方向输入w00~w77;a方向和w方向正交;其中,w00至w07小计8个,w10至w17小计8个,

,w70至w77小计8个,从而总计64个w方向输入;a0~a7中每一个都包含8个数,8个数构成一个[1,8]的向量,每个都是一个[1,8]的向量,称作a方向输入;8个a方向输入a0~a7可以相同也可以不同;w00~w77中每一个都包含8个数,8个数构成一个[1,8]的向量,每个都是一个[1,8]的向量,称作w方向输入;对于64个w方向输入w00~w77,各自送入对应位置的pe单元;64个w方向输入w00~w77可以相同也可以不同;对于每个pe单元(processing element),其中:作为pe阵列中的一个基本处理单元,有两个输入(例如一个a方向输入一个w方向输入)、一个输出;以位置(i,j)的pe单元为例,输入为ai和wij,输出记为psum(i,j);一个pe单元1个周期可以完成1个[1,8]
×
[1,8]
t
的向量乘法运算;对于pe阵列第一行的8个pe单元的组合,向量a0横向同时输入到8个pe单元;将pe阵列第一行的向量w00~w07看作一个[8,8]的矩阵的8个列向量,然后分别输入到对应位置的pe单元;pe阵列的一行1个周期可以完成一个[1,8]
×
[8,8]
t
的向量乘矩阵运算;通过对pe阵列中8行向量乘矩阵进行不同的组合,从而实现向量乘矩阵,以及不同维度的矩阵乘矩阵运算。2.一种运算单元,优选的,所述运算单元包括权利要求1所述的pe阵列结构。3.一种mpu,其包括权利要求1所述的pe阵列结构,或权利要求2所述的运算单元。4.根据权利要求3所述的mpu,其中,除pe_array即pe阵列结构之外,所述mpu还包括如下模块:control、acc、buf、lm_a即localmemory a、lm_w即localmemory w;control,用于生成各种控制信号,实现对其余模块的控制;lm_a和lm_w,用于存放a方向和w方向的输入;pe_array,用于实现各种模式下的矩阵运算;acc,用于对pe阵列的输出进行不同时域下的累加;buf,用于存储acc累加后的结果,并且,对未完成的运算还需将结果返回给acc,对已经完成的运算则将结果从mpu输出。5.根据权利要求4所述的mpu,其中,当控制信号为第一控制信号时,所述pe阵列结构工作在低功耗模式。6.根据权利要求4所述的mpu,其中,当控制信号为第一控制信号时,所述pe阵列结构工作在高性能模式。7.根据权利要求4所述的mpu,其中,所述pe阵列结构的默认模式为高性能模式。8.根据权利要求4所述的mpu,其中,
通过发射不同模式下的控制信号,支持多种维度矩阵乘法运算。9.根据权利要求4所述的mpu,其中,对同一向量乘矩阵运算,所述pe阵列结构能够工作在低功耗或高性能的不同模式下,且默认为高性能模式,模式可切换。

技术总结
本公开提出了一种兼容多维度矩阵乘法的PE阵列结构、运算单元及其MPU。本公开对PE阵列进行了功能扩展设计,其可以通过发射不同模式下的控制信号,支持多种维度矩阵乘法运算,在提高PE阵列的利用率的同时,缩短运算时间,节省数据搬移造成的能耗。此外,本公开对同一向量乘矩阵运算设计了低功耗和高性能两种模式,来满足不同应用场景的需求。来满足不同应用场景的需求。来满足不同应用场景的需求。


技术研发人员:任鹏举 林晓云 霍志旺 楼薇 张先娆 赵文哲 夏天
受保护的技术使用者:西安交通大学
技术研发日:2022.08.02
技术公布日:2022/11/22
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1