一种基于XilinxXCVU37P芯片的FPGA加速卡的制作方法

文档序号:16390391发布日期:2018-12-22 11:23阅读:2215来源:国知局
一种基于Xilinx XCVU37P芯片的FPGA加速卡的制作方法

本发明总体上涉及计算机技术领域,并且更具体地,涉及一种基于xilinxxcvu37p芯片的fpga加速卡。

背景技术

如今编码解码、数据压缩和存储、加密等运算越来越复杂,需要处理器的处理能力越来越高。传统处理器本身已无法满足高性能计算(hpc)应用软件的性能需求,导致需求和性能之间出现缺口,提高处理器性能并不是解决应用需求的唯一方法,采用专用处理器来扩展处理器一直是解决性能瓶颈的可靠途径。fpga(fieldprogrammablegatearray,现场可编程门阵列)作为协处理器设计的基础,在价格、性能、易用性以及功耗方面有明显的优势。

申请号201510672954的专利提出了一种fpga加速卡高速存储系统,包括pcie(peripheralcomponentinterconnectexpress,高速串行器件互联总线)硬核模块、fpga模块以及ddr3(double-data-ratesdram,双倍速率同步动态随机存储器)存储模块;其中,所述fpga模块用于将待存储数据进行同步缓存与格式转换,并将所述待存储数据存入所述ddr3存储模块,所述ddr3存储模块为高速大容量缓存;所述pcie硬核模块通过i/o接口与所述ddr3存储模块的接口相连,用于以直接内存访问的方式将所述待存储数据高速上传到系统内存中,以进行后续处理。本发明通过fpga作为控制中心,以fpga中提供的pcie硬核实现高速dma(directmemoryaccess,直接内存存取)读写,同时以ddr3作为大容量缓存,具有较高的数据带宽和良好的性能。

但是上述方法的局限性在于,相对于ddr4存储设备,ddr3存储设备消耗更多功耗、运行频率更低、容量也有限制。另外,fpga的存储设备全靠外部存储器,存储器的访问带宽会受到器件i/o数量的限制,也会消耗部分功耗去解决缓冲访问和一致性。



技术实现要素:

鉴于上述目的,本发明实施例的目的在于提出一种fpga加速卡,该加速卡选用xilinxxcvu37p芯片,通过该芯片内置的高带宽缓存(hbm),解决了存储器的访问带宽受器件i/o数量限制的问题。

基于上述目的,本发明实施例提供了一种fpga加速卡,包括:

xilinxxcvu37p芯片,所述xilinxxcvu37p芯片内置hbm(highbandwidthmemory,高带宽显存);以及

外部高速存储器,所述外部存储器外接于所述xilinxxcvu37p芯片;

其中,来自cpu(centralprocessingunit,中央处理器)的数据通过pcie传输到所述xilinxxcvu37p芯片进行同步缓存与格式转换,并将所述数据存入所述hbm和所述外部高速存储器;然后所述数据再经所述pcie传输回到所述cpu以进行后续处理。

在一些实施方式中,所述外部高速存储器为ddr4sdram。

在一些实施方式中,所述xilinxxcvu37p芯片外接3通道的所述ddr4sdram,每个所述通道有5颗16gb的所述ddr4sdram。

在一些实施方式中,所述fpga加速卡还包括2个qsfp28+,所述2个qsfp28+可使2块所述fpga加速卡之间进行交互,以实现其中一块所述fpga加速卡进行辅助另一所述fpga加速卡的运算。

在一些实施方式中,所述2个qsfp28+通过qsfp(quadsmallform-factorpluggable,四通道小型可插拔接口)协议进行加速交互。

在一些实施方式中,所述ddr4sdram达到80bitdata+ecc结构,其中72bit用于数据传输,8bit用于ecc(错误检查和纠正)。

在一些实施方式中,所述fpga加速卡还包括2个qspiflash,以配置所述xilinxxcvu37p芯片管脚的初始化配置信息。

在一些实施方式中,所述基于xilinxxcvu37p芯片的fpga加速卡设计在半长全高的标准pcie卡上。

在一些实施方式中,所述基于xilinxxcvu37p芯片的fpga加速卡设计在全长全高的标准pcie卡上。

在一些实施方式中,所述外部高速存储器为内存条。

本发明具有以下有益技术效果:本发明提供的基于xilinxxcvu37p芯片的fpga加速卡,选用xilinxxcvu37p作为主要芯片,利用xcvu37p本身内置的高带宽显存(hbm),使得协处理器的存储器访问带宽不会受到器件i/o引脚数量的限制,而且存储器和运算逻辑紧密结合,不需要经过外部高速存储器缓冲,这样也避免了大功耗的缓冲访问和一致性问题;外部连接高速存储器,实现存储最优化和存储容量最大化;以及通过qsfp28+,实现fpga之间的高速互连,提高了fpga的计算能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明的基于xilinxxcvu37p芯片的fpga加速卡的结构示意图;

图2是通过qsfp28+实现2块fpga加速卡之间互联的示意图。

具体实施方式

以下描述了本公开的实施例。然而,应该理解,所公开的实施例仅仅是示例,并且其他实施例可以采取各种替代形式。附图不一定按比例绘制;某些功能可能被夸大或最小化以显示特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为用于教导本领域技术人员以各种方式使用本发明的代表性基础。如本领域普通技术人员将理解的,参考任何一个附图所示出和描述的各种特征可以与一个或多个其他附图中所示的特征组合以产生没有明确示出或描述的实施例。所示特征的组合为典型应用提供了代表性实施例。然而,与本公开的教导相一致的特征的各种组合和修改对于某些特定应用或实施方式可能是期望的。

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。

为了能够解决现有技术中fpga加速卡中存储设备全靠外部存储器、存储器的访问带宽受器件i/o数量限制的问题,提出了一种基于xilinxxcvu37p芯片的fpga加速卡。xilinxxcvu37p芯片是美国xilinx公司开发的一款fpga器件,支持全速460gbytes/sec的带宽通信,它的资源如下:2852k系统逻辑单元;9mbitsbram资源;270mbits的ultraram资源;9024dsp48e2slices;集成8gbhbmdram;96gbps和32.75gbpsgtyserdes收发器。fpga作为协处理器设计的基础,在价格、性能、易用性以及功耗方面有明显的优势。本发明提供专用的硬件加速实现各种应用中需要的关键处理功能;协处理器设计在性能上非常灵活,使用流水线和并行结构,跟上性能的需求变化;协处理器能够为主处理器和系统存储器提供宽带、低延迟接口。

如图1所示,提供了根据本发明的一个实施例的fpga加速卡,其选用xilinxxcvu37p芯片,此芯片内置高带宽显存(hbm),容量可达64gb。fpga的内置存储器也有很大的性能优势,协处理器的存储器访问带宽不会受到器件i/o引脚数量的限制,而且存储器和运算逻辑紧密结合,不需要经过外部高速存储器缓冲,这样也避免了大功耗的缓冲访问和一致性问题,减少了读写的延时,使得数据读写速度更快。

另外,根据本发明的一些实施例,在该fpga加速卡上,xilinxxcvu37p芯片外接3通道的ddr4sdram作为外部高速存储器。在一些实施例中,每个通道有5颗16gbddr4sdram,总共15颗ddr4sdram,存储容量能达到30gb。

在一些实施例中,外接的ddr4sdram能达到80bitdata+ecc结构,其中72bit用于数据传输,8bit用于ecc。该ddr4sdram外部高速存储器能够提高fpga计算能力,辅助fpga加速运算。

根据本发明的一些实施例,所述fpga加速卡还包括2个qspiflash,用于配置xilinxxcvu37p芯片管脚的初始化配置信息以启动xilinxxcvu37p芯片。其中来自cpu的数据通过pcie传输到xilinxxcvu37p芯片进行同步缓存与格式转换,并将该数据存入hbm和外部高速存储器;然后该数据再经pcie传输回到cpu以进行后续处理。

根据本发明的一个实施例,fpga加速卡还包括2个qsfp28+,如图2所示,该2个qsfp28+通过qsfp协议,可实现两块fpga加速卡之间的高速互连以进行交互。这样运用两块fpga加速卡,其中一个fpga辅助另一个fpga进行运算。经实际检测,在这种双fpga加速卡的实施例中,整体运算能力得到显著提高。

根据本发明的fpga加速卡可以设计在半长全高的标准pcie卡上,占据最小空间的同时实现最大化的存储技术和加速应用。当然符合本发明的其他硬件设置也是可能的,例如本发明的fpga加速卡可以设计在全长全高的标准pcie卡上、ddr4sdram改为内存条方案,等等。

在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,或者改变、添加以及省略等等,从而形成本发明范围内的另外实施例。

从上述实施例可以看出,本发明实施例提供了基于xilinxxcvu37p芯片的fpga加速卡,此芯片内置高带宽显存(hbm),容量可达64gb,此时存储器访问带宽不会受到器件i/o引脚数量的限制,而且存储器和运算逻辑紧密结合,不需要经过外部高速存储器缓冲,这样也避免了大功耗的缓冲访问和一致性问题,减少了读写的延时,使得数据读写速度更快;另外,利用外部高速存储器,提高fpga计算能力,辅助fpga加速运算;另有2个qsfp28+,可实现两块fpga板卡之间的高速互连。根据本发明的fpga加速卡占据最小空间的同时实现最大化的存储技术和加速应用。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。

此外,尽管已经描述和图示了本公开的具体实施方式,但是本公开不限于如此描述和图示的部分的具体形式或布置。本公开的范围由所附的权利要求、本文以及在不同的申请中提交的任何未来权利要求及其等同范围限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1