一种cpci信号处理板的制作方法

文档序号:6610198阅读:329来源:国知局
专利名称:一种cpci信号处理板的制作方法
技术领域
本发明涉及计算机体系结构、并行运算和工业控制计算机领域,具体 地说,本发明涉及一种信号处理板。
背景技术
Compact PCI总线是基于PCI电气规范开发的高性能工业总线。外形完美结合在一起,具有高速、高可靠性:坚固耐用 可热插拔、通用 性强等优点,是专门针对工业环境而量身定制的,目前在雷达、声纳等诸 多领域得到了广泛的推广。阵列信号处理是现代信号处理的一个重要分支,其本质是利用空间分 散排列的传感器阵列和多通道接收机来获取信号的时域和空域等多维信 息,以达到检测信号和提取其参数的目的。迄今为止,阵列信号处理的应 用范围已经涉及如雷达、声纳、导航、现代通信等诸多领域。阵列信号处 理的主要内容可分为波束形成技术、零点技术及空间镨估计技术等方面, 它们都是基于对信号进行空间采样的数据进行处理的,而这些数据的处理 计算量是非常庞大的,而且系统还对实时性要求比较高,因此提高阵列信 号处理的能力和速度越来越重要。目前主流的阵列信号处理板多釆用DSP芯片或PowerPC处理器来实现。DSP芯片是专门为实现各种数字信号处理算法而设计的单片、可编程 的微处理器,带有专门的硬件乘法器,完整的指令系统,配套的开发工具, 在信号处理领域得到了广泛的应用。虽然DSP芯片在信号处理领域具有明 显的优势,但也存在一些不足,这些不足主要体现在软件开发方面首先 DSP的软件编程一般都是采样汇编语言,因为大多数高级语言并不适合描 述典型的DSP算法,而且DSP结构复杂,如多存储器空间、多总线、不 规则指令集、高度专门化的硬件等,使得难于为其编写高效率的编译器,
因此大多釆用汇编语言,而汇编语言是一种比较低级的语言,冗长单调、 调试困难、代码不易于维护,为软件开发人员带来了很多不便。其次采用DSP处理器对程序员的要求非常高,因为一个典型的DSP应用具有大量 计算的要求,并有严格的开销限制,使得程序的优化必不可少,因此选用 DSP作为处理器的一个关键因素要看,是否存在足够的能够较好地适应 DSP处理器指令集的程序员。再次,DSP芯片之间的通信一般都是使用专 用数据传输和互联技术,如Share系列的DSP使用LINK技术,这种非通 用的网络通信机制使得网络编程人员必须首先花时间熟悉其通信机制;第 四,DSP的开发工具链和开发环境一般都是DSP厂家或第三方厂商专门 开发的,对于开发者而言往往需要经过专门的学习和训练才能逐渐掌握, 因此开发调试周期一般较长。PowerPC处理器是一种通用处理器,能够为用户提供良好的图形化编 程、编译、系统配置和调试环境;同时对底层实现了良好的模块化和屏蔽 化的工作,使用户在程序开发时完全不需要了解底层PowerPC处理器的内 部结构,从而能够大大缩短用户的开发周期。信号处理领域的PowerPC板 卡, 一般是采用多片PowerPC处理器的结构。该结构如图2所示,包括四 个PowerPC处理器(在图2中分别是第一 PowerPC处理器17、第二 PowerPC 处理器18、第三PowerPC处理器19、第四PowerPC处理器20 ),四个北桥芯 片(在图2中分别是第一 PowerPC处理器的北桥芯片21、第二 PowerPC处理 器的北桥芯片22、第三PowerPC处理器的北桥芯片23、第四PowerPC处理 器的北桥芯片24)以及四片内存(在图2中分别是第一 PowerPC处理器的内 存25、第二 PowerPC处理器的内存26、第三PowerPC处理器的内存27、第 四PowerPC处理器的内存28 )。每片处理器通过局部总线与一片北桥芯片相 连,北桥芯片也是内存控制器,内存直接挂在北桥芯片上;多片北桥芯片 之间通过PCI-X/PCIE总线互联,以实现处理器之间的通信。然而采用这 种结构也存在一些缺点首先,由于每片处理器均连接一片北桥芯片,既 增加了系统成本,又浪费了板卡的PCB空间;其次,当多片PowerPC之 间通信时,首先将把本地PowerPC处理器要处理的数据从北桥芯片上的内 存中取出,再发送到与本处理器直接相连的北桥芯片,再经过北桥芯片间 互联的PCI-X/PCIE总线发送到与目的PowerPC相连的北桥芯片,然后发 送到目的PowerPC处理器,经处理器后再发送到与目的PowerPC处理器 相连的北桥芯片所带的内存中,这样无疑增加了数据传输的延迟,对于实 时性要求较高的阵列信号处理而言非常不利
发明内容
本发明的目的是克服现有技术的不足,提供一款符合CPCI标准的具有多片通用处理器高效的信号处理板,该板主要用于实现并行数据运算功 能。本发明是采用共享前端总线的多片通用处理器来实现信号处理的板卡。首先,由于采用通用处理器来实现,克服了 DSP本身的一些不足,为 用户提供了通用的软件开发平台,能够大大缩短开发周期;其次,本发明 的结构不同于PowerPC板卡,多片处理器之间通过共享前端总线的方式互 联,并通过前端总线与北桥芯片相连,北桥芯片上带有共享内存,多片处 理器之间的通信效率大大提高,传输延时大大减小。该发明非常适用于阵 列信号处理系统,采用多块信号处理板并在主控板的统一调度下完成大规 模的信号处理任务。为实现上述发明目的,本发明提供的CPCI信号处理板包括 至少2个通用处理器,所述通用处理器通过前端总线互联; 一北桥芯片,通过前端总线与各所述处理器连接,该北桥芯片还连接一共享内存;一CPCI总线,通过PCI桥与北桥芯片连接。 上述技术方案中,每个所述通用处理器分别连接一本地内存。 上述技术方案中,所述北桥芯片具有读写锁机制,以保证每一个处理器对所述共享内存中的共享程序和共享数据的原子操作。上述技术方案中,所述北桥芯片实现了 DMA引擎,用于实现处理器与共享存储区之间的DMA操作。上述技术方案中,所述北桥芯片可以指定一个所述通用处理器为主处理器,该主处理器对从处理器进行任务分配。上述技术方案中,所述北桥芯片还连接一个千兆网卡,该千兆网卡另一端与CPCI总线连才妻。上述技术方案中,所述PCI桥是PCI-to-PCI非透明桥接芯片。 上述技术方案中,所述通用处理器是Loongson 2E通用处理器。 上述技术方案中,北桥芯片还具有Local I/O接口,与所述信号处理板的BIOS芯片连接。上述技术方案中,所述信号处理板尺寸符合6U标准,所述通用处理
器为2至4个。
本发明的技术效果如下本发明是一款釆用多片通用处理器来实现的信号处理板,符合6U CPCI标准,可应用于阵列信号处理领域。首先,采用多片通用处理器, 可以实现大规模的并行数据运算功能,同时能够为开发人员提供通用的软 件开发平台。其次,多片通用处理器采用共享前端总线的方式与北桥芯片 连接,北桥芯片上连接一共享内存,用于存储多片通用处理器之间及处理 器与PCI设备之间通讯时所用的共享程序和共享数据,如当任意两片通用 处理器之间进行通讯时,发起端的通用处理器将本地内存中的数据取出发 送到前端总线,再通过前端总线发送到北桥芯片,北桥芯片将通讯内容存 储到共享内存,共享内存再将通信信息通过北桥芯片发送到目的端通用处 理器,采用这种结构与多片PowerPC处理器的通信机制相比,大大提高了 通讯效率,减少了通讯延迟。第三,本发明的北桥逻辑还实现了读写锁的 机制,用于保证共享内存中的共享程序和共享数据的原子操作。第四,北 桥芯片的逻辑还设计了 DMA引擎,用于实现处理器与共享存储区之间的 DMA操作,以加速处理器对共享内存的访问。第四,本发明支持具有PCI 接口的千兆以太网卡,遵循TCP/IP协议,为程序员提供了通用的编程环 境和通用的编程协议。因此,本发明特别适用于大规模的阵列信号处理系 统,可采用多块信号处理器板并在一主控板的统一调度下实现现代通信、 声纳、雷达等诸多领域中的海量数据处理。


图1是基于四片Loongson 2E通用处理器的6U CPCI信号处理板硬件结 构图;图2是基于四片PowerPC处理器的信号处理器板结构框图。图面i兌明 1:第一处理器的本地内存芯片 2:第二处理器的本地内存芯片 3:第三处理器的本地内存芯片 4:第四处理器的本地内存芯片 5:第一处理器 6:第二处理器7:第三处理器8:第四处理器9:北桥芯片10:共享内存11:PCI-to-PCI桥接芯片12:千兆以太网卡(支持PCI接口 )13:BIOS芯片14:CPCI Jl连接器15:CPCI J2连接器16:CPCI J3连接器17:第一 PowerPC处理器18:第二 PowerPC处理器19:第三PowerPC处理器20:第四PowerPC处理器21:第一 PowerPC处理器的北桥芯片22:第二 PowerPC处理器的北桥芯片23:第三PowerPC处理器的北桥芯片24:第四PowerPC处理器的北桥芯片25:第一 PowerPC处理器的内存 26:第二 PowerPC处理器的内存 27:第三PowerPC处理器的内存 28:第四PowerPC处理器的内存具体实施方式
本发明是采用多片通用处理器实现的信号处理板,为开发人员及进行 二次开发的用户均提供了通用标准的软件开发环境平台,如该平台可运 行Vxworks实时操作系统,开发人员在进行Vxworks的开发和调试过程中, 可使用嵌入式实时应用程序的完整软件开发平台Tornado;编程环境为标 准的C语言;网络通信遵循标准TCP/IP协议。在这样通用的开发平台上, 能够大大缩短开发调试周期。同时本发明采用了共享前端总线的多处理器 结构,可实现并行数据处理功能;多处理器通过共享前端总线与带有共享 内存的北桥芯片相连,为多片处理器之间的通讯提供了更为有效的机制; 北桥芯片上连接有千兆以太网卡,用于实现该信号处理器板与外界的通
讯;PCI-to-PCI非透明桥,用于实现少量的数据通讯及在大规模阵列信号 处理系统中起到隔离的作用。下面结合附图和具体实施例对本发明硬件平台的设计作进一步描述。实施例1本实施例是基于四片Loongson2E国产通用处理器开发的一款6U CPCI 阵列信号处理;f反,其结构图参见图1。四片处理器(即图1中的第一处理器 5、第二处理器6、第三处理器7、第四处理器8)通过共享SYSAD前端总 线的方式互联,每片处理器带有256MB本地内存(即图1中的第一处理 器的本地内存芯片1、第二处理器的本地内存芯片2、第三处理器的本地内 存芯片3、第四处理器的本地内存芯片4),当处理器处理系统分配的任务 时可使用自己的本地内存完成。北桥芯片9通过前端总线与四片处理器相 连,北桥芯片上带有128MB共享内存IO用于实现多处理器之间的通讯及 处理器与PCI设备之间的通讯;北桥芯片实现了读写锁的机制,以保障共 享内存中的共享数据/程序的原子操作;北桥芯片的逻辑还设计有DMA引 擎,用于加速处理器与PCI设备之间的通讯;北桥芯片上支持PCI接口用 于连接千兆以太网卡12和PCI-to-PCI桥接芯片11,千兆以太网卡12用于 实现板间大规模数量传输,PCI-to-PCI桥接芯片11是PCI-to-PCI非透明 桥,除起到隔离作用外,还可用于实现板间少量的数据传输。另外,北桥 芯片还具有Local 1/0接口,与所述信号处理板的BIOS芯片13连接。下 面对本实施例的硬件设计进行详细说明。 多处理器本实施例采用Loongson 2E通用处理器作为核心处理器,Loongson 2E 是由中国科学院计算技术研究所研制的 一款国产高性能通用处理器,采用 4发射结构,运算部件包括两个定点运算单元,两个浮点运算单元,可同 时执行两条定点指令和两条浮点指令。混合指令全速执行时最高功率为10 瓦,峰值运算能力为每秒20亿次64位定点运算并20亿次双精度浮点运 算(或40亿次单精度浮点运算);釆用90nm工艺;设计主频lGHz;采 用片上DDR内存接口,直接连接DDR内存,访存频率最高达166MHz, 访存峰值带宽166 x 2 x 8 > 2GB/s;片内带64KB —级指令Cache和64KB 一级数据Cache,片内512KB 二级Cache;且支持多处理器接口 。四片Loongson 2E处理器(图1的1 4)通过共享SYSAD总线的方 式互联,每片处理器带有256MB DDR内存,DDR内存的频率为118MHz。 在系统启动时首先由北桥芯片指定其中的一片处理器作为主处理器,在主
处理器启动之后,才艮据系统的任务状况决定是否启动从处理器,并对从处 理器进行任务分配。每片处理器均独立地运行一个完整的操作系统VxWorks,完成各自的计算任务。 北桥芯片北桥芯片釆用Altera工业级的FPGA芯片EP2S30F67214(图1的9 ), 北桥逻辑是由中国科学院计算技术研究所自主开发的。整个北桥芯片围绕 Algorithmics公司的bonito64北桥芯片为蓝图进行设计,主要实现多处理 器接口、 64位/66MHz PCI接口、 Local I/O接口、 32位DDR接口。北桥芯片的多处理器接口直接与SYSAD总线相连,用于同处理器进 行交互,控制处理器的上电复位时序,并通过多处理器总线仲裁协议确定 处理器的主/从;北桥芯片的PCI模块是64位PCI总线接口、符合PCI2.2 规范,主要实现PCI总线和wishbone总线的转换,包括把wishbone master 的操作转换为PCI总线才喿作和把PCI master总线的才喿作转换为wishbone 操作,该接口用于连接千兆以太网卡与PCI-to-PCI桥;北桥芯片的Local I/O接口主要控制BIOS启动,其中BIOS模块支持8位和16位,快和慢 等多种ROM设备,支持BLOCK传输,支持最高100MHz访问频率;北 桥芯片的32位DDR接口 北桥芯片带有128MB的DDR内存被专门用做 系统的共享内存,存放共享程序和共享数据块,当四片处理器之间进行数 据交互或者处理器与PCI设备进行数据交互时,可以通过该共享存储区完 成;为实现共享内存中共享数据/程序的原子操作,在北桥芯片的逻辑中提 供了读写锁的机制,如其中一片通用处理器对共享程序或共享数据执行写 操作,而同时另一片通用处理器对其执行读操作时,如果没有读写锁机制 的保证,就会出现共享数据/共享程序正在被写还没有写完时,同时又执行 读操作,导致数据错误;采用读写锁后,某个处理器的读进程或写进程首 先需要检测该程序/数据块是否已被锁保护,如果没有则可以进行操作,并 申请一把锁对它进行保护,如果该数据已经上锁,那么只有等待锁被释放 后才能访问。此外该北桥芯片还设计了 DMA引擎,用于实现处理器与共 享存储区之间的DMA操作,以加速处理器对共享存储区的访问。千兆以太网卡当本板与其它信号处理板及主控板共同组成大规模阵列信号处理系 统时,往往系统中需要传输大量的数据,为保证数据传输的实时性,采用 千兆以太网实现。本系统采用Intel 82546EB千兆以太网卡,该网卡带有两
个千兆网口。如图1所示,所述网卡的一端通过PCI总线与所述北桥芯片 9连接,另一端连接到CPCI J3连接器16上,J3的信号定义完全按照 PICMG2.16 Packet Switching Backplane规范。整个大规才莫阵列信号处理系 统中各板卡的千兆网口都连接到系统中的CPCI千兆以太网交换板上,且 均符合PICMG2.16 Packet Switching Backplane规范。 PCI-to-PCI非透明桥在多块信号处理板及主控板组成的大规模阵列信号处理系统中,各信 号处理板往往都会采用一款非透明桥片。本发明采用的是一款PCI-to-PCI 的非透明桥,该PCI-to-PCI桥的一端与所述北桥芯片连接,另一端与CPCI Jl连接器14和CPCI J2连接器相连15, Jl/J2的信号定义完全按照 CompactPCI2.0R3.0规范设计。在大规模阵列信号处理系统中,信号处理 板只需完成主控板分配的任务,并将处理结果发给主控板即可,信号处理 板的处理器不应主动抢占CPCI总线,与主控板争夺控制权,从而保证整 个系统中主/从板各司其职,有条不紊地工作。此外,该桥片还可以实现板 间少量数据的传输。本实施例中虽然使用了 4片通用处理器,但也可使用2片或其它数目 的处理器,在符合6U标准尺寸的基板上, 一般可以集成2-4片通用处理 器。最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限 制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应 当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技 术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
权利要求
1、 一种CPCI信号处理板,包括至少2个通用处理器,所述通用处理器通过前端总线互联; 一北桥芯片,通过前端总线与各所述处理器连接,该北桥芯片还连接 一共享内存;一CPCI总线,通过PCI桥与北桥芯片连接。
2、 按权利要求1所述的CPCI信号处理板,其特征在于,每个所述通 用处理器分别连接一本地内存。
3、 按权利要求1所述的CPCI信号处理板,其特征在于,所述北桥芯 片具有读写锁机制,以保证每一个处理器对所述共享内存中的共享程序和 共享数据的原子操作。
4、 按权利要求1所述的CPCI信号处理板,其特征在于,所述北桥芯 片实现了 DMA引擎,用于实现处理器与共享存储区之间的DMA操作。
5、 按权利要求1所述的CPCI信号处理板,其特征在于,所述北桥芯 片可以指定一个所述通用处理器为主处理器,该主处理器对从处理器进行 任务分配。
6、 按权利要求1所述的CPCI信号处理板,其特征在于,所述北桥芯 片还连接一个千兆网卡,该千兆网卡另一端与CPCI总线连接。
7、 按权利要求1所述的CPCI信号处理板,其特征在于,所述PCI 桥是PCI-to-PCI非透明桥接芯片。
8、 按权利要求1所述的CPCI信号处理板,其特征在于,所述通用处 理器是Loongson 2E通用处理器。
9、 按权利要求1所述的CPCI信号处理板,其特征在于,所述北桥芯 片还具有Local I/O接口 ,与所述信号处理板的BIOS芯片连接。
10、 按权利要求1或8所述的CPCI信号处理板,其特征在于,所述 信号处理板尺寸符合6U标准,所述通用处理器为2至4个。
全文摘要
本发明提供一种CPCI信号处理板,包括至少2个通用处理器,所述通用处理器通过前端总线互联;一北桥芯片,通过前端总线与各所述处理器连接,该北桥芯片还连接一共享内存;一CPCI总线,通过PCI桥与北桥芯片连接。本发明具有如下技术效果采用多片通用处理器,可以实现大规模的并行数据运算功能,同时能够为开发人员提供通用的软件开发平台;多片通用处理器采用共享前端总线的方式与北桥芯片连接,北桥芯片上连接一共享内存,大大提高了通讯效率,减少了通讯延迟。
文档编号G06F15/16GK101122892SQ200710120439
公开日2008年2月13日 申请日期2007年8月17日 优先权日2007年8月17日
发明者明 刘, 汪福全, 褚越杰 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1