一种基于串行存储器构建的语音合成芯片的制作方法

文档序号：2833992阅读：298来源：国知局

专利名称：一种基于串行存储器构建的语音合成芯片的制作方法
技术领域：
—种基于串行存储器构建的语音合成芯片技术领域：
本实用新型涉及通讯数据领域。具体地，本实用新型涉及一种基于串行存储器构建的语音合成芯片及其框架。
背景技术：
语音芯片是将语音信号通过采样转化为数字信号，存储在芯片的存储器中，再通过数/模转换电路和解码器等硬件，将存储器中的数字信号还原成语音信号的设备。语音合成芯片则是通过接收上位机(主控MCU)发送的文本字符信息，通过TTS (Text To Speech,从文本到语音)技术形成合成语音,并驱动芯片外围的发声器,实现文本内容的直接发声。当前主流的语音合成芯片，一般思路是采用SoC(System On Chip,片上系统)的方法，在一颗裸片上集成CPU、RAM、ROM、FLASH等计算存储资源，以及UART、SPI、USB、功放等许多外围通信接口资源，并在ROM/FLASH资源中固化存放TTS语音合成软件代码和语音特征数据，然后进行裸片封装。这样的设计导致在一颗裸片上需要集成多种不同的制程工艺，直接造成芯片设计、生产十分复杂，即使设计成功，也由于成本太高，性/价比不好而难以推广。此外，对于智能化程度高(听感自然)的语音合成软件，例如基于统计声学模型的HMM语音合成技术，如果要内嵌到语音合成芯片中，需要芯片中内置大容量的数据ROM存储或FLASH存储，存储规模至少需要2M字节，同时还需要内置高速计算的CPU核和足够的内存缓冲区。这些硬件需求导致在SoC的芯片上实现智能化程度高的语音合成技术，必须采用多种完全不同的芯片制程工艺，导致芯片加工制作难度很大。而采用智能化水平较低的语音合成技术，包括早期的基于语音波形拼接为主体的PSOLA技术，虽然可以使得芯片对CPU计算资源和RAM、ROM的存储资源要求控制在一个受限的水平，但合成的语音效果带有浓重的机器味；此外还有韵律不自然，可懂度差等许多比较负面的受众听感。CN201936600U公开了一种基于专用语音芯片，进行非特定人语音识别与语音合成装置，它采用嵌入式处理器外围扩展专用语音处理芯片(包括语音识别芯片、和语音合成芯片)的方式，实现了语音识别与语音合成。它包括对话管理模块，该模块与语音输入模块、外部设备接口模块、显示模块、语音合成模块和语音输出模块连接；电源模块为整个装置供电。对话管理模块由以STM32为核心的主控制电路和以24C256为核心的扩展存储器电路组成；电源模块进行了模拟电源与数字电源的隔离；语音输入模块以LD3320专用非特定人语音识别芯片为核心，实现语音识别，并将识别结果反馈给主控制器；语音合成模块以XFS4041CN专用语音合成芯片为核心，实现语音合成；另外，设计了外部串行设备接口单元和LCD液晶屏接口，便于装置的初始化和外部设备的连接。上述装置通过使用模块化的方法，将专用语音合成芯片和语音识别芯片，简单的集成在一块PCB电路板上，实现语音识别和合成的功能，也是现有较为常见的一类实现语音识别和合成的专用装置，但作为专用装置，其适用性大受限制，无法实现其功能在多种场合下的应用，其设备体积也很大，通常是语音合成芯片的几十倍以上的大小，同时本专用装置工作时功耗的问题也无法忽略。

实用新型内容本实用新型的目的是克服现有技术缺陷，提供一种能够实现高智能化语音合成技术、结构更简单、无需在同一芯片上集用多种制程工艺的语音合成芯片，其制造工艺可以充分利用当今芯片制造的先进流程，具有更成熟的支撑手段和设计方法，并具有良好的、在未来构建各类型的专用语音处理装置中的适用性。因此，本实用新型提供一种基于串行存储器(比如SPI-FLASH)，将语音合成芯片划分成两个功能子芯片语音信号处理子芯片和串行存储子芯片，这两类子芯片通过绝缘胶或高密度粘性薄膜等多芯片粘接工艺，和多芯片堆叠封装MCP (Multi Chip Package)工艺进行系统封装，最终形成新型的语音合成芯片，由此可以内嵌智能化程度很高的语音合成软件，使得芯片的合成语音自然度高、合成效果，及最终的性/价比均具有很大的提升。具体地，本实用新型提供一种基于串行存储器构建的语音合成芯片，所述语音合成芯片包括语音信号处理子芯片和用于保存语音模型和字典数据的串行存储子芯片，其中，所述语音信号处理子芯片和串行存储子芯片通过多芯片堆叠方式封装在一起，获得QFP/LQFP的封装形式；所述语音合成芯片的引线数不超过64个，面积不大于IOmmX 10mm。优选地，所述语音信号处理子芯片和串行存储子芯片通过绝缘粘胶或粘膜粘结在一起。优选地，所述语音信号处理子芯片包括CPU核和外围接口，所述CPU核是32位的，所述CPU的主频时钟不低于IOOMHz。优选地，所述串行存储子芯片的存储容量不小于4M字节，也可使用8M、16M字节以上的存储容量。优选地，所述语音信号处理子芯片还包括内置的片上存储器或缓存，所述片上存储器或缓存不小于64K字节；所述语音信号处理子芯片还包括不小于64K字节的内置代码存储器，所述内置代码存储器的是只读ROM或可擦写的FLASH。优选地，所述语音信号处理子芯片的外围接口，具有支持一个至多个串行通讯方式的接口模块和引线组，所述接口模块和引线组包括UART、SPI-主、SPI-从、I2C-从、USB-从；所述外围接口还具有数模音频输出接口模块或音频输出串行总线I2S接口。同时在封装语音处理子芯片的时候，将这些外围接口引线出来，形成语音合成芯片封装片相关定义的引脚(PIN)。优选地，所述串行存储子芯片是SPI-FLASH/SPI-ROM存储芯片。，同时在封装时，将SPI (从片)通信的接口引线出来，形成封装芯片的引脚(PIN)。优选地，所述串行存储子芯片具有SPI-从接口，所述语音信号处理子芯片的SPI-主接口与所述串行存储子芯片的SPI-从接口对应连接。在运行语音合成软件的时候，各自的SPI引线PIN管脚，将保证在布置封装芯片的电路板上，一一对应地连接起来，处于联通的状态。优选地，所述语音信号处理子芯片和串行存储子芯片之间，在运行语音合成软件的时候，将通过SPI或增强型SPI通讯方式进行数据交换或数据通信，因此在封装芯片的外围电路设计时，应该将所述的语音信号处理子芯片的SPI-主引线，和串行存储子芯片的SPI-从引线，进行信号弓I线之间的一一对应连接。优选地，所述串行存储子芯片还可用于内嵌软件代码，在代码的实际运行时，通过语音信号处理子芯片的虚拟内存管理机制，将内嵌的代码调度到这个子芯片的内存缓冲区中运行，从而保证语音信号处理子芯片，可以运行代码容量远远超出其内置代码存储器所限定存储容量的、高端智能化的语音合成软件代码所组成的程序。下面将更详细的说明本实用新型的技术方案。本实用新型提供一种基于串行存储器构建的语音合成芯片，其中所述芯片包括语音信号处理子芯片和串行存储子芯片，所述串行存储子芯片用于保存语音模型和字典数据；所述语音信号处理子芯片和串行存储子芯片通过多芯片堆叠封装方式堆叠封装在一起，获得QFP/LQFP的封装形式；经过封装后的语音合成芯片的引线数为64个，或少于64个。 QFP(Quad Flat Package)即四侧引线扁平封装,是表面贴装型封装之一，引线从四个侧面引出。基材有陶瓷、金属和塑料三种。可用于微处理器、门陈列等数字逻辑LSI电路，而且也用于VTR信号处理、音响信号处理等模拟LSI电路。薄型QFP(LQFP, Low profile Quad Flat Package)指封装本体厚度为 I. 4mm 的QFP。上述串行存储子芯片是基于串行存储器SPI-FLASH或SPI-R0M，并且其内置的存储容量不少于4M字节。串行存储子芯片主要用于保存语音模型和与文本处理相关的字典数据。并在语音信号处理子芯片缺少代码存储空间的情况下也可内嵌软件代码。语音信号处理子芯片基于32bit CPU核，特别是采用ARM9或MIPS等32位的IP核，其主频时钟不低于100MHz。语音信号处理子芯片的外围接口具有支持一个至多个串行通讯方式的接口模块和相关的引线Pin组，优选地应当包括UART、SPI (从)、I2C(从),USB (从)等接口引线组，以确保可以和上位机进行数据通信；还应具有音频输出接口模块及相关的pin引线组，可以和喇叭相接，以实现合成语音的驱动输出；还应具有至少一个SPI(主)通讯接口引线组，以确保语音合成芯片系统独立运行时，语音信号处理子芯片可以作为上位机，和作为下位机的串行存储子芯片进行数据交换。本实用新型的语音信号处理子芯片，其内置的片上内存或缓冲RAM不低于64K字节，内置的代码存储器不低于64K字节。因此，当TTS软件代码运行时，可以直接调用串行存储子芯片中存储的语音数据和文本语言相关的字典数据。另一种可优选的处理方案，是让语音信号处器子芯片中具有很小的系统boot代码存储，同时内置较大的物理内存RAM空间和内存管理硬件单元MMU或虚拟内存处理单元(VMM)。MMU可以将物理内存RAM空间和串行存储子芯片中的FLASH/R0M存储空间进行整合，通过虚拟内存管理VMM技术实现虚拟内存系统VMS，从而模仿出足够大的代码空间和缓冲数据空间，以保证智能化程度高的TTS软件，获得平稳运行的能力。本实用新型中的语音信号处理子芯片和串行存储子芯片的裸片(DIE)通过晶圆的切薄工艺处理后，两篇裸片之间通过堆叠的MCP方式封装在一起。晶圆的切薄工艺是芯片制造领域的常规技术之一，例如中国专利申请CN 101695823A中公开的技术，或应用其他同类型工艺均可。[0029]优选地，语音信号处理子芯片的裸片通过绝缘粘胶、或粘膜材料，与串行存储子芯片的裸片粘结在一起，两片裸片的大小与形状应当匹配，以满足堆叠式封装MCP的约束条件，以获得类似QFP/LQFP的封装形式，并且封装后的引线数量不会超过64pin，封装主体(不包括引脚PIN)的面积不会超过；本实用新型中的语音合成芯片独立运行时，串行存储子芯片，通过SPI或增强型SPI通讯方式，作为从机与上位机一语音信号处理子芯片实现数据通讯，因此在封装后所引出的引线(PIN)中主要包括I)数据输入/出引线PIN组；2)接受上位机的片选信号引线PIN ；
·[0033]3)与上位机的同步时钟引线PIN ；4)存储子芯片的电源引线组PIN。引线组的具体设置和操作步骤属于本领域技术人员已经掌握的操作，本申请中不作赘述。—种优选的实施方式是在串行存储子芯片中内嵌的语音合成软件系统，实现稳定、成熟的可靠运行后，进一步对SPI-FLASH子芯片进行掩模(MASK)工艺处理，或替代地采用SPI-ROM子芯片，以降低系统成本。串行存储子芯片可通过标准的SPI、或增强型的Dual SPI或Quad SPI通讯接口方式与上位机(语音信号处理子芯片)通信，以加快两个子芯片之间的数据交换速率，从而提升本实用新型的语音合成芯片的处理速度，使得本实用新型可以处理更智能、更复杂的语音合成软件，进一步有效提升语音合成芯片的智能化程度和合成语音时所综合表现的其它性能指标。根据性能，当串行存储子芯片为SPI-FLASH的情况下，语音信号处理子芯片可以随时升级内嵌的语音合成软件，从而保证语音合成芯片核心算法的不断升级换代，或保证语音合成芯片对客户的个性化需求实现更好的适应性；对于串行存储子芯片为SPI-FLASH的情况，可以大量采用现存市场上成熟的晶圆产品；并且可以根据产品的不同市场需求，灵活地形成具有不同数据存储容量的高端语音合成芯片。当串行存储子芯片为SPI-FLASH时，其数据存储具有可多次擦写的特点，因此当语音合成芯片在运行语音合成软件时，语音信号处理子芯片就可以在软件的环境变量、或全局变量发生改变的情况下，随即将这些改变保存到串行存储器SPI-FLASH中，这样就保证了在下次开机时，将有效的恢复系统运行环境，特别是当系统处于非正常开/关机的情况下，可以有效的保护系统运行现场。当串行存储子芯片为SPI-ROM时，语音合成软件就不可以随时升级；并且在语音合成芯片关机后，其中环境变量如果需要重新复原，则须上位机重新发布控制指令给予支持。与现有的语音合成芯片所采用的技术相比较，本实用新型具有显而易见的优势首先，通过将具有高速处理能力、CPU核为32位的语音信号处理子芯片与串行存储子芯片通过多芯片封装(MCP)的工艺技术堆叠封装在一起，获得LQFP/QFP的芯片封装、引线数量少于64，面积小于10*10mm的高端语音合成芯片，这种封装芯片，与早期采用8位、16位CPU核+DSP核的语音合成芯片相比较，具有更适合内嵌高度智能化语音合成软件的能力；其次，与传统的设计思路——将语音合成芯片设计成SoC的方案相比较，本实用新型的芯片无需要在一颗裸片上集成多种不同工艺的集成电路资源模块，而是将芯片中的串行存储子芯片独立设计，与语音信号处理子芯片在物理上相分离，再集成封装在一起，因此具有更简单、更成熟、更有效的技术特点，而且成品体积很小，引线数少；另外，本实用新型采用的串行存储器SPI-FLASH/R0M，具有引线PIN数量少、容易集成的特点，存储容量易于升级，市面上产品线成熟等许多特性，因此使得本实用新型的语音合成芯片，其生产制作工艺具有更灵活；更成熟、更可靠的技术优势；此外，本实用新型的语音合成芯片可独立运行，也可通过连接上位机在其他多种专用功能装置中作为语音合成模块而存在，例如应用于智能交通系统或装置、智能家居系统或装置、安防监控系统或装置中，使这些系统或装置具有将文本转成语音的功能；最后，由于采用串行存储子芯片具有可多次擦写、易于通过语音信号处理子芯片的USB接口，进行软件升级的特点，因此可以在多音字、特定符号、文本韵律特点的认知等许多方面，可按照行业应用特点或客户的个性化需求，进行更加灵活、个性化的定制，从而使高端的语音合成芯片走向更加实用化的特点。

图I为实施例I的串行存储子芯片的不意图；图2为实施例I的语音信号处理子芯片的示意图；图3为本实用新型的语音合成芯片结构示意图；图4为实施例2的串行存储子芯片的不意图；图5为本实用新型的语音合成芯片的SPI联结图。其中1、串行存储子芯片；2、语音信号处理子芯片；3、基岛框；4、封装后的语音合成芯片。
具体实施方式通过下面实施例将能更好地理解本实用新型，但不用于限制本实用新型的范围。实施例I单语种语音合成芯片由于单语种(如中文或者英文)语音合成芯片，所需存储的语音模型数据库和语言模型数据库可经过数据压缩优化方法控制在4M字节以内。语音模型数据库和语言模型数据库的数据压缩优化方法是现有技术，例如参考中国专利申请CN201010580790. 7中公开的方案，或采用同领域方案均可实现。如图I所示，采用购买获得的SPI-FLASH裸片，其SPI通讯速率可高达120Mbit/s，裸片尺寸为2602 UmX 1990 u m,其上的焊接点PAD主要用于SPI (从)通信接口的定义，分布如下PADl-用于封装时焊线到SPI通信时的片选PIN(CS)；PAD8-用于封装时焊线到SPI通信时的时钟信号PIN(CLK)；PAD2-用于封装时焊线到SPI的信号输出PIN(SO)[0061]PAD9-用于封装时焊线到SPI的信号输入PIN(SI)PAD6-用于封装时焊线到SPI的电源PIN(VDD)PAD4、5_用于封装时焊线到SPI的电源PIN(VSS)然后，语音信号处理子芯片采用以ARM926EJ为CPU核的、宇音天下公司自行SoC设计的主芯片，该芯片的裸片尺寸为3544 iimX 3361 iim，其功能模块如图2所示，其主要技术指标如下I) CPU的运行主频达200MHz，和IOOMHz的系统运行主频；2)内置64K字节的片上R0M，以实现系统BOOT代码存储；3)内置192K字节的片上物理内存SRAM，用于配合MMU实现虚拟内存； 4)具有虚拟内存管理单元MMU，从而可以在有限的物理内存中，运行大容量的、智能化程度高的语音合成软件；5)具有SPI (主)接口，可以和SPI-FLASH的引线组进行相联，并通过虚拟内存管理机制，直接存取SPI-FLASH存储中的语音和语言模型数据，和语音合成程序的代码数据；6)具有电源管理模块,可以实现主芯片的Standby、Power Down三种工作模式；7)具有三种串行通信从机接口或下位机接口方式I2C(从)、SPI(从)、UART，并且本实用新型的语音合成芯片通过其中的任意一种通信方式，均可以接收上位机的文本数据；8)具有语音信号处理加速器(Audio Accelerator)，能够对 MP3、G. 729、G. 723、WMA等声音编码算法，进行快速的压缩和解压缩；9)音频输出方面，支持DAC音频输出和Headphone驱动输出。语音信号处理子芯片的其它硬件特性，包括外接的晶振(Crystal)、调试接口(JTAG)等为本领域技术人员已经掌握的技术，因此不予赘述。在本实施例中，由于串行存储子芯片的裸片尺寸为2602 iimX 1990ii m，而语音信号处理子芯片的尺寸为3544iimX3361 iim，因此，在3D堆叠封装成LQFP64过程中，需要将串行存储子芯片置于顶层，语音信号处理子芯片置于中间层，而下层则由基岛框(Framework)组成。具体见图3的结构示意图所示,其中I)串行存储子芯片通过绝缘胶与语音信号处理子芯片粘结在一起，并置于语音信号处理子芯片的上层；2)语音信号处理子芯片通过导电胶与基岛框粘结在一起，并将基岛框置于底层，从而语音信号处理子芯片置于整个3D封装的中间层；同时系统获得更好的散热性能。3)裸片上所有的焊点均设计成分布于其裸片的四个边沿上，以方便进行3D堆叠封装成LQFP-64L时，将焊线引出到封装芯片四周的PIN引线上；4)串行存储子芯片和语音信号处理子芯片上各接口模块的全部焊接点均通过金属焊丝线导出到封装片LQFP-64L的不同引线PIN上，从而在子芯片的PAD和封装片的PIN之间形成带电导通意义上的、一一对应的联接关系。串行存储子芯片的全部焊点与LQFP封装后的引线实现一一对应关系，因此可以通过SPI-FLASH的烧录程序，随时升级内嵌的语音合成软件，从而保证语音合成芯片核心算法的不断升级换代，或保证语音合成芯片对客户的个性化需求实现更好的适应性。这样，本实用新型的语音合成芯片中的串行存储子芯片可擦写10万次的特点，因此当语音合成系统的环境变量改变时，软件可以将这种改变实时保存起来，从而使得系统即使是非正常的关机/开机，也可以有效的恢复系统的现场环境。最后，本实施例形成封装后的语音合成芯片，其中的语音信号处理子芯片的SPI (主)接口 PINs，和串行存储子芯片的SPI (从)接口 PINs，在运行语音合成软件的时候，各自的SPI引线PIN，将在集成封装芯片的电路板上，一一对应地连接起来，处于实际上的联通状态。如图5所示。实施例2多语种语音合成芯片以双语种(中文+英文)为例，所需存储的语音模型数据库和语言模型数据库为8M-10M字节左右。因此，在本实施例中，串行存储子芯片采用的裸片为市场上成熟的SPI-FLASH芯片，可支持标准的SPI、双倍速SPI和四倍速SPI或称之为Quad SPI通信速率，如图4所示。裸片尺寸为3480iimX5205iim，存储规格为16M字节的SPI-FLASH。语音信号处理子芯片与实施例I的类似，但为了更有效地降低虚拟内存切换频次而内置高达256K字节的片上物理内存SRAM，此外，语音信号处理子芯片增加了对Quad SPI即四倍速SPI通信速率的支持，从而进一步加快了虚拟内存的切换速度。语音信号处理子芯片裸片尺寸小于串行存储子芯片的裸片尺寸，因此类似地，在LQFP64-3D封装过程中需要将语音信号处理子芯片置于顶层，串行存储子芯片置于中间层，而下层则由基岛框(Framework)组成。其中I)串行存储子芯片通过粘膜材料与语音信号处理子芯片粘结在一起，并置于语音信号处理子芯片的下层；2)串行存储子芯片通过导电胶与基岛框粘结在一起，并将基岛框置于底层，这样，串行存储子芯片置于整个3D封装的中间层；3)语音信号处理子芯片和串行存储子芯片上的全部焊接点均通过一定长度和特定弧度的金属焊丝线，导出到封装片LQFP-64L的不同引线上，从而在子芯片的PAD和封装片的PIN之间形成带电导通意义上的、一一对应的联接关系。本实施例的语音合成芯片可以内嵌高度智能化语音合成软件的能力；通过串行存储子芯片与语音信号处理子芯片在物理上相分离的设置，具有更简单、更成熟、更有效的技术特点；本实施例的芯片具有引线数量少、容易集成的特点，存储容量易于升级，市面上产品线成熟等许多特性，因此使得本实用新型的语音合成芯片，其生产制作工艺具有更灵活；还具有可多次擦写、易于通过语音信号处理子芯片的USB接口，进行软件升级的特点，因此可以在多音字、特定符号、文本韵律特点的认知等许多方面，可按照行业应用特点或客户的个性化需求，进行更加灵活、个性化的定制，从而使高端的语音合成芯片走向更加实用化的特点。
权利要求1.一种基于串行存储器构建的语音合成芯片，所述语音合成芯片包括语音信号处理子芯片和用于保存语音模型和字典数据的串行存储子芯片，其特征在于所述语音信号处理子芯片和串行存储子芯片通过多芯片堆叠方式封装在一起，获得QFP/LQFP的封装形式；所述语音合成芯片的引线数不超过64个，面积不大于IOmmX 10mm。
2.根据权利要求I所述的语音合成芯片，其特征在于所述语音信号处理子芯片和串行存储子芯片通过绝缘粘胶或粘膜粘结在一起。
3.根据权利要求I所述的语音合成芯片，其特征在于所述语音信号处理子芯片包括CPU核和外围接口，所述CPU核是32位的，所述CPU的主频时钟不低于100MHz。
4.根据权利要求I所述的语音合成芯片，其特征在于所述串行存储子芯片的存储容量不小于4M字节。
5.根据权利要求3所述的语音合成芯片，其特征在于所述语音信号处理子芯片还包括内置的片上存储器或缓存，所述片上存储器或缓存不小于64K字节；所述语音信号处理子芯片还包括不小于64K字节的内置代码存储器，所述内置代码存储器的是只读ROM或可擦写的FLASH。
6.根据权利要求3所述的语音合成芯片，其特征在于所述语音信号处理子芯片的外围接口，具有支持一个至多个串行通讯方式的接口模块和引线组，所述接口模块和引线组包括UART、SPI-主、SPI-从、I2C-从、USB-从；所述外围接口还具有数模音频输出接口模块或音频输出串行总线I2S接口。
7.根据权利要求4所述的语音合成芯片，其特征在于所述串行存储子芯片是具有SPI-从接口的 SPI-FLASH/SPI-ROM 存储芯片。
8.根据权利要求4或6所述的语音合成芯片，其特征在于串行存储子芯片具有的SPI-从接口，和所述的语音信号处理子芯片的SPI-主接口，需要在软件启动时一一对应的连接起来。
专利摘要本实用新型涉及一种基于串行存储器构建的语音合成芯片，所述语音合成芯片包括语音信号处理子芯片和用于保存语音模型和字典数据的串行存储子芯片，其中，所述语音信号处理子芯片和串行存储子芯片通过多芯片堆叠方式封装在一起，获得QFP/LQFP的封装形式；所述语音合成芯片的引线数不超过64个，面积不大于10mm×10mm。本实用新型的语音合成芯片具有引线数量少、容易集成的特点，生产制作工艺更灵活，可按照行业应用特点或客户的个性化需求，进行更加灵活、个性化的定制，具有更加实用化的特点。
文档编号G10L13/00GK202502734SQ20122015149
公开日2012年10月24日申请日期2012年4月11日优先权日2012年4月11日
发明者何娅玲, 何宇新申请人:北京宇音天下科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何宇新;何娅玲
技术所有人：北京宇音天下科技有限公司
我是此专利的发明人