普适压缩曲线微型超大汉字库技术的制作方法

文档序号:6330749阅读:204来源:国知局
专利名称:普适压缩曲线微型超大汉字库技术的制作方法
技术领域
“普适压缩曲线微型超大汉字库”技术是一种汉字输出技术,它属于中文信息处理技术领域。
背景技术
随着信息化的飞速发展,我国各行各业都已经广泛地在计算机上应用汉字库。但是,人们发现多年来市面上流行的曲线汉字库除宋体和黑体字数较全外,其它字体都只含数千字,致使在外交、外贸、航空、海运、公安、金融工作以及日常人们的办公室系统、手机短信中有许多人名、地名和文献资料的用字都不能正确处理,经常出现错别字、缺字和字形不美的现象,给社会在政治、经济、军事、文化、教育、科研等方方面面都造成了越来越多的麻烦甚至是不可弥补的损失。中国社会和国际上都在迫切呼唤着能支持电脑和各种微型电子产品的大容量汉字库产品的出现。“普适压缩曲线微型超大汉字库技术”正是这种应运而生的字库技术,它可以包含有宋、仿宋、楷、黑等各种字体,每种字体都完全是以国家标准GB18030-2000(即国际标准ISO/IEC 10646)为依据来制作的,分别都是真正地包含有27484个汉字。由于此标准是综合了中国、日本、韩国所有信息交换用汉字,故以它为依据制作的“普适压缩曲线微型超大汉字库”就具有世界通用性,从而填补了国际软件市场中的一项空白。待其实现后,中、日、韩国的汉字再也不需进行繁简体转换的操作,再也不会出现常用十来种字体字数含量相差悬殊的现象;再也不会出现同一种字体存在几种不同风格的现象;更不会有字形不美的情况产生。也就是说,“普适压缩曲线微型超大汉字库技术”实施成功后,不仅对我国的信息产业稳固发展起到了奠基作用,而且也将为世界其它使用汉字国家的信息产业发展起到促进作用。“普适压缩曲线微型超大汉字库技术”可以普遍适用于社会各行各业,如办公室自动化、通用软件、各种输出设备、印刷出版业、外交、外贸、航空、海运、公安、金融、中文信息处理系统等需要应用超大汉字库的领域内。我们的目标是让所有需要汉字的地方都能应用“普适压缩曲线微型超大汉字库技术”,故其社会经济效益将不可估量。

发明内容
通过对数万汉字的分析,我们发现汉字是字素位置的有序集合。换句话说,从结构上看,汉字是由字素按嵌套方式结构组合而成的。字素是经对汉字的结构进行统计分析后抽选出来的一些组字元素,利用它们就能完整地组配出所有汉字。字素中有的是构成汉字的最基本的笔画,如“一、丨、丿、乙、乀、○、 丶”共八类笔画,而每类笔画又可分为好几种(如“折”就有“乛、亅、乚、乙、ㄅ、ㄣ、ㄑ、ㄥ、”等二十来种);字素中有的是由这些笔画组成的常见的偏傍部首,如“氵、扌、竹、艹、宀、广、亻、衤、阝、忄、覀”等;有的字素可以独立成字,如“日、月、山、虫、金、木、火、土、大、小、人、口、手、心”;还有的字素是其它一些笔形结构,统称之为字素。由于汉字可以看成是一个平面图形,故只要在平面图形中相应的位置上填入恰当的字素,就可以产生有关汉字。例如,把字素“口、八”分别填入平面图形的上部和下部,便可形成一个“只”字;把字素“口、八”分别填入平面图形的左边和右边,便可形成一个“叭”字;“太”字就是“丶”嵌在“大”内;而“中”字是“丨”穿过“口”;“叉”字是字素“丶”嵌在“又”中;“尤”字是字素“丶”嵌在“尢”右上角。注意这里使用了“位置”两个字,说明单纯地用字素进行线性组合来形成汉字是不完备的。因此,用嵌套结构观点看汉字,必须把每个汉字看成是若干个字素及其所在位置有序集合的结果。总之,本技术提取所有汉字的偏旁部首作公因子,穷举出所有汉字的其它部份作基本组字单位,将两者称之为字素,并按照汉字具有的嵌套结构理论特性用字素来合成汉字,再以GB18030-2000中汉字顺序为依据来制作一种字体的汉字库。各种字体中每个汉字平均由3至4个字素组成。由上述汉字库形成原理可知本字库技术与市面上流行的曲线汉字库技术是完全不同的(他们都是以整个汉字形体来形成汉字库的)。在形成汉字之后,便可依照国家标准GB18030-2000(即国际标准ISO/IEC 10646)的汉字排列顺序为依据来制作汉字库,它可以包含有宋体、仿宋、黑、楷、圆、隶书、魏碑、综艺、琥珀、行书、姚体、彩云、报宋、标宋、粗黑、粗圆及其它各种字体,每种字体分别都包含有27484个汉字,其十六进制编号为3400至4DB7,4E00至9FA5。
汉字字素是按字素形状用若干个笔画依据其在字素中相应位置逐个放置而成的。每种字体中字素个数大都互异,最少的单线体字素个数为1024个,最多的字体字素个数不足8192个。各种字体的每个字素平均由8至10个笔画组成。笔画最多的字素为20个笔画,笔画最少的字素为1个笔画。注意,对于大多数偏旁部首来说,一定要有数个形状相似的字素与之对应,才能满足对汉字的美观性的要求。
分析GB18030-2000编码汉字集中所有汉字,从中筛选出同一字体中所有汉字的全部形状互异的笔画(包括形状相同而长短或高低不同、形状相同而粗细不一、形状相同而倾斜度不同的笔画在内),将这些笔画逐个进行放大,再用BEZIER二次曲线函数来描绘经放大后的笔画的轮廓。这样形成的笔画是一空心笔画(轮廓笔画),用此空心笔画来形成字素及汉字,其效果远比描绘整个汉字的轮廓要精细得多。显然,字形的美观度也更胜一筹。注意,这些形状互异的笔画不一定是一种完整的通常所指的“笔画”,它可以是其中的一小部分,如“起笔笔锋”或“收笔笔锋”,也可以是“笔身”。每种字体中笔画个数大都互异,最少的单线体笔画个数为64个,魏碑字体694个笔画,最多的字体笔画个数可有812个。各种字体的每个笔画平均为96至128个字节。
汉字、字素、笔画制作范围可以在256×256点阵至1024×1024点阵中,点阵过大是完全没有必要的。为了节省存储单元,提高字库压缩比,加快汉字形成速度,最好是采用256×256点阵来作为汉字、字素、笔画制作环境。每个字素、笔画在汉字中的“位置”用其左上角坐标(X,Y)、宽度(W)、高度(H)来表示。
根据上面一种字体汉字库形成原理,可知同一CJK号具有相同的造字信息,使得几种字体能够共用这些信息,这样可以进一步减少汉字库的存储空间,形成了一种有独特风格的汉字库压缩技术,这就为大汉字库的微型化奠定了坚实的基础。因为,在包含宋仿楷黑四种字体,每种字体各含20902个汉字情况下,“普适压缩曲线微型超大汉字库”所需存储容量还不到2MB。然而,华天曲线汉字库所需存储容量为4MB;市面上流行的曲线汉字库所需存储容量大都在32MB以上。所以,“普适压缩曲线微型超大汉字库”是世界上存储容量最小的曲线汉字库。
目前市面上流行的曲线汉字库在字形美观上的不足之处是当把汉字压缩到16×16点阵时,字形的美观度就不如16×16点阵汉字库中的汉字。因为它们没有西文字库中用以确保其美观性的微量压缩(hinting)技术。而我们的“普适压缩曲线微型超大汉字库技术”却有自己独创的汉字修补技术来对字素和汉字进行美化,使得汉字在16×16点阵时也照样美观。此修补技术采用的是增加特殊笔画或字素来分别修补字素或汉字的不足。每个特殊笔画或字素在汉字中的“位置”也是用其左上角坐标(X,Y)、,宽度(W)、高度(H)来表示。由于目前市面上流行的曲线汉字库是通过描绘整个汉字的轮廓来形成字库的,所以,如果它们也采用汉字修补技术来形成字库的话,则必定会大大地增加存储空间,降低生成汉字速度,从而大大降低它们的实际应用价值。
目前市面上流行的曲线汉字库,其制作过程中有一道必不可少的工序,即必须请书法家写出或描字工绘出字库中的每一个字,这是一道费时费力的工序,对于每种字体的27484个字要完成这道工序都需花费1.6个人年。因为此道工序不能用多个人一齐干,多人干的后果是会造成字体风格不一,影响字的整体美观性;接着另一道工序是将写出的每个字用扫描仪扫入微机中形成汉字字模,估计一套字体得花0.1个人年才能完成。而“普适压缩曲线微型超大汉字库技术”却完全不需要这两道常规造字工序,最多只需字体中一些常用字的字模即可。与其他字库的制作技术相比,可以大大节省开发费用和开发时间。由此看来,与常规曲线汉字库相比每款字体开发时间可省1.6个人年以上。
市面上流行的曲线汉字库扩充汉字时,存储单元与扩充的汉字个数是成线性关系地增加;但是,“普适压缩曲线微型超大汉字库技术”扩充汉字时,存储单元增加甚微。其原因是本字库技术只需增加一些编码组字序列,其笔画和偏旁部首基本上早已存在于原汉字库中。
市面上流行的曲线汉字库在一种字体做好后,不能生成多种类似字体,因为它们都要受到字模的限制。然而,“普适压缩曲线微型超大汉字库技术”在一些字体做好后,可以生成多种类似字体。因为“普适压缩曲线微型超大汉字库技术”能简单地在同一种字体中进行笔画粗细变换。
由于“普适压缩曲线微型超大汉字库技术”微型化汉字库的接口平台是开放式的,所以它可以根据任何需要匹配使用的软硬件条件开发相应的接口。它可以普遍适用于各种手机、微机、汽车电脑、掌上电脑、PDA、电子课本、电子辞典、电子翻译器、电子记事本、手持终端等微型电子设备、印刷出版、广告、美术设计、古籍整理等专业领域以及政府部门、金融(银行密码机)、公安、公共交通、铁路、商店(商业收款机)、家电产品(信息家电)等需要汉字的广泛领域中。
具体实施例方式
目前,我们利用本技术已完成了最常用的宋、仿、黑、楷、圆体、隶书、魏碑、综艺体八种字体的研制工作,每种字体分别都包含有27484个汉字。现正要着手开发单线体、行书、琥珀、姚体、彩云、报宋、标宋、粗黑、粗圆等微型大汉字库。待上述17种字库研制完成后再继续开发其它实用的字体,确保能充分满足国内、外对汉字的需求。
权利要求
1.普适压缩曲线微型超大汉字库技术,其特征在于(1)提取所有汉字的偏旁部首作公因子,穷举出所有汉字的其它部份作基本组字单位,将两者称之为字素,并按照汉字具有的嵌套结构理论特性用字素来合成汉字,再以国家标准GB18030-2000中汉字顺序为依据来制作便可形成一种字体的汉字库。由于同一CJK号具有相同的造字信息,使得几种字体能够共用这些信息,因此可形成迄今为止世界上存储容量最小的曲线汉字库。各种字体中每个汉字平均由3至4个字素组成。(2)汉字字素是按字素形状用若干个笔画依据其在字素中相应位置逐个放置而成的。每种字体中字素个数大都互异,最少的单线体字素个数为1024个,最多的字体字素个数不足8192个。各种字体的每个字素平均由8至10个笔画组成。笔画最多的字素为20个笔画,笔画最少的字素为1个笔画。对于大多数偏旁部首来说,一定要有数个形状相似的字素与之对应,才能满足对汉字美观性的要求。(3)分析GB18030-2000编码汉字集中所有汉字,从中筛选出同一字体中所有汉字的全部形状互异的笔画(包括形状相同而长短或高低不同、形状相同而粗细不一、形状相同而倾斜度不同的笔画在内),将这些笔画逐个进行放大,再用BEZIER二次曲线函数来描绘经放大后的笔画的轮廓。这样形成的笔画是一个空心笔画(轮廓笔画),用此空心笔画来形成字素。(4)本技术可省去制造常规曲线汉字库中的两道工序,即,无须请书法家写出或描字工绘出字库中每一个字;无须将写出的每个字用扫描仪扫入微机中形成汉字字模。这样,与常规曲线汉字库相比,每款字体开发时间可省1.6个人年以上。(5)利用本技术不仅可以制作各种字体,而且在各种字体扩充汉字时,由于只需增加一些编码组字序列,其笔画和偏旁部首基本上早已存在于原汉字库中,所以相应增加的存储单元甚微。(6)本技术在一些字体做好后,能简单地在同一种字体中进行笔画粗细变换,可以生成多种类似字体。(7)本微型化汉字库的接口平台是开放式的,所以它可以根据任何需要匹配使用的软硬件条件开发相应的接口。
2.根据权利要求1.的普适压缩曲线微型超大汉字库技术,其特征在于汉字、字素、笔画制作环境可以在256×256点阵至1024×1024点阵中。每个字素、笔画在汉字中的“位置”用其左上角坐标(X,Y)、宽度(W)、高度(H)来表示。
3.根据权利要求1.的普适压缩曲线微型超大汉字库技术,其特征在于它使用独创的汉字修补技术来对字素和汉字进行美化。此修补技术采用的是增加特殊笔画或字素来分别修补字素或汉字的不足。每个特殊笔画或字素在汉字中的“位置”也是用其左上角坐标(X,Y)、宽度(W)、高度(H)来表示的。
4.根据权利要求1.的普适压缩曲线微型超大汉字库技术,其特征在于它普遍适用于各种手机、微机、汽车电脑、掌上电脑、PDA、电子课本、电子辞典、电子翻译器、电子记事本、手持终端等微型电子设备、印刷出版、广告、美术设计、古籍整理等专业领域以及政府部门、金融(银行密码机)、公安、公共交通、铁路、商店(商业收款机)、家电产品(信息家电)等需要汉字的广泛领域中。
全文摘要
普适压缩曲线微型超大汉字库技术是一种汉字输出技术,属中文信息处理技术领域。它提取所有汉字的偏旁部首作公因子,穷举出所有汉字的其它部份作基本组字单位,将两者称为字素,从中筛选出全部形状互异的笔画后逐个放大,用BEZIER二次函数描绘放大后的笔画轮廓,以轮廓笔画来形成字素,并由字素合成汉字,依照GB18030-2000中汉字顺序来制作汉字库。以256×256点阵作汉字、字素、笔画的制作环境。用汉字修补技术来美化汉字。
文档编号G06F17/20GK1700204SQ20041003807
公开日2005年11月23日 申请日期2004年5月18日 优先权日2004年5月18日
发明者萧忠义, 萧志春, 余锦凤 申请人:萧忠义, 萧志春, 余锦凤
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1