高压缩可回流文件的建立和绘制方法
【专利摘要】本发明涉及一种高压缩可回流文件的建立和绘制方法,通过对文件几何区域的位置信息和类型信息分析,生成高压缩版式文件及版式文档结构描述信息;针对版式数字书籍通过将页面图像按照压缩特性分成不同的层,使用基于MixedRasterContent技术进行压缩;针对文字格式的版式数字书籍,也可使用基于更高压缩率的文字格式版式书籍压缩技术进行压缩;针对使用标记语言描述的版式文档页面描述信息和逻辑结构描述信息,使用标记语言感知压缩技术进行压缩;大幅提高压缩效率;并提出了版式文档页面图像展开和版式文档结构描述信息展开的并行处理方法;和按页和按照文档逻辑结构进行可回流两种绘制方式,保证在不同尺寸的输出媒体上根据输出媒体的尺寸来进行自适应绘制。
【专利说明】高压缩可回流文件的建立和绘制方法
【技术领域】
[0001]本发明涉及一种数字化信息管理技术,特别涉及一种高压缩可回流文件的建立和绘制方法。
【背景技术】
[0002]目前文字格式的数字书籍已经成为移动阅读的主流,比如EPUB格式的书籍和美国AMAZON公司的AZW格式的数字书籍等等。使用文字格式数字书籍的优势在于容量小、支持检索和可回流阅读等功能。很多传统的出版机构或个人需要把纸书籍扫描成可以在移动终端上阅读的数字书籍,以便能够移动阅读。
[0003]目前在移动终端上阅读数字书籍的瓶颈主要在于扫描的数字书籍,比如扫描的PDF或TIFF格式的书籍属于版式文档,不含有数字书籍版面逻辑结构和几何结构的描述,无法根据屏幕的尺寸进行屏幕自适应阅读。另外,图像格式的版式文档往往容量很大,通过移动终端在线下载往往耗费大量的时间,因此需要有效的压缩算法来对数字书籍图像和数字书籍版面逻辑结构和几何结构的描述进行压缩,以适应在线阅读的要求。如果使用传统的光学字符识别OCR技术,在字符识别和字体识别上目前都存在问题,往往需要大量的校对和纠错工作,需要较高的成本,转换出来的文字格式的数字书籍丢失了字体等信息。
[0004]和本发明相关的技术文献一、专利文件1:中国专利,申请号:201310188492.7,基于层次式索引的版式可回流文件建立和绘制方法,此专利里对于版式数字书籍,使用层次式索引的版式可回流文件建立和绘制方法,提出的统一注释技术,通过记录可回流文字的包围框,文本行或文本列参数,区域包围框等来描述版式文件的几何结构,使用XML语言、SGML语言等标记语言来表示层次式索引结构。针对扫描图像的屏幕自适应阅读问题,使用专利文件I中的技术,可以克服光学字符识别技术的缺点,在不对文字进行识别的前提下,实现屏幕自适应阅读,并可保证按原来的字体以屏幕自适应的方式来阅读扫描的版式文件。各种版式文件都可通过此发明中的层次式索引描述方法来对版式数字书籍进行注释。但是在生成层次式索引描述后,如何有效地压缩该数字书籍版面层次式索引信息,以便移动终端能高速地无线下载数字书籍,该公报没有给出解决方案。如何有效地利用数字书籍页面图像的几何版面信息,来压缩数字书籍,该公报也没有给出解决方案。
[0005]非专利文件2: L.Bottou et al., "High quality document image compressionwith 〃DjVu〃〃, Journal of Electronic Imaging, vol.7(3), pp.410-424, Jul.1998.非专利文件 3: Ricardo de Queiroz, Robert Buckley and Ming Xu, Mixed RasterContent (MRC) Model for Compound Image Compression
非专利文件 4:1TU-T Recommendation T.44 Mixed Raster Content (MRC), T.44非专利文件2、非专利文件3和非专利文件4中将版式文档的页面图像分离成颜色层,2值文字图形层和背景层,针对不同层的压缩特性选用不同的编码器来进行压缩,并使用非专利文件4中记载的分层图像压缩格式(MRC—Mixed Raster Content)来记录压缩后的数据,以实现版式文档页面图像的高压缩。目前支持Mixed Raster Content格式的文件格式主要有PDF和DjVu等等。通过使用上述分层图像压缩技术,移动终端通过无线网络可以高速下载和在线阅读图像格式的版式文档。由于版式文档中不包含数字书籍版面逻辑结构信息和几何版面信息,因此无法在移动终端上以屏幕自适应的方式来进行阅读。如何有效利用颜色层图像、背景层图像和2值文字图形层图像的信息,来生成版式文档几何版面信息和逻辑版面信息,以实现版式文档的屏幕自适应显示,在文献2、文献3和文献4中没有给出相关解决方案。
[0006]针对版式文档的移动阅读的要求,目前迫切需要一种方法将版式文档转化成容量小,并含有文档逻辑结构信息和几何版面信息的方法,以便移动终端高速下载和以屏幕自适应的方式来阅读该类版式文档。
[0007]非专利文件5:Keysers, D., Shafait, F.,and Breuel, Τ.Μ., "Documentimage zone classification - a simple high-performance approach, 〃 in Proceedingsof the 2nd Int.Conf.0n Computer Vision Theory and Applications, 44-51 (2007).专利文件6:中国专利,申请号201310580015.5,一种基于不定长标识码的XML的压缩方法和装置。
[0008]非专利文件7: J.Ziv and A.Lempe1.A universal algorithm for sequentialdata compression.1EEE Transactions on Information Theory, 23(3):337-343,1977。
[0009]专利文件8:中国专利,申请号200910183399.0,基于画质限制条件的颜色数和
代表颜色值的决定方法。
【发明内容】
[0010]本发明针对版式文档在移动终端上高速下载和屏幕自适应显示的需求,提出了一种高压缩可回流文件的建立和绘制方法。针对版式文件,提供了一种把版式文件转换成高压缩可回流文件的方法,使用此方法可以高效地压缩版式文档,并生成版式文档的逻辑结构信息和几何版面信息的高压缩数据,以支持版式文档的移动阅读。
[0011]本发明的技术方案为:高压缩可回流文件的建立和绘制方法,其特征在于,包括如下具体步骤:
第一步:高压缩可回流文件的建立:
1)取得版式文档的页面图像:通过成像设备、存储服务器、软件工具读入版式数字书籍文档,并计算得到页面图像;
2)使用几何版面分析技术,得到版式文档页面中的几何区域的位置和几何区域的类
型;
3)进行版式文档结构描述压缩数据生成和版式文档压缩处理:
版式文档结构描述压缩数据生成:
A:利用版面理解和版面识别技术,根据显示特性,页面几何区域分类为不可回流区域、孤立文字区域、逻辑句区域和段落区域四种几何区域类型;并根据阅读规则确定页面内几何区域间的阅读优先次序;计算逻辑句区域和段落区域包含的文本行/列区域,确定同一逻辑句区域和段落区域内文本行/列区域间的阅读优先次序;计算文本行/列区域中包含的可回流单元,确定同一文本行/列区域内可回流单元间的阅读优先次序; B:利用版面理解和版面识别技术,得到版式文档的逻辑结构;并确定几何区域和逻辑区域间的包含关系;确定逻辑区域和逻辑区域间的包含关系;确定逻辑区域间的阅读优先次序;确定同一逻辑区域内不同几何区域间的阅读优先次序;
C:建立版式文档结构描述信息;
D:对版式文档结构描述信息进行压缩,生成版式文档结构描述压缩数据;
版式文档压缩处理:
E:根据压缩特性,将几何区域类型分类成前景区域类型和背景区域类型;
F:根据E)中几何区域的类型,把版式文档页面图像分离为2值文字图形层图像、颜色层图像和背景层图像;G:对2值文字图形层图像、颜色层和背景层使用各自适合的算法进行压缩,并对压缩数据进行合并;
4)将步骤3)所得的版式文档的结构描述压缩数据和版式文档压缩数据合并;
第二步:高压缩可回流数据的绘制:
5)通过网络或者存储介质得到高压缩可回流数据;
6)分析高压缩可回流数据的格式,对结构描述压缩数据进行解压,得到解压后的结构描述信息;
7)分析高压缩可回流数据的格式,对版式文档压缩数据进行解压,解析版面文档得到页面图像数据;
8)读取当前阅读位置信息;根据此阅读位置信息,获取结构描述信息中对应于此阅读位置的区域位置信息;根据区域位置信息中包含的当前位置几何区域的包围框信息,从页面图像数据中获取区域图像数据;根据区域位置信息中包含的当前位置几何区域的类型信息和绘制参数,对区域图像数据在输出媒体上进行不同的绘制处理;
9)如果绘制还没有完成,则根据阅读优先次序,设置下一阅读位置对应的区域位置信息,跳转到步骤8)。
[0012]所述步骤3)中步骤D)中对版式文档结构描述信息进行压缩,对使用标记语言表达的结构描述信息,采用标记语言感知压缩算法进行压缩。
[0013]所述步骤3)中版式文档压缩处理,如果原版式文档是文字格式的版式文档,可选择使用针对文字格式版式文档的压缩方法来进行压缩和减少容量。
[0014]所述步骤I)中读取的版式文档中包含的页面图像已压缩过,所述步骤3)中的版式文档压缩处理步骤可以不执行。
[0015]所述步骤I)中读取的版式文档已经有版式文档结构描述信息,所述步骤3)中的结构描述压缩数据生成步骤中的A)、B)和C)步骤可以不执行。
[0016]所述步骤I)中读取的版式文档已经有版式文档结构描述压缩数据,所述步骤3)中的版式文档结构描述压缩数据生成步骤可以不执行。
[0017]所述步骤4)版式文档的结构描述压缩数据和版式文档压缩数据合并,版式文档结构描述压缩数据和版式文档压缩数据可以打包在同一文件里,也可以分离以不同的文件来存放,或者通过压缩方法压缩在同一文件里。
[0018]所述步骤3)中的步骤C)中的结构描述信息,包括版式文档页面内的几何区域信息和版式文档逻辑结构信息。
[0019]所述步骤8)和9)中的区域位置信息: 如果按照文档逻辑结构来进行可回流绘制时,区域位置信息包含:逻辑区域索引;页面内的块区域索引,此处的块区域类型包括段落区域、不可回流区域、逻辑句区域和孤立文字区域四种类型;文本行/列区域索引;可回流单元索引;
如果按照文档页面来进行可回流绘制时,版式文档结构描述信息无须包含版式文档的逻辑结构,步骤3中的步骤B)无须执行,此时区域位置信息包含:页索引;页面内的块区域索引,此处的块区域类型包括段落区域、不可回流区域、逻辑句区域和孤立文字区域四种类型;文本行/列区域索引;可回流单元索引。
[0020]所述步骤3)中的版式文档结构描述压缩数据生成子步骤可以和版式文档压缩处理子步骤并行执行。
[0021]所述步骤6)和步骤7)可以并行执行。
[0022]本发明的有益效果在于:本发明提出的高压缩可回流文件的建立和绘制方法,可以满足移动终端无线高速下载电子书籍的需要,也可满足移动终端上屏幕自适应阅读的需要。本发明通过利用几何版面分析后得到的几何区域的位置信息和类型信息,来生成高压缩版式文件及版面逻辑结构信息和几何版面信息;针对图像格式的版式数字书籍,使用基于图像分层的高压缩技术(如基于MRC格式的压缩)来进行压缩;针对文字格式的版式数字书籍,使用具有更高压缩率的文字格式的版式书籍压缩技术来进行压缩;针对描述版式数字书籍版面逻辑结构信息和几何版面信息的标记文件(如XML文件)中含有大量长元素名、长属性名和大量重复属性值的特点,本发明提出了元素名、属性名和属性值的替换压缩技术,使用较短的标识码来替换原标记文件中的元素名、属性名和属性值,实现标记语言感知压缩。通过使用以上压缩处理,可以大幅提高压缩效率;在高压缩可回流文件的绘制部分,通过分析高压缩可回流文件的解压和绘制过程,提出了引用区域信息和区域图像数据在不同尺寸输出媒体上绘制的方式;提出了版式文档页面图像展开生成和和版式文档结构描述信息展开生成的并行处理方法,能够在移动终端等媒体上高效率地绘制高压缩可回流版式文件。
【专利附图】
【附图说明】
[0023]图1为本发明的典型实施系统示意图;
图2为本发明高压缩可回流文件转换服务器结构示意图;
图3为阅读终端结构图;
图4为本发明图像格式的版式文件转换成高压缩可回流文件流程图;
图5为本发明图像格式版式文档的分层压缩技术流程图;
图6为高压缩可回流文件的屏幕自适应绘制流程图;
图7为使用XML语言表达版式文档结构描述信息的示例图;
图8为版式文档逻辑结构信息结构图;
图9为版式文档页面结构信息结构图;
图10为从分层压缩格式文件转换成高压缩可回流文件示例图。
【具体实施方式】
[0024]本发明提供了一种基于图像格式版式文件的高压缩可回流文件的建立和绘制方法。该方法对图像格式版式文件先进行页面几何版面分析;利用几何版面分析的结果将几何区域按照压缩特性分类成适合使用PNG,TIFF G4等离散色调压缩算法压缩的前景区域类型和适合使用JPEG或JPEG2000等连续色调压缩算法压缩的背景区域类型;并利用前景区域类型来生成颜色层图像,2值文字图形层图像;利用2值文字图形层图像和原始页面图像数据来生成光滑的背景层图像,以便使用分层压缩技术来压缩图像格式版式文件。而版式文档结构描述信息生成模块利用几何版面分析的结果,结合版面理解和识别技术将几何区域按照阅读显示特性分类成不可回流区域,逻辑句区域和段落区域,并生成逻辑句区域和段落区域内的文本行/列区域,确定同一逻辑句区域和段落区域内的文本行/列区域的阅读次序;计算文本行/列内的可回流单元,确定同一文本行/列内可回流单元间的阅读优先次序;并计算逻辑区域,以便按照逻辑结构来阅读文档;计算并记录各逻辑区域间的阅读优先次序,逻辑区域包含的几何区域;并综合上述几何区域和逻辑区域来生成版式文档结构描述信息。该结构描述信息可以使用标记语言(如XML等)来进行描述。对结构描述信息进行压缩,并和页面图像分层压缩数据进行合并。其中版式文档结构描述压缩数据可以和页面图像分层压缩数据分离存放;也可以归档在一个文件中。所合并生成的高压缩可回流文件可以满足移动阅读中数字书籍高速下载的要求,同时可以满足不同尺寸终端或上版式文件的媒体尺寸自适应绘制的需求。
[0025]在进行几何版面分析处理得到版面上各区域的几何位置和区域类型信息后,可利用该几何区域信息来进行版式文档压缩处理和版式文档结构描述信息生成处理。由于版式文档压缩处理模块和版式文档结构描述信息生成模块的处理相互独立,可以使用并行的方法来实现,以提高转换速度。此处的并行处理可以使用多核技术实现,也可以使用分布式并行处理技术来实现。
[0026]本发明提供了一种基于版式文件的高压缩可回流文件的绘制方法。首先解压压缩数据得到版式文档结构描述信息和版式文档页面数据,并计算版式文档页面图像。根据当前的阅读位置等来索引对应的版式文档结构描述信息,得到当前阅读位置对应的几何区域;根据几何区域的位置取得页面图像数据;根据几何区域的类型,选择不同的绘制方法,以达到屏幕自适应的阅读效果。此处根据需要绘制区域的类型,选择不同的版面自适应绘制方法是指:
①对写真/线画等不可回流区域对这些区域进行缩放以实现屏幕自适应阅读效果;
②而由可回流单元组成的逻辑句区域或段落区域,将可根据媒体尺寸自动实现换行绘制,以实现媒体尺寸自适应显示效果。
[0027]③对孤立文字区域,按照对齐属性单独进行绘制。
[0028]由于版式文档结构描述信息的解压处理和页面图像数据的解压和解析处理相互独立,可以使用并行处理的方法来实现,以提高执行效率。此处的并行处理可以使用多核技术实现,也可以使用分布式并行处理技术来实现。
[0029]图1提供了一个本发明的典型实施系统示意图。系统包括高压缩可回流文件转换服务器105和客户端102,两者通过网络101进行相互通信。此处的网络包括比如局域网、广域网在内的可交换数据的网络,可以通过无线网络,也可以通过有线网络相互通信。高压缩可回流文件转换服务器105可以从与网络连接的版式数字书籍文件存储服务器104或版式数字文件成像设备103中获得数据,并将版式数字书籍文件转换成高压缩可回流文件并传送到与网络连接的高压缩可回流文件存储服务器106中去。高压缩可回流文件转换服务器105在转换过程中还可以记录已转换页面的枚数和转换每枚图像所耗费的计算资源信息。此处的存储服务器104和106可以是单机服务器,也可以是由多台机器组成的集成存储服务器,比如公有云上的分布式存储系统等等;存取方式可以在局域网内通过网络存取,也可以通过公网进行存取。此处的高压缩可回流文件转换服务器105可以是单机服务器,也可以是由多台机器组成的集成服务器,也可以是以虚拟机形式运行的服务器,比如在公有云的计算资源池上的虚拟机上运行的服务器。
[0030]在本实现形态中,客户端102可以通过有线或者无线网络101从高压缩可回流文件存储服务器106中下载和接收一个或多个高压缩可回流文件,并在输出媒体上根据输出媒体的尺寸进行自适应绘制。比如通过运行在客户端中的阅读程序(包括WEB浏览器)在显示设备上或在印刷媒体上根据绘制窗口或绘制媒体的尺寸进行版面自适应绘制。
[0031]图1中所示的高压缩可回流文件转换服务器105、数字书籍文件存储服务器104、版式数字文件成像设备103、高压缩可回流文件存储服务器106和管理中心107从逻辑上划分为不同的部分。当然这只是逻辑上的划分,可以将它们部属在不同的实体上,也可以部属在同一个实体上。总之,可以根据需要灵活部署。比如高压缩可回流文件转换服务器105和版式数字文件成像设备103也可以在同一个装置中实现,比如在版式数字文件成像设备103中嵌入计算机系统,使得版式数字文件成像设备103兼具高压缩可回流文件转换服务器的功能。另外版式数字书籍文件存储服务器104、高压缩可回流文件存储服务器106和版式数字文件成像设备103也可以在同一个装置中实现。同时可以使用此装置附属的显示装置来预览生成的高压缩可回流文件。在版式数字文件成像设备103中集成存储服务器106,使得版式数字文件成像设备103兼具存储服务器的存取功能,用来存取版式数字书籍文件数据和高压缩可回流文件数据。另外高压缩可回流文件转换服务器105上也可集成存储服务器系统,使得高压缩可回流文件转换服务器105兼具存储服务器的存取功能,用来存取版式数字书籍文件数据和高压缩可回流文件数据。连接在网络上的管理中心107可以进行用户管理、负荷管理、并承担监视统计和计费管理等功能,并可设定高压缩可回流文件转换服务器105上文件格式转换用参数,并可设置高压缩可回流文件的版权信息和日期信息等,以便105生成的高压缩可回流文件含有版权信息。管理中心107用于从高压缩可回流文件转换服务器105上或者高压缩可回流文件存储服务器106上获取已转换页面的枚数和转换每枚图像所耗费的计算资源等等。
[0032]图2为本发明高压缩可回流文件转换服务器结构示意图。图2中的高压缩可回流文件转换服务器通过网络接口 200和网络101相连,可通过网络接口 200传输数据,控制信号,数据请求等。例如向网络101传送高压缩可回流文件数据。高压缩可回流文件转换服务器105另外还包括处理器201,内存202,计算机可读媒体驱动器205 (读写盘)、高压缩可回流文件库和运行信息213和输入输出接口等,它们都通过总线208相互连接,可以相互传送数据。输入输出接口接输入设备207,输出通过显示适配器203接显示设备204,输入设备207包括摄影机,扫描仪,相机,复印机,扫描笔等。输出通过显示设备204来显示高压缩可回流文件转换服务器中的相关数据,比如以屏幕自适应方法预览高压缩可回流文件的页面,转换的版式页面图像的枚数,转换每张版式页面图像耗费的CPU资源和内存资源等等。另外输入输出接口还可以和打印适配器相连,用来在打印媒体上根据输出媒体的尺寸绘制高压缩可回流文件。此处的输入输出接口还可以和外部设备,比如键盘,鼠标,笔,触摸屏或其他设备相连,用来接收用户的输入。处理器201用来处理内存202中的程序。程序的执行也可以由FPGA,ASIC,DSP等硬件来完成。内存202中还可以包括版式数字书籍文件和生成的高压缩可回流文件数据。
[0033]内存202 —般包含RAM、ROM、永久存储器。内存202存储了操作系统209来控制高压缩可回流文件转换服务器的操作。操作系统209可以使UNIX,LINUX,或者WINDOWS等系统。内存202中还包含了几何版面分析模块,版面分析模块,版面理解和识别等光学字符识别(OCR)相关模块212。此处的光学字符识别相关模块212既可以包括商用的也可以包括非商用的。版式文档结构描述信息和压缩模块210中包含了程序和数据来处理从网络接口200或输入设备207等接收到的数字书籍版式文件,并生成版式文档结构描述信息,并进行压缩处理。版式文件高压缩相关模块211中既可以包括商用的也可以包括非常用的图像格式版式页面分层压缩软件或库(如能实现Mixed Raster Content格式压缩的软件)。高压缩可回流文件库和运行信息213用来存储当前生成的高压缩可回流文件和相关运行信息,并可通过网络接口 200将这些数据送到管理中心107,运行数据将被用于监视统计、负荷均衡管理和计费管理等等。管理中心107可以通过网络接口 200来设置转换用参数和版权保护信息等,给内存中的210、211和212使用。图2中的实现以软件的方式实现,在实际应用中相关模块也可以在FPGA、ASIC或DSP等器件或芯片上实现,通过使用控制程序和芯片内的处理模块协同工作,提高处理速度。
[0034]图3为客户终端结构图。客户端包括处理器302,内存303,还可包括计算机可读媒体驱动器306,用于读写高压缩可回流文件。客户终端102可通过网络接口 309向高压缩可回流文件存储服务器106提出请求进行用户认证,高压缩可回流文件存储服务器106认证通过后可以从服务器106处下载高压缩可回流文件到本地高压缩可回流文件存储媒体313上。其中在内存303中存储了操作系统311和绘制程序312,此处的绘制程序可以是自己开发的屏幕自适应阅读程序或者通过安装WEB浏览器插件进行阅读的程序,也可以是在打印媒体上的打印绘制程序等。此处的处理器302执行绘制程序312,并通过输入输出接口 307发送绘制指令到媒体输出适配器304,根据媒体输出设备305的尺寸自适应地在显示器、显示窗口或输出媒体上绘制下载的高压缩可回流文件。此处的媒体输出设备305可以是移动阅读器终端,也可以是打印机等媒体输出设备。输入输出接口 307还可连接输入设备308,此处的输入设备308包括鼠标、键盘或者触摸屏等可以输入数据和指令的设备,用以传送显示指令。
[0035]图4为版式文档转换成高压缩可回流文件的处理示例。该示例提供了版式文档结构描述信息生成和压缩模块210和版式文件高压缩模块211的一个典型实施方法,用以生成高压缩可回流文件。本方法首先通过步骤401取得版式文档的页面图像:读入版式数字书籍文档,并计算得到页面图像。此步骤对版式数字书籍文档的格式没有特别的限制,比如可以包括JPEG、TIFF、GIF、BMP、PDF, XPS和CEB等格式。版式文档可以通过相机或扫描仪等成像设备来生成,也可以通过程序转换来生成,或者通过调用第三方的模块来生成。
[0036]进行步骤402,版式文档页面图像通过212模块中的几何版面分析软件来进行几何版面分析,确定数字书籍页面图像中几何区域的位置和类型,比如确定文字区域、数学/化学公式区域、徽标区域、表格区域、线画区域、写真区域和噪音区域等的区域位置和其类型。具体实现比如可以参照非专利文件5中的方法来得到各区域的类型。区域的位置和形状可以使用多边形包围框来表示,也可以使用二进制MASK图像来表示。经过步骤402分析后的版式文档和几何版面信息分别输入步骤412得到结构描述信息和步骤413来对版式文档进行压缩。
[0037]版式文档结构描述信息生成模块412主要包括步骤403?406,用来生成版式文档的几何版面描述信息和逻辑结构描述信息。在得到版式文档结构描述信息后,需要对该信息进行压缩。可以使用2进制方法来保存压缩或以标记语言的方式来保存压缩。当以2进制方式保存压缩时,由于结构化数据中的几何区域包围框的坐标值、几何区域和逻辑区域的类型名等数据在多处重复出现,可以使用索引技术为多次重复的数据建立索引表,并使用索引号来替换对应的值,以减少记录数据的容量,并将索引号和对应的值记录在映射表中。在进行索引替换后,可以将该替换后的数据结构和映射表按照2进制数据的方式进行熵压缩(如使用LZW等算法),进一步降低容量。阅读程序通过熵解压,得到映射表和替换后的数据结构;然后通过使用索引号,从映射表中取得对应的值。
[0038]如果版式文档结构描述信息以XML或者SGML等标记语言的方式进行保存时,在步骤407中,可以根据标记数据中标签名的频度统计信息或总耗费字节数统计信息,使用更短的标识码来替换原标记数据中的标签名。还可根据标记数据中属性值的频度统计信息或总耗费字节数统计信息,使用更短的属性值标识码来替换原标记数据中的属性值;并将原标签和替换后的标签,原属性值和替换后的属性值标识码保存在映射表中,以便阅读程序解压时使用。替换完成后,可使用通用的熵编码压缩算法进行压缩,如非专利文件7中的算法,对版式文档结构描述信息做进一步压缩。此处的具体实现可以参考使用XML感知压缩器对版式文档结构描述信息进行压缩,如XMill技术或专利文件6中记载的压缩方法。对于使用其它标记语言记述的版式文档结构描述信息,可以参考XML文件压缩技术进行压缩,比如使用标签替换技术,属性值替换技术来进行压缩,替换压缩结束后,可使用熵编码技术进行进一步压缩。
[0039]下面详细讲述版式文档结构描述信息生成模块412中的步骤403?406。
[0040]步骤403根据表I中的规则来对不同类型的几何区域进行分类。将其他非文字区域划分为不可回流区域,比如数学/化学公式区域,徽标区域,表格区域,线画区域,写真区域和噪音区域等都设置成不可回流区域。并将属于不可回流区域的文字区域合并进该不可回流区域,比如表格中的文字和写真区域/线画区域上的文字等都将被合并。此处的合并指把不可回流区域和属于它的文字区域算作一个大的不可回流区域。此处的属于包含两种可能:一种是文字区域和不可回流区域在几何上重叠,比如表格上的文字或写真上的文字,此时可以将文字区域合并进不可回流区域;另一种可能是即使几何上没有重叠,但是文字区域作为该不可回流区域(比如说线画区域)的说明,在逻辑概念上属于该不可回流区域,比如漫画中人物的发言属于该漫画区域,比如坐标图上的坐标值属于该坐标图等等。可以使用文档的先验知识和领域相关知识,利用版面理解和识别的方法来判别该文字区域是否在逻辑上属于该不可回流区域;比如对于曼哈顿版面的页面,可以使用XY-CUT等算法来判断某文字是否属于线画图像。此外还要记录不可回流区域的对齐等式样信息。对剩下的文字区域,需要进一步细分。
[0041]表I
【权利要求】
1.一种高压缩可回流文件的建立和绘制方法,其特征在于,包括如下具体步骤: 第一步:高压缩可回流文件的建立: 1)取得版式文档的页面图像:通过成像设备、存储服务器、软件工具读入版式数字书籍文档,并计算得到页面图像; 2)使用几何版面分析技术,得到版式文档页面中的几何区域的位置和几何区域的类型; 3)进行版式文档结构描述压缩数据生成和版式文档压缩处理: 版式文档结构描述压缩数据生成: A:利用版面理解和版面识别技术,根据显示特性,页面几何区域分类为不可回流区域、孤立文字区域、逻辑句区域和段落区域四种几何区域类型;并根据阅读规则确定页面内几何区域间的阅读优先次序;计算逻辑句区域和段落区域包含的文本行/列区域,确定同一逻辑句区域和段落区域内文本行/列区域间的阅读优先次序;计算文本行/列区域中包含的可回流单元,确定同一文本行/列区域内可回流单元间的阅读优先次序; B:利用版面理解和版面识别技术,得到版式文档的逻辑结构;并确定几何区域和逻辑区域间的包含关系;确定逻辑区域和逻辑区域间的包含关系;确定逻辑区域间的阅读优先次序;确定同一逻辑区域内不同几何区域间的阅读优先次序; C:建立版式文档结构描述信息; D:对版式文档结构描述·信息进行压缩,生成版式文档结构描述压缩数据; 版式文档压缩处理: E:根据压缩特性,将几何区域类型分类成前景区域类型和背景区域类型; F:根据E)中几何区域的类型,把版式文档页面图像分离为2值文字图形层图像、颜色层图像和背景层图像;G:对2值文字图形层图像、颜色层和背景层使用各自适合的算法进行压缩,并对压缩数据进行合并; 4)将步骤3)所得的版式文档的结构描述压缩数据和版式文档压缩数据合并; 第二步:高压缩可回流数据的绘制: 5)通过网络或者存储介质得到高压缩可回流数据; 6)分析高压缩可回流数据的格式,对结构描述压缩数据进行解压,得到解压后的结构描述信息; 7)分析高压缩可回流数据的格式,对版式文档压缩数据进行解压,解析版面文档得到页面图像数据; 8)读取当前阅读位置信息;根据此阅读位置信息,获取结构描述信息中对应于此阅读位置的区域位置信息;根据区域位置信息中包含的当前位置几何区域的包围框信息,从页面图像数据中获取区域图像数据;根据区域位置信息中包含的当前位置几何区域的类型信息和绘制参数,对区域图像数据在输出媒体上进行不同的绘制处理; 9)如果绘制还没有完成,则根据阅读优先次序,设置下一阅读位置对应的区域位置信息,跳转到步骤8)。
2.根据权利要求1所述基于高压缩可回流文件建立和绘制方法,其特征在于,所述步骤3)中步骤D)中对版式文档结构描述信息进行压缩,对使用标记语言表达的结构描述信息,采用标记语言感知压缩算法进行压缩。
3.根据权利要求1所述基于高压缩可回流文件建立和绘制方法,其特征在于,所述步骤3)中版式文档压缩处理,如果原版式文档是文字格式的版式文档,可选择使用针对文字格式版式文档的压缩方法来进行压缩和减少容量。
4.根据权利要求1所述基于高压缩可回流文件建立和绘制方法,其特征在于,所述步骤I)中读取的版式文档中包含的页面图像已压缩过,所述步骤3)中的版式文档压缩处理步骤可以不执行。
5.根据权利要求1所述基于高压缩可回流文件建立和绘制方法,其特征在于,所述步骤I)中读取的版式文档已经有版式文档结构描述信息,所述步骤3)中的结构描述压缩数据生成步骤中的A)、B)和C)步骤可以不执行。
6.根据权利要求1所述基于高压缩可回流文件建立和绘制方法,其特征在于,所述步骤I)中读取的版式文档已经有版式文档结构描述压缩数据,所述步骤3)中的版式文档结构描述压缩数据生成步骤可以不执行。
7.根据权利要求1所述基于高压缩可回流文件建立和绘制方法,其特征在于,所述步骤4)版式文档的结构描述压缩数据和版式文档压缩数据合并,版式文档结构描述压缩数据和版式文档压缩数据可以打包在同一文件里,也可以分离以不同的文件来存放,或者通过压缩方法压缩在同一文件里。
8.根据权利要求1所述基于高压缩可回流文件建立和绘制方法,其特征在于,所述步骤3)中的步骤C)中的结构描述信息,包括版式文档页面内的几何区域信息和版式文档逻辑结构信 息。
9.根据权利要求1所述基于高压缩可回流文件建立和绘制方法,其特征在于,所述步骤8)和9)中的区域位置信息: 如果按照文档逻辑结构来进行可回流绘制时,区域位置信息包含:逻辑区域索引;页面内的块区域索引,此处的块区域类型包括段落区域、不可回流区域、逻辑句区域和孤立文字区域四种类型;文本行/列区域索引;可回流单元索引; 如果按照文档页面来进行可回流绘制时,版式文档结构描述信息无须包含版式文档的逻辑结构,步骤3中的步骤B)无须执行,此时区域位置信息包含:页索引;页面内的块区域索引,此处的块区域类型包括段落区域、不可回流区域、逻辑句区域和孤立文字区域四种类型;文本行/列区域索引;可回流单元索引。
10.根据权利要求1所述基于高压缩可回流文件建立和绘制方法,其特征在于,所述步骤3)中的版式文档结构描述压缩数据生成子步骤可以和版式文档压缩处理子步骤并行执行。
11.根据权利要求1所述基于高压缩可回流文件建立和绘制方法,其特征在于,所述步骤6)和步骤7)可以并行执行。
【文档编号】G06K9/20GK103853849SQ201410121306
【公开日】2014年6月11日 申请日期:2014年3月28日 优先权日:2014年3月28日
【发明者】龚如宾 申请人:龚如宾