文档格式转换装置和文档格式转换方法

文档序号:6506260阅读:171来源:国知局
文档格式转换装置和文档格式转换方法
【专利摘要】本发明提供了一种文档格式转换装置,包括:文档解析单元,用于对版式文档进行解析,以获取构成所述版式文档的路径图元;路径分组单元,用于对所述路径图元进行分组,以生成对应的路径组;字体文件生成单元,获取用于描述字符的路径组,并生成对应的字体文件,其中,若存在多个描述相同字符的路径组,则仅生成一个字体文件,并将该字体文件关联至所述多个描述相同字符的路径组;文档生成单元,利用生成的所有字体文件,生成转换后文档。本发明还提出了一种文档格式转换方法。通过本发明的技术方案,可以解决版式文档中的数据冗余问题,使转换得到的文档具有更小的体积,还可以解决流式重排显示错误的问题,便于在各种终端上实现较好的显示效果。
【专利说明】文档格式转换装置和文档格式转换方法

【技术领域】
[0001]本发明涉及电子文档格式转换【技术领域】,具体而言,涉及一种文档格式转换装置和一种文档格式转换方法。

【背景技术】
[0002]在版式文档中,存在大量使用路径(路径包括点和线)来描述的字符,每个字符对应一组数据。这样就存在一个问题,即大量相同的字需要大量路径来描述,造成很大程度的数据冗余。在流式重排时这些字符也无法正常显示。
[0003]因此,需要一种新的文档格式转换技术,可以解决版式文档中的数据冗余问题,使转换得到的文档具有更小的体积,还可以解决流式重排显示错误的问题,便于在各种终端上实现较好的显示效果。


【发明内容】

[0004]本发明正是基于上述问题,提出了一种新的文档格式转换技术,可以解决版式文档中的数据冗余问题,使转换得到的文档具有更小的体积,还可以解决流式重排显示错误的问题,便于在各种终端上实现较好的显示效果。
[0005]有鉴于此,本发明提出了一种文档格式转换装置,包括:文档解析单元,用于对版式文档进行解析,以获取构成所述版式文档的路径图元;路径分组单元,用于对所述路径图元进行分组,以生成对应的路径组;字体文件生成单元,获取用于描述字符的路径组,并生成对应的字体文件,其中,若存在多个描述相同字符的路径组,则仅生成一个字体文件,并将该字体文件关联至所述多个描述相同字符的路径组;文档生成单元,利用生成的所有字体文件,生成转换后文档。在该技术方案中,通过对版式文档中的路径图元进行分组,得到对应于每个字符的路径组(当然,也存在不用于描述字符的路径组);同时,由于通过生成字体文件的形式,并且对用于描述相同字符的路径组,仅生成一个字体文件,从而对于包含有很多相同字符的文档,可以极大地减小文档本身的体积,对于使用移动设备的情况下,有利于用户存储更多数量的文档。
[0006]本发明还提出了一种文档格式转换方法,包括:步骤202,对版式文档进行解析,以获取构成所述版式文档的路径图元;步骤204,对所述路径图元进行分组,以生成对应的路径组;步骤206,获取用于描述字符的路径组,并生成对应的字体文件,其中,若存在多个描述相同字符的路径组,则仅生成一个字体文件,并将该字体文件关联至所述多个描述相同字符的路径组;步骤208,利用生成的所有字体文件,生成转换后文档。在该技术方案中,通过对版式文档中的路径图元进行分组,得到对应于每个字符的路径组(当然,也存在不用于描述字符的路径组);同时,由于通过生成字体文件的形式,并且对用于描述相同字符的路径组,仅生成一个字体文件,从而对于包含有很多相同字符的文档,可以极大地减小文档本身的体积,对于使用移动设备的情况下,有利于用户存储更多数量的文档。
[0007]通过以上技术方案,可以解决版式文档中的数据冗余问题,使转换得到的文档具有更小的体积,还可以解决流式重排显示错误的问题,便于在各种终端上实现较好的显示效果。

【专利附图】

【附图说明】
[0008]图1A示出了根据本发明的实施例的文档格式转换装置的框图;
[0009]图1B示出了图1A所示的文档格式转换装置中各个单元之间的连接关系的示意图;
[0010]图2示出了根据本发明的实施例的文档格式转换方法的流程图;
[0011]图3示出了根据本发明的实施例的对版式文档进行转换的具体流程图;
[0012]图4示出了根据本发明的实施例的对路径图元进行分组的流程图;
[0013]图5示出了根据本发明的实施例的判断路径组是否用于描述字符的流程图;
[0014]图6示出了根据本发明的实施例的判断路径组是否用于描述相同字符及相应的处理方法的流程图;
[0015]图7示出了根据本发明的实施例的生成字体文件的流程图。

【具体实施方式】
[0016]为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和【具体实施方式】对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0017]在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
[0018]图1A示出了根据本发明的实施例的文档格式转换装置的框图。
[0019]如图1A所示,根据本发明的实施例的文档格式转换装置100,包括:文档解析单元102,用于对版式文档进行解析,以获取构成所述版式文档的路径图元;路径分组单元104,用于对所述路径图元进行分组,以生成对应的路径组(包括字体文件生成单元106获取的用于描述字符的路径组,也包括其他不用于描述字符的路径组);字体文件生成单元106,获取用于描述字符的路径组,并生成对应的字体文件,其中,若存在多个描述相同字符的路径组,则仅生成一个字体文件,并将该字体文件关联至所述多个描述相同字符的路径组;文档生成单元108,利用生成的所有字体文件,生成转换后文档。在该技术方案中,通过对版式文档中的路径图元进行分组,得到对应于每个字符的路径组(当然,也存在不用于描述字符的路径组);同时,由于通过生成字体文件的形式,并且对用于描述相同字符的路径组,仅生成一个字体文件,从而对于包含有很多相同字符的文档,可以极大地减小文档本身的体积,对于使用移动设备的情况下,有利于用户存储更多数量的文档。
[0020]具体地,比如对于版式文档中,每个字符都需要使用单独的路径进行描述,即便是重复出现的相同字符,必须分别使用路径进行描述,使得大量的路径造成很大的冗余,文档体积也很大;而通过生成字体文件,使得相同的字符只需要采用同一个字体文件即可实现描述,从而极大地降低了原本的路径冗余,从而有助于降低文档的体积,解决文档数据冗余的问题。
[0021]在上述技术方案中,优选地,所述路径分组单元104包括:外接矩形获取子单元1042,用于获取每个所述路径图元的最小外接矩形;关系检测子单元1044,用于对所有路径图元的最小外接矩形之间的关系进行检测;分组处理子单元1046,用于在一路径图元对应的最小外接矩形与另一路径图元对应的最小外接矩形相交,或两者之间的距离小于预设的字符间距的情况下,将所述一路径图元与所述另一路径图元分至同一路径组。在该技术方案中,将路径图元的最小外接矩形作为其对应的区域,并且通过计算每个矩形区域是否相交、间隔距离,从而判断是否应该分至同一路径组。而实际上,每个字符对应于一个路径组(当然,存在不用于描述字符的路径组),通过上述分组过程,可以实现对版式文档中的每个字符的分割。
[0022]在上述技术方案中,优选地,还包括:描述判断单元110,用于通过光学字符识别技术对每个路径组进行识别,若能够识别出对应的统一码(Unicode),则判定相应的路径组用于描述字符,以供所述字体文件生成单元进行处理。在该技术方案中,若用于描述字符,则可以通过光学字符识别技术(OCR, Optical Character Recognit1n)进行识别,因此通过上述方式,对路径组是否用于描述字符进行判断。
[0023]在上述技术方案中,优选地,还包括:统一码识别单元112,用于识别所述用于描述字符的路径组的统一码;字符描述单元114,利用识别得到的所述统一码和对应的字体文件来表示被描述的字符。在该技术方案中,字体文件中包含了用于描述该字符的路径数据,便于在不同设备上对文档内容进行妥善地流式重排,并且能够获得较好的显示效果。而通过设置统一码,从而用户在选择了该文档中的字符时,可以由系统选定对应的统一码,以实现对字符的拷贝等操作。
[0024]在上述技术方案中,优选地,所述字体文件生成单元106利用所述统一码识别单元112识别到的统一码和对应的路径组生成所述字体文件。在该技术方案中,由统一码和路径组生成字体文件,从而确保对相应的字符进行准确的描述。
[0025]在上述技术方案中,优选地,所述字体文件生成单元106包括:第一表格生成子单兀1062,用于利用所述统一码生成第一表格,所述第一表格中存储有所述统一码到字形索引的映射;第二表格生成子单元1064,用于利用所述路径组中包含的路径图元生成第二表格,所述第二表格中存储有字形数据;表格处理子单兀1066,用于利用所述第一表格和所述第二表格生成所述字体文件。在该技术方案中,第一表格如利用统一码生成的cmap表,第二表格如利用路径组生成的glyf表。
[0026]在上述技术方案中,优选地,还包括:记录状态判断单元116,用于判断所述统一码识别单元112识别得到的统一码是否已经被记录;数据获取单元118,用于在所述统一码已经被记录的情况下,判定存在其他用于描述相同字符的路径组,并获取已记录的统一码和对应的已生成的字体文件,以由所述字符描述单元114用于表示被描述的字符;以及所述字体文件生成单元106在所述统一码未被记录的情况下,生成所述字体文件,以由所述字符描述单元114用于表示被描述的字符。在该技术方案中,通过对识别得到的统一码进行比较,从而判断当前进行处理的字符是否已经被处理过,即是否已经存在相同字符,若存在,则直接使用之前生成的字体文件等信息,避免数据冗余,若不存在,则重新生成。通过上述比较过程,从而确保每种字符仅对应生成一份字体文件,避免数据冗余,实现减小文档体积。
[0027]在上述技术方案中,优选地,还包括:文件保存单元120,用于统一保存所述字体文件,以由所述字符描述单元114利用所述字体文件的名称及该字体文件对应的统一码来表示相应的字符;以及坐标判断单元122,用于在获取的指定路径组的统一码已经被记录的情况下,进一步获取所述指定路径组的坐标,并判断所述指定路径组的坐标与已记录的路径组的坐标是否相同,其中,若相同,则判定为相同路径组,不做处理;若不相同,则生成新名称,以由所述字符描述单元114利用已记录的统一码和所述新名称表示对应的字符,并由所述字体文件生成单元106生成使用所述新名称进行命名的字体文件。在该技术方案中,通过对坐标进行判断,从而确定对于当前处理的路径组描述的字符,是否已经存在其他的路径组进行描述,以确保对于相同字符仅生成一份字体文件等信息,尽可能地减小文档提及,避免数据冗余。
[0028]图1B示出了图1A所示的文档格式转换装置中各个单元之间的连接关系的示意图。
[0029]如图1B所示,文档格式转换装置100中各个单元之间的连接关系包括:
[0030]文档解析单元102与路径分组单元104相连接。具体地,路径分组单元104根据文档解析单元102解析得到的路径图元,对该路径图元进行分组,从而生成对应的路径组。
[0031]具体地,路径分组单元104包括:外接矩形获取子单元1042、关系检测子单元1044和分组处理子单元1046。其中,外接矩形获取子单元1042连接至文档解析单元102,基于文档解析单元102解析出的路径图元来获取每个路径图元的最小外接矩形;关系检测子单元1044连接至外接矩形获取子单元1042,对所有路径图元的最小外接矩形之间的关系进行检测;以及,分组处理子单元1046连接至关系检测子单元1044,根据路径图元的最小外接矩形之间的关系,对路径图元进行分组。
[0032]字体文件生成单元106分别与路径分组单元104和文档生成单元108相连接。具体地,字体文件生成单元106基于路径分组单元104生成的分组中的用于描述字符的路径组,从而生成对应的字体文件,然后由文档生成单元108根据该字体文件,生成转换后文档。
[0033]描述判断单元110连接至字体文件生成单元106,通过对路径组的识别,确定是否用于描述字符,从而由字体文件生成单元106利用其中用于描述字符的路径组生成字体文件。
[0034]统一码识别单元112连接至描述判断单元110,对描述判断单元110判断出的用于描述字符的路径,识别出其对应的统一码。
[0035]统一码识别单元112还连接至字体文件生成单元106,使得字体文件生成单元106能够进一步地利用统一码识别单元112识别到的统一码和路径分组单元104生成的对应的路径组生成所述字体文件。
[0036]具体地,字体文件生成单元106包括:第一表格生成子单元1062、第二表格生成子单元1064和表格处理子单元1066。其中,第一表格生成子单元1062连接至统一码识别单兀112,利用统一码识别单兀112识别出的统一码生成第一表格;第二表格生成子单兀1064连接至路径分组单元104,利用路径组中包含的路径图元生成第二表格;表格处理子单元1066分别连接至第一表格生成子单兀1062和第二表格生成子单兀1064,利用第一表格和第二表格生成字体文件。
[0037]字符描述单元114分别连接至统一码识别单元112和字体文件生成单元106,利用统一码识别单元112识别得到的统一码和字体文件生成单元106生成的对应的字体文件来表不被描述的字符。
[0038]记录状态判断单元116分别连接至统一码识别单元112和数据获取单元118。具体的,记录状态判断单元116判断统一码识别单元112识别得到的统一码是否已经被记录,若已被记录,则数据获取单元118判定存在其他用于描述相同字符的路径组,并获取已记录的统一码和对应的已生成的字体文件,以由字符描述单元114用于表示被描述的字符(数据获取单元118还与字符描述单元114相连接)。
[0039]文件保存单元120分别连接至字体文件生成单元106和字符描述单元114。具体地,文件保存单元120统一保存字体文件生成单元106生成的字体文件,以由字符描述单元114利用字体文件的名称及该字体文件对应的统一码来表示相应的字符。
[0040]坐标判断单元122分别连接至记录状态判断单元116和字符描述单元114。具体地,坐标判断单元122在记录状态判断单元116判定获取的指定路径组的统一码已经被记录的情况下,进一步获取指定路径组的坐标,并判断指定路径组的坐标与已记录的路径组的坐标是否相同,若不相同,则生成新名称,以由所述字符描述单元114利用已记录的统一码和所述新名称表示对应的字符,并由字体文件生成单元106生成使用新名称进行命名的字体文件。
[0041]图2示出了根据本发明的实施例的文档格式转换方法的流程图。
[0042]如图2所示,根据本发明的实施例的文档格式转换方法,包括:步骤202,对版式文档进行解析,以获取构成所述版式文档的路径图元;步骤204,对所述路径图元进行分组,以生成对应的路径组(包括步骤206中获取的用于描述字符的路径组,也包括其他不用于描述字符的路径组);步骤206,获取用于描述字符的路径组,并生成对应的字体文件,其中,若存在多个描述相同字符的路径组,则仅生成一个字体文件,并将该字体文件关联至所述多个描述相同字符的路径组;步骤208,利用生成的所有字体文件,生成转换后文档。在该技术方案中,通过对版式文档中的路径图元进行分组,得到对应于每个字符的路径组(当然,也存在不用于描述字符的路径组);同时,由于通过生成字体文件的形式,并且对用于描述相同字符的路径组,仅生成一个字体文件,从而对于包含有很多相同字符的文档,可以极大地减小文档本身的体积,对于使用移动设备的情况下,有利于用户存储更多数量的文档。
[0043]具体地,比如对于版式文档中,每个字符都需要使用单独的路径进行描述,即便是重复出现的相同字符,必须分别使用路径进行描述,使得大量的路径造成很大的冗余,文档体积也很大;而通过生成字体文件,使得相同的字符只需要采用同一个字体文件即可实现描述,从而极大地降低了原本的路径冗余,从而有助于降低文档的体积,解决文档数据冗余的问题。
[0044]在上述技术方案中,优选地,所述步骤204包括:获取每个所述路径图元的最小外接矩形;对所有路径图元的最小外接矩形之间的关系进行检测,其中,若一路径图元对应的最小外接矩形与另一路径图元对应的最小外接矩形相交,或两者之间的距离小于预设的字符间距,则将所述一路径图元与所述另一路径图元分至同一路径组。在该技术方案中,将路径图元的最小外接矩形作为其对应的区域,并且通过计算每个矩形区域是否相交、间隔距离,从而判断是否应该分至同一路径组。而实际上,每个字符对应于一个路径组(当然,存在不用于描述字符的路径组),通过上述分组过程,可以实现对版式文档中的每个字符的分割。
[0045]在上述技术方案中,优选地,在所述步骤206中,所述获取用于描述字符的路径组的步骤包括:利用光学字符识别技术对每个路径组进行识别,若能够识别出对应的统一码(Unicode),则判定相应的路径组用于描述字符。在该技术方案中,若用于描述字符,则可以通过光学字符识别技术(OCR, Optical Character Recognit1n)进行识别,因此通过上述方式,对路径组是否用于描述字符进行判断。
[0046]在上述技术方案中,优选地,在步骤206之后,还包括:识别所述用于描述字符的路径组的统一码,并用该统一码和对应的字体文件来表不被描述的字符。在该技术方案中,字体文件中包含了用于描述该字符的路径数据,便于在不同设备上对文档内容进行妥善地流式重排,并且能够获得较好的显示效果。而通过设置统一码,从而用户在选择了该文档中的字符时,可以由系统选定对应的统一码,以实现对字符的拷贝等操作。
[0047]在上述技术方案中,优选地,生成所述字体文件的步骤包括:利用识别到的统一码和对应的路径组生成所述字体文件。在该技术方案中,由统一码和路径组生成字体文件,从而确保对相应的字符进行准确的描述。
[0048]在上述技术方案中,优选地,利用所述统一码和对应的路径组生成所述字体文件的步骤包括:利用所述统一码生成第一表格,所述第一表格中存储有所述统一码到字形索引的映射;利用所述路径组中包含的路径图元生成第二表格,所述第二表格中存储有字形数据;利用所述第一表格和所述第二表格生成所述字体文件。在该技术方案中,第一表格如利用统一码生成的cmap表,第二表格如利用路径组生成的glyf表。
[0049]在上述技术方案中,优选地,还判断识别得到的统一码是否已经被记录,其中,若该统一码已经被记录,则判定存在其他用于描述相同字符的路径组,并获取已记录的统一码和对应的已生成的字体文件,以用于表示被描述的字符;若所述统一码未被记录,则生成所述字体文件,以用于表示所述被描述的字符。在该技术方案中,通过对识别得到的统一码进行比较,从而判断当前进行处理的字符是否已经被处理过,即是否已经存在相同字符,若存在,则直接使用之前生成的字体文件等信息,避免数据冗余,若不存在,则重新生成。通过上述比较过程,从而确保每种字符仅对应生成一份字体文件,避免数据冗余,实现减小文档体积。
[0050]在上述技术方案中,优选地,还包括:统一保存所述字体文件,并利用所述字体文件的名称及该字体文件对应的统一码来表示相应的字符,其中,若获取的指定路径组的统一码已经被记录,则进一步获取所述指定路径组的坐标,并判断所述指定路径组的坐标与已记录的路径组的坐标是否相同,若相同,则判定为相同路径组,不做处理;若不相同,则生成新名称,利用已记录的统一码和所述新名称表示对应的字符,并生成使用所述新名称进行命名的字体文件。在该技术方案中,通过对坐标进行判断,从而确定对于当前处理的路径组描述的字符,是否已经存在其他的路径组进行描述,以确保对于相同字符仅生成一份字体文件等信息,尽可能地减小文档提及,避免数据冗余。
[0051]下面结合图3至图7,对基于本发明的技术方案中,对于版式文档的格式转换过程进行详细说明。
[0052]首先通过图3进行总体步骤上的介绍,其中,图3示出了根据本发明的实施例的对版式文档进行转换的具体流程图。
[0053]如图3所示,根据本发明的实施例的对版式文档进行转换的具体流程包括:
[0054]步骤302,解析版式文档数据,具体地,可以利用解析引擎对原始版式文档进行解析。
[0055]步骤304,根据解析结果,获取构成该版式文档的图元。
[0056]步骤306,判断图元是否为路径,具体地,通过对版式文档数据的解析,可以得到图元ID、图元类型、图元数据等,因此,通过解析得到的图元类型,即可判断该图元是否为路径。其中,若是,则进入步骤308,否则进入步骤310。
[0057]步骤308,对路径进行分组,以得到路径组,其中,每个路径组用于描述一个完整的元素,比如用于描述一个字符。
[0058]步骤310,依据图元类型进行相应处理。
[0059]步骤312,判断路径描述是否为字符,若是,则进入步骤314,否则进入步骤316。
[0060]步骤314,生成字体文件。
[0061]步骤316,按普通路径进行处理。
[0062]对于步骤308,具体地,图4示出了根据本发明的实施例的对路径图元进行分组的流程图。
[0063]如图4所示,根据本发明的实施例的对路径图元进行分组的流程包括:
[0064]步骤402,获取路径图元数据,即属于路径类型的图元。
[0065]步骤404,计算路径图元的最小外接矩形,作为对应于该路径图元的区域。
[0066]步骤406,判断当前处理的路径图元是否为开始路径,即是否作为某个路径组的首个路径,若是,则进入步骤408,否则进入步骤410。具体地,是在对上一个路径组进行分组结束后,将接下来进行处理的第一个路径图元作为该开始路径。
[0067]步骤408,保存该最小外接矩形的坐标,并返回步骤402。
[0068]步骤410,计算与开始路径和已计算过的路径的最小外接矩形的距离,以判断两者之间的关系。这里已计算过的路径的最小外接矩形,即步骤408中保存的坐标数据。
[0069]步骤412,根据步骤410的计算结果,判断两者是否相交,或当不相交时,两者的间距是否小于字符间距。其中,若相交或间距小于字符间距(或其他的预设距离),则进入步骤416,否则进入步骤414。
[0070]步骤414,将该路径图元作为下组路径的开始路径,并进入步骤408。
[0071]步骤416,将这些路径作为同一个路径组。
[0072]对于步骤312,具体地,图5示出了根据本发明的实施例的判断路径组是否用于描述字符的流程图。
[0073]如图5所示,根据本发明的实施例的判断路径组是否用于描述字符的流程包括:
[0074]步骤502,获取某个路径组。
[0075]步骤504,计算该路径组的最小外接矩形,作为该路径组对应的区域。
[0076]步骤506,利用OCR技术对该路径组进行识别。
[0077]步骤508,判断是否能够识别出对应的Unicode码,若能,则进入步骤512,否则进入步骤510。
[0078]步骤510,将该路径组按照普通路径进行处理。
[0079]步骤512,将该路径组作为字符进行处理。
[0080]步骤312中还包括判断多个路径组是否描述了相同的字符,具体地,图6示出了根据本发明的实施例的判断路径组是否用于描述相同字符及相应的处理方法的流程图。
[0081]如图6所示,根据本发明的实施例的判断路径组是否用于描述相同字符及相应的处理方法的流程包括:
[0082]步骤602,获取字符路径组。
[0083]步骤604,识别出该字符路径组描述的字符的Unicode码,并在已处理字符链表中进行查找,其中,已处理字符链表中存储了已经处理过的字符路径组描述的字符的Unicode码。
[0084]步骤606,根据查找结果,判断在已处理字符链表中是否存在当前查找的字符的Unicode码。若存在,则进入步骤612,否则进入步骤608。
[0085]步骤608,说明当前路径组描述的字符为该版式文档中第一次出现,将识别出来的Unicode码加入到已处理字符链表中。
[0086]步骤610,依据Unicode码和路径,生成对应的字体文件,并返回步骤602,继续对其他路径组进行处理。
[0087]步骤612,获取当前路径组和查找到的路径组的坐标,并将两组坐标进行坐标变化,具体地,可以将坐标均平移至坐标原点,并将两者的坐标进行比较。
[0088]步骤614,判断两者的坐标是否相同,其中,若相同,则进入步骤616,否则进入步骤 610。
[0089]步骤616,说明用于描述相同的字符,用已存储的Unicode码和字体名(字体文件的内部文件名)代替原来的路径数据,以表示该字符,并返回步骤602,继续对其他路径组进行处理。
[0090]对于步骤314,具体地,图7示出了根据本发明的实施例的生成字体文件的流程图。
[0091]如图7所示,根据本发明的实施例的生成字体文件的流程包括:
[0092]步骤702,传入Unicode码和路径描述(即对应于该Unicode码的路径组)。
[0093]步骤704,利用Unicode码生成cmap表。
[0094]步骤706,将路径描述存入glyf表。当然,还需要生成其它一些OpenType字体文件必须的描述表。
[0095]步骤708,利用生成的cmap表、glyf表和描述表等,生成对应的OpenType字体文件,并保存该子体文件。
[0096]以上结合附图详细说明了本发明的技术方案,考虑到在版式文档中,往往存在很大的数据冗余,因此,本发明提供了一种文档格式转换装置和一种文档格式转换方法,可以解决版式文档中的数据冗余问题,使转换得到的文档具有更小的体积,还可以解决流式重排显示错误的问题,便于在各种终端上实现较好的显示效果。
[0097]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种文档格式转换装置,其特征在于,包括: 文档解析单元,用于对版式文档进行解析,以获取构成所述版式文档的路径图元; 路径分组单元,用于对所述路径图元进行分组,以生成对应的路径组; 字体文件生成单元,获取用于描述字符的路径组,并生成对应的字体文件,其中,若存在多个描述相同字符的路径组,则仅生成一个字体文件,并将该字体文件关联至所述多个描述相同字符的路径组; 文档生成单元,利用生成的所有字体文件,生成转换后文档。
2.根据权利要求1所述的文档格式转换装置,其特征在于,所述路径分组单元包括: 外接矩形获取子单元,用于获取每个所述路径图元的最小外接矩形; 关系检测子单元,用于对所有路径图元的最小外接矩形之间的关系进行检测; 分组处理子单元,用于在一路径图元对应的最小外接矩形与另一路径图元对应的最小外接矩形相交,或两者之间的距离小于预设的字符间距的情况下,将所述一路径图元与所述另一路径图元分至同一路径组。
3.根据权利要求1所述的文档格式转换装置,其特征在于,还包括: 描述判断单元,用于通过光学字符识别技术对每个路径组进行识别,若能够识别出对应的统一码,则判定相应的路径组用于描述字符,以供所述字体文件生成单元进行处理。
4.根据权利要求1至3中任一项所述的文档格式转换装置,其特征在于,还包括: 统一码识别单元,用于识别所述用于描述字符的路径组的统一码; 字符描述单元,利用识别得到的所述统一码和对应的字体文件来表示被描述的字符。
5.根据权利要求4所述的文档格式转换装置,其特征在于,所述字体文件生成单元利用所述统一码识别单元识别到的统一码和对应的路径组生成所述字体文件。
6.根据权利要求5所述的文档格式转换装置,其特征在于,所述字体文件生成单元包括: 第一表格生成子单兀,用于利用所述统一码生成第一表格,所述第一表格中存储有所述统一码到字形索引的映射; 第二表格生成子单元,用于利用所述路径组中包含的路径图元生成第二表格,所述第二表格中存储有字形数据; 表格处理子单元,用于利用所述第一表格和所述第二表格生成所述字体文件。
7.根据权利要求5所述的文档格式转换装置,其特征在于,还包括: 记录状态判断单元,用于判断所述统一码识别单元识别得到的统一码是否已经被记录; 数据获取单元,用于在所述统一码已经被记录的情况下,判定存在其他用于描述相同字符的路径组,并获取已记录的统一码和对应的已生成的字体文件,以由所述字符描述单元用于表示被描述的字符;以及 所述字体文件生成单元在所述统一码未被记录的情况下,生成所述字体文件,以由所述字符描述单元用于表示被描述的字符。
8.根据权利要求7所述的文档格式转换装置,其特征在于,还包括: 文件保存单元,用于统一保存所述字体文件,以由所述字符描述单元利用所述字体文件的名称及该字体文件对应的统一码来表示相应的字符;以及 坐标判断单元,用于在获取的指定路径组的统一码已经被记录的情况下,进一步获取所述指定路径组的坐标,并判断所述指定路径组的坐标与已记录的路径组的坐标是否相同,其中, 若相同,则判定为相同路径组,不做处理; 若不相同,则生成新名称,以由所述字符描述单元利用已记录的统一码和所述新名称表示对应的字符,并由所述字体文件生成单元生成使用所述新名称进行命名的字体文件。
9.一种文档格式转换方法,其特征在于,包括: 对版式文档进行解析,以获取构成所述版式文档的路径图元; 对所述路径图元进行分组,以生成对应的路径组; 获取用于描述字符的路径组,并生成对应的字体文件,其中,若存在多个描述相同字符的路径组,则仅生成一个字体文件,并将该字体文件关联至所述多个描述相同字符的路径组; 利用生成的所有字体文件,生成转换后文档。
10.根据权利要求9所述的文档格式转换方法,其特征在于,所述对所述路径图元进行分组,以生成对应的路径组的步骤包括: 获取每个所述路径图元的最小外接矩形; 对所有路径图元的最小外接矩形之间的关系进行检测,其中,若一路径图元对应的最小外接矩形与另一路径图元对应的最小外接矩形相交,或两者之间的距离小于预设的字符间距,则将所述一路径图元与所述另一路径图元分至同一路径组。
11.根据权利要求9所述的文档格式转换方法,其特征在于,所述获取用于描述字符的路径组的步骤包括: 利用光学字符识别技术对每个路径组进行识别,若能够识别出对应的统一码,则判定相应的路径组用于描述字符。
12.根据权利要求9至11中任一项所述的文档格式转换方法,其特征在于,还包括: 识别所述用于描述字符的路径组的统一码,并用该统一码和对应的字体文件来表示被描述的字符。
13.根据权利要求12所述的文档格式转换方法,其特征在于,生成所述字体文件的步骤包括: 利用识别到的统一码和对应的路径组生成所述字体文件。
14.根据权利要求13所述的文档格式转换方法,其特征在于,利用所述统一码和对应的路径组生成所述字体文件的步骤包括: 利用所述统一码生成第一表格,所述第一表格中存储有所述统一码到字形索引的映射; 利用所述路径组中包含的路径图元生成第二表格,所述第二表格中存储有字形数据; 利用所述第一表格和所述第二表格生成所述字体文件。
15.根据权利要求12所述的文档格式转换方法,其特征在于,还包括:判断识别得到的统一码是否已经被记录,其中, 若该统一码已经被记录,则判定存在其他用于描述相同字符的路径组,并获取已记录的统一码和对应的已生成的字体文件,以用于表不被描述的字符; 若所述统一码未被记录,则生成所述字体文件,以用于表示所述被描述的字符。
16.根据权利要求15所述的文档格式转换方法,其特征在于,还包括: 统一保存所述字体文件,并利用所述字体文件的名称及该字体文件对应的统一码来表示相应的字符,其中,若获取的指定路径组的统一码已经被记录,则进一步获取所述指定路径组的坐标,并判断所述指定路径组的坐标与已记录的路径组的坐标是否相同, 若相同,则判定为相同路径组,不做处理; 若不相同,则生成新名称,利用已记录的统一码和所述新名称表示对应的字符,并生成使用所述新名称进行命名的字体文件。
【文档编号】G06F17/22GK104331391SQ201310309016
【公开日】2015年2月4日 申请日期:2013年7月22日 优先权日:2013年7月22日
【发明者】邢国峰, 王长胜 申请人:北大方正集团有限公司, 北京方正阿帕比技术有限公司, 方正信息产业控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1