专利名称::一种基于样式的内容结构化加工方法及系统的制作方法
技术领域:
:本发明属于信息内容加工
技术领域:
,具体涉及一种基于样式的内容结构化加工方法及系统。
背景技术:
:随着IT应用的深入普及,各行各业都积累了大量的信息资源。科学管理和合理开发这些内部和外部信息资源已经成为企业正确决策、增强竟争力的关键,在对这些重要信息利用之前,通常需要对这些信息的数据内容进行结构化的加工,以适应不同用户的不同需要。当前内容结构化的方法主要以储存、流程、元数据(Metadata)为要件来制作系统,其中,储存多以关联式数据库的方式,也有的以一般数据文件方式储存,或者是根据需要两种并存。目前,内容结构化的方法主要有两种一种是使用专门软件对特定数据字段进行录入的方式,这种方式的缺点是进行录入的数据字段受软件限制,而且需要手工录入,不容易实现自动化加工;另一种是使用类似XML编辑器的软件的方式,这种方式缺点是只能对纯内容的数据进行结构化,无法带入原文档内容的版式和样式等信息,而在印前排版领域或者希望带有内容样式的用户来说,现有的内容结构化方法因不能使结构化的内容同时带有内容的样式信息或版式信息而不能满足需要,因此,如何使结构化的内容既保留原内容又带有原内容的样式或版式信息,成为越来越多的用户所关注的问题。
发明内容针对现有技术中存在的缺陷,本发明的目的是提供一种基于样式的内容结构化加工方法及系统,通过该方法及系统不仅能够完成内容结构化的自动化加工,并且使加工后的结构化内容保留原有的样式、版式等信息。为达到以上目的,本发明釆用的技术方案是一种基于样式的内容结构化加工方法,包括以下步骤(1)建立内容结构化体系,根据需要设置结构化关键字,并确定结构化关键字之间的关系;(2)建立样式与结构化关键字之间的对应关系;(3)解析需要结构化的文档,提取内容形成结构化内容;进一步,步骤(l)中,设置结构化关键字时,根据需要结构化的文档内容结构来设置;进一步,步骤(l)中,设置结构化关键字时,根据文档内容的样式来设置。进一步,步骤(l)中,确定结构化关键字之间的关系时,根据文档内容的样式来确定;所述的结构化关键字之间的关系是指关键字之间的位置、排列、层次、结构、包含等关系,实际也就是结构化关键字所代表的内容在文档中的相应关系。进一步,步骤(2)中,建立样式与结构化关键字的对应关系时,一个结构化关键字对应一种或者多种样式,但是一种样式只能对应一个结构化关键字。进一步,步骤(3)中,文档完成结构化后,形成了两个文件样式映射文件和结构内容文件,所述样式映射文件记录了样式与结构化关键字之间的对应关系;所述结构内容文件记录了结构化关键字与文档内容的对应关系。一种基于样式的内容结构化加工系统,该系统包括结构化关键字构建模块、样式与关键字对应模块、解析提取模块;所述的结构化关键字构建模块用于设置结构化关键字,并确定结构化关键字之间的关系;所述的样式与关键字对应模块用于建立样式与结构化关键字之间的对应关系;所述的解析提取模块用于解析需要结构化的文档,并提取文档内容形成结构化内容;当上述系统工作时,首先由结构化关键字构建模块设置结构化关键字,并确定结构化关键字之间的关系;然后由样式与关键字对应模块建立起样式与结构化关键字之间的对应关系,然后解析提取模块读取并解析需要结构化的文档,根据样式与关键字对应模块建立的样式与结构化关键字之间的对应关系,提取相应的文档内容到结构化关键字中,从而形成结构化内容,处理结束。本发明的效果在于采用本发明所述的方法和系统,对于带于样式、版式等信息的内容,在进行内容结构化加工时,不仅能够完成内容结构化的自动加工,同时使加工后的结构化内容能够保留原有的样式、版式等信息,大大方便了不同用户的需要。图l是本发明所述方法的流程图;图2是本发明所述系统的结构图。具体实施例方式下面结合实施例和附图,对本发明作进一步的阐述如图2所示,一种基于样式的内容结构化加工系统,该系统包括结构化关键字构建模块、样式与关键字对应模块、解析提^^莫块;所述的结构化关键字构建模块用于设置结构化关键字,并确定结构化关4走字之间的关系;所述的样式与关键字对应模块用于建立样式与结构化关键字之间的对应关系;所述的解析提取模块用于解析需要结构化的文档,并提取文档内容形成结构化内容;当上述系统工作时,首先由结构化关键字构建模块设置结构化关键字,并确定结构化关键字之间的关系;然后由样式与关键字对应模块建立起样式与结构化关键字之间的对应关系,然后解析提取模块读取并解析需要结构化的文档,根据样式与关键字对应模块建立的样式与结构化关键字之间的对应关系,提取相应的文档内容到结构化关键字中,从而形成结构化内容,处理结束。为适应上述系统,本发明采用了一种基于样式的内容结构化加工方法,如图1所示,具体包括以下步骤(1)建立内容结构化体系,根据需要设置结构化关键字,并确定结构化关键字之间的关系;结构化关键字的设置比较灵活,可以根据需要或用户的习惯按照文档的内容结构来设置,也可以按照文档内容的样式名称来设置;同时根据文档内容的样式来确定结构化关^:字之间的关系;所述的结构化关键字之间的关系是指结构化关键字之间的位置、排列、层次、结构、包含等关系,实际也就是结构化关4定字所代表的内容在文档中的相应关系;本实施例中,以需要对下述的印前排版文件进行内容结构化加工为例具体说明本步骤的实施过程兼容性1、支持WORD、EXCEL、TIF和PDF等常用格式。飞腾创艺5.0支持排入多种格式的文件,包括*乂'辟7xr、朋、,A"浙议c仏激像jf/f^E7V、P57X77K石緣、yPG浙G7F。2、支持输出为PDF和PS等格式的文件飞腾创艺5.0可将版面输出为多种格式的文件,包括PS、PDF、JPG、EPS、TXT和CSV的文件。输出的PDF文件可以用于各种途径,包括屏幕阅读、印刷和电子书等。图表13、兼容飞腾文件飞腾创艺5.0兼容飞腾3.X和飞腾4.X系列的文件,支持打开和编辑飞腾文件,准确率达95%以上,并且为未来飞腾创艺升级版本的高低相互兼容做了处理。1月2月3月203040152025根据上述文档内容中的样式,标注其具体样式及其属性如下所示:<image>imageseeoriginaldocumentpage9</image>表格fontsize-"3.70"italic=',false"bold="false"fontname="宋体"margin="0.2"在对上述带有样式的文件内容进行结构化加工之前,先构建内容结构化体系,设置结构化关键字,由于本文档的内容带有比较多的样式,因此本实施例中设置结构化关键字时根据文档内容中的各个样式来设置,具体分析如下上述文件中包含一个大标题、3个小标题一个项目编号、一个图说、一个表格以及一些正文,各种内容都使用了不同的样式,可以分为两类一类是文字才羊式如标题对应的才羊式、小标题对应的才羊式、项目编号对应的才羊式、正文对应的样式;另一类是对象样式如图说对应的样式,表格对应的样式。根据样式设置好了结构化关键字,结果如下表所示:大标题小标题正文列表项图说表格设置结构化关键字时,同时需要根据文档内容的样式来确定结构化关键字之间的关系;所述的结构化关键字之间的关系是指结构化关键字之间的位置、排列、层次、结构、包含等关系,实际也就是结构化关键字所代表的内容在文档中的相应关系;本实施例中,经分析可知,l)整个文档是根元素;2)大标题、小标题是根元素的子元素;3)正文是根元素的子元素;4)项目编号、图片、表格是和正文同一级别的元素;5)列表项是项目编号的子元素,基本该分析,依据该文档内容的样式确定好了结构化关4建字之间的关系。(2)建立样式与结构化关键字的对应关系;建立样式与结构化关键字的对应关系时,一个结构化关键字对应一种或者多种(两种或两种以上)样式,但是一种样式只能对应一个结构化关键字,具体在本实施例中,每一种样式都有唯一的结构化关键字与之对应,并记录所对应样式的属性,具体对应关系如下表所示<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table>结构内容文件如下所示:<文档><大标题>兼容性</大标题><小标题>1、支持WORD、EXCEL、TIF和PDF等常用格式々小标题〉<正文>飞腾创艺5.0支持排入多种格式的文件,包括</正文><列表>〈列表项〉文档TXT、BD、WORD和EXCEL。</列表项>〈列表项〉图像文件EPS、PSD、TIF、BMP、JPG和GIF。</列表项></列表><小标题>2、支持输出为PDF和PS等格式的文件々小标题〉<图说><图片〉http::〃www.sample.website.com.cn/picture/winter.jpg〈/图片><图片说明>图表1</图片说明></图说><正文>飞腾创艺5.0可将版面输出为多种格式的文件,包括PS、PDF、JPG、EPS、TXT和CSV的文件。输出的PDF文件可以用于各种途径,包括屏幕阅读、印刷和电子书等。</正文><小标题>3、兼容飞腾文件</小标题><正文>飞腾创艺5.0兼容飞腾3〗和飞腾4〗系列的文件,支持打开和编辑飞腾文件,准确率达95%以上,并且为未来飞腾创艺升级版本的高低相互兼容做了处理。</正文><表格><table><trheight="0.9cm">〈td〉l月〈/td〉〈td〉2月</td>〈td〉3月〈胁</tr><trheight="0.9cm"><td>20</td><td>30</td><td>40</td></tr><trheight="0.9cm"><td>15</td><td>20</td><td>25</td></tr><colwidth="2.5cm"/><colwidth="2.75cm"/><colwidth="2.25cm'V></column></row><table></表格></文档>经过上述处理,对本实施例中的文档内容进行了结构化加工,内容结构化的结果完全符合步骤(1)中确定的结构化关键字之间的关系,并且该结构化的内容可以带有原有的样式信息,具体应用时,如果客户不需带有样式的结构化内容,此时可以只选择结构内容文件;如果客户需要带有样式的结构化内容,则同时选择样式映射文件和结构内容文件即可。上述内容结构化加工的结果,其表现形式可以根据用户的需要自由表达,可以是符合XML标准规范的文件,也可以是自己定义的文件。本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。权利要求1、一种基于样式的内容结构化加工方法,包括以下步骤(1)建立内容结构化体系,根据需要设置结构化关键字,并确定结构化关键字之间的关系;(2)建立样式与结构化关键字之间的对应关系;(3)解析需要结构化的文档,提取内容形成结构化内容。2、如权利要求1所述的一种基于样式的内容结构化加工方法,其特征在于步骤(l)中,设置结构化关键字时,根据需要结构化的文档内容结构来设置。3、如权利要求1所述的一种基于样式的内容结构化加工方法,其特征在于步骤(1)中,设置结构化关键字时,根据文档内容的样式来设置。4、如权利要求1至3之一所述的一种基于样式的内容结构化加工方法,其特征在于步骤(l)中,确定结构化关键字之间的关系时,根据文档内容的样式来确定。5、如权利要求4所述的一种基于样式的内容结构化加工方法,其特征在于步骤(2)中,建立样式与结构化关键字的对应关系时,一个结构化关键字对应一种或者多种样式,但是一种样式只能对应一个结构化关^t字。6、如权利要求5所述的一种基于样式的内容结构化加工方法,其特征在于步骤(3)中,文档完成结构化后,形成了两个文件样式映射文件和结构内容文件,所述样式映射文件记录了样式与结构化关键字之间的对应关系,所述结构内容文件记录了结构化关键字与文档内容的对应关系。7、一种基于样式的内容结构化加工系统,该系统包括结构化关键字构建模块、样式与关键字对应模块、解析提取模块;所述的结构化关键字构建模块用于设置结构化关键字,并确定结构化关键字之间的关系;所述的样式与关键字对应模块用于建立样式与结构化关键字之间的对应关系;所述的解析提取模块用于解析需要结构化的文档,并提取文档内容形成结构化内容;当上述系统工作时,首先由结构化关键字构建模块设置结构化关键字,并确定结构化关键字之间的关系;然后由样式与关^T建字对应;^莫块建立起样式与结构化关键字之间的对应关系,然后解析提取模块读取并解析需要结构化的文档,根据样式与关键字对应模块建立的样式与结构化关键字之间的对应关系,提取相应的文档内容到结构化关键字中,从而形成结构化内容,处理结束。全文摘要本发明涉及一种基于样式的内容结构化加工方法和系统,属于信息内容加工
技术领域:
。现有技术中,内容结构化的方法要么需要手工录入,要么只能对纯内容的数据进行结构化,无法带入内容的版式信息和样式信息。本发明所述的方法和系统,根据需要结构化的文件建立内容结构化体系,然后建立样式与结构化关键字的对应关系,最后解析文档提取内容形成结构化内容,从而完成内容结构化的加工。采用本发明所述的方法和系统,内容结构化的加工过程中既不会受数据字段的约束,还可以同时保留原文档内容的样式属性,一方面利用了已有的文档信息,版式特征,另一方面是实现了内容结构化的自动加工。文档编号G06F17/30GK101430714SQ20081023899公开日2009年5月13日申请日期2008年12月8日优先权日2008年12月8日发明者余忠华,勇苏,赵朝阳,闫国龙,魏超鹏申请人:北大方正集团有限公司;北京北大方正电子有限公司