一种基于可配置的word文档结构化提取方法

文档序号:6628052阅读:3727来源:国知局
一种基于可配置的word文档结构化提取方法
【专利摘要】一种基于可配置的WORD文档结构化提取方法,包括以下步骤:步骤一,定义可配置的模板文件;在读取Word文档时,需要定义一个word模板文件,用来定义待读取文档的结构和需要提取word的内容;步骤二,根据第一步定义的模板文件为基准,检测待读取的Word文档。本发明实现的WORD文档结构提取的易用性好,可扩展性高,适用于各种需要将WORD文档结构化到数据库中的场合,对于减少人为错误出现的机率,提高数据质量,提升工作效率具有重要作用。
【专利说明】—种基于可配置的WORD文档结构化提取方法

【技术领域】
[0001]本发明涉及对WORD文档结构化提取的【技术领域】,具体涉及可配置方式的WORD文档结构化提取的计算机方法。

【背景技术】
[0002]现代信息化社会中,通过计算机来管理资料是所有企业都需要面对的问题。一个企业在信息化过程中,通常都是由文档管理到数据库管理的一个过程转换,怎样将积累的文档资源转化到数据库中,在提高效率的同时也要保证质量。如果采用人工的方式转换,对于成千上万的文档资料来说,难度是相当大的,而且人工转换的方式出现错误的概率也很大,数据质量也难于保障。如何通过一种计算机的数据提取方式,实现一种可动态配置文档目录结构的,将WORD文档通过结构化技术实现数据提取?在降低工作难度、提高工作效率的同时也保证数据转换的质量。
[0003]基于以上的这些原因,需要一个能够对WORD文档实现可配置的结构化提取的通用计算机方法,能够验证这些文档的合规性,并提取相应文档中的内容,实现文档数据的结构化。


【发明内容】

[0004]本发明正是为了解决WORD文档结构化提取的难题,提出一种基于可配置的WORD文档结构化提取方法,该方法具有便捷操作、方便使用的特点,同时能够验证文档的合规性,保障数据质量。
[0005]实现本发明的技术方案如下:
一种基于可配置的WORD文档结构化提取方法,步骤为:
步骤一、定义可配置的模板文件。在读取Word文档时,需要定义一个word模板文件,用来定义待读取文档的结构,和需要提取word的内容。模板文件需要定义的内容有:
1)、定制文档的结构,通过采用xml技术,定制文件的树型结构内容,通过XML结构实现可配置的定义文档的层级结构,每个层级作为配置文件的一个节点。节点的类型包括:标题、文本、表格、图片;
2)、配置节点的属性,根据各节点的实际业务需求,配置标题节点的属性,包括标题名、标题编号、是否为可循环出现的标题;
3)、定义模板节点的校验,或者读取的数据应该存放到数据库表的哪个字段中;
步骤二、根据第一步定义了模板文件为基准,检测待读取的Word文档。实现过程包含以下步骤:
1)、加载模板文件,并遍历其中的所有节点。根据XML定义出来的文档结构是一个树型结构,遍历过程中需要根据这个树型来遍历,及树型的深度遍历;
2)、根据当前的节点类型来进行不同的加载:
2.1标题节点:根据模板节点中的标题号定位到具体的文档位置,如果不能定位则表示在模板中的标题没在文档中,同时根据这个节点的属性‘是否为可选’来判断是否需要输出日志信息;
2.2文本节点:读取Word文档中对应的文本内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中;
2.3表格节点:根据模板中定义的表格列来验证,文档中对应的位置的表格是否符合模板定义,如果符合则读取数据并保存到数据库表的字段中;
2.4图片节点:读取Word文档中对应的图片内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中。
[0006]本发明的有益效果是:
本发明通过采用XML技术,解决了 WORD文档目录结构可配置的问题,通过定制模板的不同类型节点及定义节点的属性,能够根据业务需求进行不同类型文档结构的定制,满足各种结构的WORD的结构化数据提取。通过以模板为基准,提取WORD文档的数据,同时进行数据合规性的检查,为数据质量保证奠定基础。本方法实现的WORD文档结构提取的易用性好,可扩展性高,适用于各种需要将WORD文档结构化到数据库中的场合,对于减少人为错误出现的机率,提高数据质量,提升工作效率具有重要作用。

【专利附图】

【附图说明】
[0007]图1为本发明WORD结构化提取流程图。

【具体实施方式】
[0008]下面结合附图和实施例对本发明作时一步详细说明。
[0009]如图1,基于可配置的WORD文档结构化提取的流程包括定制并加载模板配置文件,遍历模板树节点,解析各节点并按属性结构化内容。
[0010]以信息化项目建设的资料结构化为例子,信息化项目一般分为业务模型、需求分析、概要设计、详细设计四个阶段,每个阶段有几十个文档,四个阶段全部的文档加起来有几百个文档,每个文档的大小有十几M。如果这些文档全部由人工来进行录入的话,一是工作量大,二是由于文档大,人工录入的话出现错误的概率很大。以需求分析的文档为实例,来说明本发明的实施例子。
[0011]具体实施步骤如下:
步骤一、定制并加载模板配置文件。根据需求分析文档的结构,采用XML技术进行模板化,生成模板的配置文件;
I )、定制文档的结构,通过采用xml技术,定制文件的树型结构内容,通过XML结构实现可配置的定义文档的层级结构,每个层级作为配置文件的一个节点。需求分析文档的结构包括项目概述、需求总体分析、功能规格、需求清单、功能项、功能子项、业务流程图、接口需求、非功能规格;
2)、配置各个节点的属性,包括标题名、标题编号、是否为可循环出现的标题,各节点的属性如下:
a)项目概述,1,不可循环出现;
b)需求总体分析,2,不可循环出现; c)功能规格,3,不可循环出现;
d)需求清单,3.1,不可循环出现;
e)功能项,3.2,可循环出现;
f)功能子项3.3,可循环出现;
g)业务流程图,3.4,可循环出现;
h)接口需求,4,不可循环出现;
i)非功能规格,5,不可循环出现;
3、定义模板节点的校验,与数据库表建立关系,实现文档节点与数据库表字段的对应映射;
步骤二、遍历文档的树节点,根据步骤一定制的模板配置文件进行节点的遍历。首先加载模板配置文件,然后按顺序进行标题节点的提取及标题下对应的文本节点、表格节点、图片节点的提取,并将提取的数据存放到指定的数据库表中的字段。下面以功能规格目录及其子目录为例子,说明数据提取并结构化入库的过程。具体过程如下:
1)、提取标题节点:依据模板配置文件的定义,扫描当前WORD文档的目录结构,匹配标题为“功能规格”的标题节点。分二种情况处理:
情况一:如果能定位到,则获取标题名,并执行2);
情况二:如果不能定位到,而且“功能规格”不是‘可选’的标题节点,输出日志信息“功能规格标题节点找不到,请核对WORD文档目录结构! ”。根据模板配置文件继续遍历文档的树节点;
2)、提取文本节点:依据模板配置文件可知,‘功能规格’为文本节点。定位到‘功能规格’的层级目录,提取‘功能规格’节点内容,根据模板配置文件中的节点定义找到与数据库的映射关系,将提取的数据存入数据库表的指定字段中;
3)、提取表格节点:依据模板配置文件可知,‘需求清单’为表格节点。定位到‘功能规格’的层级目录,提取‘需求清单’的表格数据,根据模板配置文件中的节点定义找到与数据库的映射关系,将提取的数据通过结构化处理,存入数据库表的指定字段中;
4)、提取图片节点:依据模板定义可知,‘业务流程图’为图片节点。定位到‘功能规格’的层级目录,提取‘业务流程图’的流程图数据,根据模板配置文件中的节点定义找到与数据库的映射关系,将提取的图片通过矢量化技术进行解析分析,并进行结构化处理,存入数据库表的指定字段中。
[0012]重复步骤二操作,遍历步骤一定制的模板配置文件的结构目录,将项目概述、需求总体分析、功能规格、需求清单、功能项、功能子项、业务流程图、接口需求、非功能规格的内容进行提取,并根据数据库的映射关系,将提取的数据通过结构化处理,存入数据库表的指定字段。
[0013]同理,重复以上步骤,通过定制四个阶段对应的文档的模板配置文件,并进行遍历模板树节点,定位并提取各节点的内容,采用结构化技术、矢量化技术存入到数据库表中。
【权利要求】
1.一种基于可配置的WORD文档结构化提取方法,其特征在于,包括以下步骤: 步骤一,定义可配置的模板文件;在读取Word文档时,需要定义一个word模板文件,用来定义待读取文档的结构和需要提取word的内容;模板文件需要定义的内容有: I )、定制文档的结构,通过采用xml技术,定制文件的树型结构内容,通过XML结构实现可配置的定义文档的层级结构,每个层级作为配置文件的一个节点;节点的类型包括:标题、文本、表格、图片; 2)、配置节点的属性,根据各节点的实际业务需求,配置标题节点的属性,包括标题名、标题编号、是否为可循环出现的标题; 3)、定义模板节点的校验或者读取的数据应该存放到数据库表的哪个字段中; 步骤二,根据第一步定义的模板文件为基准,检测待读取的Word文档;实现过程包含以下步骤:. 1)、加载模板文件,并遍历其中的所有节点;根据XML定义出来的文档结构是一个树型结构,遍历过程中需要根据这个树型来遍历,及树型的深度遍历; .2)、根据当前的节点类型来进行不同的加载: . 2.1)标题节点:根据模板节点中的标题号定位到具体的文档位置,如果不能定位则表示在模板中的标题没在文档中,同时根据这个节点的属性‘是否为可选’来判断是否需要输出日志信息; . 2.2)文本节点:读取Word文档中对应的文本内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中; . 2.3)表格节点:根据模板中定义的表格列来验证,文档中对应的位置的表格是否符合模板定义,如果符合则读取数据并保存到数据库表的字段中; . 2.4)图片节点:读取Word文档中对应的图片内容,并依据模板中的节点定义,把读取的数据保存到对应数据库表的字段中。
【文档编号】G06F17/30GK104199975SQ201410492079
【公开日】2014年12月10日 申请日期:2014年9月23日 优先权日:2014年9月23日
【发明者】詹卫许, 于晓义, 董灿, 吴方权, 陈彬, 胡俊杨, 陈晓洪, 李瑜 申请人:中国南方电网有限责任公司, 云南云电同方科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1