一种表格抽取方法和装置与流程

文档序号:11830296阅读:224来源:国知局
一种表格抽取方法和装置与流程
本发明涉及网页(Web)解析技术,尤其涉及一种表格抽取方法和装置。
背景技术
:表格作为一种重要的信息表现形式已广泛地应用于Web文档中,据统计约有52%的Web页面包含表格。对于表格而言,表格中的句法和语义概念是相互混合的,表格逻辑单元格以它的相对位置信息来获得语义。因而,如何让机器准确的地抽取表格信息,一直是一个具有挑战性的难题。而且表格是一种重要的知识载体,并且表格相对完全无结构的数据来说有着半结构化的特点,如果能对表格进行正确的抽取对以后的结构化知识的贡献将会很大。目前,Web上的数据表格大部分还都是用HTML语言描述的,缺乏对数据本身的描述,不含清晰的语义信息,模式也不明确,使得Web表格抽取比传统表格抽取更加困难。有监督的方法利用Web结构对数据进行处理,将Web解析成DOM树,采用基于路径模式的抽取方法抽取Web表格数据;无监督的方法采用自上而下受限的树编辑距离方法,根据Web源码编码及解析树的结构特点,Web信息结构差异采用自上而下的树比较方法。在没有标注数据或者标注数据不足的时候,有监督的方法没办法训练适当的模型,所以不可取。在无监督的方法中,如果仅仅根据Web源码编码及解析树的结构特点来进行表格抽取是不太科学的,因为很多表格的解析树一致的时候,但是语义上并不一致。技术实现要素:为解决现有存在的技术问题,本发明主要提供一种表格抽取方法和装置。本发明的技术方案是这样实现的:本发明提供一种表格抽取方法,该方法包括:读取源表格的内容,根据源表格的内容存储成至少一个二维表格;读取源表格的表头,根据表头行数抽取表头;按照抽取的表头确定表头项,根据所述至少一个二维表格建立表格处理模型;利用内容相似度将表格处理模型中表内容与表头项对齐。上述方案中,所述读取源表格的内容,根据源表格的内容存储成至少一个二维表格,包括:读取源表格的内容,根据第一行源单元格所占的行数确定表头行数,按照表头行数去掉表头后,根据第一列的单元格所占行数确定所述源表格被拆分成二维表格的个数,并按第一列的单元格所占行对源表格进行分块,每个表格块对应一个二维表格,遍历所有表格块的内容,确定对应二维表格的行数和列数,创建并初始化各二维表格,读取各表格块的表格空行标志的值,确定各表格块是非正常表格还是正常表格,按照相应的抽取规则抽取表格块的源单元格内容,存储到对应的二维表格中。上述方案中,所述读取源表格的表头,根据表头行数抽取表头,包括:读取并记录源表格的超文本标记语言HTML标签里每个源单元格的行起始位置和所占行数和列数,根据第一行源单元格所占的行数max确定表头行数,将表头规范化成二维表格,按照表头行数从所述二维表格中抽取每行源单元格中的标题。上述方案中,所述按照表头行数从所述二维表格中抽取每行源单元格中的标题包括:表头行数为1时,直接抽取第一行源单元格中的标题为表头;表头行数为2时,将第一行和第二行抽取为行标题和行子标题,并将行子标题全部以#连接到行标题后;表头行数为3时,将第一行、第二行和第三行抽取为标题、子标题以及孙子标题,并将子标题全部以#连接到标题后面,孙子标题全部以*连接到子标题后面。上述方案中,所述按照抽取的表头确定表头项包括:当表头只由一个表头行组成时,将表头中的每一个表单元格定义为一个表头项;当表头含有多个表头行时,根据从上向下的层次顺序拼接得到表头项。上述方案中,所述根据所述至少一个二维表格建立表格处理模型包括:将表头定义为向量H,表头项定义为h,其中,一个表头含有多个表头项,表示为H=<h1,h2,...,hn>,其中n∈[1,表头项个数];将表内容定义为D,利用根据源表格的内容形成的至少一个二维表格得到表内容中的内容部分,并按行划分,每一行定义为d,将表内容表示为D=<d1,d2,...,dn>,定义表内容矩阵第i行第j列的矩阵格为dij,定义表内容矩阵第i行di=<di1,di2,...,din>,其中n∈[1,表头项个数]。上述方案中,所述利用内容相似度将表格处理模型中表内容与表头项对齐包括:根据所述表格处理模型的表头项个数,查找表内容矩阵中各矩阵行的规整表行,将规整表行对应的表内容与表头项对齐;对于其余非规整表行,以对齐的规整表行为基准,以列为方向查找非规整表行中占用相同矩阵列宽的表内容与表头项对齐,将剩下的未对齐的表内容与已对齐的表内容进行相似度计算,找到相似度最高的表内容,将所述表内容对应的表头项作为对齐目标表头项进行对齐,对剩下的未对齐的表内容,迭代进行以列为单位的相似度计算,完成对齐。本发明还提供一种表格抽取装置,该装置包括:第一抽取模块、第二抽取模块、模型建立模块、对齐模块;其中,第一抽取模块,用于读取源表格的内容,根据源表格的内容存储成至少一个二维表格;第二抽取模块,用于读取源表格的表头,根据表头行数抽取表头;模型建立模块,用于按照抽取的表头确定表头项,根据所述至少一个二维表格建立表格处理模型;对齐模块,用于利用内容相似度将表格处理模型中表内容与表头项对齐。上述方案中,所述第一抽取模块,具体用于读取源表格的内容,根据第一行源单元格所占的行数确定表头行数,按照表头行数去掉表头后,根据第一列的单元格所占行数确定所述源表格被拆分成二维表格的个数,并按第一列的单元格所占行对源表格进行分块,每个表格块对应一个二维表格,遍历所有表格块的内容,确定对应二维表格的行数和列数,创建并初始化各二维表格,读取各表格块的表格空行标志的值,确定各表格块是非正常表格还是正常表格,按照相应的抽取规则抽取表格块的源单元格内容,存储到对应的二维表格中。上述方案中,所述第二抽取模块,具体用于读取并记录源表格的HTML标签里每个源单元格的行起始位置和所占行数和列数,根据第一行源单元格所占的行数max确定表头行数,将表头规范化成二维表格,按照表头行数从所述二维表格中抽取每行源单元格中的标题。上述方案中,所述第二抽取模块,具体用于表头行数为1时,直接抽取第一行源单元格中的标题为表头;表头行数为2时,将第一行和第二行抽取为行标题和行子标题,并将行子标题全部以#连接到行标题后;表头行数为3时,将第一行、第二行和第三行抽取为标题、子标题以及孙子标题,并将子标题全部以#连接到标题后面,孙子标题全部以*连接到子标题后面。上述方案中,所述模型建立模块,具体用于当表头只由一个表头行组成时,将表头中的每一个表单元格定义为一个表头项;当表头含有多个表头行时,根据从上向下的层次顺序拼接得到表头项。上述方案中,所述模型建立模块,具体用于将表头定义为向量H,表头项定义为h,其中,一个表头含有多个表头项,表示为H=<h1,h2,...,hn>,其中n∈[1,表头项个数];将表内容定义为D,利用根据源表格的内容形成的至少一个二维表格得到表内容中的内容部分,并按行划分,每一行定义为d,将表内容表示为D=<d1,d2,...,dn>,定义表内容矩阵第i行第j列的矩阵格为dij,定义表内容矩阵第i行di=<di1,di2,...,din>,其中n∈[1,表头项个数]。上述方案中,所述对齐模块,具体用于根据所述表格处理模型的表头项个数,查找表内容矩阵中各矩阵行的规整表行,将规整表行对应的表内容与表头项对齐;对于其余非规整表行,以对齐的规整表行为基准,以列为方向查找非规整表行中占用相同矩阵列宽的表内容与表头项对齐,将剩下的未对齐的表内容与已对齐的表内容进行相似度计算,找到相似度最高的表内容,将所述表内容对应的表头项作为对齐目标表头项进行对齐,对剩下的未对齐的表内容,迭代进行以列为单位的相似度计算,完成对齐。本发明提供了一种表格抽取方法和装置,读取源表格的内容,根据源表格的内容存储成至少一个二维表格,读取源表格的表头,根据表头行数抽取表头,按照抽取的表头确定表头项,根据所述至少一个二维表格建立表格处理模型,利用内容相似度将表格处理模型中表内容与表头项对齐;如此,与有监督的方法相比,本发明的技术方案不需要训练数据;与无监督的方法相比,本发明的技术方案不仅利用了表格的结构信息,还利用了表格的内容信息,这样对结构相同但语义不相同的表格,也能够抽取正确。附图说明图1为本发明实施例提供的表格抽取方法的流程示意图;图2为本发明实施例提供的表格抽取装置的结构示意图。具体实施方式由于知识库的重要性正在日趋突出,很多知识都被人们希望转化成三元组的形式存于知识库中。人们在构建知识库的时候一个常用的手段是从表格中获取知识,即对表格进行抽取,包括表头的抽取和表内容的属性对齐。由于很多知识性表格在最初设计的时候并不是为了建立知识库而创建的,所以很多方面都是不能直接利用到知识库的。比如在最开始的时候,在百度百科、维基百科之类的以“众包”形式积累知识的平台中,表格是由各种各样的用户设计的,他们的表格也千差万别,但是表格又是很多重要知识的一种很有力的表现形式,我们必须对它给予很高的关注。很多关系型数据库的知识也是以表格的形式呈现的。例如在百度百科里面,很多演员的角色对应关系都是通过表格的形式展现的,如果我们能够正确的进行表格抽取的话,我们就能利用这些知识词条。本发明实施例中,读取源表格的内容,根据源表格的内容存储成至少一个二维表格,读取源表格的表头,根据表头行数抽取表头,按照抽取的表头确定表头项,根据所述至少一个二维表格建立表格处理模型,利用内容相似度将表格处理模型中表内容与表头项对齐。下面通过附图及具体实施例对本发明做进一步的详细说明。在本发明实施例中需要如下关键术语:源单元格内容:包括源单元格所占行数、源单元格所占列数、源单元格文本内容、源单元格的行索引、源单元格的列索引;二维表格:用于存储源表格中的源单元格内容,形式为n行,m列;原子单元格:二维表格中一个最小单元格;表格游标:用于存储二维表格一行的内容;表格空行标志:用于标记表格中是否超过两行空行。本发明实施例实现一种表格抽取方法,应用于服务器、PC等机器设备中,如图1所示,该方法包括以下几个步骤:步骤101:读取源表格的内容,根据源表格的内容存储成至少一个二维表格;具体的,读取源表格的内容,根据第一行源单元格所占的行数确定表头行数,按照表头行数去掉表头后,根据第一列的单元格所占行数确定所述源表格被拆分成二维表格的个数,并按第一列的单元格所占行对源表格进行分块,每个表格块对应一个二维表格,遍历所有表格块的内容,确定对应二维表格的行数和列数,创建并初始化各二维表格,读取各表格块的表格空行标志的值,确定各表格块是非正常表格还是正常表格,按照相应的抽取规则抽取表格块的源单元格内容,存储到对应的二维表格中。步骤101可以包括:1)读取源表格的内容,根据源表格除表头外第一列的单元格所占行数来确定所述源表格被拆分成二维表格的个数,并按所述第一列的单元格所占行对源表格进行分块,每个表格块对应一个二维表格,以表1为例,拆分成的规范化的二维表格个数为3;2)根据步骤1)中被拆分成的表格块,遍历所有表格块的内容,确定对应二维表格的行数n和最大列数m,分别创建并初始化二维表格,如表1创建的三个二维表格依次为13行7列、4行4列、1行2列;3)判断正常或者非正常表格;具体的,针对步骤2)中被拆分成的表格块,检查表格块中所有空行行数,以确定表格块是否是可处理的表格,所述检查表格块中所有空行行数可以是读取表格空行标志的值,如果表格空行标志的值大于等于2,则认为所述表格块的数据严重错误,不可处理,将其舍弃;如果表格空行标志值等于1,则认为所述表格块为非正常表格,按照非正常表格规则抽取;如果表格空行标志等于0,则认为所述表格块为正常表格,按照正常表格抽取;表14)表格内容抽取及规范化处理。具体的,针对步骤2)中被拆分成的表格块,对于所有正常表格执行步骤5),实现表格内容抽取及规范化处理;对于所有非正常表格执行步骤6),实现表格内容抽取及规范化处理;5)正常表格规范化处理步骤如下:5.1)读取表格块第一行的值,获得源单元格内容,根据源单元格所占行数和列数,将获取到的源单元格的内容拆分成原子单元格的内容,并将所述原子单元格的内容填充到表格游标中原子单元格的内容中;5.2)遍历表格块,并记录每行行号,行号从零开始;每遍历一行,将表格游标中的行索引属性减一,以此获取二维表格下一行的内容;5.3)将步骤5.2)中表格游标中各原子单元格的内容赋值给二维表格中对应行的相应位置;5.4)直至表格块遍历完毕,获得一个完整的二维表格。6)非正常表格规范化处理步骤如下:6.1)遍历表格块,读取每一行的每个源单元格的内容;6.2)根据源单元格所占行数和列数,将获取到的源单元格的内容拆分成原子单元格的内容,并将所述原子单元格的内容填充到游标中原子单元格的内容中;如果遇到空行,则将上一行的内容赋值到所述空行,将表格游标中的列索引属性减一;如果遇到空值,则将表格游标中相应行标、相应列标处补空值;6.3)将6.2)中获取的表格游标的值在二维表格中相应位置进行填充;6.4)直至表格块遍历完毕,获得完整的二维表格。根据以上步骤和表1,最终可以获得以下二维表格,表2、表3、表4:表2表3台港澳/国际漫游按照台港澳国际漫游资费标准收取表4步骤102:读取源表格的表头,根据表头行数抽取表头;具体的,读取Web中源表格的HTML标签里每个源单元格的行起始位置和所占行数和列数,并记录这些信息,根据第一行源单元格所占的行数max确定表头行数,将表头规范化成二维表格,按照表头行数从所述二维表格中抽取每行源单元格中的标题。这里的将表头规范化成二维表格可以采用步骤101的方法。其中,所述根据第一行源单元格所占的行数max确定表头行数包括:当max>1时,max值即为表头行数;当max=1且第一行只有一个源单元格时,则将第二行源单元格所占的行数记为max’,表头行数max的值为max’+1;当max=1且第一行有多个单元格时,则表头行数为1。例如:表头a规范化之后会变成表头b:表头a套餐类型套餐名称开放地市开放对象办理渠道办理渠道套餐类型套餐名称开放地市开放对象实体渠道电子渠道表头b其中,表头行数为1时,表头的抽取为:如果表头行数为1,表示表头占一行,则直接抽取第一行源单元格中的标题为表头,例如表c就只有“通信状态,资费标准”被抽为表头。表c表头行数为2时,表头的抽取为:如果表头行数为2,表示表头占两行,则将第一行和第二行抽取为行标题和行子标题,并将行子标题全部以#连接到行标题后;例如表d的表头就会被抽为:“套餐名称,开放对象,办理渠道#实体渠道#电子渠道”。表d这里,判断行标题和行子标题的方法是查看规范化的二维表格中每个单元格的右边是否是相同的内容,如果是相同的内容则为同一标题,则将所述单元格下方的内容抽取为标题的子标题。例如:表头b的第1行的第5列的内容为“办理渠道”,右边仍然为“办理渠道”,而“办理渠道”的下面两个不同的单元格内容为“实体渠道”和“电子渠道”,那么,把“实体渠道”和“电子渠道”抽取为“办理渠道”标题的子标题。表头行数为3时,表头的抽取为:如果表头行数为3,则表头占三行,此时将第一行、第二行和第三行抽取为标题、子标题以及孙子标题,并将子标题全部以#连接到标题后面,孙子标题全部以*连接到子标题后面。例如表e就会被抽为“2007年非签约产品神州行轻松卡系列资费营销案(以BOSS实际上线资费为准)#名称#资费*月租*本地主叫*本地被叫*17951长途(含本地电话接入费)*国内漫游主叫*国内漫游被叫#面值及有效期#备注”。表e步骤103:按照抽取的表头确定表头项,根据所述至少一个二维表格建立表格处理模型;首先要从第二阶段的抽取完毕的表头中解析出表头项,并且明确对齐目标。在实际问题中表头有两种情形,一种是只包含一个表头行;另一种是包含多个表头行。这两种情况要分别处理:当表头只由一个表头行组成时,将表头中的每一个表单元格定义为一个表头项,每个表头项都是对它下面表格内容的定义或者说明,因此,这种情况下表头和表格内容的对齐就是找到每个表头单元格与表格内容的对应关系。当表头含有多个表头行时,表头行之间就产生了含义上的层次关系。也就是说对于两个相邻的表头行,位于上面的表头行是对相应下面表头行的概括或者抽象,下面的表头行是对相应上面表头行的具体化和明确化。由此可知,对于多表头行的表头,最下面一层的表头行才是对相应表格内容的核心描述,从而根据从上向下的层次顺序就可以拼接得到一个有意义的表头项。因此,在这种情况下,表头和表格内容的对齐就体现在建立拼接后表头项与表格内容的对应关系上。明确表头项和对齐目标之后,建立表格处理模型如下:(1)将一个表格中的表头定义为向量H,表头项定义为h。其中,一个表头含有多个表头项,表示为H=<h1,h2,...,hn>,其中n∈[1,表头项个数]。(2)将一个表格中的表内容定义为D,利用根据源表格的内容形成的至少一个二维表格得到表内容中的内容部分,并按行划分,每一行定义为d,将表内容表示为D=<d1,d2,...,dn>,定义表内容矩阵第i行第j列的矩阵格为dij,定义表内容矩阵第i行di=<di1,di2,...,din>,其中n∈[1,表头项个数]。步骤104:利用内容相似度将表格处理模型中表内容与表头项对齐;具体的,根据所述表格处理模型的表头项个数,查找表内容矩阵中各矩阵行的规整表行,将规整表行对应的表内容与表头项对齐,一条矩阵行对齐结果就是这一行中全部表头项与表内容的对应关系,以第i行为例,对齐结果形式为{h1:dix,h2:diy,...hn:diz},其中x,y,z分别为与表头项对齐后的矩阵格所在列号,x,y,z<=n;对于其余非规整表行,以对齐的规整表行为基准,以列为方向查找非规整表行中占用相同矩阵列宽的表内容与表头项对齐,将剩下的未对齐的表内容与已对齐的表内容进行相似度计算,找到相似度最高的表内容,将所述表内容对应的表头项作为对齐目标表头项进行对齐,对剩下的未对齐的表内容,迭代进行以列为单位的相似度计算,完成对齐。所述相似度计算可以是先将句子分词,得到由单词组成的句子向量,然后计算句子向量之间的余弦相似度。所述规整表行,即表内容个数等于表头中表头项个数的矩阵行;非规整表行,即表内容个数不等于表头中表头项个数的矩阵行。表格对齐具体步骤如下:步骤一:找到所有的规整表行,按所在列实现对齐。如表5的表头项个数为4,其中棚网区域的表内容个数与表头项个数一致,可直接得到表头项及表内容的对应关系,见表6。表5表6步骤二:以第一步找到的规整表行为基准,再以列为方向,将占用相同矩阵列宽的表头项与表内容对齐,如表7中加底纹区域:表7步骤三:将剩下的矩阵格按照内容相熟度与表头项对齐。将未对齐的表内容和已对齐的表内容进行相似度计算,找到相似度最高的表内容所对应的表头项作为对齐目标表头项。如表9中,没有加底纹的区域对应的表内容将和表8中的每个表内容计算相似度,选出相似度最高的,进行对齐,对剩下的未对齐的表内容,迭代进行以列为单位的相似度计算,完成对齐工作。最终直至完成所有单元格与属性的对齐,如表10所示。这里,一般采用从表格两端向中间摇摆式对齐的方式,因为处于两端的表内容总是与两端的表头项相对应的。表8表9表10为了实现上述方法,本发明还提供一种表格抽取装置,如图2所示,该装置包括:第一抽取模块21、第二抽取模块22、模型建立模块23、对齐模块24;其中,第一抽取模块21,用于读取源表格的内容,根据源表格的内容存储成至少一个二维表格;第二抽取模块22,用于读取源表格的表头,根据表头行数抽取表头;模型建立模块23,用于按照抽取的表头确定表头项,根据所述至少一个二维表格建立表格处理模型;对齐模块24,用于利用内容相似度将表格处理模型中表内容与表头项对齐。具体的,所述第一抽取模块21读取源表格的内容,根据第一行源单元格所占的行数确定表头行数,按照表头行数去掉表头后,根据第一列的单元格所占行数确定所述源表格被拆分成二维表格的个数,并按第一列的单元格所占行对源表格进行分块,每个表格块对应一个二维表格,遍历所有表格块的内容,确定对应二维表格的行数和列数,创建并初始化各二维表格,读取各表格块的表格空行标志的值,确定各表格块是非正常表格还是正常表格,按照相应的抽取规则抽取表格块的源单元格内容,存储到对应的二维表格中。对于正常表格,所述第一抽取模块21,具体用于读取表格块第一行的值,获得源单元格内容,根据源单元格所占行数和列数,将获取到的源单元格的内容拆分成原子单元格的内容,并将所述原子单元格的内容填充到表格游标中原子单元格的内容中;遍历表格块,并记录每行行号,行号从零开始,每遍历一行,将表格游标中的行索引属性减一;将表格游标中各原子单元格的内容赋值给二维表格中对应行的相应位置;直至表格块遍历完毕,获得完整的二维表格。对于非正常表格,所述第一抽取模块21,具体用于遍历表格块,读取每一行的每个源单元格的内容,根据源单元格所占行数和列数,将获取到的源单元格的内容拆分成原子单元格的内容,并将所述原子单元格的内容填充到游标中原子单元格的内容中;如果遇到空行,则将上一行的内容赋值到所述空行,将表格游标中的列索引属性减一;如果遇到空值,则将表格游标中相应行标、相应列标处补空值;将获取的表格游标的值在二维表格中相应位置进行填充;直至表格块遍历完毕,获得完整的二维表格。所述第二抽取模块22,具体用于读取Web中源表格的HTML标签里每个源单元格的行起始位置和所占行数和列数,并记录这些信息,根据第一行源单元格所占的行数max确定表头行数,将表头规范化成二维表格,按照表头行数从所述二维表格中抽取每行源单元格中的标题。其中,所述根据第一行源单元格所占的行数max确定表头行数包括:当max>1时,max值即为表头行数;当max=1且第一行只有一个源单元格时,则将第二行源单元格所占的行数记为max’,表头行数max的值为max’+1;当max=1且第一行有多个单元格时,则表头行数为1。其中,表头行数为1时,所述第二抽取模块22直接抽取第一行源单元格中的标题为表头;表头行数为2时,所述第二抽取模块22将第一行和第二行抽取为行标题和行子标题,并将行子标题全部以#连接到行标题后;表头行数为3时,所述第二抽取模块22将第一行、第二行和第三行抽取为标题、子标题以及孙子标题,并将子标题全部以#连接到标题后面,孙子标题全部以*连接到子标题后面。所述模型建立模块23,具体用于当表头只由一个表头行组成时,将表头中的每一个表单元格定义为一个表头项;当表头含有多个表头行时,根据从上向下的层次顺序拼接得到表头项;建立表格处理模型的处理为:(1)将一个表格中的表头定义为向量H,表头项定义为h,其中,一个表头含有多个表头项,表示为H=<h1,h2,...,hn>,其中n∈[1,表头项个数]。(2)将一个表格中的表内容定义为D,利用根据源表格的内容形成的至少一个二维表格得到表内容中的内容部分,并按行划分,每一行定义为d,将表内容表示为D=<d1,d2,...,dn>,定义表内容矩阵第i行第j列的矩阵格为dij,定义表内容矩阵第i行di=<di1,di2,...,din>,其中n∈[1,表头项个数]。在得到表格处理模型后,所述对齐模块24具体用于根据所述表格处理模型的表头项个数,查找表内容矩阵中各矩阵行的规整表行,将规整表行对应的表内容与表头项对齐;对于其余非规整表行,以对齐的规整表行为基准,以列为方向查找非规整表行中占用相同矩阵列宽的表内容与表头项对齐,将剩下的未对齐的表内容与已对齐的表内容进行相似度计算,找到相似度最高的表内容,将所述表内容对应的表头项作为对齐目标表头项进行对齐,对剩下的未对齐的表内容,迭代进行以列为单位的相似度计算,完成对齐。本发明实施例所述表格抽取方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。相应的,本发明实施例还提供一种计算机存储介质,其中存储有计算机程序,该计算机程序用于执行本发明实施例的表格抽取方法。以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1