一种标准文档指标自动抽取的方法、装置和系统与流程

文档序号:33031446发布日期:2023-01-20 20:55阅读:25来源:国知局
一种标准文档指标自动抽取的方法、装置和系统与流程

1.本发明涉及标准文档内容自动抽取技术领域,尤其涉及一种标准文档指标自动抽取的方法。


背景技术:

2.近年来,随着我国在科学研究方面的大力支持,各类技术文件的数量呈指数趋势增长,大批新兴的科学技术指标也一并涌现出来,科学技术指标可以代表技术的核心指标,每个技术领域中指标的演变与发展也从某种角度上来说反映了该领域技术的创新与进步,为了方便对技术指标进行管理,各专业都基于信息化技术建立了技术指标库、数据库,可以为相关文献检索科技论文查重以及文本的自动分类提供支持,构建指标库的主要途径就是对已有的指标进行电子化操作后直接导入数据库,然后通过人工校对不断对术语库进行完善,这种方式需要耗费大量的人工操作,不仅费时费力,而且只能周期性的从新产生的科技文献中提取相关专业的技术指标具有滞后性,无法及时更新指标库,而能否有效从海量的标准文档中提取并识别领域术语对技术指标库能否保持实质更新意义重大。


技术实现要素:

3.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
4.鉴于上述现有存在的问题,提出了本发明。
5.因此,本发明提供了一种标准文档指标自动抽取的方法、装置和系统,能够解决传统指标抽取方法耗费大量的人工操作,不仅费时费力,只能周期性的从新产生的科技文献中提取相关专业的技术指标,无法及时更新指标库的问题。
6.为解决上述技术问题,本发明提供如下技术方案,一种标准文档指标自动抽取的方法,包括:
7.构建指标库,根据预设的指标库构建指标数据模型;
8.获取标准文档集,对所述标准文档集中的文本进行预处理,得到标准文档子集;
9.从标准文档子集中抽取指标数据模型定义的字符组成的对应指标内容;
10.根据word2vec技术对抽取的指标内容进行验证;
11.按照对应的映射规则将抽取的指标内容批量导入关系型数据中,形成新的指标库的一部分;
12.对抽取的指标内容进行聚合处理,得到指标输出文档。
13.作为本发明所述的标准文档指标自动抽取方法的一种优选方案,其中:所述构建指标库包括,
14.获取历史文档集,对所述历史文档集文本进行预处理,分析历史文档集中目标对象的指标组成特点,根据所述指标组成特点找出对应指标,依据所述指标构建指标库;
15.所述构建指标库还包括,将预处理后的历史文档集设置为指标库选材,所述指标库选材经过指标采集后依据预设的标注规范进行指标标注,完成所述指标标注后将已标注指标归纳为指标库;
16.所述标注规范包括,当指标内容为字母时,给指标内容设置黄色下划线;
17.当指标内容为符号时,给指标内容设置蓝色下划线;
18.当指标内容为汉字时,给指标内容设置红色高亮;
19.当指标内容为数字时,给指标内容设置红色高亮。
20.作为本发明所述的标准文档指标自动抽取方法的一种优选方案,其中:所述构建指标数据模型包括,
21.所述指标数据模型包括,根据预设的指标库建立指标内容的集合;
22.所述指标内容包括,指标名称、所属指标、指标章条号、指标技术要求、指标数值、指标计量单位、指标id、标准号、标准名称、产品名称、上级产品名称、上级指标名称、指标要求、指标要求中包含的图表。
23.作为本发明所述的标准文档指标自动抽取方法的一种优选方案,其中:所述预处理包括,
24.对所述标准文档集中的文本进行分字处理,得到字符集合。
25.作为本发明所述的标准文档指标自动抽取方法的一种优选方案,其中:所述从标准文档子集中抽取指标数据模型定义的字符组成的对应指标内容包括,
26.所述指标数据模型定义的字符组成包括,根据所述分析得出的指标组成特点,定义指标数据模型的字符组成;
27.所述抽取包括,定义一种柔性匹配模式与应匹配模式相结合的抽取规则;
28.所述抽取规则包括,根据指标标注,指标内容设置黄色下划线的,采用柔性匹配模式进行抽取;
29.指标内容设置蓝色下划线的,采用柔性匹配模式进行抽取;
30.指标内容设置红色高亮的,采用硬匹配模式进行抽取;
31.指标内容设置红色高亮的,采用硬匹配模式进行抽取。
32.作为本发明所述的标准文档指标自动抽取的方法的一种优选方案,其中:所述根据word2vec技术对抽取的指标内容进行验证包括,
33.利用word2vec技术中的byw模型,根据历史词语信息预测当前句子可能出现的字符,并依据预测结果验证抽取的指标内容;
34.所述byw模型的似然函数表示为:
[0035][0036]
求所述函数的最大似然估计值,
[0037][0038]
对似然函数求导,并令导数为0,求出最大似然估计值,
[0039]
[0040]
将最大似然估计值代入参数θ进行期望运算,
[0041]
e(l(θ|y))=∫np(m,n|θ)f(n)dn
[0042]
其中,m为历史文档指标库,即m={m1,m2,...,mn},n为新引入的文档指标数据集,即n={n1,n2,...,nn},y为新文档指标数据集,即y={m,n}={(m1,n1),(m2,n2),....},θ表示似然函数的未知参数;
[0043]
对于byw模型,输入层是一个窗口内上下文的字符组合的字符向量的集合,投影层对所述字符向量依据向量加法求和,然后输出层输出概率最高的词语。
[0044]
作为本发明所述的标准文档指标自动抽取的方法的一种优选方案,其中:所述对应的映射规则将抽取的指标内容批量导入关系型数据包括,
[0045]
根据对应的映射规则,将抽取的指标内容批量整理并导入为结构化、参数化和模型化的关系型数据。
[0046]
作为本发明所述的标准文档指标自动抽取的方法的一种优选方案,其中:所述对抽取的指标内容进行聚合处理包括,
[0047]
整理所述抽取内容形成结构化数据格式,保存到预设的文档中。
[0048]
为解决现有的技术问题,本发明提供如下技术方案,一种标准文档指标自动抽取的装置,包括:
[0049]
作为本发明所述的标准文档指标自动抽取装置的一种优选方案,其中:所述装置包括,
[0050]
信息输入模块,用于输入源文本;
[0051]
信息输出模块,将自动抽取的指标内容通过接口程序输出。
[0052]
为解决现有的技术问题,本发明提供如下技术方案,一种标准文档指标自动抽取的系统,包括:
[0053]
作为本发明所述的标准文档指标自动抽取系统的一种优选方案,其中:所述系统包括,
[0054]
至少一台服务器,以及与服务器连接的基于标准文档指标自动抽取的装置,所述服务器执行抽取指标内容过程时,通过所述基于标准文档指标自动抽取的装置,从信息输入模块得到源文本,并执行上述方法得到最终的与源文本对应的指标。
[0055]
本发明的有益效果:本发明方法基于预设的指标库,获取标准文档集,对所述标准文档集中的文本进行预处理,得到标准文档子集,再从标准文档子集中抽取指标数据模型定义的字符组成的对应指标内容,基于word2vec技术中的byw模型对抽取的指标内容进行验证,按照对应的映射规则将抽取的指标内容批量导入关系型数据中,形成新的指标库的一部分,同时对抽取的指标内容进行聚合处理,得到指标输出文档,将传统的人工获取指标的方法替换为标准文档自动抽取,省力省时。
[0056]
本发明装置设置了两个模块,一是信息输入模块,用于输入源文本,二是信息输出模块,将自动抽取的指标内容通过接口程序输出,通过两个模块进一步实现本发明方法,替代传统的指标抽取方法,避免了传统指标录入存在周期滞后性的问题。
[0057]
本发明系统通过至少一台服务器,以及与服务器连接的基于标准文档指标自动抽取的装置,所述服务器执行抽取指标内容过程时,通过所述基于标准文档指标自动抽取的装置,从信息输入模块得到源文本,并执行上述方法得到最终的与源文本对应的指标,通过
该系统运行,能够避免现有技术上工作量大、工作效率低的问题。
附图说明
[0058]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0059]
图1为本发明一个实施例提供的一种标准文档指标自动抽取的方法、装置和系统的流程示意图;
[0060]
图2为本发明一个实施例提供的一种标准文档指标自动抽取的方法、装置和系统的构建指标库流程示意图。
[0061]
图3为本发明一个实施例提供的一种标准文档指标自动抽取的方法、装置和系统的byw模型示意图;
具体实施方式
[0062]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0063]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0064]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0065]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0066]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0067]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0068]
实施例1
[0069]
参照图1-3,为本发明的第一个实施例,该实施例提供了一种标准文档指标自动抽
取的方法、装置和系统,包括:
[0070]
s1:构建指标库,根据预设的指标库构建指标数据模型。
[0071]
更进一步的,所述构建指标库包括,获取历史文档集,对所述历史文档集文本进行预处理,分析历史文档集中目标对象的指标组成特点,根据所述指标组成特点找出对应指标,依据所述指标构建指标库。
[0072]
应说明的是,所述构建指标库还包括,将预处理后的历史文档集设置为指标库选材,所述指标库选材经过指标采集后依据预设的标注规范进行指标标注,完成所述指标标注后将已标注指标归纳为指标库。
[0073]
应说明的是,所述标注规范包括,当指标内容为字母时,给指标内容设置黄色下划线;
[0074]
当指标内容为符号时,给指标内容设置蓝色下划线;
[0075]
当指标内容为汉字时,给指标内容设置红色高亮;
[0076]
当指标内容为数字时,给指标内容设置红色高亮。
[0077]
应说明的是,所述指标数据模型包括,根据预设的指标库建立指标内容的集合。
[0078]
还应说明的是,所述指标内容包括,指标名称、所属指标、指标章条号、指标技术要求、指标数值、指标计量单位、指标id、标准号、标准名称、产品名称、上级产品名称、上级指标名称、指标要求、指标要求中包含的图表。
[0079]
还应说明的是,从图2中可以看出指标库的构建流程。
[0080]
s2:获取标准文档集,对所述标准文档集中的文本进行预处理,得到标准文档子集。
[0081]
更进一步的,所述预处理包括,对所述标准文档集中的文本进行分字处理,得到字符集合。
[0082]
s3:从标准文档子集中抽取指标数据模型定义的字符组成的对应指标内容。
[0083]
更进一步的,所述指标数据模型定义的字符组成包括,根据所述分析得出的指标组成特点,定义指标数据模型的字符组成。
[0084]
更进一步的,所述抽取包括,定义一种柔性匹配模式与应匹配模式相结合的抽取规则;
[0085]
应说明的是,所述抽取规则包括,根据指标标注,指标内容设置黄色下划线的,采用柔性匹配模式进行抽取;
[0086]
指标内容设置蓝色下划线的,采用柔性匹配模式进行抽取;
[0087]
指标内容设置红色高亮的,采用硬匹配模式进行抽取;
[0088]
指标内容设置红色高亮的,采用硬匹配模式进行抽取。
[0089]
s4:根据word2vec技术对抽取的指标内容进行验证。
[0090]
更进一步的,所述根据word2vec技术对抽取的指标内容进行验证包括,
[0091]
利用word2vec技术中的byw模型,根据历史词语信息预测当前句子可能出现的字符,并依据预测结果验证抽取的指标内容;
[0092]
所述byw模型的似然函数表示为:
[0093]
[0094]
求所述函数的最大似然估计值,
[0095][0096]
对似然函数求导,并令导数为0,求出最大似然估计值,
[0097][0098]
将最大似然估计值代入参数θ进行期望运算,
[0099]
e(l(θ|y))=∫np(m,n|θ)f(n)dn
[0100]
其中,m为历史文档指标库,即m={m1,m2,...,mn},n为新引入的文档指标数据集,即n={n1,n2,...,nn},y为新文档指标数据集,即y={m,n}={(m1,n1),(m2,n2),....},θ表示似然函数的未知参数;
[0101]
更进一步的,对于byw模型,输入层是一个窗口内上下文的字符组合的字符向量的集合,投影层对所述字符向量依据向量加法求和,然后输出层输出概率最高的词语m。
[0102]
应说明的是,从图3中可以看出byw模型结构。
[0103]
s5:按照对应的映射规则将抽取的指标内容批量导入关系型数据中,形成新的指标库的一部分,同时对抽取的指标内容进行聚合处理,得到指标输出文档。
[0104]
应说明的是,所述对应的映射规则将抽取的指标内容批量导入关系型数据包括,根据对应的映射规则,将抽取的指标内容批量整理并导入为结构化、参数化和模型化的关系型数据。
[0105]
应说明的是,所述对抽取的指标内容进行聚合处理包括,
[0106]
整理所述抽取内容形成结构化数据格式,保存到预设的文档中。
[0107]
实施例2
[0108]
参照图1-3,为本发明的一个实施例,提供了一种标准文档指标自动抽取的方法,为了验证本发明的有益效果,通过实验进行科学论证。
[0109]
假设一个指标分类实验的输出结果统计情况,用a表示将输入指标正确的分类到某个类别的个数,用b表示将输入指标错误地分类到某个类别的个数,用c表示将输入指标错误地排除在某个类别之外的个数,用d表示将输入指标正确地排除在某个类别之外的个数。
[0110]
该实验的召回率、准确率分别采用以下公式计算:
[0111]
召回率:
[0112]
准确率:
[0113]
对于分类系统来说,r和p的值是相互影响的。提高r会引起p的减小,反之亦然。因此,为了更全面地反映分类系统的性能,一种做法是选取r和p相等时的值来表示系统性能,这个值叫做平衡点(break-even point,bep)值。当然,有时通过测试可能得不到r和p相等的值,这时取最接近的r和p值的平均值作为bep值,称为插值bep。
[0114]
另一种常用的将召回率和准确率结合起来的性能评价方法是f测量,其计算公式为:
[0115][0116]
其中,p是一个用来调节召回率和准确率权重的参数,p一般取值为1或者2。
[0117]
本实施例采用准确率、召回率、f
β
作为性能评价指标来评价模式匹配法的实验结果,准确率是指抽取出来的正确的指标在抽取出的定义中的比例。召回率是指抽取出来的正确的指标在指标总数中占的比例。其计算公式分别如下:
[0118][0119][0120]fβ
中β的取值由实验中召回率和准确率的重要性来决定。本文采用了召回率和准确率同等重要的f1指标(β=1)和更重视召回率的f2指标(β=2),计算公式表示如下:
[0121][0122]
采用模式匹配法进行实验,实验结果如表所示:
[0123]
召回率和准确率虽然没有必然的联系,但是在指标抽取中,这两个指标是相互制约的,如果希望提高召回率而放宽正则表达式的要求,那么必然会影响到准确率。相反,如果为了追求高的准确率而使正则表达式的表达形式更加严格,那么必然会影响到召回率。正是由于这两个指标的相互制约,本实施例在实验中偏向于提高召回率。因为术语定义的粗匹配是术语定义抽取的。
[0124]
本发明是一种标准文档指标自动抽取的方法、装置和系统,主要用于文本指标的提取。本方法首先构建指标库,根据预设的指标库构建指标数据模型,
[0125][0126]
获取标准文档集,对所述标准文档集中的文本进行预处理,得到标准文档子集,再从标准文档子集中抽取指标数据模型定义的字符组成的对应指标内容,根据word2vec技术对抽取的指标内容进行验证,然后按照对应的映射规则将抽取的指标内容批量导入关系型数据中,形成新的指标库的一部分,同时对抽取的指标内容进行聚合处理,得到指标输出文档。
[0127]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发
明的权利要求范围当中。
[0128]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
[0129]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本技术实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
[0130]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0131]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0132]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0133]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0134]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1