文档属性描述内容提取方法和装置与流程

文档序号:16135224发布日期:2018-12-01 00:52阅读:368来源:国知局

本发明涉及信息处理领域,具体而言,涉及一种文档属性描述内容提取方法和装置。

背景技术

当用户大量阅读一个主题的文档时,最关心的是几个关注点。这个关注点就是文本属性。例如:当用户想阅读几万个招标文件时,如果仅仅阅读关注点就能快速的找到感兴趣的特定招标文件。但是由于关注点在文本中无法快速定位,极大的拖延了用户的阅读速度。如果能把文件中的关注点明确的列举出来,那么就可以快速定位到感兴趣的文件。

针对相关技术中文档内容无法快速提取的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明的主要目的在于提供一种文档属性描述内容提取方法和装置,以解决文档内容无法快速提取的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种文档属性描述内容提取方法,该方法包括:获取待提取属性文本的文档信息;将所述文档信息输入到预先训练好的属性提取模型中进行模型运算,得到运算结果;根据所述运算结果确定所述文档信息中与文档属性对应的描述内容。

进一步地,在根据所述运算结果确定所述文档信息中与文档属性对应的描述内容之后,所述方法还包括:将所述文档信息中与待提取的文档属性对应的描述内容通过预设方式标注出来。

进一步地,将所述文档信息中与待提取的文档属性对应的描述内容通过预设方式标注出来包括:通过不同颜色的底色标注所述文档信息中每个待提取的文档属性对应的描述内容。

进一步地,在将所述文档信息输入到预先训练好的属性提取模型中进行模型运算之前,所述方法还包括:采集预设数量的模型训练样本;对所述模型训练样本中段落和句子进行打标签,得到打标签后的样本内容;通过神经网络对打标签后的样本内容进行深度学习,得到训练好的属性提取模型。

进一步地,通过神经网络对打标签后的样本内容进行深度学习,得到训练好的属性提取模型包括:将打标签后的样本中的词语转化成数字向量;通过lstm学习对所述数字向量进行训练,得到训练好的属性提取模型。

为了实现上述目的,根据本发明的另一方面,还提供了一种文档属性描述内容提取装置,该装置包括:获取单元,用于获取待提取属性文本的文档信息;运算单元,用于将所述文档信息输入到预先训练好的属性提取模型中进行模型运算,得到运算结果;确定单元,用于根据所述运算结果确定所述文档信息中与文档属性对应的描述内容。

进一步地,所述装置还包括:标注单元,用于在根据所述运算结果确定所述文档信息中与文档属性对应的描述内容之后,将所述文档信息中与待提取的文档属性对应的描述内容通过预设方式标注出来。

进一步地,所述标注单元用于:通过不同颜色的底色标注所述文档信息中每个待提取的文档属性对应的描述内容。

为了实现上述目的,根据本发明的另一方面,还提供了一种存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行本发明所述的文档属性描述内容提取方法。

为了实现上述目的,根据本发明的另一方面,还提供了一种处理器,用于运行程序,其中,所述程序运行时执行本发明所述的文档属性描述内容提取方法。

本发明通过获取待提取属性文本的文档信息;将文档信息输入到预先训练好的属性提取模型中进行模型运算,得到运算结果;根据运算结果确定文档信息中与文档属性对应的描述内容,解决了文档内容无法快速提取的问题,进而达到了快速读取文档属性信息的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的文档属性描述内容提取方法的流程图;

图2是根据本发明实施例的文本属性描述段落提取结果的示意图;以及

图3是根据本发明实施例的文档属性描述内容提取装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种文档属性描述内容提取方法。

图1是根据本发明实施例的文档属性描述内容提取方法的流程图,如图1所示,该方法包括以下步骤:

步骤s102:获取待提取属性文本的文档信息;

步骤s104:将文档信息输入到预先训练好的属性提取模型中进行模型运算,得到运算结果;

步骤s106:根据运算结果确定文档信息中与文档属性对应的描述内容。

该实施例采用获取待提取属性文本的文档信息;将文档信息输入到预先训练好的属性提取模型中进行模型运算,得到运算结果;根据运算结果确定文档信息中与文档属性对应的描述内容,解决了文档内容无法快速提取的问题,进而达到了快速读取文档属性信息的效果。

在本发明实施例中,待提取属性文本的文档可以是word格式或者表格格式等多种类型的格式文档,获取文档信息之后,可以将文档信息输入到预先训练好的属性提取模型中进行模型运算,其中,属性提取模型是根据大量文档进行训练得到的,每个文档中都携带有待提取的属性和该属性在该文档中的位置和内容,在经过大量文档训练后,可以根据可能在文档中的位置或所临近的关键词或所包含的关键词来确定出与待提取的属性对应的文本内容,这样可以在最短时间内提取出用户关注的属性,提高阅读效率。

可选地,在根据运算结果确定文档信息中与待提取的文档属性对应的描述内容之后,将文档信息中与待提取的文档属性对应的描述内容通过预设方式标注出来。

可选地,将文档信息中与待提取的属性对应的内容通过预设方式标注出来包括:通过不同颜色的底色标注文档信息中每个待提取的文档属性对应的描述内容。

确定出待提取的文档属性后可以通过多种方式显示出来,例如可以通过不同颜色将各种属性对应标注出来,属性名称和该属性在文档中对应的内容可以通过相同颜色显示,用不同颜色区分不同属性,这样可以方便用户快速读取各类属性对应的内容。

可选地,在将文档信息输入到预先训练好的属性提取模型中进行模型运算之前,采集预设数量的模型训练样本;对模型训练样本中段落和句子进行打标签,得到打标签后的样本内容;通过神经网络对打标签后的样本内容进行深度学习,得到训练好的属性提取模型。

可选地,通过神经网络对打标签后的样本内容进行深度学习,得到训练好的属性提取模型包括:将打标签后的样本中的词语转化成数字向量;通过lstm学习对数字向量进行训练,得到训练好的属性提取模型。

模型训练的过程可以先收集代表性的训练文档,对文档中的数据进行打标签,以每个句子为一个个体,每类文档属性对应的段落都以b-开始,如“项目名称”的开始字由b-title表示,则后面的句子为i-title,结尾的句子为e-title,如果是文档属性对应的是单句则为s-title,不属于任何属性的语句标注为o,将文档中的词语转化成数字向量(wordembedding),然后通过lstm学习来训练属性标注模型(这里的标注是句子标记属性),多次训练学习以得到符合要求的模型。

可选地,在属性提取时,如果对某个属性提取到两个及以上的文本内容,则可以计算这多个文本可能是该属性的概率,选取最大的概率作为该属性对应的文本内容。

本发明实施例还提供了一种具体实施方式,下面结合该具体实施方式对本发明的技术方案进行说明。

本发明实施例的技术方案可以作为一种基于字典的文本属性描述段落提取方法,基于神经网络的深度学习方法对文本属性描述语句或段落进行识别,总体流程如下:

1,收集代表性的训练文档。

2,样本数据标注。根据不同属性对样本文档进行标注,即为各属性描述语句或段落标记属性,不属于任何属性的语句标注为其他。

3,基于神经网络的深度学习方法对标注的数据进行学习,训练属性标注模型。

4,用训练好的模型对文档进行特征属性提取。

本发明实施例的基于神经网络的深度学习方法对文本属性描述语句或段落识别的方法,可以通过以下步骤实现:

步骤一,在对模型训练之前,先收集代表性的训练文档。

步骤二,对数据进行标注,具体步骤如下:

每个句子为一个个体。每类文档属性对应的段落都以b-开始,如“项目名称”的开始字由b-title表示,则后面的句子为i-title,结尾的句子为e-title。如果是文档属性对应的是单句则为s-title。不属于任何属性的语句标注为o。

步骤三,对标注的数据进行学习。这里我们使用基于神经网络的深度学习方法,例如wordembedding+lstm。具体步骤:

1.首先将词语转化成数字向量(wordembedding)。

2.然后通过lstm学习来训练属性标注模型。(这里的标注是句子标记属性)。

步骤四,用训练好的模型对文档进行特征属性提取。

图2是根据本发明实施例的文本属性描述段落提取结果的示意图,如图2所示,文本属性描述语句或段落识别就是从一个自然语言文本中找出相关属性的描述,并标注出其位置以及类型,对应:项目名称、预算金额、项目内容描述、招标文件售价、联系方式、资质要求等每个类别,识别出其在文本中对应的内容并标注出来,项目名称对应:山东省妇幼保健院重点实验室生育调控项目设备采购(第二批)超高速离心机采购二,预算金额对应70.000000万元,项目内容描述为超高速离心机,招标文件售价为300元/包,联系方式对应标记了:采购人山东省妇幼保健院,地址,联系人,代理机构地址及联系人和电话等,以方便用户在最短时间内读取其中信息。

通过上述方法,用户可以快速地进行文本的阅读,可以快速地定位到所需要关注的关注点上,提高了阅读的效率。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例提供了一种文档属性描述内容提取装置,该装置可以用于执行本发明实施例的文档属性描述内容提取方法。

图3是根据本发明实施例的文档属性描述内容提取装置的示意图,如图3所示,该装置包括:

获取单元10,用于获取待提取属性文本的文档信息;

运算单元20,用于将文档信息输入到预先训练好的属性提取模型中进行模型运算,得到运算结果;

确定单元30,用于根据运算结果确定文档信息中与文档属性对应的描述内容。

该实施例采用获取单元10,用于获取待提取属性文本的文档信息;运算单元20,用于将文档信息输入到预先训练好的属性提取模型中进行模型运算,得到运算结果;确定单元30,用于根据运算结果确定文档信息中与待提取的属性对应的内容,从而解决了文档内容无法快速提取的问题,进而达到了快速读取文档属性信息的效果。

可选的,该装置还包括:标注单元,用于在根据运算结果确定文档信息中与文档属性对应的描述内容之后,将文档信息中与待提取的文档属性对应的描述内容通过预设方式标注出来。

可选的,标注单元用于通过不同颜色的底色标注文档信息中每个待提取的文档属性对应的描述内容。

所述文档属性描述内容提取装置包括处理器和存储器,上述获取单元、运算单元、确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来快速读取文档属性信息。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文档属性描述内容提取方法。

本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文档属性描述内容提取方法。

本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取待提取属性文本的文档信息;将文档信息输入到预先训练好的属性提取模型中进行模型运算,得到运算结果;根据运算结果确定文档信息中与文档属性对应的描述内容。本文中的设备可以是服务器、pc、pad、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取待提取属性文本的文档信息;将文档信息输入到预先训练好的属性提取模型中进行模型运算,得到运算结果;根据运算结果确定文档信息中与文档属性对应的描述内容。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1