网页文档的信息提取方法、装置和可读存储介质与流程

文档序号:32789183发布日期:2023-01-03 20:27阅读:36来源:国知局
1.本发明涉及文档识别
技术领域
:,具体而言,涉及一种网页文档的信息提取方法、装置和可读存储介质。
背景技术
::2.在公共资源交易中心网站以及其他平台会公开发布招标公告,公告内包含大量的领域专业信息,形式多种多样,因此对于筛选的员工来说压力巨大,需要大量的有经验的员工才能完成,进而导致在网页中提取信息存在效率低下的问题。技术实现要素:3.本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。4.为此,本发明的第一个方面在于提出一种网页文档的信息提取方法。5.本发明的第二个方面在于提出一种网页文档的信息提取装置。6.本发明的第三个方面在于提出一种网页文档的信息提取装置。7.本发明的第四个方面在于提出一种可读存储介质。8.有鉴于此,根据本发明的第一个方面,提出了一种网页文档的信息提取方法,包括:根据网页文档的第一目标字段,确定网页文档的文档类型;将网页文档由第一格式类型转换为第二格式类型,以得到目标文档;确定目标文档中的第二目标字段;根据第二目标字段的类型,提取目标文档中的目标信息字段。9.本发明提供的网页文档的信息提取方法的技术方案的执行主体可以为信息提取装置,还可以根据实际使用需求进行确定,在此不作具体限定。为了更加清楚地描述本发明提供的网页文档的信息提取方法,下面以信息提取装置为执行主体进行说明。10.在该技术方案中提出的网页文档的信息提取方法,用于在网页文档中提取目标信息字段,需要说明的是,网页文档中的信息字段数目较多,其中,包括文字、列表、表格等多种结构的信息字段,且信息字段在网页文档中的分布位置更加复杂。11.而在本技术方案中,信息提取装置对网页文档进行分类,提取网页文档的第一目标字段,识别第一目标字段的语义,确定网页文档的文档类型,其中,第一目标字段为网页文档的标题,网页文档的文档类型包括招标文档和中标文档等。12.进一步地,信息提取装置对网页文档进行格式转换,将第一格式类型的网页文档转换为第二格式类型的目标文档,其中,第一格式类型为html等网页格式类型,第一格式类型为txt等文本格式类型。13.进一步地,信息提取装置对目标文档中的字段进行遍历检索,确定在目标文档中存在第二目标字段,其中,第二目标字段包括标的物、项目名称、开标时间等名称字段。14.进一步地,信息提取装置对第二目标字段进行分类处理,确定第二目标字段的类型,基于不同的第二目标字段的类型,通过多种字段提取方法,在目标文档中提取目标信息字段,其中,目标信息字段为与第二目标字段对应的信息字段,第二目标字段的类型包括标的物信息类型、联系人信息类型、地址信息类型等多种类型。15.本技术方案中的网页文档的信息提取方法通过对网页文档进行格式转换,将网页文档转换为目标文档,基于目标文档中的第二目标字段的类型,在目标文档中提取目标信息字段,实现了对网页文档的自动分类,并实现了在网页文档中自动提取目标信息字段,降低了工作人员需要识别的文档数量,节省了大量人力资源,提升了对于网页文档的识别效率,并提高了在网页文档中识别目标信息字段的准确率。16.根据本发明的上述网页文档的信息提取方法,还可以具有以下附加技术特征:17.在上述技术方案中,根据网页文档的第一目标字段,确定网页文档的文档类型,具体包括:对第一目标字段进行语义分类,确定第一目标字段的语义类别;根据语义类别,确定网页文档的文档类型。18.在该技术方案中,信息提取装置识别第一目标字段的语义,再根据第一目标字段的语义,对进行语义分类,确定第一目标字段的语义类别,其中,第一目标字段的语义类别包括招标文档标题和中标文档标题。19.进一步地,基于第一目标字段的语义类别为招标文档标题,信息提取装置确定网页文档的文档类型为招标文档;基于第一目标字段的语义类别为中标文档标题,信息提取装置确定网页文档的文档类型为中标文档。20.本技术方案中的网页文档的信息提取方法根据第一目标字段的语义类别,实现了对网页文档的自动分类,并通过对网页文档的分类,进而提高了在网页文档中提取目标信息字段的效率。21.在上述技术方案中,将网页文档由第一格式类型转换为第二格式类型,以得到目标文档,具体包括:确定第一格式类型的网页文档中的表格结构的字段;将表格结构的字段转换为第二格式类型的文本字段;存储第二格式类型的文本字段,以得到目标文档。22.在该技术方案中,信息提取装置基于第一格式类型对网页文档的结构进行解析,提取网页文档中的表格结构的字段。需要说明的是,第一格式类型为网页格式,能够保存文字、列表、表格等多种结构的字段,其中,在第一格式类型的网页文档中的表格结构的字段具有类型标签等信息,通过类型标签等信息,信息提取装置能够确定网页文档中存在表格结构的字段,并提取表格结构的字段。23.进一步地,信息提取装置对表格结构的字段进行拆解,并逐个提取出表格结构的字段中的文字字段,再将上述的文字字段按照原始顺序进行组合,形成第二格式类型的文本字段。需要说明的是,第二格式类型为文本格式,能够保存文本字段。24.进一步地,信息提取装置将第二格式类型的文本字段保存为目标文档。25.本技术方案中的网页文档的信息提取方法通过将第一格式类型的网页文档转换为第二格式类型的目标文档,简化了网页文档的文档内容,优化了网页文档的文档结构,进而优化了在网页文档中识别目标信息字段的处理步骤。26.在上述技术方案中,确定第一格式类型的网页文档中的表格结构的字段,具体包括:基于第一格式类型,确定网页文档中的段落信息和换行位置信息;根据段落信息和换行位置信息,确定表格结构的字段的位置信息;根据表格结构的字段的位置信息,提取表格结构的字段。27.在该技术方案中,信息提取装置根据第一格式类型的格式特性,确定网页文档中的表格结构的字段。具体来说,在第一格式类型的网页文档中,表格结构的字段具有表格类型标签,通过表格类型标签,信息提取装置确定网页文档中存在表格结构的字段。28.进一步地,对于表格结构的字段,信息提取装置读取表格结构的字段的段落信息和换行位置信息,其中,段落信息为网页文档中的字段的段落序号,换行位置信息为网页文档中的字段的换行符号的位置参数。29.进一步地,根据表格结构的字段的段落信息和换行位置信息,信息提取装置确定表格结构的字段所位于的行号和段落序号等位置信息。30.进一步地,信息提取装置以表格结构的字段的位置信息为基准,对网页文档进行文档切分处理,以得到表格结构的字段。31.本技术方案中的网页文档的信息提取方法根据段落信息和换行位置信息,提取网页文档的表格结构的字段,提升了将第一格式类型的网页文档转换为第二格式类型的目标文档的转换效率,进而提升了对网页文档的识别效率。32.在上述技术方案中,将表格结构的字段转换为第二格式类型的文本字段,具体包括:对表格结构的字段进行拆分处理,以得到多个文字字段;将多个文字字段重组为第二格式类型的文本字段。33.在该技术方案中,信息提取装置对表格结构的字段进行拆分处理,获取到与表格结构的字段对应的多个文字字段,信息提取装置再将多个文字字段按照原始顺序重新组合,以得到第二格式类型的文本字段。34.本技术方案中的网页文档的信息提取方法通过拆分处理将表格结构的字段转换为第二格式类型的文本字段,提升了表格结构的字段转换为第二格式类型的文本字段的转换效率,进而简化了将第一格式类型的网页文档转换为第二格式类型的目标文档的转换步骤。35.在上述技术方案中,根据第二目标字段的类型,提取目标文档中的目标信息字段,具体包括:对第二目标字段进行文字识别,确定第二目标字段的类型;根据第二目标字段的类型,对目标文档进行信息提取处理,确定目标信息字段。36.在该技术方案中,信息提取装置通过文字识别,对目标文档中的第二目标字段进行分类,确定第二目标字段的类型,其中,第二目标字段的类型包括标的物信息类型、联系人信息类型、地址信息类型和其他信息类型等多种类型。37.进一步地,基于第二目标字段的类型,信息提取装置对目标文档进行信息提取处理,得到与第二目标字段对应的目标信息字段。38.本技术方案中的网页文档的信息提取方法根据第二目标字段的类型,在目标文档中提取目标信息字段,优化了在目标文档中提取目标信息字段的提取步骤,进而提升了在目标文档中提取目标信息字段的处理速度。39.在上述技术方案中,根据第二目标字段的类型,对目标文档进行信息提取处理,确定目标信息字段,具体包括:基于第二目标字段的类型为第一字段类型,通过识别目标文档的标题,确定目标信息字段;和/或基于第二目标字段的类型为第二字段类型,根据文档类型,通过与文本模板进行匹配,确定目标信息字段;和/或基于第二目标字段的类型为第三字段类型,通过对目标文档的文本进行分割,确定目标信息字段;和/或基于第二目标字段的类型为第四字段类型,通过识别目标文档中的文字,确定目标信息字段。40.在该技术方案中,信息提取装置根据第二目标字段的类型,在目标文档中提取与第二目标字段对应的目标信息字段。其中,第二目标字段的类型包括第一字段类型、第二字段类型、第三字段类型和第四字段类型。41.进一步地,第一字段类型的字段为与标的物信息相关的字段,第一字段类型的字段主要分布在目标文档的标题中,对于第一字段类型的第二目标字段,信息提取装置对目标文档的标题进识别,提取目标信息字段。42.进一步地,第二字段类型的字段为与联系人信息相关的字段,需要说明的是,网页文档的文档类型不同时,第二字段类型的字段存在不同,具体地,网页文档的文档类型为招标文档时,第二字段类型的字段为与招标人信息相关的字段;网页文档的文档类型为中标文档时,第二字段类型的字段为与信息相关的字段。43.进一步地,信息提取装置根据网页文档的文档类型,将目标文档中的字段与文本模板进行匹配处理,提取目标信息字段,其中,文本模板为包括姓名、电话、地址等信息的信息模板。44.进一步地,第三字段类型的字段为行政区域信息相关的字段,第三字段类型的字段在目标文档中分布比较集中,具有较大的关联性,信息提取装置对目标文档的文本进行分割,得到多个信息字段,信息提取装置在多个信息字段中选取目标信息字段。45.进一步地,第四字段类型的字段为开标时间、预算金额等其他信息相关的字段,第四字段类型的字段在目标文档中分布比较分散,信息提取装置对目标文档的文本进行分割,得到多个信息字段,信息提取装置通过目标文档中的文字进行文字识别,确定目标文档中的多个文字字段,信息提取装置将多个文字字段重组为目标信息字段。46.本技术方案中的网页文档的信息提取方法根据第二目标字段的类型,通过不同的字段提取方法,在目标文档中提取目标信息字段,提高了在目标文档中提取目标信息字段的提取效率,进而提升了在目标文档中提取目标信息字段的提取速度。47.根据本发明的第二个方面,提出了一种网页文档的信息提取装置,网页文档的信息提取装置包括:确定模块,用于根据网页文档的第一目标字段,确定网页文档的文档类型;处理模块,用于将网页文档由第一格式类型转换为第二格式类型,以得到目标文档;确定模块,还用于确定目标文档中的第二目标字段。处理模块,还用于根据第二目标字段的类型,提取目标文档中的目标信息字段。48.在该技术方案中提出的网页文档的信息提取装置,用于在网页文档中提取目标信息字段,需要说明的是,网页文档中的信息字段数目较多,其中,包括文字、列表、表格等多种结构的信息字段,且信息字段在网页文档中的分布位置更加复杂。49.而在本技术方案中,确定模块对网页文档进行分类,提取网页文档的第一目标字段,识别第一目标字段的语义,确定网页文档的文档类型,其中,第一目标字段为网页文档的标题,网页文档的文档类型包括招标文档和中标文档等。50.进一步地,处理模块对网页文档进行格式转换,将第一格式类型的网页文档转换为第二格式类型的目标文档,其中,第一格式类型为html等网页格式类型,第一格式类型为txt等文本格式类型。51.进一步地,确定模块对目标文档中的字段进行遍历检索,确定在目标文档中存在第二目标字段,其中,第二目标字段包括标的物、项目名称、开标时间等名称字段。52.进一步地,处理模块对第二目标字段进行分类处理,确定第二目标字段的类型,基于不同的第二目标字段的类型,通过多种字段提取方法,在目标文档中提取目标信息字段,其中,目标信息字段为与第二目标字段对应的信息字段,第二目标字段的类型包括标的物信息类型、联系人信息类型、地址信息类型等多种类型。53.本技术方案中的网页文档的信息提取装置通过对网页文档进行格式转换,将网页文档转换为目标文档,基于目标文档中的第二目标字段的类型,在目标文档中提取目标信息字段,实现了对网页文档的自动分类,并实现了在网页文档中自动提取目标信息字段,降低了工作人员需要识别的文档数量,节省了大量人力资源,提升了对于网页文档的识别效率,并提高了在网页文档中识别目标信息字段的准确率。54.根据本发明的第三个方面,提出了一种网页文档的信息提取装置,包括处理器和存储器,存储器中存储有程序或指令,该程序或指令被处理器执行时实现如上述任一技术方案中的网页文档的信息提取方法的步骤。因此,该控制装置具备上述任一技术方案中的网页文档的信息提取方法的全部有益效果,在此不再赘述。55.根据本发明的第四个方面,提出了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现如上述任一技术方案中的网页文档的信息提取方法。因此,该可读存储介质具备上述任一技术方案中的网页文档的信息提取方法的全部有益效果,在此不再赘述。56.本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。附图说明57.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:58.图1示出了本发明的第一个实施例中的网页文档的信息提取方法的流程示意图之一;59.图2示出了本发明的第一个实施例中的网页文档的信息提取方法的流程示意图之二;60.图3示出了本发明的第一个实施例中的网页文档的信息提取方法的流程示意图之三;61.图4示出了本发明的第一个实施例中的网页文档的信息提取方法的算法示意图;62.图5示出了本发明的第一个实施例中的网页文档的信息提取方法的流程示意图之四;63.图6示出了本发明的第一个实施例中的网页文档的信息提取方法的流程示意图之五;64.图7示出了本发明的第一个实施例中的网页文档的信息提取方法的流程示意图之六;65.图8示出了本发明的第一个实施例中的网页文档的信息提取方法的流程示意图之七;66.图9示出了本发明的第一个实施例中的网页文档的信息提取方法的文本模板示意图;67.图10示出了本发明的第一个实施例中的网页文档的信息提取方法的处理模型示意图;68.图11示出了本发明的第二个实施例中的网页文档的信息提取装置的结构框图之一;69.图12示出了本发明的第二个实施例中的网页文档的信息提取装置的结构框图之二;70.图13示出了本发明的第三个实施例中的网页文档的信息提取装置的结构框图。具体实施方式71.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。72.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。73.下面结合图1至图13,通过具体的实施例及其应用场景对本技术实施例提供的网页文档的信息提取方法、装置和可读存储介质进行详细地说明。74.本发明提供的网页文档的信息提取方法的技术方案的执行主体可以为信息提取装置,还可以根据实际使用需求进行确定,在此不作具体限定。为了更加清楚地描述本发明提供的网页文档的信息提取方法,下面以信息提取装置为执行主体进行说明。75.实施例一:76.如图1所示,本发明的第一个实施例中提供了一种网页文档的信息提取方法,网页文档的信息提取方法包括:77.步骤102,根据网页文档的第一目标字段,确定网页文档的文档类型;78.步骤104,将网页文档由第一格式类型转换为第二格式类型,以得到目标文档;79.步骤106,确定目标文档中的第二目标字段;80.步骤108,根据第二目标字段的类型,提取目标文档中的目标信息字段。81.在该实施例中提出的网页文档的信息提取方法,用于在网页文档中提取目标信息字段,需要说明的是,网页文档中的信息字段数目较多,其中,包括文字、列表、表格等多种结构的信息字段,且信息字段在网页文档中的分布位置更加复杂。82.而在本实施例中,信息提取装置对网页文档进行分类,提取网页文档的第一目标字段,识别第一目标字段的语义,确定网页文档的文档类型,其中,第一目标字段为网页文档的标题,网页文档的文档类型包括招标文档和中标文档等。83.进一步地,信息提取装置对网页文档进行格式转换,将第一格式类型的网页文档转换为第二格式类型的目标文档,其中,第一格式类型为html等网页格式类型,第一格式类型为txt等文本格式类型。84.进一步地,信息提取装置对目标文档中的字段进行遍历检索,确定在目标文档中存在第二目标字段,其中,第二目标字段包括标的物、项目名称、开标时间等名称字段。85.进一步地,信息提取装置对第二目标字段进行分类处理,确定第二目标字段的类型,基于不同的第二目标字段的类型,通过多种字段提取方法,在目标文档中提取目标信息字段,其中,目标信息字段为与第二目标字段对应的信息字段,第二目标字段的类型包括标的物信息类型、联系人信息类型、地址信息类型等多种类型。86.本实施例中的网页文档的信息提取方法通过对网页文档进行格式转换,将网页文档转换为目标文档,基于目标文档中的第二目标字段的类型,在目标文档中提取目标信息字段,实现了对网页文档的自动分类,并实现了在网页文档中自动提取目标信息字段,降低了工作人员需要识别的文档数量,节省了大量人力资源,提升了对于网页文档的识别效率,并提高了在网页文档中识别目标信息字段的准确率。87.如图2所示,在上述任一实施例中,网页文档的信息提取方法包括:88.步骤202,对第一目标字段进行语义分类,确定第一目标字段的语义类别;89.步骤204,根据语义类别,确定网页文档的文档类型;90.步骤206,将网页文档由第一格式类型转换为第二格式类型,以得到目标文档;91.步骤208,确定目标文档中的第二目标字段;92.步骤210,根据第二目标字段的类型,提取目标文档中的目标信息字段。93.在该实施例中,信息提取装置识别第一目标字段的语义,再根据第一目标字段的语义,对进行语义分类,确定第一目标字段的语义类别,其中,第一目标字段的语义类别包括招标文档标题和中标文档标题。94.进一步地,基于第一目标字段的语义类别为招标文档标题,信息提取装置确定网页文档的文档类型为招标文档;基于第一目标字段的语义类别为中标文档标题,信息提取装置确定网页文档的文档类型为中标文档。95.在一些实施例中,信息提取装置通过文档分类模型,识别第一目标字段的语义类别,确定网页文档的文档类型。本实施例的识别结果如表1所示,随机选取1100份招标公告和1100份中标公告,本实施例对于网页文档的分类的precision(准确率)和recall(召回率)都为95%,f1(平均准确率)为95%,与对照组的结果相比较,本实施例的识别准确率更高。96.表1[0097][0098][0099]本实施例中的网页文档的信息提取方法根据第一目标字段的语义类别,实现了对网页文档的自动分类,并通过对网页文档的分类,进而提高了在网页文档中提取目标信息字段的效率。[0100]如图3所示,在上述任一实施例中,网页文档的信息提取方法包括:[0101]步骤302,根据网页文档的第一目标字段,确定网页文档的文档类型;[0102]步骤304,确定第一格式类型的网页文档中的表格结构的字段;[0103]步骤306,将表格结构的字段转换为第二格式类型的文本字段;[0104]步骤308,存储第二格式类型的文本字段,以得到目标文档;[0105]步骤310,确定目标文档中的第二目标字段;[0106]步骤312,根据第二目标字段的类型,提取目标文档中的目标信息字段。[0107]在该实施例中,信息提取装置基于第一格式类型对网页文档的结构进行解析,提取网页文档中的表格结构的字段。需要说明的是,第一格式类型为网页格式,能够保存文字、列表、表格等多种结构的字段,其中,在第一格式类型的网页文档中的表格结构的字段具有类型标签等信息,通过类型标签等信息,信息提取装置能够确定网页文档中存在表格结构的字段,并提取表格结构的字段。[0108]进一步地,信息提取装置对表格结构的字段进行拆解,并逐个提取出表格结构的字段中的文字字段,再将上述的文字字段按照原始顺序进行组合,形成第二格式类型的文本字段。需要说明的是,第二格式类型为文本格式,能够保存文本字段。[0109]进一步地,信息提取装置将第二格式类型的文本字段保存为目标文档。[0110]在一些实施例中,信息提取装置通过dom树解析方法,确定网页文档中的表格结构的字段,其中,dom树解析方法如图4所示,图4展示了dom树解析方法的解析步骤,需要说明的是,图4中的div为网页文档中的划分标签,图4中的a为网页文档中的链接标签,图4中的span为网页文档中的文本标签,图4中的p为网页文档中的段落标签,图4中的table为网页文档中的表格数据标签。信息提取装置通过识别网页文档中的表格标签,并对标签进行分类,进而确定网页文档中的表格结构的字段。[0111]本实施例中的网页文档的信息提取方法通过将第一格式类型的网页文档转换为第二格式类型的目标文档,简化了网页文档的文档内容,优化了网页文档的文档结构,进而优化了在网页文档中识别目标信息字段的处理步骤。[0112]如图5所示,在上述任一实施例中,网页文档的信息提取方法包括:[0113]步骤502,根据网页文档的第一目标字段,确定网页文档的文档类型;[0114]步骤504,基于第一格式类型,确定网页文档中的段落信息和换行位置信息;[0115]步骤506,根据段落信息和换行位置信息,确定表格结构的字段的位置信息;[0116]步骤508,根据表格结构的字段的位置信息,提取表格结构的字段;[0117]步骤510,将表格结构的字段转换为第二格式类型的文本字段;[0118]步骤512,存储第二格式类型的文本字段,以得到目标文档;[0119]步骤514,确定目标文档中的第二目标字段;[0120]步骤516,根据第二目标字段的类型,提取目标文档中的目标信息字段。[0121]在该实施例中,信息提取装置根据第一格式类型的格式特性,确定网页文档中的表格结构的字段。具体来说,在第一格式类型的网页文档中,表格结构的字段具有表格类型标签,通过表格类型标签,信息提取装置确定网页文档中存在表格结构的字段。[0122]进一步地,对于表格结构的字段,信息提取装置读取表格结构的字段的段落信息和换行位置信息,其中,段落信息为网页文档中的字段的段落序号,换行位置信息为网页文档中的字段的换行符号的位置参数。[0123]进一步地,根据表格结构的字段的段落信息和换行位置信息,信息提取装置确定表格结构的字段所位于的行号和段落序号等位置信息。[0124]进一步地,信息提取装置以表格结构的字段的位置信息为基准,对网页文档进行文档切分处理,以得到表格结构的字段。[0125]本实施例中的网页文档的信息提取方法根据段落信息和换行位置信息,提取网页文档的表格结构的字段,提升了将第一格式类型的网页文档转换为第二格式类型的目标文档的转换效率,进而提升了对网页文档的识别效率。[0126]如图6所示,在上述任一实施例中,网页文档的信息提取方法包括:[0127]步骤602,根据网页文档的第一目标字段,确定网页文档的文档类型;[0128]步骤604,确定第一格式类型的网页文档中的表格结构的字段;[0129]步骤606,对表格结构的字段进行拆分处理,以得到多个文字字段;[0130]步骤608,将多个文字字段重组为第二格式类型的文本字段;[0131]步骤610,存储第二格式类型的文本字段,以得到目标文档;[0132]步骤612,确定目标文档中的第二目标字段;[0133]步骤614,根据第二目标字段的类型,提取目标文档中的目标信息字段。[0134]在该实施例中,信息提取装置对表格结构的字段进行拆分处理,获取到与表格结构的字段对应的多个文字字段,信息提取装置再将多个文字字段按照原始顺序重新组合,以得到第二格式类型的文本字段。[0135]在一些实施例中,表格结构的字段为n×2或者n×1的结构时,信息提取装置对表格结构的字段进行文字切割,得到第二格式类型的文本字段。[0136]在其他一些实施例中,表格结构的字段为2×n的结构时,信息提取装置将表格结构的字段由2×n结构转置为n×2结构,信息提取装置再对表格结构的字段进行文字切割,得到第二格式类型的文本字段。[0137]本实施例中的网页文档的信息提取方法通过拆分处理将表格结构的字段转换为第二格式类型的文本字段,提升了表格结构的字段转换为第二格式类型的文本字段的转换效率,进而简化了将第一格式类型的网页文档转换为第二格式类型的目标文档的转换步骤。[0138]如图7所示,在上述任一实施例中,网页文档的信息提取方法包括:[0139]步骤702,根据网页文档的第一目标字段,确定网页文档的文档类型;[0140]步骤704,将网页文档由第一格式类型转换为第二格式类型,以得到目标文档;[0141]步骤706,确定目标文档中的第二目标字段;[0142]步骤708,对第二目标字段进行文字识别,确定第二目标字段的类型;[0143]步骤710,根据第二目标字段的类型,对目标文档进行信息提取处理,确定目标信息字段。[0144]在该实施例中,信息提取装置通过文字识别,对目标文档中的第二目标字段进行分类,确定第二目标字段的类型,其中,第二目标字段的类型包括标的物信息类型、联系人信息类型、地址信息类型和其他信息类型等多种类型。[0145]进一步地,基于第二目标字段的类型,信息提取装置对目标文档进行信息提取处理,得到与第二目标字段对应的目标信息字段。[0146]在一些实施例中,第二目标字段和在目标文档中提取的目标信息字段如表2所示,第二目标字段为表2中的“字段名称”列所示的字段,目标信息字段为为表2中的“字段值”列所示的字段。[0147]表2[0148][0149][0150]本实施例中的网页文档的信息提取方法根据第二目标字段的类型,在目标文档中提取目标信息字段,优化了在目标文档中提取目标信息字段的提取步骤,进而提升了在目标文档中提取目标信息字段的处理速度。[0151]如图8所示,在上述任一实施例中,网页文档的信息提取方法包括:[0152]步骤802,根据网页文档的第一目标字段,确定网页文档的文档类型;[0153]步骤804,将网页文档由第一格式类型转换为第二格式类型,以得到目标文档;[0154]步骤806,确定目标文档中的第二目标字段;[0155]步骤808,对第二目标字段进行文字识别,确定第二目标字段的类型;[0156]步骤810,基于第二目标字段的类型为第一字段类型,通过识别目标文档的标题,确定目标信息字段;和/或基于第二目标字段的类型为第二字段类型,根据文档类型,通过与文本模板进行匹配,确定目标信息字段;和/或基于第二目标字段的类型为第三字段类型,通过对目标文档的文本进行分割,确定目标信息字段;和/或基于第二目标字段的类型为第四字段类型,通过识别目标文档中的文字,确定目标信息字段。[0157]在该实施例中,信息提取装置根据第二目标字段的类型,在目标文档中提取与第二目标字段对应的目标信息字段,其中,第二目标字段的类型包括第一字段类型、第二字段类型、第三字段类型和第四字段类型。[0158]进一步地,第一字段类型的字段为与标的物信息相关的字段,第一字段类型的字段主要分布在目标文档的标题中,对于第一字段类型的第二目标字段,信息提取装置对目标文档的标题进识别,提取目标信息字段。[0159]进一步地,第二字段类型的字段为与联系人信息相关的字段,需要说明的是,网页文档的文档类型不同时,第二字段类型的字段存在不同,具体地,网页文档的文档类型为招标文档时,第二字段类型的字段为与招标人信息相关的字段;网页文档的文档类型为中标文档时,第二字段类型的字段为与信息相关的字段。[0160]进一步地,信息提取装置根据网页文档的文档类型,将目标文档中的字段与文本模板进行匹配处理,提取目标信息字段,其中,文本模板为包括姓名、电话、地址等信息的信息模板。[0161]进一步地,第三字段类型的字段为行政区域信息相关的字段,第三字段类型的字段在目标文档中分布比较集中,具有较大的关联性,信息提取装置对目标文档的文本进行分割,得到多个信息字段,信息提取装置在多个信息字段中选取目标信息字段。[0162]进一步地,第四字段类型的字段为开标时间、预算金额等其他信息相关的字段,第四字段类型的字段在目标文档中分布比较分散,信息提取装置对目标文档的文本进行分割,得到多个信息字段,信息提取装置通过目标文档中的文字进行文字识别,确定目标文档中的多个文字字段,信息提取装置将多个文字字段重组为目标信息字段。[0163]在一些实施例中,第一字段类型的字段包括标的物名称、项目名称等字段。[0164]在其他一些实施例中,第二字段类型的字段包括招标人名称、招标人地址、招标联系人、招标联系人电话等字段。[0165]在其他一些实施例中,第二字段类型的字段包括代理人名称、代理人地址、代理联系人、代理联系人电话等字段。[0166]在其他一些实施例中,第三字段类型的字段包括招标人省份、招标人城市等字段。[0167]在其他一些实施例中,第四字段类型的字段包括招标人省份、招标人城市等字段。[0168]在其他一些实施例中,信息提取装置在目标文档中提取目标信息字段的准确率如表3所示,目标文档中的第二字段类型为表3中“字段名称”列所示内容,和对照组比较,本实施例的准确率更高,其中,对于提取“标的物”对应的目标信息字段的准确率,本实施例比对照组提升明显。[0169]表3[0170][0171][0172]在其他一些实施例中,如图9所示,图9包括4个文本面板,图9中的1为文本模板1,图9中的2为文本模板2,图9中的3为文本模板3,图9中的4为文本模板4。信息提取装置依次使用上述4个文本模板与目标文档进行模板匹配,确定目标文档中的目标信息字段。[0173]在其他一些实施例中,如图10所示,图10中展示了对于第一字段类型的字段,通过标题识别模型,提取目标文档中的目标信息字段的步骤,需要说明的是,图10中的cls为目标文档的标题的开始字段,图10中的sep为目标文档的标题的分节标签,图10中的tok1至tokn为目标文档的标题的编码代码,图10中的tag为目标信息字段的类型标签,图10中的crf为标题识别模型的实现层,图10中的bert为标题识别模型的计算层,计算层包括e1至en等n个输入接口和t1至tn等n个输出接口,还包括cls对应的输入接口e[cls]和sep对应的输入接口e[sep],cls对应的输出接口c和sep对应的输出接口s。信息提取装置将目标文档输入标题识别模型后,会输出目标文档中的目标信息字段,目标信息字段可以具体为图10中的“b”、“i”、“o”等字段。[0174]本实施例中的网页文档的信息提取方法根据第二目标字段的类型,通过不同的字段提取方法,在目标文档中提取目标信息字段,提高了在目标文档中提取目标信息字段的提取效率,进而提升了在目标文档中提取目标信息字段的提取速度。[0175]实施例二:[0176]如图11所示,本发明的第二个实施例中提供了一种网页文档的信息提取装置,网页文档的信息提取装置1100包括:[0177]确定模块1102,用于根据网页文档的第一目标字段,确定网页文档的文档类型;[0178]处理模块1104,用于将网页文档由第一格式类型转换为第二格式类型,以得到目标文档;[0179]确定模块1102,还用于确定目标文档中的第二目标字段;[0180]处理模块1104,还用于根据第二目标字段的类型,提取目标文档中的目标信息字段。[0181]在该实施例中提出的网页文档的信息提取装置,用于在网页文档中提取目标信息字段,需要说明的是,网页文档中的信息字段数目较多,其中,包括文字、列表、表格等多种结构的信息字段,且信息字段在网页文档中的分布位置更加复杂。[0182]在本实施例中,确定模块1102对网页文档进行分类,提取网页文档的第一目标字段,识别第一目标字段的语义,确定网页文档的文档类型,其中,第一目标字段为网页文档的标题,网页文档的文档类型包括招标文档和中标文档等。[0183]进一步地,处理模块1104对网页文档进行格式转换,将第一格式类型的网页文档转换为第二格式类型的目标文档,其中,第一格式类型为html等网页格式类型,第一格式类型为txt等文本格式类型。[0184]进一步地,确定模块1102对目标文档中的字段进行遍历检索,确定在目标文档中存在第二目标字段,其中,第二目标字段包括标的物、项目名称、开标时间等名称字段。[0185]进一步地,处理模块1104对第二目标字段进行分类处理,确定第二目标字段的类型,基于不同的第二目标字段的类型,通过多种字段提取方法,在目标文档中提取目标信息字段,其中,目标信息字段为与第二目标字段对应的信息字段,第二目标字段的类型包括标的物信息类型、联系人信息类型、地址信息类型等多种类型。[0186]本实施例中的网页文档的信息提取装置通过对网页文档进行格式转换,将网页文档转换为目标文档,基于目标文档中的第二目标字段的类型,在目标文档中提取目标信息字段,实现了对网页文档的自动分类,并实现了在网页文档中自动提取目标信息字段,降低了工作人员需要识别的文档数量,节省了大量人力资源,提升了对于网页文档的识别效率,并提高了在网页文档中识别目标信息字段的准确率。[0187]在上述任一实施例中,网页文档的信息提取装置1100包括:[0188]确定模块1102,用于对第一目标字段进行语义分类,确定第一目标字段的语义类别;[0189]确定模块1102,用于根据语义类别,确定网页文档的文档类型。[0190]本实施例中的网页文档的信息提取装置根据第一目标字段的语义类别,实现了对网页文档的自动分类,并通过对网页文档的分类,进而提高了在网页文档中提取目标信息字段的效率。[0191]在上述任一实施例中,网页文档的信息提取装置1100包括:[0192]确定模块1102,用于确定第一格式类型的网页文档中的表格结构的字段;[0193]处理模块1104,用于将表格结构的字段转换为第二格式类型的文本字段;[0194]处理模块1104,还用于存储第二格式类型的文本字段,以得到目标文档。[0195]本实施例中的网页文档的信息提取装置通过将第一格式类型的网页文档转换为第二格式类型的目标文档,简化了网页文档的文档内容,优化了网页文档的文档结构,进而优化了在网页文档中识别目标信息字段的处理步骤。[0196]在上述任一实施例中,网页文档的信息提取装置1100包括:[0197]确定模块1102,用于基于第一格式类型,确定网页文档中的段落信息和换行位置信息;[0198]确定模块1102,还用于根据段落信息和换行位置信息,确定表格结构的字段的位置信息;[0199]处理模块1104,用于根据表格结构的字段的位置信息,提取表格结构的字段。[0200]本实施例中的网页文档的信息提取装置根据段落信息和换行位置信息,提取网页文档的表格结构的字段,提升了将第一格式类型的网页文档转换为第二格式类型的目标文档的转换效率,进而提升了对网页文档的识别效率。[0201]在上述任一实施例中,网页文档的信息提取装置1100包括:[0202]处理模块1104,用于对表格结构的字段进行拆分处理,以得到多个文字字段;[0203]处理模块1104,还用于将多个文字字段重组为第二格式类型的文本字段。[0204]本实施例中的网页文档的信息提取装置通过拆分处理将表格结构的字段转换为第二格式类型的文本字段,提升了表格结构的字段转换为第二格式类型的文本字段的转换效率,进而简化了将第一格式类型的网页文档转换为第二格式类型的目标文档的转换步骤。[0205]在上述任一实施例中,网页文档的信息提取装置1100包括:[0206]确定模块1102,用于对第二目标字段进行文字识别,确定第二目标字段的类型;[0207]确定模块1102,还用于根据第二目标字段的类型,对目标文档进行信息提取处理,确定目标信息字段。[0208]本实施例中的网页文档的信息提取方法装置第二目标字段的类型,在目标文档中提取目标信息字段,优化了在目标文档中提取目标信息字段的提取步骤,进而提升了在目标文档中提取目标信息字段的处理速度。[0209]在上述任一实施例中,网页文档的信息提取装置1100包括:[0210]确定模块1102,用于基于字段类型为第一字段类型,通过识别目标文档的标题,确定目标信息字段;和/或[0211]确定模块1102,还用于基于字段类型为第二字段类型,根据文档类型,通过与文本模板进行匹配,确定目标信息字段;和/或[0212]确定模块1102,还用于基于字段类型为第三字段类型,通过对目标文档的文本进行分割,确定目标信息字段;和/或[0213]确定模块1102,还用于基于字段类型为第四字段类型,通过识别目标文档中的文字,确定目标信息字段。[0214]本实施例中的网页文档的信息提取装置根据第二目标字段的类型,通过不同的字段提取方法,在目标文档中提取目标信息字段,提高了在目标文档中提取目标信息字段的提取效率,进而提升了在目标文档中提取目标信息字段的提取速度。[0215]如图12所示,在上述任一实施例中,网页文档的信息提取装置1200包括:[0216]公告文档1202,获取网页文档;[0217]智能文档结构化1204,对网页文档进行语法书分析;[0218]招投标文本分析1206,对网页文档进行招投标文本分析。[0219]在该实施例中,公告文档1202获取网页文档,智能文档结构化1204确定网页文档的文档结构;[0220]进一步地,招投标文本分析1206分析网页文档的文档类型,通过招投标信息提取模型,对网页文档进行归属地识别。[0221]进一步地,招投标文本分析1206通过语义匹配,实体识别和智能分词等方法,确定网页文档中的目标信息字段。[0222]进一步地,招投标文本分析1206确定目标信息字段的物料分类标签、行政区域信息和招投标语料。[0223]本实施例中的网页文档的信息提取装置实现了在网页文档中自动提取目标信息字段,降低了工作人员需要识别的文档数量,节省了大量人力资源,提升了对于网页文档的识别效率,并提高了在网页文档中识别目标信息字段的准确率。[0224]实施例三:[0225]如图13所示,本发明的第三个实施例中提供了一种网页文档的信息提取装置,网页文档的信息提取装置1300包括处理器1302和存储器1304,存储器1304中存储有程序或指令,该程序或指令被处理器1302执行时实现如上述任一技术方案中的网页文档的信息提取方法的步骤。因此,该网页文档的信息提取装置具备上述任一技术方案中的网页文档的信息提取方法的全部有益效果,在此不再赘述。[0226]实施例四:[0227]本发明的第四个实施例中提供了一种可读存储介质,其上存储有程序,程序被处理器执行时实现如上述任一实施例中的网页文档的信息提取方法,因而具有上述任一实施例中的网页文档的信息提取方法的全部有益技术效果。[0228]其中,可读存储介质,如只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等。[0229]需要明确的是,在本发明的权利要求书、说明书和说明书附图中,术语“多个”则指两个或两个以上,除非有额外的明确限定,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了更方便地描述本发明和使得描述过程更加简便,而不是为了指示或暗示所指的装置或元件必须具有所描述的特定方位、以特定方位构造和操作,因此这些描述不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,举例来说,“连接”可以是多个对象之间的固定连接,也可以是多个对象之间的可拆卸连接,或一体地连接;可以是多个对象之间的直接相连,也可以是多个对象之间的通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据上述数据地具体情况理解上述术语在本发明中的具体含义。[0230]在本发明的权利要求书、说明书和说明书附图中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本发明的权利要求书、说明书和说明书附图中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。[0231]以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1