合约信息提取方法及装置与流程

文档序号:30081838发布日期:2022-05-18 04:33阅读:172来源:国知局
1.本技术涉及数据处理
技术领域
:,特别涉及一种合约信息提取方法。本技术同时涉及一种合约信息提取装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
::2.人工智能(artificialintelligence;ai)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。自然语言处理、机器人、计算机视觉成为了人工智能最为热门的三个产业方向。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。随着计算机技术的发展,自然语言处理领域也得到了快速发展,自然语言处理(nlp,naturallanguageprocessing)是计算机科学领域的一个重要研究方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。自然语言处理面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。3.书面语言是指人们在书写和阅读文章时所使用的语言,通过文字及书面语言的表现形式可对所需表达或者记录的信息进行记录保存。文本是指书面语言的表现形式,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章,如使用文字记载的文献、文书等都属于文本。传统的文本一般是以纸张作为载体进行保存。4.文本也是计算机的一种文档类型。随着计算机技术的应用范围越来越广泛,电子文本的应用也越来越广泛,各类文本类型都可以在网络上获取得到。尤其是一些具备固定格式要求的文书,例如各种合同、协议、证明文件等合约文本。5.随着大数据时代的到来,合约文本的数量也越来越多,为了减少数据处理量,需要对合约文本的信息进行提取。从合约文本中抽取出合约方信息是合约信息提取的关键一部分,合约方信息提取不仅涉及到实体的识别,还要找出实体之间的关系。现有技术中,利用命名实体识别模型抽取合约文本中的合约方信息,仅仅能够识别出相应的实体,实体之间的关系只能通过预定义的规则判断;此外合约文本的格式多种多样,使用预定义的规则难以覆盖所有可能的情况,并且命名实体识别模型结果错误会直接影响后续实体之间的关系判断。因此,亟需一种有效的方案以解决上述问题。技术实现要素:6.有鉴于此,本技术实施例提供了一种合约信息提取方法,以解决现有技术中存在的技术缺陷。本技术实施例同时提供了一种合约信息提取装置,一种计算设备,以及一种计算机可读存储介质。7.根据本技术实施例的第一方面,提供了一种合约信息提取方法,包括:8.获取目标合约文本,提取目标合约文本中的目标段落,其中,目标段落包含合约方实体信息;9.将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,其中,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到,信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签;10.确定目标合约方标识对应的至少一个目标信息集;11.根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。12.根据本技术实施例的第二方面,提供了一种合约信息提取装置,包括:13.提取模块,被配置为获取目标合约文本,提取目标合约文本中的目标段落,其中,目标段落包含合约方实体信息;14.输入模块,被配置为将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,其中,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到,信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签;15.第一确定模块,被配置为确定目标合约方标识对应的至少一个目标信息集;16.第二确定模块,被配置为根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。17.根据本技术实施例的第三方面,提供了一种计算设备,包括:18.存储器和处理器;19.所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述合约信息提取方法的步骤。20.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述合约信息提取方法的步骤。21.根据本技术实施例的第五方面,提供了一种芯片,其存储有计算机指令,该计算机指令被芯片执行时实现所述合约信息提取方法的步骤。22.本技术提供的合约信息提取方法,通过获取目标合约文本,提取目标合约文本中的目标段落,然后将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,进一步确定目标合约方标识对应的至少一个目标信息集,根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。通过上述方法,将目标段落输入至预先训练的信息集抽取模型中,确定目标段落对应的至少一个信息集,在提取出合约方实体信息的同时,还提取出了表征实体信息与合约方标识之间的关系的信息类别,利用信息集抽取模型自动学习实体之间的关系,避免了使用人工规则确定信息集的局限性,不仅提高了确定合约信息的效率,还提高了合约信息的精准度。附图说明23.图1是本技术一实施例提供的一种合约信息提取系统的结构示意图;24.图2是根据本技术实施例提供的一种合约信息提取方法的流程图;25.图3是根据本技术实施例提供的一种合约信息提取方法中,获取目标合约文本的方法的流程图;26.图4是根据本技术实施例提供的一种合约信息提取方法中,确定目标段落的方法的流程图;27.图5是根据本技术实施例提供的一种合约信息提取方法中,确定初始段落的方法的流程图;28.图6是根据本技术实施例提供的一种合约信息提取方法中,确定信息集的方法的流程图;29.图7是根据本技术实施例提供的一种合约信息提取方法中,确定合约方标识的方法的流程图;30.图8是根据本技术实施例提供的一种合约信息提取方法中,训练信息集抽取模型的方法的流程图;31.图9是根据本技术实施例提供的一种合约信息提取方法中,调整参数的方法的流程图;32.图10是根据本技术实施例提供的一种合约信息提取方法中,训练分类模型的方法的流程图;33.图11a是根据本技术实施例提供的一种合约信息提取方法中,获取目标合约文本的方法的流程图;34.图11b是根据本技术实施例提供的一种合约信息提取方法中,获取目标合约文本的方法的处理流程图;35.图12是根据本技术实施例提供的一种合约信息提取方法中,训练合约基本信息抽取模型的方法的流程图;36.图13是本技术一实施例提供的一种合约信息提取方法的处理流程图;37.图14是本技术一实施例提供的一种合约信息提取装置的结构示意图;38.图15是本技术一实施例提供的一种计算设备的结构框图。具体实施方式39.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。40.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。41.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。42.首先,对本发明一个或多个实施例涉及的名词术语进行解释。43.实体:指现实世界中客观存在的并可以相互区分的对象或事物。比如一个人名、一个地址名、一个合约名、一个日期等等。44.命名实体识别:是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。45.信息集抽取:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出,如从自然语言文本中抽取出三元组《e1,r,e2》,其中e1,e2是识别出的实体,r表示实体之间蕴含的关系,又如从合约文本中抽取出合约方标识、信息类别和合约方实体信息,并将合约方标识、信息类别和合约方实体信息组合为信息集。46.基于转换器的双向编码表征(bert,bidirectionalencoderrepresentationfromtransformers)模型:是一种双向注意力神经网络模型,是用于自然语言处理的预训练技术,也即是一个预训练语言模型,通过大量的数据训练,bert模型能够在多个不同层次提取关系特征,根据句子上下文获取词义,避免歧义的出现,进而更全面反映句子语义。47.合约基本信息:指合约文本中一些基本信息,包括:合约名称、签订日期、合约生效日期、合约终止日期、合约编号、合约资源等中的至少一种。48.接下来,对本技术实施例提供的合约信息提取方法的应用场景进行说明。49.从合约方标识文本中抽取出合约信息是合约文本信息提取的关键一部分,合约信息的提取不仅涉及到实体信息的识别,还要找出实体之间的关系。利用命名实体识别模型抽取合约文本中的合约方信息,仅仅能够识别出相应的实体,实体之间的关系只能通过预定义的规则判断;此外合约文本的格式多种多样,使用预定义的规则难以覆盖所有可能的情况,并且命名实体识别模型结果错误会直接影响后续实体之间的关系判断。也即当前大多的合约信息提取一般使用命名实体识别模型,或者使用正则方法再结合一些预定义的规则抽取出合约文本中的合约名称等基本信息,对于合约方信息一般是先找出合约方公司名、合约方角色名等实体信息,再利用预定义的规则将合约方公司名与其相应的合约方角色名等信息联系到一起。50.因此,本技术提供了一种合约信息提取方法,通过获取目标合约文本,提取目标合约文本中的目标段落,然后将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,进一步确定目标合约方标识对应的至少一个目标信息集,根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。通过上述方法,将目标段落输入至预先训练的信息集抽取模型中,确定目标段落对应的至少一个信息集,在提取出合约方实体信息的同时,还提取出了实体信息与合约方标识之间的关系的信息类别,利用信息集抽取模型自动学习实体之间的关系,避免了使用人工规则确定信息集的局限性,不仅提高了确定合约信息的效率,还提高了合约信息的精准度。51.在本技术中,提供了一种合约信息提取方法。本技术同时涉及一种合约信息提取装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。52.本技术实施例提供的合约信息提取方法的执行主体可以是服务器,也可以是终端,本技术实施例对此不作限定。并且,该终端可以是任何一种可与用户进行人机交互的电子产品,例如pc(personalcomputer,个人计算机)、手机、掌上电脑ppc(pocketpc)、平板电脑等。该服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心,本技术实施例对此不做限定。53.以执行主体是终端为例,则终端在获取目标合约文本后,提取目标合约文本中的目标段落,其中,目标段落包含合约方实体信息;然后将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,其中,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到,信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签;接着确定目标合约方标识对应的至少一个目标信息集;根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。并且,在提取目标合约文本中的目标段落时,可能会用到分类模型,在获取到目标段落之后,还可以提取目标段落中的至少一个合约实体以及对应的实体类型,此时会用到合约基本信息抽取模型,该分类模型、合约基本信息抽取模型和信息集抽取模型可以通过服务器训练得到并且发送至终端。54.图1是根据本技术实施例提供的一种合约信息提取系统的结构示意图。55.以执行主体是服务器102为例,则终端104上传目标合约文本,服务器102通过通信单元102-1接收目标合约文本,也即服务器102获取到目标合约文本,然后,提取单元102-2提取目标合约文本中的目标段落,其中,目标段落包含合约方实体信息;再由输入单元102-3将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,其中,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到,信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签;接着通过目标信息集确定单元102-4确定目标合约方标识对应的至少一个目标信息集;进一步合约信息确定单元102-5根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。之后可以由通信单元102-1将合约信息反馈给终端104。此外,服务器102可以自行对分类模型、合约基本信息抽取模型和信息集抽取模型进行训练,且在提取目标合约文本中的目标段落时使用训练完成的分类模型。56.本技术实施例中,通过将目标段落输入至预先训练的信息集抽取模型中,确定目标段落对应的至少一个信息集,在提取出合约方实体信息的同时,还提取出了表征实体信息与合约方标识之间的关系的信息类别,利用信息集抽取模型自动学习实体之间的关系,避免了使用人工规则确定信息集的局限性,不仅提高了确定合约信息的效率,还提高了合约信息的精准度。57.图2示出了根据本技术一实施例提供的一种合约信息提取方法的流程图,包括步骤202至步骤208。58.步骤202:获取目标合约文本,提取目标合约文本中的目标段落,其中,目标段落包含合约方实体信息。59.实现合约信息提取方法的执行主体可以是具有合约信息提取功能的计算设备,例如具有合约信息提取功能的服务器、终端等。60.具体的,合约是指至少两方的人员针对某事项达成一致意向的行为;合约文本表征以文本的形式记录合约内容的文字表达;目标合约文本是指待提取合约信息的合约文本;实体信息是指描述实体的内容,如人名、地名、机构名、专有名词等;合约方是指参与合约的某一方;合约方实体信息是指与合约方相关的实体信息,如某合约方的地址、名称、联系方式等;目标段落是指目标合约文本中包含有合约方实体信息的段落。61.实际应用中,目标合约文本的文件格式类型可以为文档格式(doc,document),可以为文本格式(txt),可以为图片格式,还可以为可携带文档格式(pdf,portabledocumentformat),本技术不做限定。获取目标合约文本的方式有多种,例如,可以是某合约方向执行主体发送目标合约文本的获取指令,相应地,执行主体在接收到该指令后,开始对目标合约文本进行获取;也可以是服务器每隔预设时长,自动获取待提取合约信息的目标合约文本,例如,经过预设时长后,具有合约信息提取功能的服务器自动获取指定存取区域内的目标合约文本;或者经过预设时长后,具有合约信息提取功能的终端自动获取存储于本地的目标合约文本。本说明书对获取目标合约文本的方式不做任何限定。62.进一步地,在获取到待提取合约信息的目标合约文本的基础上,执行主体对目标合约文本进行提取操作,从而提取出目标合约文本中携带有合约方实体信息的目标段落。63.在本说明书实施例的一种可能的实现方式中,在获取到目标合约文本后,可以通过实体信息识别的方法,先确定目标合约文本中的合约方实体信息,然后确定各合约方实体信息所属的段落信息,进一步根据段落信息提取出目标合约文本中的目标段落。如此,可以提高确定目标段落的准确性。64.示例性地,获取到目标合约文本后,通过实体信息识别的方法对该目标合约文本进行识别之后,确定了两个合约方实体信息。然后第一个合约方实体信息在目标合约文本的第3个段落,第二个合约方实体信息在目标合约文本的第8个段落,则第一个合约方实体信息对应的段落信息为“第3段”、第二个合约方实体信息对应的段落信息为“第8段”,进一步根据段落信息“第3段”和“第8段”提取出目标合约文本中的目标段落。65.在本说明书实施例的另一种可能的实现方式中,在获取到目标合约文本后,可以分别对目标合约文本中的各段落进行合约方实体信息识别(可以同时对各段落进行识别,也可以对各段落进行逐一识别),将目标合约文本中的段落进行分类,将包含合约方实体信息的段落分为第一类,将不包含合约方实体信息的段落分为第二类,然后根据第一类段落,提取出目标合约文本中的目标段落。如此,可以提高提取目标段落的速度。66.示例性地,获取到目标合约文本后,分别对目标合约文本中的各段落进行合约方实体信息识别,其中目标合约文本有10段,其中第1段、第2段、第5段和第7段包含合约方实体信息并归为第一类,第3段、第4段、第6段、第8段、第9段和第10段不包含合约方实体信息并归为第二类。则进行一步根据属于第一类的第1段、第2段、第5段和第7段,提取出目标合约文本中的目标段落。67.需要说明的是,目标合约文本中可以只有一个目标段落,可以有多个目标段落,具体的目标段落的数量,需要根据目标合约文本的实际内容进行确定。68.步骤204:将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,其中,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到,信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签。69.具体的,信息集抽取模型是一种基于深度学习的语言模型,通过信息集抽取模型可以获得目标段落的信息集;合约方标识是指表征某合约方的标识,如a代表第一合约方、b代表第二合约方,又如1代表第一合约方、2代表第二合约方等;信息类别是指合约方实体信息的类别,如合约方实体信息为“a市b区”,则信息类别为“地址”;第一样本段落是指用于训练信息集抽取模型的训练样本,信息集标签以及信息集标签中的合约方标识标签、信息类别标签和合约方实体信息标签用于监督信息集抽取模型的训练效果。70.在本说明书实施例的一种可能的实现方式中,在确定了目标段落之后,需要将目标段落输入至训练好的信息集抽取模型中,然后信息集抽取模型可以先提取出目标段落中的各个合约方实体信息,然后针对任意一个合约方实体信息,识别该合约方实体信息的信息类别,并根据合约方实体信息在目标段落中的位置信息确定该合约方实体信息对应的合约方标识,进一步根据该合约方实体信息、该合约方实体信息的信息类别以及该合约方实体信息对应的合约方标识,确定一个信息集。然后按照上述方法遍历其他合约方实体信息,从而确定出目标段落对应的所有信息集。如此,可以提高确定信息集的准确率和速度。71.示例性地,假设目标段落为“他们分别是a市c公司和a市d公司”,将该目标段落输入至信息集抽取模型,提取出了两个合约方实体信息“a市c公司”和“a市d公司”,然后识别“a市c公司”的信息类别为“公司名称”,然后由于“a市c公司”是目标段落中的信息类别为“公司名称”的第一个合约方实体信息,确定“a市c公司”对应的合约方标识为“甲”,则第一个信息集包括“甲”、“公司名称”和“a市c公司”。同理,针对合约方实体信息“a市d公司”可以得到第二个信息集,其中第二个信息集包括“乙”、“公司名称”和“a市d公司”。72.在本说明书实施例的另一种可能的实现方式中,在确定了目标段落之后,需要将目标段落输入至训练好的信息集抽取模型中,然后信息集抽取模型对目标段落进行合约方识别,得到至少一个合约方标识。然后针对任意一个合约方标识,确定目标段落中该合约方标识对应的至少一个合约方实体信息,并识别该合约方标识对应的各合约方实体的信息类别,进一步根据该合约方标识、该合约方标识对应的至少一个合约方实体信息以及信息类别,确定至少一个信息集。然后按照上述方法遍历其他合约方标识,从而确定出目标段落对应的所有信息集。如此,可以提高确定信息集的准确率和速度。73.示例性地,假设目标段落为“他们分别是a市c公司和a市d公司”,将该目标段落输入至信息集抽取模型,信息集抽取模型对该目标段落进行合约方识别,得到两个合约方标识“甲”和“乙”,然后针对合约方标识“甲”,在目标段落中查找到“甲”对应的一个合约方实体信息“a市c公司”,接着识别“a市c公司”的信息类别为“公司名称”,即第一个信息集包括“甲”、“公司名称”和“a市c公司”。同理,针对合约方实体信息“a市d公司”可以得到第二个信息集,其中第二个信息集包括“乙”、“公司名称”和“a市d公司”。74.此外,信息集可以采用三元组的格式进行表示,沿用上例,第一信息集的三元组表现为《甲,公司名称,a市c公司》,第二信息集的三元组表现为《乙,公司名称,a市d公司》。75.需要说明的是,无论采用何种方式,通过信息集抽取模型获得目标段落对应的至少一个信息集,所获得的信息集的数量与目标段落中合约方实体信息的数量相同,且信息集与合约方实体信息一一对应。76.步骤206:确定目标合约方标识对应的至少一个目标信息集。77.具体的,目标合约方标识可以是任意一个合约方标识,目标信息集是指包含有与目标合约方标识相同的合约方标识的信息集。78.实际应用中,在获取到信息集之后,需要针对任一合约方标识,也即目标合约方标识,然后将目标合约方标识分别与各信息集中的合约方标识进行比较,若相同,则将合约方标识与目标合约方标识相同的信息集确定为目标信息集。79.例如,信息集有4个,其中第一个信息集的合约方标识为f1,第二个信息集的合约方标识为f2、第三个信息集的合约方标识为f2、第四个信息集的合约方标识为f1。假设目标合约方标识为f1,则将目标合约方标识分别与这4个信息集的合约方标识进行比较,则可以确定第一个信息集和第四个信息集为目标信息集。80.此外,还可以在获取到信息集之后,根据将合约方标识相同的信息集划分至一组,也即若所有信息集中有n种合约方标识,即可以将所有信息集分为n个组,其中n为正整数。然后将目标合约方标识与各组对应的合约方标识进行匹配,将匹配成功的该组中包含的各信息集分别确定为目标信息集。如此,避免了将目标合约方标识分别与各信息集的合约方标识进行比较,只需要将目标合约方标识分别与少量分组对应的合约方标识进行比较,降低了执行主体的数据处理量,可以有效地提高确定目标信息集的效率。81.参见表1,表1为八个信息集及合约方标识,其中信息集一、信息集三、信息集四和信息集七的合约方标识均为v1,则将信息集一、信息集三、信息集四和信息集七为一组,且一组对应的合约方标识均为v1;信息集二、信息集五、信息集六和信息集八的合约方标识均为v2,则将信息集二、信息集五、信息集六和信息集八为二组,且二组对应的合约方标识均为v2。若目标合约标签为v1,则将一组中的信息集一、信息集三、信息集四和信息集七分别确定为目标信息集;若目标合约标签为v2,则将二组中的信息集二、信息集五、信息集六和信息集八分别确定为目标信息集。82.表1八个信息集及合约方标识83.信息集一二三四五六七八合约方标识v1v2v1v1v2v2v1v284.需要说明的是,在目标合约文本包含多个目标段落的情况下,在确定目标合约方标识对应的至少一个目标信息集时,是从所有目标段落对应的信息集中确定目标信息集的。如有两个目标段落,其中第一个目标段落对应的信息集有8个,第二个目标段落对应的信息集有20个,则从这28个信息集中确定目标合约方标识对应的至少一个目标信息集。如此,可以在根据目标信息集,确定目标合约方标识对应的合约信息时,保证合约信息的全面性和精确度。85.步骤208:根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。86.具体的,合约信息是指针对合约方的相关信息。87.实际应用中,在确定了目标合约方标识对应的至少一个目标信息集之后,可以根据预设模板,将各目标信息集中的信息类别和合约方实体信息进行整合或合并,进而生成目标合约方标识对应的合约信息。88.例如,预设模板为“目标合约方标识:合约方实体信息1(信息类别1)、合约方实体信息2(信息类别2)、……、合约方实体信息m(信息类别m)”,其中m为正整数。假设目标合约方标识为“甲方”,参见表2,表2为4个目标信息集——信息集1至信息集4,其中信息集1为“甲方公司名称某科技公司”,信息集2为“甲方公司地址某市一区”,信息集3为“甲方代表人小红”,信息集4为“甲方联系电话1234567”,按照预设模板将信息集1至信息集4的信息类别和合约方实体信息进行合并,得到的目标合约方标识对应的合约信息为“甲方:某科技公司(公司名称)、某市一区(公司地址)、小红(代表人)、1234567(联系电话)”。89.表2四个信息集90.目标信息集信息集1信息集2信息集3信息集4合约方标识甲方甲方甲方甲方信息类别公司名称公司地址代表人联系电话合约方实体信息某科技公司某市一区小红123456791.上述实施方式中,通过获取目标合约文本,提取目标合约文本中的目标段落,然后将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,进一步确定目标合约方标识对应的至少一个目标信息集,根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。通过上述方法,将目标段落输入至预先训练的信息集抽取模型中,确定目标段落对应的至少一个信息集,在提取出合约方实体信息的同时,还提取出了表征实体信息与合约方标识之间的关系的信息类别,利用信息集抽取模型自动学习实体之间的关系,避免了使用人工规则确定信息集的局限性,不仅提高了确定合约信息的效率,还提高了合约信息的精准度。92.图3是根据本技术实施例提供的一种合约信息提取方法中,获取目标合约文本的方法的流程图,包括步骤302至步骤304。93.步骤302:获取初始合约文本。94.步骤304:在初始合约文本的格式为非目标格式的情况下,将初始合约文本的格式转换为目标格式,得到目标合约文本。95.具体的,初始合约文本是指直接获取到的合约文本,表征以文本的形式记录合约内容的文字表达;目标格式可以为指定的任意一种格式,如文档格式(doc,document)、文本格式(txt)、图片格式、可携带文档格式(pdf)等中的任意一种;非目标格式是指与目标格式不同的其他格式。优选地,目标格式为文本格式(txt),则非目标格式为除文本格式(txt)以外的其他格式。96.实际应用中,获取初始合约文本的方式有多种,例如,可以是某合约方向服务器发送初始合约文本的获取指令,相应的,执行主体在接收到该指令后,开始对初始合约文本进行获取;也可以是服务器每隔预设时长,自动获取待提取合约信息的初始合约文本,例如,经过预设时长后,具有合约信息提取功能的服务器自动获取指定存取区域内的初始合约文本;或者经过预设时长后,具有合约信息提取功能的终端自动获取存储于本地的初始合约文本。本说明书对获取初始合约文本的方式不做任何限定。97.进一步地,在获取到初始合约文本的基础上,执行主体识别该初始合约文本的格式,然后将初始合约文本的格式与目标格式进行对比,若一样,则直接将该初始合约文本确定为目标合约文本;若不一样,则该初始合约文本的格式为非目标格式,需要将初始合约文本的格式转换为目标格式,从而得到目标合约文本。98.示例性地,目标格式为文本格式(txt),当执行主体识别出该初始合约文本的格式为文本格式(doc)时,将该初始合约文本中的全部文本内容提取出来,然后新建文本格式(txt)的文本,将提取出的文本内容存入该文本中,得到文本格式的目标合约文本。99.示例性地,目标格式为文本格式(txt),当执行主体识别出初始合约文本的格式为图片格式或可携带文档格式(pdf)时,运用光学字符识别(ocr,opticalcharacterrecognition)技术对该初始合约文本进行文本提取:识别出文字区域,然后对文字区域进行矩形分割,拆分成不同的字符,然后对字符进行分类进而识别出文本内容。然后新建文本格式(txt)文本,将提取出的文本内容存入该文本中,得到文本格式的目标合约文本。100.需要说明的是,步骤302-步骤304是上述步骤202中“获取目标合约文本”的一种具体实现方式。101.本技术实施例中,获取初始合约文本,然后判断初始合约文本的格式是否为目标格式,若是,则说明该初始合约文本的格式是规范的,可以直接作为目标合约文本,若不是,说明该初始合约文本的格式是不规范的,因此,需要将初始合约文本的格式转换为目标格式,将格式转换后的初始合约文本确定为目标合约文本,能够避免格式不规范对提取目标段落的影响,提高确定目标段落的准确率,进而提高确定合约信息的效率。102.图4是根据本技术实施例提供的一种合约信息提取方法中,确定目标段落的方法的流程图,包括步骤402至步骤408。103.步骤402:提取目标合约文本中的至少一个初始段落,其中,初始段落包含合约方实体信息。104.步骤404:确定各初始段落在目标合约文本中的段落序号。105.步骤406:将段落序号相连的多个初始段落进行整合,得到目标段落。106.步骤408:将不存在相邻段落序号的初始段落,确定为目标段落。107.具体的,初始段落是指目标文本合约中包含合约方实体信息的段落;段落序号表征初始段落在目标合约文本的位置,如段落序号为1则表示该初始段落为目标合约文本中的第一段、段落序号为8则表示该初始段落为目标合约文本中的第八段。108.实际应用中,在获取到目标合约文本后,可以通过实体信息识别的方法,先确定目标合约文本中的合约方实体信息,然后分别将各合约方实体信息所在的段落,确定为初始段落,得到至少一个初始段落。进一步确定各个初始段落在目标合约文本中的段落序号,根据各初始段落的段落序号,判断是否存在段落序号相连的多个初始段落,若存在则将段落序号相连的多个初始段落进行整合,也即按照段落序号的顺序,将段落序号在前的初始段落的尾部与段落序号在后前的初始段落的首部相连,得到为目标段落,然后将不存在相邻段落序号的初始段落,确定为目标段落;若不存在,则将各个初始段落分别确定为目标段落。109.例如,获取到目标合约文本后,通过实体信息识别的方法对该目标合约文本进行识别之后,确定了8个合约方实体信息。然后第一个合约方实体信息在目标合约文本的第1个段落(第一初始段落),第二个合约方实体信息在目标合约文本的第2个段落(第二初始段落),第三个合约方实体信息和第四个合约方实体信息在目标合约文本的第4个段落(第三初始段落),第五个合约方实体信息在目标合约文本的第6个段落(第四初始段落),第六个合约方实体信息在目标合约文本的第7个段落(第五初始段落),第七个合约方实体信息在目标合约文本的第8个段落(第六初始段落),第八个合约方实体信息在目标合约文本的第9个段落(第七初始段落),也即确定了七个初始段落。然后获取第一初始段落至第七初始段落的段落序号,分别为:1、2、4、6、7、8、9。其中,段落序号1和2相连,则将第一初始段落和第二初始段落进行整合,得到第一个目标段落;段落序号4不存在相邻段落序号,则将第三初始段落确定为第二个目标段落;段落序号6、段落序号7、段落序号8和段落序号9相连,则将第五初始段落至第八初始段落进行整合,得到第三个目标段落。也即确定了3个目标段落。110.沿用上例,假设第一初始段落为“甲方为a市c公司。”和第二初始段落为“乙方为a市d公司。”,则将第一初始段落和第二初始段落进行整合,也即将“甲方为a市c公司。”的尾部与“乙方为a市d公司。”的首部相连,得到的第一个目标段落为“甲方为a市c公司。乙方为a市d公司。”111.需要说明的是,步骤402-步骤408是上述步骤202中“提取目标合约文本中的目标段落”的一种具体实现方式。112.本技术实施例中,先提取目标合约文本中包含合约方实体信息的至少一个初始段落,然后确定各初始段落在目标合约文本中的段落序号,接着将段落序号相连的多个初始段落进行整合,得到目标段落,再将不存在相邻段落序号的初始段落,确定为目标段落,不仅能够避免初始段落数量导致信息集抽取模型处理次数多,还能基于合约文本中各合约方的同一信息类型的合约方实体信息成对出现的特性,使每个目标段落中可以包含各合约方的信息类型相同的合约实体信息,进一步提高信息集抽取模型的效率,从而提高最终确定的合约信息的精确度。113.图5是根据本技术实施例提供的一种合约信息提取方法中,确定初始段落的方法的流程图,包括步骤502至步骤504。114.步骤502:利用预先训练的分类模型,分别判断目标合约文本中的各段落是否包含合约方实体信息,其中,分类模型基于携带有段落标签的样本文本训练得到,段落标签为样本文本中包含合约方实体信息的段落。115.步骤504:若是,则将包含合约方实体信息的段落确定为初始段落。116.具体的,分类模型是一种基于深度学习的语言模型,通过分类模型可以提取出包含合约方实体信息的初始段落,分类模型可以是基于转换器的双向编码表征(bert,bidirectionalencoderrepresentationfromtransformers)模型,还可以是全连接神经网络(fcn,fullyconvolutionnetwork)模型,还可以是其他深度学习的神经网络模型,本技术对此不做限定;样本文本是指用于训练分类模型的训练样本,段落标签用于监督分类模型的训练效果。117.实际应用中,在获取到目标合约文本后,可以将目标合约文本输入至训练好的分类模型中,分类模型对目标合约文本中的各个段落进行分析,针对各个段落中的任意一个段落,分类模型提取该段落中的合约方实体信息,或者检测该段落中是否包含合约方实体信息,若提取成功或者检测到合约方实体信息,则将该段落确定为初始段落,若提取失败或者未检测到合约方实体信息,则将该段落确定为普通段落。之后输出确定的初始段落。118.例如,目标合约文本包含两个段落:第一个段落为“他们分别是a市c公司和a市d公司。”,第二个段落为“欢天喜地,锣鼓喧天。”其中“a市c公司”和“a市d公司”为合约方实体信息。将该目标合约文本输入至训练好的分类模型中,分类模型在第一个段落中检测到了合约方实体信息,在第二个段落中未检测到合约方实体信息,则将第一个段落确定为初始段落,将第二个段落确定为普通段落。之后输出初始段落。119.需要说明的是,步骤502-步骤504是上述步骤402的一种具体实现方式。120.本技术实施例中,通过将目标合约输入分类模型中,由分类模型判断目标合约文本中的各段落是否包含合约方实体信息,将包含合约方实体信息的段落确定为初始段落并输出,提高了确定初始段落的效率,避免人工标注出错的问题。121.图6是根据本技术实施例提供的一种合约信息提取方法中,确定信息集的方法的流程图,包括步骤602至步骤606。122.值得注意的是,信息集抽取模型包括合约方识别层和关系抽取层。123.步骤602:将目标段落输入至合约方识别层,得到目标段落对应的合约方标识。124.步骤604:将目标段落和目标段落对应的合约方标识输入至关系抽取层,得到合约方标识对应的信息类别和合约方实体信息。125.步骤606:根据合约方标识和合约方标识对应的信息类别和合约方实体信息,确定目标段落对应的至少一个信息集。126.具体的,合约方识别层是指识别合约方标识的处理层,可以是基于bert模型训练的处理层,还可以是基于fcn模型训练的处理层,还可以是基于其他自学习的语言模型进行训练得到的处理层,本技术对此不做限定;关系抽取层是指识别某合约方标识对应的合约方实体信息以及合约方实体信息对应的信息类别的处理层,同样可以是基于bert模型训练的处理层,还可以是基于fcn模型训练的处理层,还可以是基于其他自学习的语言模型进行训练得到的处理层,本技术对此不做限定。127.实际应用中,在确定了目标段落之后,需要将目标段落输入至信息集抽取模型的合约方识别层中,然后合约方识别层对目标段落中的文字进行解析,根据解析结果确定目标段落对应的合约方标识,得到至少一个合约方标识。然后将目标段落和确定的合约方标识输入至信息集抽取模型的关系抽取层,针对各合约方标识中的任意一个合约方标识,由关系抽取层从目标段落中获取该合约方标识对应的合约方实体信息,以及识别合约方实体信息的信息类别,即获取该合约方标识对应的合约方实体信息和信息类别。从而将该合约方标识和合约方标识对应的信息类别和合约方实体信息进行组合,生成该合约方标识对应的至少一个信息集。历遍所有合约方标识,确定各合约方标识对应的至少一个信息集,也即确定目标段落对应的至少一个信息集。128.例如,目标段落为“他们分别是h1部门的小李和h2部门的小张。”,将“他们分别是h1部门的小李和h2部门的小张。”输入至合约方识别层中,合约方识别层得到了两个合约方标识:第一方和第二方。然后将合约方标识“第一方”和“第二方”、以及目标段落“他们分别是h1部门的小李和h2部门的小张。”输入至关系抽取层:识别到“第一方”对应的实体信息包括“h1部门”和“小李”,并识别到“h1部门”的信息类别为“部门名称”、“小李”的信息类别为“代表人”,然后生成两个信息集:第一信息集“第一方部门名称h1部门”和第二信息集“第一方代表人小李”;识别到“第二方”对应的实体信息包括“h2部门”和“小张”,并识别到“h2部门”的信息类别为“部门名称”、“小张”的信息类别为“代表人”,然后生成两个信息集:第三信息集“第二方部门名称h2部门”和第四信息集“第二方代表人小张”。也即得到了目标段落对应的四个信息集。129.需要说明的是,步骤602-步骤606是上述步骤204的一种具体实现方式。130.本技术实施例中,通过将目标段落输入至合约方识别层,得到目标段落对应的合约方标识,接着将目标段落和目标段落对应的合约方标识输入至关系抽取层,得到合约方标识对应的信息类别和合约方实体信息,然后根据合约方标识和合约方标识对应的信息类别和合约方实体信息,确定目标段落对应的至少一个信息集,能够在抽取出合约方标识和合约方实体信息的同时,确定合约方标识与合约方信息的对应关系,并确定信息类别,利用信息集抽取模型自动学习实体之间的关系,避免了使用人工规则确定合约方标识与合约方信息的对应关系的局限性,从而提高了确定信息集以及合约信息的效率。131.图7是根据本技术实施例提供的一种合约信息提取方法中,确定合约方标识的方法的流程图,包括步骤702至步骤706。132.值得注意的是,合约方识别层包括向量转换单元和矩阵变化单元。133.步骤702:将目标段落输入至向量转换单元,得到目标段落中各文字单元对应的向量。134.步骤704:将各文字单元对应的向量分别输入至矩阵变化单元,得到各文字单元相对于各合约方标识的概率值。135.步骤706:针对各文字单元中的任一文字单元,将该文字单元对应的目标概率值对应的合约方标识,确定为该文字单元对应的合约方标识,其中,目标概率值为大于预设值的概率值。136.具体的,向量转换单元用于将把自然语言文本转换为向量;矩阵变化单元用于将向量进行矩阵变换,并计算概率值,矩阵变化单元可以是神经网络模型的全连接层。概率值表征指文字单元属于某合约方标识的可能性,概率值越大,该文字单元属于某合约方标识的可能性越高,反之亦然;文字单元是组成目标段落的单元,文字单元可以是字符,还可以词;优选地,文字单元为字符。137.实际应用中,将目标段落输入至合约方识别层的向量转换单元,由向量转换单元将目标段落中的每个文字单元逐一转换成向量,或者同时将目标段落中的每个文字单元转换成向量,文字单元与向量一一对应,也即得到各文字单元对应的向量。然后将各文字单元对应的向量输入至矩阵变化单元,进行矩阵变换并计算,进而得到各文字单元相对于每种合约方标识的概率值。针对每一个文字单元,将该文字单元的多个概率值与预设值进行比较。将大于预设值的概率值确定为目标概率值(优选地,将最大概率值确定为目标概率值),并将目标概率值对应的合约方标识确定为该文字单元对应的合约方标识。历遍目标段落中的所有文字单元,从而确定各文字单元对应的合约方标识,也即确定目标段落对应的合约方标识。138.需要说明的是,步骤702-步骤706是上述步骤602的一种具体实现方式。139.本技术实施例中,通过将目标段落输入至向量转换单元,得到目标段落中各文字单元对应的向量,接着将各文字单元对应的向量分别输入至矩阵变化单元,得到各文字单元相对于各合约方标识的概率值;进而针对各文字单元中的任一文字单元,将该文字单元对应的目标概率值对应的合约方标识,确定为该文字单元对应的合约方标识,能够在抽取出合约方标识的同时,保证提取的合约方标识的准确度,从而提高了确定信息集以及合约信息的效率。140.图8是根据本技术实施例提供的一种合约信息提取方法中,训练信息集抽取模型的方法的流程图,包括步骤802至步骤810。141.步骤802:提取第一样本段落,将第一样本段落输入至第一网络模型的识别层,得到第一样本段落对应的预测合约方标识。142.步骤804:将第一样本段落和预测合约方标识输入至第一网络模型的抽取层,得到预测合约方标识对应的预测信息类别和预测合约方实体信息。143.步骤806:根据预测合约方标识、预测信息类别和预测合约方实体信息,确定第一样本段落对应的预测信息集。144.步骤808:对比预测信息集与第一样本段落携带的信息集标签,得到差异值。145.步骤810:若差异值大于预设阈值,则调整识别层和抽取层的参数,并返回执行提取第一样本段落的步骤,直至达到训练停止条件,停止训练,确定完成训练的识别层、抽取层和第一网络模型分别为合约方识别层、关系抽取层和信息集抽取模型。146.具体的,第一网络模型是一种基于深度学习的语言模型,是指还未进行训练的信息集抽取模型;识别层是指还未训练的合约方识别层;抽取层是指还未进行训练的关系抽取层;差异值是指基于预测信息集与信息集标签的差异性确定的数值;预设阈值是指预先设置的一个数值,用于衡量信息集抽取模型是否达标;训练停止条件可以是差异值小于或等于预设阈值,还可以是迭代训练次数达到预设迭代值。147.实际应用中,可以从第一样本段落训练集中提取一个第一样本段落,然后将第一样本段落输入至第一网络模型的识别层,然后识别层对第一样本段落中的文字进行解析,根据解析结果确定第一样本段落对应的预测合约方标识。然后将第一样本段落和预测合约方标识输入至抽取层,由抽取层从第一样本段落中获取预测合约方标识对应的预测合约方实体信息,以及识别预测合约方实体信息的预测信息类别,即获取预测合约方标识对应的预测合约方实体信息和预测信息类别。从而将该预测合约方标识和该预测合约方标识对应的预测信息类别和预测合约方实体信息进行组合,生成预测信息集。将预测信息集与第一样本段落携带的信息集标签进行对比,根据预设的差异算法,确定差异值,进而比较差异值与预设阈值的大小,在差异值大于预设阈值,调整第一初始模型中识别层和抽取层的参数,然后再次从第一样本段落训练集中提取一个第一样本段落,进行下一轮训练。当差异值小于或等于预设阈值,或者迭代训练次数达到预设迭代值时,停止训练,将训练好的第一初始模型确定为信息集抽取模型,也即将训练好的识别层确定为合约方识别层、将训练好的抽取层确定为关系抽取层。148.需要说明的是,步骤802-步骤810是对上述步骤204或602中的信息集抽取模型进行训练的一种具体实现方式。149.本技术实施例中,通过将第一样本段落输入至识别层,得到预测合约方标识,接着将第一样本段落和预测合约方标识输入至抽取层,得到预测信息类别和预测合约方实体信息,然后根据预测合约方标识、预测信息类别和预测合约方实体信息,确定预测信息集,进而根据预测信息集与信息集标签的差异值,对第一初始模型中的识别层和抽取层的参数进行调整,直至达到训练停止条件,将训练好的第一初始模型确定为信息集抽取模型,能够提供一种可以在抽取出合约方标识和合约方实体信息的同时,确定合约方标识与合约方信息的对应关系,并确定信息类别的有效方法,避免了使用人工规则确定合约方标识与合约方信息的对应关系的局限性,从而提高了确定信息集以及合约信息的效率。150.图9是根据本技术实施例提供的一种合约信息提取方法中,调整参数的方法的流程图,包括步骤902至步骤908。151.步骤902:对比预测合约方标识和合约方标识标签,得到第一差异值。152.步骤904:对比预测合约方标识和合约方标识标签、预测信息类别和信息类别标签、以及预测合约方实体信息和合约方实体信息标签,得到第二差异值。153.步骤906:若第一差异值大于预设阈值中的第一预设阈值,则调整识别层的参数。154.步骤908:若第二差异值大于预设阈值中的第二预设阈值,则调整抽取层的参数。155.具体的,第一差异值是指针对合约层的预测结果,即预测合约方标识和合约方标识标签的差异确定的数值;第二差异值是指针对抽取层的预测结果,即预测合约方标识和合约方标识标签、预测信息类别和信息类别标签、以及预测合约方实体信息和合约方实体信息标签的差异确定的数值;第一预设阈值是指预先设置的一个数值,用于衡量识别层是否达标;第二预设阈值是指预先设置的一个数值,用于衡量抽取层是否达标。156.实际应用中,先将预测合约方标识与合约方标识标签进行对比,根据预设的第一差异算法,确定第一差异值,然后根据预测合约方标识和合约方标识标签、预测信息类别和信息类别标签、以及预测合约方实体信息和合约方实体信息标签分别进行对比,进而根据预设的第二差异算法,确定第二差异值。在第一差异值大于第一预设阈值的情况下,调整识别层的参数,在第二差异值大于第二预设阈值的情况下,调整抽取层的参数,然后再次从第一样本段落训练集中提取一个第一样本段落,进行下一轮训练。当第一差异值小于或等于第一预设阈值且第二差异值小于或等于第二预设阈值,或者迭代训练次数达到预设迭代值时,停止训练,将训练好的第一初始模型确定为信息集抽取模型,也即将训练好的识别层确定为合约方识别层、将训练好的抽取层确定为关系抽取层。157.此外,根据预测合约方标识与合约方标识标签,可以计算识别层的损失函数,生成损第一差异值,其中,该损失函数可以为对数损失函数、交叉熵损失函数、最大损失函数等等。158.需要说明的是,损失函数可以用来评价模型的预测结果和真实结果之间不一样的程度,损失函数越好,通常模型的性能越好,不同类型的模型优先使用的损失函数一般也不一样。交叉熵损失函数本质上也是一种对数似然函数,可用于二分类和多分类任务中,当计算得到的损失值较大的时候,表示真实结果与预测结果之间的误差较大,此时模型的参数可以更新的快,当计算得到的损失值小的时候,表示真实结果与预测结果之间的误差较小,此时模型的参数可以更新的慢,使用交叉熵损失函数在进行梯度计算的时候可以避免出现梯度弥散。159.实际应用中,模型一般分为2类,分类模型和回归模型,对于分类模型而言,一般优先使用交叉熵损失函数,从而避免出现梯度弥散。由于本技术中的识别层实际是识别第一样本段落中对应哪个合约方标识,即实际上为一种分类模型,因而本技术实施例中优先使用交叉熵损失函数,对识别层进行训练。160.具体实现时,基于预测合约方标识与合约方标识标签确定第一差异值可以通过如下式(1)计算得到:[0161][0162]其中,loss1表示第一差异值,也即识别层的损失值,n表示需要识别层识别的类别数,y(i)表示合约方标识标签,即真实结果,f(x(i))表示识别层输出的预测合约方标识,即预测结果。[0163]一种可能的实现方式中,识别层是一种神经网络模型,在基于计算得到的第一差异值调整识别层的参数时,可以通过第一差异值反向梯度传播调整识别层的参数。具体的,在计算得到第一差异值之后,可以将该第一差异值传递给识别层的最后一层,该第一差异值可以表示当前误差的大小,因而最后一层可以自动根据接收到的第一差异值调整自身参数,之后最后一层可以将第一差异值反向传递给前一层,前一层接收到第一差异值后,也可以自动根据接收到的第一差异值调整自身参数,以此类推,直至第一差异值传递至识别层的第一层,完成一次参数调整。[0164]需要说明的是,合约方标识标签是第一样本段落的真实结果,预测合约方标识是第一样本段落的预测结果,通过计算第一差异值可以直观的示出识别层的预测结果与真实结果之间的差异,再基于第一差异值对识别层进行针对性训练,调整参数,可以有效提高识别层训练的速率及识别层训练的效果。[0165]此外,根据预测合约方标识和合约方标识标签、预测信息类别和信息类别标签、以及预测合约方实体信息和合约方实体信息标签,可以计算抽取层的损失函数,生成损第二差异值,其中,该损失函数可以为对数损失函数、交叉熵损失函数、最大损失函数等等。同识别层一样,抽取层实际是识别第一样本段落中对应预测信息集属于哪个合约方标识,即实际上为一种分类模型,因而本技术实施例中优先使用交叉熵损失函数,对抽取进行训练。[0166]具体实现时,基于预测合约方标识和合约方标识标签、预测信息类别和信息类别标签、以及预测合约方实体信息和合约方实体信息标确定第二差异值可以通过如下式(2)计算得到:[0167][0168]其中,loss2表示第二差异值,也即抽取层的损失值,m表示需要抽取层抽取的类别数,y(i)表示合约方标识标签,即真实结果,f(x(i))表示预测合约方标识,即预测结果,q(i)表示信息类别标签,即真实结果,f(p(i))表示预测信息类别,即预测结果,h(i)表示合约方实体信息标签,即真实结果,f(g(i))表示预测合约方实体信息,即预测结果。[0169]一种可能的实现方式中,抽取层是一种神经网络模型,在基于计算得到的第二差异值调整抽取层的参数时,可以通过第二差异值反向梯度传播调整抽取层的参数。具体的,在计算得到第二差异值之后,可以将该第二差异值传递给抽取层的最后一层,该第二差异值可以表示当前误差的大小,因而最后一层可以自动根据接收到的第二差异值调整自身参数,之后最后一层可以将第二差异值反向传递给前一层,前一层接收到第二差异值后,也可以自动根据接收到的第二差异值调整自身参数,以此类推,直至第二差异值传递至抽取层的第一层,完成一次参数调整。[0170]需要说明的是,合约方标识标签、信息类别标签和约方实体信息标签是第一样本段落的真实结果,预测合约方标识、预测信息类别和预测约方实体信息是第一样本段落的预测结果,通过计算第二差异值可以直观的示出抽取层的预测结果与真实结果之间的差异,再基于第二差异值对抽取层进行针对性训练,调整参数,可以有效提高抽取层训练的速率及抽取层训练的效果。[0171]需要说明的是,步骤902-步骤904是对上述步骤808的一种具体实现方式,步骤906-步骤908是对上述步骤810的一种具体实现方式。[0172]本技术实施例中,通过对比预测合约方标识和合约方标识标签确定第一差异值,通过对比预测合约方标识和合约方标识标签、预测信息类别和信息类别标签、以及预测合约方实体信息和合约方实体信息标签,确定第二差异值,然后在第一差异值大于第一预设阈值的情况下,调整识别层的参数,在第二差异值大于第二预设阈值,调整抽取层的参数。如此,通过两个差异值对第一初始模型进行调整,可以加速第一初始模型的训练效率,使第一初始模型快速收敛,进而提供一种可以在抽取出合约方标识和合约方实体信息的同时,确定合约方标识与合约方信息的对应关系,并确定信息类别的有效方法,避免了使用人工规则确定合约方标识与合约方信息的对应关系的局限性,从而提高了确定信息集以及合约信息的效率。[0173]图10是根据本技术实施例提供的一种合约信息提取方法中,训练分类模型的方法的流程图,包括步骤1002至步骤1006。[0174]步骤1002:提取样本文本,将样本文本输入至第二网络模型,得到样本文本中的预测段落。[0175]步骤1004:根据预测段落与样本文本携带的段落标签,确定第一损失值。[0176]步骤1006:若第一损失值大于第一预设损失值,则调整第二网络模型的参数,并返回执行提取样本文本的步骤,直至达到训练停止条件,停止训练,确定完成训练的第二网络模型为分类模型。[0177]具体的,第二网络模型是一种基于深度学习的语言模型,是指还未进行训练的分类模型;第一损失值是指基于预测段落与段落标签的差异性确定的数值;第一预设损失值是指预先设置的一个数值,用于衡量分类模型是否达标;训练停止条件可以是第一损失值小于或等于第一预设损失值,还可以是迭代训练次数达到预设迭代值。[0178]实际应用中,可以从样本文本训练集中提取一个样本文本,然后将样本文本输入至第二网络模型,接着第二网络模型对样本文本中的段落进行解析,根据解析结果确定样本文本中对应的预测段落。进一步地,将预测段落与样本文本携带的段落标签进行对比,根据预设的损失函数,确定第一损失值。进而比较第一损失值与第一预设损失值的大小,在第一损失值大于第一预设损失值的情况下,调整第二初始模型的参数。然后再次从样本文本训练集中提取一个样本文本,进行下一轮训练。当第一损失值小于或等于第一预设损失值,或者迭代训练次数达到预设迭代值时,停止训练,将训练好的第二初始模型确定为分类模型。[0179]此外,根据预测段落与段落标签,可以计算第二网络模型的损失函数,生成第一损失值,其中,该损失函数可以为对数损失函数、交叉熵损失函数、最大损失函数等等。[0180]需要说明的是,损失函数可以用来评价模型的预测结果和真实结果之间不一样的程度,损失函数越好,通常模型的性能越好,不同类型的模型优先使用的损失函数一般也不一样。交叉熵损失函数本质上也是一种对数似然函数,可用于二分类和多分类任务中,当计算得到的第一损失值较大的时候,表示真实结果与预测结果之间的误差较大,此时模型的参数可以更新的快,当计算得到的第一损失值小的时候,表示真实结果与预测结果之间的误差较小,此时模型的参数可以更新的慢,使用交叉熵损失函数在进行梯度计算的时候可以避免出现梯度弥散。[0181]实际应用中,模型一般分为2类,分类模型和回归模型,对于分类模型而言,一般优先使用交叉熵损失函数,从而避免出现梯度弥散。由于本技术中的第二网络模型实际是识别样本文本中对应哪个段落为包含合约方实体信息的问题,即实际上为一种分类模型,因而本技术实施例中优先使用交叉熵损失函数,对第二网络模型进行训练。[0182]具体实现时,基于预测段落与段落标签确定第一损失值可以通过如下式(3)计算得到:[0183][0184]其中,loss3表示第二网络模型的第一损失值,l表示需要第二网络模型分类的类别数,s(i)表示段落标签,即真实结果,f(t(i))表示第二网络模型输出的预测段落,即预测结果。[0185]一种可能的实现方式中,第二网络模型是一种神经网络模型,在基于计算得到的第一损失值调整第二网络模型的参数时,可以通过第一损失值反向梯度传播调整第二网络模型的参数。具体的,在计算得到第一损失值之后,可以将该第一损失值传递给第二网络模型的最后一层,该第一损失值可以表示当前误差的大小,因而最后一层可以自动根据接收到的第一损失值调整自身参数,之后最后一层可以将第一损失值反向传递给前一层,前一层接收到第一损失值后,也可以自动根据接收到的第一损失值调整自身参数,以此类推,直至第一损失值传递至第二网络模型的第一层,完成一次参数调整。[0186]需要说明的是,段落标签是样本文本的真实结果,预测段落是样本文本的预测结果,通过计算第一损失值可以直观的示出第二网络模型的预测结果与真实结果之间的差异,再基于第一损失值对第二网络模型进行针对性训练,调整参数,可以有效提高第二网络模型训练的速率及识别层训练的效果。[0187]需要说明的是,步骤1002-步骤1006是对上述步骤502中的分类模型进行训练的一种具体实现方式。[0188]本技术实施例中,通过提取样本文本,将样本文本输入至第二网络模型,得到样本文本中的预测段落,接着根据预测段落与样本文本携带的段落标签,确定第一损失值,然后,若第一损失值大于第一预设损失值,则调整第二网络模型的参数,并返回执行提取样本文本的步骤,直至达到训练停止条件,停止训练,确定完成训练的第二网络模型为分类模型,能够提供一种提取目标合约文本中携带有合约方实体信息的初始段落的有效方法,提高了确定初始段落的效率,避免人工标注出错的问题。[0189]图11a是根据本技术实施例提供的一种合约信息提取方法中,获取目标合约文本的方法的流程图,包括步骤1102至步骤1104。[0190]步骤1102:将目标段落输入至预先训练的合约基本信息抽取模型中,得到目标段落中的至少一个合约实体以及对应的实体类型,其中,合约基本信息抽取模型基于携带有实体标签和实体类型标签的第二样本段落训练得到。[0191]步骤1104:将至少一个合约实体以及对应的实体类型和目标合约方标识对应的合约信息合并为目标合约文本对应的合约文本信息。[0192]具体的,合约基本信息抽取模型是一种基于深度学习的语言模型,通过合约基本信息抽取模型可以获得目标段落的合约实体以及合约实体对应的实体类型,合约基本信息抽取模型模型可以是基于转换器的双向编码表征(bert,bidirectionalencoderrepresentationfromtransformers)模型,还可以是bert模型与条件随机场(crf,conditionalrandomfields)结合的模型,还可以是其他深度学习的神经网络模型,本技术对此不做限定;合约实体是指目标段落中出现的针对现实世界中客观存在的并可以相互区分的对象或事物,比如人名、地址名、一个合约名、日期等;实体类型是指合约实体的类型,如合约实体为“2020年1月1日”,则实体类型为“签订日期”;第二样本段落是指用于训练合约基本信息抽取模型的训练样本,实体标签和实体类型标签用于监督合约基本信息抽取模型的训练效果。[0193]在本说明书实施例的一种可能的实现方式中,在确定了目标段落之后,需要将目标段落输入至训练好的合约基本信息抽取模型中,然后合约基本信息抽取模型对目标段落进行分析,可以先提取出目标段落中的各个合约实体,然后针对任意一个合约实体,识别该合约实体的实体类型;或者从目标段落中提取出一个合约实体,并识别该合约实体的实体类型,然后从目标段落中提取出下一个合约实体,以此类推。如此,可以提高提取合约实体以及对应的实体类型的速度和准确度。进一步地,将至少一个合约实体以及对应的实体类型和目标合约方标识对应的合约信息进行合并,得到目标合约文本对应的合约文本信息。如此,将多个模型结合更加准确地抽取出合约基本信息(至少一个合约实体以及对应的实体类型)和目标合约方标识对应的合约信息,此外两个模型可以并行运算,计算速度不变的情况下优化了抽取的准确度,并提高了提取目标合约文本对应的合约文本信息的效率。[0194]参见表3,表3为一种合约文本信息,其中包含4个合约实体以及对应的实体类型和两个目标合约方标识对应的合约信息,4个合约实体以及对应的实体类型分别为:合约实体“某某合约”对应实体类型“合约名称”、合约实体“123123”对应实体类型“合约编号”、合约实体“2020年1月1日”对应实体类型“签订日期”、合约实体“2020年1月1日”对应实体类型“签订日期”;两个目标合约方标识对应的合约信息为:目标合约方标识“合约方1”对应的合约信息和目标合约方标识“合约方2”对应的合约信息。“合约方1”对应的合约信息包括:合约方角色——甲方、合约方名称1——23456有限公司、合约方地址——a市b县、合约方电话——1111111和合约方代表人——小花;“合约方2”对应的合约信息包括:合约方角色——乙方、合约方名称——654321有限公司、合约方地址——c市d县、合约方电话——2222222和合约方代表人——小草。[0195]表3一种合约文本信息[0196][0197][0198]参见图11b,图11b示出了根据本技术实施例提供的一种合约信息提取方法中,获取目标合约文本的方法的处理流程图:先获取目标合约文本,然后从目标合约文本中提取目标段落。进一步地,对目标段落进行两种处理:第一种确定目标合约方标识对应的合约信息,也即将目标段落输入至信息集抽取模型中,得到目标段落对应的至少一个信息集确定目标合约方标识对应的至少一个目标信息集,并根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息;第二种,确定至少一个合约实体以及对应的实体类型,也即将目标段落输入至合约基本信息抽取模型中,得到目标段落中的至少一个合约实体以及对应的实体类型。最后将目标合约方标识对应的合约信息和至少一个合约实体以及对应的实体类型进行合并,确定目标合约文本对应的合约文本信息。[0199]本技术实施例中,通过将目标段落输入至预先训练的合约基本信息抽取模型中,得到目标段落中的至少一个合约实体以及对应的实体类型,其中,合约基本信息抽取模型基于携带有实体标签和实体类型标签的第二样本段落训练得到;将至少一个合约实体以及对应的实体类型和目标合约方标识对应的合约信息合并为目标合约文本对应的合约文本信息,能够基于合约基本信息抽取模型抽取合约基本信息(至少一个合约实体以及对应的实体类型)、基于信息集抽取模型抽取合约信息,将多个模型结合更加准确地确定合约基本信息和合约信息,此外两个模型可以并行运算,计算速度不变的情况下优化了抽取准确度,并提高了提取目标合约文本对应的合约文本信息的效率。[0200]图12是根据本技术实施例提供的一种合约信息提取方法中,训练合约基本信息抽取模型的方法的流程图,包括步骤1202至步骤1206。[0201]步骤1202:提取第二样本段落,将第二样本段落输入第三网络模型,得到第二样本段落中的预测合约实体以及对应的预测实体类型。[0202]步骤1204:根据预测合约实体、预测实体类型以及第二样本段落携带的实体标签和实体类型标签,确定第二损失值。[0203]步骤1206:若第二损失值大于第二预设损失值,则调整第三网络模型的参数,并返回执行提取第二样本段落的步骤,直至达到训练停止条件,停止训练,确定完成训练的第三网络模型为合约基本信息抽取模型。[0204]具体的,第三网络模型是一种基于深度学习的语言模型,是指还未进行训练的分类模型;第二损失值是指基于预测合约实体以及对应的预测实体类型、实体标签和实体类型标签之间的差异性确定的数值;第二预设损失值是指预先设置的一个数值,用于衡量合约基本信息抽取模型是否达标;训练停止条件可以是第二损失值小于或等于第二预设损失值,还可以是迭代训练次数达到预设迭代值。[0205]实际应用中,可以从第二样本段落训练集中提取一个第二样本段落,然后将第二样本段落输入至第三网络模型,接着第三网络模型对第二样本段落进行解析,根据解析结果确定第二样本段落中的预测合约实体以及对应的预测实体类型。进一步地,将预测合约实体以及对应的预测实体类型与第二样本段落携带的实体标签和实体类型标签进行对比,根据预设的损失函数,确定第二损失值。进而比较第二损失值与第二预设损失值的大小,在第二损失值大于第二预设损失值的情况下,调整第三初始模型的参数。然后再次从第二样本段落训练集中提取一个第二样本段落,进行下一轮训练。当第二损失值小于或等于第二预设损失值,或者迭代训练次数达到预设迭代值时,停止训练,将训练好的第三初始模型确定为分类模型。[0206]此外,根据预测合约实体、预测实体类型以及第二样本段落携带的实体标签和实体类型标签,可以计算第三网络模型的损失函数,生成第二损失值,其中,该损失函数可以为对数损失函数、交叉熵损失函数、最大损失函数等等。[0207]需要说明的是,损失函数可以用来评价模型的预测结果和真实结果之间不一样的程度,损失函数越好,通常模型的性能越好,不同类型的模型优先使用的损失函数一般也不一样。交叉熵损失函数本质上也是一种对数似然函数,可用于二分类和多分类任务中,当计算得到的第二损失值较大的时候,表示真实结果与预测结果之间的误差较大,此时模型的参数可以更新的快,当计算得到的第二损失值小的时候,表示真实结果与预测结果之间的误差较小,此时模型的参数可以更新的慢,使用交叉熵损失函数在进行梯度计算的时候可以避免出现梯度弥散。[0208]实际应用中,模型一般分为2类,分类模型和回归模型,对于分类模型而言,一般优先使用交叉熵损失函数,从而避免出现梯度弥散。由于本技术中的第三网络模型实际是识别第二样本段落中的内容哪些为合约实体,即实际上为一种分类模型,因而本技术实施例中优先使用交叉熵损失函数,对识别层进行训练。[0209]具体实现时,基于预测合约实体、预测实体类型、实体标签和实体类型标签确定第二损失值可以通过如下式(4)计算得到:[0210][0211]其中,loss4表示第三网络模型的第二损失值,r表示需要第三网络模型分类的类别数,g(i)表示实体标签和实体类型标签,即真实结果,f(h(i))表示第二网络模型输出的预测合约实体和预测实体类型,即预测结果。[0212]一种可能的实现方式中,第三网络模型是一种神经网络模型,在基于计算得到的第二损失值调整第三网络模型的参数时,可以通过第二损失值反向梯度传播调整第三网络模型的参数。具体的,在计算得到第二损失值之后,可以将该第二损失值传递给第三网络模型的最后一层,该第二损失值可以表示当前误差的大小,因而最后一层可以自动根据接收到的第二损失值调整自身参数,之后最后一层可以将第二损失值反向传递给前一层,前一层接收到第二损失值后,也可以自动根据接收到的第二损失值调整自身参数,以此类推,直至第二损失值传递至第三网络模型的第一层,完成一次参数调整。[0213]需要说明的是,实体标签和实体类型标签是第二样本段落的真实结果,预测合约实体和预测实体类型是第二样本段落的预测结果,通过计算第二损失值可以直观的示出第三网络模型的预测结果与真实结果之间的差异,再基于第二损失值对第三网络模型进行针对性训练,调整参数,可以有效提高第三网络模型训练的速率及识别层训练的效果。[0214]需要说明的是,步骤1202-步骤1206是对上述步骤1102中的合约基本信息抽取模型进行训练的一种具体实现方式。[0215]本技术实施例中,通过提取第二样本段落,将第二样本段落输入第三网络模型,得到第二样本段落中的预测合约实体以及对应的预测实体类型;根据预测合约实体、预测实体类型以及第二样本段落携带的实体标签和实体类型标签,确定第二损失值;若第二损失值大于第二预设损失值,则调整第三网络模型的参数,并返回执行提取第二样本段落的步骤,直至达到训练停止条件,停止训练,确定完成训练的第三网络模型为合约基本信息抽取模型,能够提供一种提取目标段落中包含的合约实体以及对应的实体类型的有效方法,提高了确定合约实体以及对应的实体类型的效率,避免人工标注出错的问题。[0216]下述结合附图13,对所述合约信息提取方法进行进一步说明。其中,图13示出了本技术一实施例提供的一种合约信息提取方法的处理流程图,包括步骤1302至步骤1336。[0217]步骤1302:提取第一样本段落,将第一样本段落输入至第一网络模型的识别层,得到第一样本段落对应的预测合约方标识。[0218]步骤1304:将第一样本段落和预测合约方标识输入至第一网络模型的抽取层,得到预测合约方标识对应的预测信息类别和预测合约方实体信息。[0219]步骤1306:根据预测合约方标识、预测信息类别和预测合约方实体信息,确定第一样本段落对应的预测信息集。[0220]步骤1308:对比预测信息集与第一样本段落携带的信息集标签,得到差异值。[0221]其中,信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签。[0222]可选地,对比预测信息集与第一样本段落携带的信息集标签,包括:[0223]对比预测合约方标识和合约方标识标签,得到第一差异值;[0224]对比预测合约方标识和合约方标识标签、预测信息类别和信息类别标签、以及预测合约方实体信息和合约方实体信息标签,得到第二差异值。[0225]步骤1310:若差异值大于预设阈值,则调整识别层和抽取层的参数,并返回执行提取第一样本段落的步骤,直至达到训练停止条件,停止训练,确定完成训练的识别层、抽取层和第一网络模型分别为合约方识别层、关系抽取层和信息集抽取模型。[0226]可选地,若差异值大于预设阈值,则调整识别层和抽取层的参数,包括:[0227]若第一差异值大于预设阈值中的第一预设阈值,则调整识别层的参数;[0228]若第二差异值大于预设阈值中的第二预设阈值,则调整抽取层的参数。[0229]步骤1312:提取样本文本,将样本文本输入至第二网络模型,得到样本文本中的预测段落。[0230]步骤1314:根据预测段落与样本文本携带的段落标签,确定第一损失值。[0231]其中,段落标签为样本文本中包含合约方实体信息的段落。[0232]步骤1316:若第一损失值大于第一预设损失值,则调整第二网络模型的参数,并返回执行提取样本文本的步骤,直至达到训练停止条件,停止训练,确定完成训练的第二网络模型为分类模型。[0233]步骤1318:提取第二样本段落,将第二样本段落输入第三网络模型,得到第二样本段落中的预测合约实体以及对应的预测实体类型。[0234]步骤1320:根据预测合约实体、预测实体类型以及第二样本段落携带的实体标签和实体类型标签,确定第二损失值。[0235]步骤1322:若第二损失值大于第二预设损失值,则调整第三网络模型的参数,并返回执行提取第二样本段落的步骤,直至达到训练停止条件,停止训练,确定完成训练的第三网络模型为合约基本信息抽取模型。[0236]步骤1324:获取初始合约文本。[0237]步骤1326:在初始合约文本的格式为非目标格式的情况下,将初始合约文本的格式转换为目标格式,得到目标合约文本。[0238]步骤1328:利用预先训练的分类模型,将包含合约方实体信息的段落确定为初始段落,得到至少一个初始段落。[0239]其中,初始段落包含合约方实体信息。[0240]步骤1330:确定各初始段落在目标合约文本中的段落序号。[0241]步骤1332:将段落序号相连的多个初始段落进行整合,得到目标段落;将不存在相邻段落序号的初始段落,确定为目标段落。[0242]步骤1334:将目标段落输入至信息集抽取模型的合约方识别层,得到目标段落对应的合约方标识。[0243]合约方识别层包括向量转换单元和矩阵变化单元;[0244]将目标段落输入至合约方识别层,得到目标段落对应的合约方标识,包括:[0245]将目标段落输入至向量转换单元,得到目标段落中各文字单元对应的向量;[0246]将各文字单元对应的向量分别输入至矩阵变化单元,得到各文字单元相对于各合约方标识的概率值;[0247]针对各文字单元中的任一文字单元,将该文字单元对应的目标概率值对应的合约方标识,确定为该文字单元对应的合约方标识,其中,目标概率值为大于预设值的概率值。[0248]步骤1336:将目标段落和目标段落对应的合约方标识输入至信息集抽取模型的关系抽取层,得到合约方标识对应的信息类别和合约方实体信息。[0249]步骤1338:根据合约方标识和合约方标识对应的信息类别和合约方实体信息,确定目标段落对应的至少一个信息集。[0250]步骤1340:确定目标合约方标识对应的至少一个目标信息集。[0251]步骤1342:根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。[0252]步骤1344:将目标段落输入至预先训练的合约基本信息抽取模型中,得到目标段落中的至少一个合约实体以及对应的实体类型;[0253]步骤1346:将至少一个合约实体以及对应的实体类型和目标合约方标识对应的合约信息合并为目标合约文本对应的合约文本信息。[0254]本技术提供的合约信息方法,通过将目标段落输入至预先训练的信息集抽取模型中,确定目标段落对应的至少一个信息集,在提取出合约方实体信息的同时,还提取出了表征实体信息与合约方标识之间的关系的信息类别,利用信息集抽取模型自动学习实体之间的关系,避免了使用人工规则确定信息集的局限性,不仅提高了确定合约信息的效率,还提高了合约信息的精准度。[0255]与上述方法实施例相对应,本技术还提供了合约信息提取装置实施例,图14示出了本技术一实施例提供的一种合约信息提取装置的结构示意图。如图14所示,该装置包括:[0256]提取模块1402,被配置为获取目标合约文本,提取目标合约文本中的目标段落,其中,目标段落包含合约方实体信息;[0257]输入模块1404,被配置为将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,其中,信息集中包含合约方标识、信息类别和合约方实体信息,信息集抽取模型基于携带有信息集标签的第一样本段落训练得到,信息集标签包括合约方标识标签、信息类别标签和合约方实体信息标签;[0258]第一确定模块1406,被配置为确定目标合约方标识对应的至少一个目标信息集;[0259]第二确定模块1408,被配置为根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。[0260]可选地,提取模块1402,还被配置为:[0261]获取初始合约文本;[0262]在初始合约文本的格式为非目标格式的情况下,将初始合约文本的格式转换为目标格式,得到目标合约文本。[0263]可选地,提取模块1402,还被配置为:[0264]提取目标合约文本中的至少一个初始段落,其中,初始段落包含合约方实体信息;[0265]确定各初始段落在目标合约文本中的段落序号;[0266]将段落序号相连的多个初始段落进行整合,得到目标段落;[0267]将不存在相邻段落序号的初始段落,确定为目标段落。[0268]可选地,提取模块1402,还被配置为:[0269]利用预先训练的分类模型,分别判断目标合约文本中的各段落是否包含合约方实体信息,其中,分类模型基于携带有段落标签的样本文本训练得到,段落标签为样本文本中包含合约方实体信息的段落;[0270]若是,则将包含合约方实体信息的段落确定为初始段落。[0271]可选地,信息集抽取模型包括合约方识别层和关系抽取层;[0272]输入模块1404,还被配置为:[0273]将目标段落输入至合约方识别层,得到目标段落对应的合约方标识;[0274]将目标段落和目标段落对应的合约方标识输入至关系抽取层,得到合约方标识对应的信息类别和合约方实体信息;[0275]根据合约方标识和合约方标识对应的信息类别和合约方实体信息,确定目标段落对应的至少一个信息集。[0276]可选地,合约方识别层包括向量转换单元和矩阵变化单元;[0277]输入模块1404,还被配置为:[0278]将目标段落输入至向量转换单元,得到目标段落中各文字单元对应的向量;[0279]将各文字单元对应的向量分别输入至矩阵变化单元,得到各文字单元相对于各合约方标识的概率值;[0280]针对各文字单元中的任一文字单元,将该文字单元对应的目标概率值对应的合约方标识,确定为该文字单元对应的合约方标识,其中,目标概率值为大于预设值的概率值。[0281]可选地,该装置还包括第一训练模块,被配置为:[0282]提取第一样本段落,将第一样本段落输入至第一网络模型的识别层,得到第一样本段落对应的预测合约方标识;[0283]将第一样本段落和预测合约方标识输入至第一网络模型的抽取层,得到预测合约方标识对应的预测信息类别和预测合约方实体信息;[0284]根据预测合约方标识、预测信息类别和预测合约方实体信息,确定第一样本段落对应的预测信息集;[0285]对比预测信息集与第一样本段落携带的信息集标签,得到差异值;[0286]若差异值大于预设阈值,则调整识别层和抽取层的参数,并返回执行提取第一样本段落的步骤,直至达到训练停止条件,停止训练,确定完成训练的识别层、抽取层和第一网络模型分别为合约方识别层、关系抽取层和信息集抽取模型。[0287]可选地,第一训练模块,还被配置为:[0288]对比预测合约方标识和合约方标识标签,得到第一差异值;[0289]对比预测合约方标识和合约方标识标签、预测信息类别和信息类别标签、以及预测合约方实体信息和合约方实体信息标签,得到第二差异值;[0290]若差异值大于预设阈值,则调整识别层和抽取层的参数,包括:[0291]若第一差异值大于预设阈值中的第一预设阈值,则调整识别层的参数;[0292]若第二差异值大于预设阈值中的第二预设阈值,则调整抽取层的参数。[0293]可选地,该装置还包括第二训练模块,被配置为:[0294]提取样本文本,将样本文本输入至第二网络模型,得到样本文本中的预测段落;[0295]根据预测段落与样本文本携带的段落标签,确定第一损失值;[0296]若第一损失值大于第一预设损失值,则调整第二网络模型的参数,并返回执行提取样本文本的步骤,直至达到训练停止条件,停止训练,确定完成训练的第二网络模型为分类模型。[0297]可选地,该装置还包括合并模块,被配置为:[0298]将所述目标段落输入至预先训练的合约基本信息抽取模型中,得到所述目标段落中的至少一个合约实体以及对应的实体类型,其中,所述合约基本信息抽取模型基于携带有实体标签和实体类型标签的第二样本段落训练得到;[0299]将所述至少一个合约实体以及对应的实体类型和所述目标合约方标识对应的合约信息合并为所述目标合约文本对应的合约文本信息。[0300]可选地,该装置还包括第三训练模块,被配置为:[0301]提取第二样本段落,将所述第二样本段落输入第三网络模型,得到所述第二样本段落中的预测合约实体以及对应的预测实体类型;[0302]根据所述预测合约实体、所述预测实体类型以及所述第二样本段落携带的所述实体标签和所述实体类型标签,确定第二损失值;[0303]若所述第二损失值大于第二预设损失值,则调整所述第三网络模型的参数,并返回执行所述提取第二样本段落的步骤,直至达到训练停止条件,停止训练,确定完成训练的第三网络模型为合约基本信息抽取模型。[0304]本技术提供的合约信息提取装置,通过获取目标合约文本,提取目标合约文本中的目标段落,然后将目标段落输入至预先训练的信息集抽取模型中,得到目标段落对应的至少一个信息集,进一步确定目标合约方标识对应的至少一个目标信息集,根据各目标信息集中的信息类别和合约方实体信息,确定目标合约方标识对应的合约信息。通过上述方法,将目标段落输入至预先训练的信息集抽取模型中,确定目标段落对应的至少一个信息集,在提取出合约方实体信息的同时,还提取出了表征实体信息与合约方标识之间的关系的信息类别,利用信息集抽取模型自动学习实体之间的关系,避免了使用人工规则确定信息集的局限性,不仅提高了确定合约信息的效率,还提高了合约信息的精准度。[0305]上述为本实施例的一种合约信息提取装置的示意性方案。需要说明的是,该合约信息提取装置的技术方案与上述的合约信息提取方法的技术方案属于同一构思,合约信息提取装置的技术方案未详细描述的细节内容,均可以参见上述合约信息提取方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。[0306]图15示出了根据本技术一实施例提供的一种计算设备1500的结构框图。该计算设备1500的部件包括但不限于存储器1510和处理器1520。处理器1520与存储器1510通过总线1530相连接,数据库1550用于保存数据。[0307]计算设备1500还包括接入设备1540,接入设备1540使得计算设备1500能够经由一个或多个网络1560通信。这些网络的示例包括公用交换电话网(pstn,publicswitchedtelephonenetwork)、局域网(lan,localareanetwork)、广域网(wan,wideareanetwork)、个域网(pan,personalareanetwork)或诸如因特网的通信网络的组合。接入设备1540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic,networkinterfacecontroller))中的一个或多个,诸如ieee802.11无线局域网(wlan,wirelesslocalareanetwork)无线接口、全球微波互联接入(wi-max,worldwideinteroperabilityformicrowaveaccess)接口、以太网接口、通用串行总线(usb,universalserialbus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,nearfieldcommunication)接口,等等。[0308]在本技术的一个实施例中,计算设备1500的上述部件以及图15中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图15所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。[0309]计算设备1500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备1500还可以是移动式或静止式的服务器。[0310]其中,处理器1520用于执行所述合约信息提取方法的计算机可执行指令。[0311]上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的合约信息提取方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述合约信息提取方法的技术方案的描述。[0312]本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于合约信息提取方法。[0313]上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的合约信息提取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述合约信息提取方法的技术方案的描述。[0314]本技术实施例公开了一种芯片,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述合约信息提取方法的步骤。[0315]上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。[0316]所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。[0317]需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。[0318]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。[0319]以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属
技术领域
:技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1