[0001]
本申请涉及信息技术领域,特别是涉及一种篇章解析方法、电子设备和存储装置。
背景技术:[0002]
在日常工作、生活中,人们或多或少需要阅读合同文本、规章条款、期刊论文等篇章。然而,阅读、理解篇章通常需要占用一段时间,在篇章较为冗长的情况下,甚至需要花费较长时间才能消化整个篇章。有鉴于此,为辅助阅读、理解篇章,如何加深篇章解析深度成为极具研究价值的课题。
技术实现要素:[0003]
本申请主要解决的技术问题是提供一种篇章解析方法、电子设备和存储装置,能够加深篇章解析深度。
[0004]
为了解决上述问题,本申请第一方面提供了一种篇章解析方法,包括:获取待解析篇章;其中,待解析篇章包括若干段落;对若干段落进行识别,将属于同一主题类型且连续的段落,作为与主题类型对应的区段;分别确定与同一主题类型对应的区段之间的编辑关系。
[0005]
为了解决上述问题,本申请第二方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的篇章解析方法。
[0006]
为了解决上述问题,本申请第三方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的篇章解析方法。
[0007]
上述方案,获取包含若干段落的待解析篇章,并对若干段落进行识别,将属于同一主题类型且连续的段落,作为与主题类型对应的区段,从而分别确定与同一主题类型对应的区段之间的编辑关系。故此,不仅能够在篇章结构层面,识别出与主题类型对应的区段,还能够在篇章语义层面,分别确定同一主题类型下的区段之间的编辑关系,从而能够有利于从篇章结构以及进一步的偏篇章语义两个维度,加深篇章解析深度。
附图说明
[0008]
图1是本申请篇章解析方法一实施例的流程示意图;
[0009]
图2是文本识别一实施例的状态示意图;
[0010]
图3是文本识别另一实施例的状态示意图;
[0011]
图4是图1中步骤s12一实施例的流程示意图;
[0012]
图5是主题类型识别模型一实施例的框架示意图;
[0013]
图6是预设语句和定义关键词相似度计算一实施例的状态示意图;
[0014]
图7是图1中步骤s13一实施例的流程示意图;
[0015]
图8是区段关系预测模型一实施例的框架示意图;
[0016]
图9是本申请电子设备一实施例的框架示意图;
[0017]
图10是本申请存储装置一实施例的框架示意图。
具体实施方式
[0018]
下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0019]
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
[0020]
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
[0021]
请参阅图1,图1是本申请篇章解析方法一实施例的流程示意图。具体而言,可以包括如下步骤:
[0022]
步骤s11:获取待解析篇章,其中,待解析篇章包括若干段落。
[0023]
本公开实施例中,待解析篇章可以是文本格式存储的,具体可以包括但不限于:合同文本、文献论文、会议章程、分析报告等,具体可以根据实际应用需要进行设置,在此不做限定。例如,在需要对经历多次修订的会议章程进行解析的情况下,待解析篇章可以包括历次修订的会议章程;或者,在需要对销售合同进行解析的情况下,待解析篇章可以包括销售合同,其他情况可以以此类推,在此不再一一举例。
[0024]
本公开实施例中,待解析篇章具体可以包括1个段落、2个段落、3个段落、或4个段落等等,在此不做限定。此外,待解析篇章还可以包括但不限于:各级标题(如,一级标题、二级标题等)、页眉、页脚、表格等,具体可以根据实际情况进行设置,在此不做限定。例如,在待解析篇章为分析报告的情况下,通常会包含多个部分(如,现状调查部分、数据分析部分等),且每一部分通常分别对应有至少一个标题,以与其他部分区别,此外,为了清晰直观地予以展示数据,通常在段落之间还附有表格。其他情况可以以此类推,在此不再一一举例。
[0025]
在一个实施场景中,文本格式的待解析篇章可以直接获取得到。例如,可以直接从销售人员处拷贝得到文本格式的合同文本,或者,可以直接从研发人员处拷贝得到文本格式的文献论文,或者,也可以是从互联网上下载得到文本格式的调查报告,其他情况可以以此类推,在此不再一一举例。
[0026]
在另一个实施场景中,文本格式的待解析篇章可以通过记载有待解析篇章的待处理图像识别得到。例如,可以对历次修订的会议章程的扫描图像进行识别,从而得到文本格式的会议章程;或者,可以对调查报告的拍摄图像进行识别,得到文本格式的调查报告,其他情况可以以此类推,在此不再一一举例。具体地,可以对获取记载有待解析篇章的待处理图像,并对待处理图像进行图像识别,得到若干文本行,并对若干文本行分别进行文本识别,确定文本行的行类型,行类型具体可以包括但不限于:段落起始、正文等,在此不做限定,从而可以利用识别得到的若干文本行和文本行的行类型,得到包含若干段落的待解析篇章。上述方式,通过两阶段识别,即先进行文本识别得到若干文本行,再对若干文本行进行文本识别得到行类型,能够有利于恢复待处理图像丢失的文本结构信息,从而能够有利于提高识别得到的待解析篇章的准确性,进而有利于提高后续篇章解析的准确性。
[0027]
在一个具体的实施场景中,可以采用ocr(optical character recognition,光学字符识别)方式对待处理图像进行图像识别,以得到若干文本行。具体地,可以采用诸如pixel-link、textboxes、textboxes++等文本检测模型对待处理图像进行检测,以检测出待处理图像与各个文本行对应的文本行区域,再利用cnn(convolutional neural network,卷积神经网络)对各个文本行区域进行特征提取,得到每一文本行区域的图像特征,并采用rnn(recurrentneural network,循环神经网络)对图像特征进行预测,得到预测结果,再利用ctc(connectionist temporal classification,联结主义时间分类)对预测结果进行转录,得到文本格式的文本行。
[0028]
在另一个具体的实施场景中,为了提高行类型的准确性,可以提取文本行的行特征,且行特征具体可以包括以下至少一者:文本行的文字内容、文本行在待处理图像中的相对位置、文本行的文字大小,从而利用文本行的行特征,确定文本行的行类型。上述方式,能够综合多种行特征来确定文本行的行类型,从而能够有利于提高行类型的准确性。
[0029]
请结合参阅图2,图2是文本识别一实施例的状态示意图。如图2所示,文本行1、文本行2、
…
、文本行n等若干文本行输入文本行编码网络,可以分别得到与文本行1的文字内容相关的行特征,即文本行文字内容特征1,与文本行2的文字内容相关的行特征,即文本行文字内容特征2,以此类推,以及与文本行n的文字内容相关的行特征,即文本行文字内容特征n,并将每一文本行的文字内容特征以及对应的视觉特征(即图2中,文本行视觉特征1、文本行视觉特征2、
…
、文本行视觉特征n)输入文本行类型预测网络,从而得到对应文本行的行类型。具体地,文本行编码网络可以包括但不限于:bert(bi-directional encoder representation from transformers,基于transformer的双向编码器表示)网络。此外,文本行类型预测网络可以包括但不限于:lstm(long short term memory,长短期记忆网络)。视觉特征可以包括但不限于:文本行在待处理图像中的相对位置(如,文本行相对于待处理图像左边界的位置、相对于有边界的位置、相对于上边界的位置、相对于下边界的位置等)、文本行的文字大小(如,文本行的高度占待处理图像高度的比例、文本行的宽度占待处理图像宽度的比例等),在此不做限定。
[0030]
在又一个具体的实施场景中,请结合参阅图3,图3是文本识别另一实施例的状态示意图。如图3所示,通过对记载有待解析篇章的待处理图像进行识别,可以得到若干以矩形实线框表示的文本行以及以虚线箭头所指的每一文本行的行类型,例如,文本行“公司章程”的行类型为“标题”,文本行“第一条依据《公司法》及有关法律、法”的行类型为“段落起始”等,在此情形下,可以将行类型为“段落起始”的文本行,以及位于该文本之后及下一行类型为“段落起始”的文本行之前且行类型为“正文”的文本行,划分至同一段落。例如,可以将文本行“第一条依据《公司法》及有关法律、法”和文本行“规的规定,由xx和xx两人共同出资,设立”、文本行“xxx有限公司,制定本章程”划分至同一段落,而将文本行“第二条本章程中的各项条件与法律、法”和文本行“规不符的,以法律、法规的规定为准”划分至同一段落。其他情况可以以此类推,在此不再一一举例。
[0031]
步骤s12:对若干段落进行识别,将属于同一主题类型且连续的段落,作为与主题类型对应的区段。
[0032]
本公开实施例中,主题类型用于表示段落文字所描述的主旨。以待解析篇章为会议章程为例,主题类型可以包括但不限于:决策事项、决议流程等;或者,以待解析篇章为文
献论文为例,主题类型可以包括但不限于:背景技术、理论介绍、实验设计、实验结果分析等;其他情况可以根据实际情况进行设置,在此不再一一举例。
[0033]
具体地,可以先对若干段落进行识别,得到各个段落所属的主题类型,再将属于同一主题类型且连续的段落,作为与主题类型对应的区段。以待解析篇章为会议章程为例,在待解析篇章依序包括:段落1、段落2、段落3、段落4、段落5的情况下,若段落1的主题类型识别为“决策事项”、段落2至段落5的主题类型识别为“决议流程”,则可以将段落1作为与主题类型“决策事项”对应的区段,并将段落2至段落5作为与主题类型“决议流程”对应的区段,其他情况可以以此类推,在此不再一一举例。
[0034]
在一个实施场景中,为了提高确定主题类型的效率,可以预先训练一主题类型识别模型,从而可以将若干段落作为主题类型识别模型的输入数据进行处理,进而识别得到各个段落的主题类型。具体地,主题类型识别模型具体可以包括编码子网络和预测子网络,编码子网络用于对段落进行编码,从而得到各个段落的编码表示,预测子网络用于根据各个段落的编码表示,得到各个段落属分别属于若干主题类型的概率值,从而可以将最大概率值对应的主题类型,作为段落的主题类型。以待解析篇章为会议章程为例,在预测得到段落1属于“决策事项”的概率值为90%,属于“决议流程”的概率值为10%的情况下,可以将“决策事项”作为段落1所属的主题类型。其他情况可以以此类推,在此不再一一举例。
[0035]
在一个具体的实施场景中,编码子网络具体可以包括但不限于:bert模型,预测子网络可以至少包括顺序连接的全连接层和softmax层等,在此不做限定。
[0036]
在一个实施场景中,还可以为主题类型设置若干定义语句,从而利用主题类型的若干定义语句,对若干段落进行识别,确定各个段落所属的主题类型。具体地,可以计算各个段落分别与主题类型的若干定义语句的相关度,并在段落与某一主题类型的若干定义语句的相关度大于预设相关度阈值的情况下,确定段落属于该主题类型。上述方式,可以通过主题类型的定义语句,来识别得到段落所属的主题类型,能够免于直接预测段落的主题类型,从而能够降低段落对主题类型的敏感度,进而能够有利于在新增主题类型时,只需维护新增主题类型的定义语句即可,而免于重新训练上述主题类型识别模型。
[0037]
在一个具体的实施场景中,主题类型的定义语句包括若干与主题类型密切相关的语句。以待解析篇章为会议章程为例,在主题类型为“决议流程”的情况下,定义语句可以包括但不限于:“决议流程规定了股东大会、董事会议的决议方式”、“会议表决通过的条件”、“应当出席会议人员的规定”等等;或者,以待解析篇章为文献论文为例,在主题类型为“实验设计”的情况下,定义语句可以包括但不限于:“实验前需准备”、“可以从几个维度设计实验”、“实验的注意事项”等等,在此不做限定。其他情况可以以此类推,在此不再一一举例。
[0038]
在另一个具体的实施场景中,可以对主题类型的若干定义语句进行编码,得到每一定义语句的编码表示,并对段落进行编码,得到段落的编码表示,从而可以计算段落的编码表示与各个定义语句的编码表示之间的相似度,进而可以通过统计与各个定义语句的编码表示之间的相关度,得到段落与该主题类型的总体相关度,类似地,可以分别得到段落与其他各个主题类型的总体相关度,进而可以将最大的总体相关度所对应的主题类型,作为段落所属的主题类型。仍以待解析篇章为会议章程为例,可以获取段落1与主题类型“决议流程”的各个定义语句之间的相关度,并通过统计与主题类型“决议流程”的各个定义语句之间的相关度,得到段落1与主题类型“决议流程”的总体相关度,类似地,可以得到段落1与
主题类型“决策事项”的总体相相关度,从而可以将最大的总体相关度所对应的主题类型,作为段落1的主题类型。其他情况可以以此类推,在此不再一一举例。
[0039]
步骤s13:分别确定与同一主题类型对应的区段之间的编辑关系。
[0040]
在一个实施场景中,编辑关系可以包括但不限于:等价关系、补充关系、替换关系等等,在此不做限定。
[0041]
在一个具体的实施场景中,等价关系表示两个区段所描述的内容实质相同,例如,区段1为“xxxx年xx月xx日,xxx有限公司出资xx万元,占注册资本xx%”,区段2为“xxx有限公司于xxxx年xx月xx日出资xx万元,占注册资本xx%”,区段1和区段2虽然字面描述不同,但内容实质相同,故区段1和区段2为等价关系。其他情况可以以此类推,在此不再一一举例。
[0042]
在另一个具体的实施场景中,补充关系表示某一区段所描述的内容是另一区段所描述的内容的真子集。例如,区段1为“xxxx年xx月xx日,xxx有限公司出资xx万元,占注册资本xx%”,区段2为“xxx有限公司于xxxx年xx月xx日出资xx万元,占注册资本xx%,并于xxxx年xx月xx日又增资xx万元”,区段2在区段1的基础上,实质增加了“并于xxxx年xx月xx日又增资xx万元”的描述,故区段1和区段2为补充关系。其他情况可以以此类推,在此不再一一举例。
[0043]
在又一个具体的实施场景中,替换关系表示某一区段所描述的内容作废,并由另一区段所描述的内容替换。例如,区段1为“xxxx年xx月xx日,xxx有限公司出资xx万元,占注册资本xx%”,区段2为“xxx有限公司修改出资额,改为出资xxx万元,占注册资本xx%”,区段2实质替换了区段1的描述,故区段1和区段2为替换关系。其他情况可以以此类推,在此不再一一举例。
[0044]
在一个实施场景中,可以分别将与同一主题类型对应的区段,作为待解析区段,并利用待解析区段的区段特征,确定待解析区段之间的编辑关系,且区段特征包括以下至少一者:待解析区段的内容、待解析区段在待解析篇章中的位置。在此基础上,分别对至少一个主题类型对应的区段执行上述操作,最终可以确定上述至少一个主题类型对应的区段之间的编辑关系。上述至少一个主题类型可以根据实际应用需要进行设置。以待解析篇章为会议章程为例,主题类型可以是“决策事项”、“决议流程”中的至少一个,例如,用户比较关注“决策事项”主题类型下各个区段之间的编辑关系,则上述至少一个主题类型可以是“决策事项”,或者,用户对“决策事项”、“决议流程”主题类型下的各个区段之间的编辑关系均比较关注,则上述至少一个主题类型可以是“决策事项”和“决议流程”,其他情况可以以此类推,在此不再一一举例。上述方式,可以综合待解析区段的内容,在待解析篇章中的位置等多个维度,来确定编辑关系,从而能够有利于提高编辑关系的准确性。
[0045]
在一个具体的实施场景中,可以预先训练一区段关系预测模型,从而可以将待解析区段的区段特征输入区段关系预测模型,进而可以预测得到待解析区段之间的编辑关系。具体地,区段关系预测模型可以包括用于提取待解析区段的区段嵌入表示的区段编码网络,以及用于基于区段嵌入表示预测编辑关系的关系预测网络。区段编码网络具体可以包括但不限于:bert模型,关系预测网络具体可以包括但不限于:关系抽取模型(relation extractor)。
[0046]
在另一个具体的实施场景中,待解析区段在待解析篇章中的位置具体可以包括待
解析区段在待解析篇章中的页码。
[0047]
在又一个具体的实施场景中,在待解析区段包括表格的情况下,待解析区段的区段特征可以包括以下至少一者:表格的表头、表格的标题。上述方式,能够进一步丰富区段特征的表现维度,从而能够有利于进一步提高编辑关系的准确性。
[0048]
上述方案,获取包含若干段落的待解析篇章,并对若干段落进行识别,将属于同一主题类型且连续的段落,作为与主题类型对应的区段,从而分别确定与同一主题类型对应的区段之间的编辑关系。故此,不仅能够在篇章结构层面,识别出与主题类型对应的区段,还能够在篇章语义层面,分别确定同一主题类型下的区段之间的编辑关系,从而能够有利于从篇章结构以及进一步的偏篇章语义两个维度,加深篇章解析深度。
[0049]
请参阅图4,图4是图1中步骤s12一实施例的流程示意图。具体地,本公开实施例中,通过采用主题类型的若干定义语句,对若干段落进行识别,确定各个段落所属的主题类型。具体包括如下步骤:
[0050]
步骤s41:分别提取若干段落的第一特征表示,并分别提取若干定义语句的第二特征表示。
[0051]
本公开实施例中,第一特征表示包括若干段落之间的上下文语义信息。如前所述,请结合参阅图5,图5是主题类型识别模型一实施例的框架示意图,主题类型识别模型包含编码子网络,该编码子网络进一步可以包含第一编码子网络和第二编码子网络,若干段落和若干定义语句可以输入第一编码子网络,以提取得到每一段落的第一嵌入表示,并提取得到每一定义语句的第二嵌入表示,进一步地,将若干段落的第一嵌入表示输入第二编码子网络,可以得到对应的第一特征表示,经第二编码子网络处理后,每一特征表示中均包含若干段落的上下文语义信息。具体地,第一编码子网络可以包括但不限于:bert模型,第二编码子网络可以包括但不限于:双向lstm模型,在此不做限定。
[0052]
在一个实施场景中,主题类型的定义语句中,不仅可以包括若干与主题类型相关的语句,为了与之区别,还可以包括与主题类型无关的语句,为了便于描述,可以将与主题类型相关的语句称为正例定义语句,将与主题类型无关的语句称为鉴别定义语句。具体地,鉴别定义语句可以用于区分字面上可能会被认为属于主题类型的段落,通过在若干定义语句中加入鉴别定义语句,可以提高主题类型的准确性。
[0053]
在一个具体的实施场景中,仍以前述决议流程的定义语句为例,诸如“决议流程规定了股东大会、董事会议的决议方式”、“会议表决通过的条件”、“应当出席会议人员的规定”等与决议流程相关语句可以作为主题类型“决议流程”的正例定义语句,而诸如“决议流程不包括会议通知相关事项”等与决议流程无关但易造成混淆的语句可以作为主题类型“决议流程”的鉴别定义语句。例如,段落“公司召开股东大会,股东大会召集人应当于会议召开二十日前通知公司各股东”,该段落的主旨本质上是“会议通知”,与“决议流程”无关,但字面上可能会与“决议流程”混淆,故通过上述鉴别定义语句,可以有效降低其被误认为“决议流程”的概率。
[0054]
在一个实施场景中,主题类型的若干定义语句可以由用户自定义设置。例如,用户可以根据待解析篇章的所涉及的主题类型,自定义地对所涉及的主题类型分别设置若干定义语句。
[0055]
在另一个实施场景中,为了提高获取定义语句的效率,还可以获取主题类型的若
干定义关键词和与主题类型相关的若干预设语句,并分别提取若干定义关键词的特征表示,以及提取若干预设语句的特征表示,从而利用每一预设语句的特征表示分别与若干定义关键词的特征表示的相似度得分,得到对应预设语句的总相似度得分,进而在预设语句的总相似度得分满足预设条件的情况下,将预设语句作为主题类型的定义语句。上述方式,可以仅通过主题类型的若干定义关键词和相关的若干预设语句,即可筛选出主题类型的若干定义语句,从而能够有利于免于人工设置定义语句,进而能够有利于提高获取定义语句的效率。
[0056]
在一个具体的实施场景中,与定义语句类似,主题类型的若干定义关键词具体可以包括正例定义关键词、鉴别定义关键词中的至少一者,其中,正例定义关键词表示与主题类型相关的关键词,而鉴别定义关键词用于与正例定义关键词区别,表示与主题类型无关的关键词。仍以主题类型为“决议流程”为例,正例定义关键词可以包括但不限于:“表决方式”、“出席人员”等,而鉴别定义关键词可以包括但不限于:“会议通知”等,其他情况可以以此类推,在此不再一一举例。具体地,在需要获取主题类型的正例定义语句的情况下,可以获取主题类型的若干正例定义关键词,并执行上述获取与主题类型相关的若干预设语句的步骤以及后续步骤;或者,在需要获取主题类型的鉴别定义语句的情况下,可以获取主题类型的若干鉴别定义关键词,并执行上述获取与主题类型相关的若干预设语句的步骤以及后续步骤。
[0057]
在另一个具体的实施场景中,请结合参阅图6,图6是预设语句和定义关键词相似度计算一实施例的状态示意图。如图6所示,可以分别将若干定义关键词(如,i个正例定义关键词,为了表述描述,可以记为p{t
p1
,t
p2
,
…
,t
pi
},或者,j个鉴别定义关键词,为了便于描述,可以记为n{t
n1
,t
n2
,
…
,t
nj
})输入一编码模型(如bert模型),得到对应定义关键词的特征表示,并将一预设语句输入一编码模型(如bert模型),得到该预设语句的特征表示,则可以获取定义关键词的特征表示与预设语句的特征表示在各个位置处的部分特征表示的相似度得分中的最大值,作为该定义关键词的特征表示与该预设语句的特征表示的相似度得分。例如,对于正例定义关键词t
p1
而言,可以将正例定义关键词t
p1
的长度作为一滑动窗口(如图6虚线矩形所示)的大小,并以预设步长(如,1、2等)在预设语句的特征表示上滑动,每次滑动时截取预设语句在滑动窗口中的部分特征表示,并获取部分特征表示与正例定义关键词t
p1
的相似度得分,并将滑动过程中相似度得分的最大值s
pi
,作为该预设语句与正例定义关键词t
p1
两者特征表示之间相似度得分,类似地,可以分别获取该预设语句与其他正例定义关键词两者特征表示之间相似度得分,从而可以通过下式,获取该预设语句的总相似度得分:
[0058][0059]
上述公式(1)中,s表示预设语句的总相似度得分,|p|表示正例定义关键词的总个数。
[0060]
在又一个具体的实施场景中,与主题类型相关的若干预设语句具体可以从与主题类型相关的文本材料中获取得到。例如,与主题类型“决议”流程相关的若干预设语句可以从与“决议流程”相关的会议章程中获取,与主题类型“实验设计”相关的若干预设语句可以从与“实验设计”相关的文献论文中获取,其他情况可以以此类推,在此不再一一举例。
[0061]
在又一个具体的实施场景中,上述预设条件具体可以包括:总相似度得分大于预设得分阈值。预设得分阈值可以根据实际应用需要进行设置,在此不做限定。例如,在对定义语句的准确度要求较高的情况下,可以将预设得分阈值设置地较大,以最大分值为100分为例,预设得分阈值可以设置为90分、95分等;或者,在对定义语句的准确度要求相对宽松的情况下,可以将预设得分阈值设置地略低,以最大分值为100分为例,预设得分阈值可以设置为75分、85分等,在此不做限定。
[0062]
在又一个具体的实施场景中,为了进一步提高定义语句的准确性,在通过上述方式筛选出主题类型的定义语句之后,还可以输出筛选得到的定义语句,并接收用户对输出的定义语句的检查结果,从而可以根据检查结果,对筛选得到的定义语句进行调整,得到最终的定义语句。具体地,检查结果可以包括对输出的定义语句是否确属于主题类型的判断信息;或者,检查结果也可以包括对输出的定义语句的修改信息,在此不做限定。
[0063]
步骤s42:基于第一特征表示和第二特征表示,确定各个段落所属的主题类型。
[0064]
请继续结合参阅图5,为了便于描述,将m个段落分别对应的第一特征表示记为p,并将n个定义语句对应的第二特征表示记为q,则可以将p和q进行点积处理,得到m*n的相关度矩阵,为了便于描述,可以记为s,相关度矩阵s中每个元素表示段落与定义语句之间的相关度,例如,第一行第一列的元素表示第一个段落与第一个定义语句之间的相关度,其他元素可以以此类推,在此不再一一举例。在此之后,一方面可以对相关度矩阵s在行维度上进行归一化处理(如,softmax),再乘以第二特征表示q,以更新第一特征表示,为了便于描述,可以记为p
′
,另一方面可以对相关度矩阵s在行维度、列维度分别归一化处理(如,softmax),再乘以第一特征表示p,以再次更新第一特征表示,为了便于描述,可以记为p
″
,从而可以基于原始的第一特征表示p,以及利用相关度矩阵s更新之后的第一特征表示p
′
、p
″
,预测得到各个段落与若干定义语句所属的主题类型之间的相关度,从而可以根据各个段落与输入的若干定义语句所属的主题类型之间的相关度,确定段落所属的主题类型。
[0065]
在一个实施场景中,该相关度可以包括:各个段落与若干定义语句所属的主题类型存在相关性的概率值,从而在概率值大于预设概率阈值(如,90%、95%)的情况下,将段落所属的主题类型确定为若干定义语句所属的主题类型。
[0066]
在另一个实施场景中,该相关度也可以包括:各个段落与若干定义语句所属的主题类型是否相关(如,相关,或不相关),从而可以在段落与若干定义语句所属的主题类型相关的情况下,将段落所属的主题类型确定为若干定义语句所属的主题类型。
[0067]
区别于前述实施例,通过分别提取若干段落的第一特征表示,并分别提取若干定义语句的第二特征表示,且第一特征表示包括若干段落之间的上下文语义信息,从而基于第一特征表示和第二特征表示,确定各个段落所属的主题类型,进而能够有利于提高确定主题类型的准确性。
[0068]
请参阅图7,图7是图1中步骤s13一实施例的流程示意图。本公开实施例中,分别将与同一主题类型对应的区段,作为待解析区段,基于此,可以利用待解析区段的区段特征,确定待解析区段之间的编辑关系。具体而言,可以包括如下步骤:
[0069]
步骤s71:利用待解析区段的区段特征进行关系预测,得到待解析区段之间的至少一种候选关系。
[0070]
具体地,可以利用待解析区段的区段特征进行关系预测,得到待解析区段之间的
至少一种候选关系分别对应的第一概率值。区段特征可以包括以下至少一者:待解析区段的内容、待解析区段在待解析篇章中的位置,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
[0071]
在一个实施场景中,请结合参阅图8,图8是区段关系预测模型一实施例的框架示意图。区段关系预测模型具体可以包括区段编码网络(如,bert模型),待解析区段的区段特征(如待解析区段的内容、待解析区段在待解析篇章中的位置)可以作为区段编码网络的输入数据,从而经区段编码网络处理,可以得到对应待解析区段的区段嵌入表示。此外,区段关系预测模型具体还可以包括关系预测网络(如,relation extractor),并将区段嵌入表示作为关系预测网络的输入数据,从而经关系预测网络处理,可以得到待解析区段之间的至少一种候选关系分别对应的第一概率值。以图8所示的待解析区段1、待解析区段2、
…
、待解析区段k为例,经过区段关系预测模型处理,可以得到k*k的编辑概率矩阵,编辑概率矩阵中第i行第j列元素表示第i个待解析区段与第j个待解析区段之间的至少一种候选关系分别对应的第一概率值,例如,第i个待解析区段与第j个待解析区段之间分别为等价关系、替换关系、补充关系的第一概率值。其他情况可以以此类推,在此不再一一举例。
[0072]
在另一个实施场景中,待解析区段之间的至少一种候选关系分别对应的第一概率值除了可以以上述编辑概率矩阵表示之外,还可以通过若干个三元组表示,仍以第i个待解析区段和第j个待解析区段为例,可以利用三元组表示为<第i个待解析区段、第一概率值、第j个待解析区段>。此外,还可以约定三元组中前一个元素是编辑关系的主语,而三元组中后一个元素是编辑关系的宾语。例如,在至少一个候选关系的第一概率值包括替换关系的第一概率值的情况下,可以约定三元组所表示的含义为:前一个元素替换后一个元素的第一概率值;或者,也可以约定三元组中前一个元素是编辑关系的宾语,而三元组中后一个元素是编辑关系的主语。例如,在至少一个候选关系的第一概率值包括替换关系的第一概率值的情况下,可以约定三元组所表示的含义为:后一个元素替换前一个元素的第一概率值。具体可以根据实际需要设置,在此不做限定。
[0073]
步骤s72:对待解析区段之间的至少一种候选关系进行后处理,确定待解析区段之间的编辑关系。
[0074]
在一个实施场景中,可以先将第一概率值由大到小进行排序,并选取第一位第一概率值(即最大的第一概率值)所对应的候选关系,作为待解析区段之间的临时关系,在对临时关系进行检测,若待解析区段之间存在一对矛盾的临时关系,则可以将该对临时关系中对应的第一概率值较小的删除,并替换为第二位第一概率值(即次大的第一概率值)所对应的候选关系,作为临时关系,重新进行检测,直至不存在矛盾的临时关系为止。例如,请结合参阅表1,表1为预测得到的待解析区段关系示意表,其中,起始段落对应于三元组作为主语的元素,而指向段落对应于三元组作为宾语的元素,如表1所示,待解析区段1与待解析区段2之间替换关系的第一概率值为0.88,且在所有候选关系中最大,待解析区段2与待解析区段3之间替换关系的第一概率值为0.92,且在所有候选关系中最大,待解析区段3和待解析区段1之间等价关系的第一概率值为0.82,且在所有候选关系中最大,则可以将待解析区段1与待解析区段2之间的替换关系,将待解析区段2与待解析区段3之间的替换关系,并将待解析区段3和待解析区段1之间的等价关系,均作为临时关系,在此基础上,经检测,三者之间的临时关系存在矛盾,即若待解析区段1与待解析区段2之间的替换关系,以及待解析
区段2与待解析区段3之间的替换关系是正确的,则待解析区段3和待解析区段1之间的等价关系不可能成立,在此情形下,可以删除三者中第一概率值最小的临时关系,即待解析区段3和待解析区段1之间的等价关系,并替换为待解析区段3和待解析区段1之间第一概率值次高的替换关系,重新检测三者不再存在矛盾后,可以将临时关系,作为最终的编辑关系。
[0075]
表1预测得到的待解析区段关系示意表
[0076]
起始段落指向段落关系类型第一概率值待解析段落1待解析段落2替换关系0.88待解析段落2待解析段落3替换关系0.92待解析段落3待解析段落1等价关系0.82
[0077]
在另一个实施场景中,为了进一步提高编辑关系的准确性,在后处理之前,还可以对待解析区段进行逻辑分析,得到待解析区段的逻辑特征,从而可以先利用逻辑特征,对第一概率值进行调整,得到待解析区段之间的至少一种候选关系分别对应的第二概率值,再基于待解析区段之间的至少一种候选关系分别对应的第二概率值,得到最大生成树,最后利用最大生成树,确定待解析区段之间的编辑关系。上述方式,可以先利用逻辑特征优化第一概率值,在此基础上再生成最大生成树,以确定待解析区段之间的编辑关系,能够有利于提高编辑关系的准确性。
[0078]
在一个具体的实施场景中,逻辑特征可以包括但不限于:待解析区段中与时间相关的特征、与待解析区段之间编辑距离相关的特征、待解析区段中与文本编辑相关的特征。具体地,与时间相关的特征可以包括待解析区段中与时间相关的文字(如,xx月xx日等);编辑距离表示待解析区段经增、删、改等n个编辑步骤之后与另一待解析区段相同时,两者之间的编辑距离即为n;与文本编辑相关的特征可以包括待解析区段中“修改为”、“修正为”、“类似于”等关键词,在此不做限定。
[0079]
在另一个具体的实施场景中,逻辑特征具体可以通过逻辑识别网络对待解析区段的区段嵌入表示进行处理得到。具体地,逻辑识别网络可以包括但不限于:条件随机场(conditional random field,crf)。
[0080]
在又一个具体的实施场景中,在逻辑特征包括:待解析区段中与时间相关的特征的情况下,若待解析区段1在待解析区段2的时间之前,则待解析区段1不可能是待解析区段2的替换关系或补充关系,在此基础上,可以对应调小待解析区段1和待解析区段2之间的替换关系的第一概率值和补充关系的第一概率值,例如,可以将待解析区段1和待解析区段2之间的替换关系的第一概率值和补充关系的第一概率值分别乘以一个大于等于0且小于1的系数(如,0、0.5)。
[0081]
在又一个具体的实施场景中,在逻辑特征包括:与待解析区段之间编辑距离相关的特征的情况下,若待解析区段1和待解析区段2之间的编辑距离小于预设距离阈值,则可以认为待解析区段1和待解析区段2之间为等价关系,在此基础上,可以仅保留待解析区段1和待解析区段2之间对应为等价关系的第一概率值。此外,预设距离阈值可以根据实际应用需要进行设置,例如,在精度要求较高的情况下,可以将预设距离阈值设置地较小(如,1、2等),在精度要求相对较低的情况下,可以将预设距离阈值设置地较大(如,20、30等),在此不做限定。
[0082]
在又一个具体的实施场景中,在逻辑特征包括:待解析区段中与文本编辑相关的
特征的情况下,若待解析区段1中包含“修正为”、“替换为”等关键词,而待解析区段2中不包含此类关键词,则可以认为待解析区段1作为待解析区段2的替换关系的第一概率值应大于作为等价关系的第一概率值,在此基础上,可以调大作为替换关系的第一概率值。例如,可以将待解析区段1作为待解析区段2的替换关系的第一概率值乘以一个大于1的系数(如,1.5、2等)。
[0083]
在又一个具体的实施场景中,可以利用待解析区段之间至少一种候选关系的第一概率值,构建节点为各个待解析区段,边为待解析区段之间至少一种候选关系的第一概率值的有向加权图,从而可以基于kruskal、prim等算法,得到最大生成树,具体在此不再赘述。通过构建最大生成树,能够最大程度消除矛盾的候选关系,使得最终的编辑关系尽可能地准确。
[0084]
区别于前述实施例,通过利用待解析区段的区段特征进行关系预测,得到待解析区段之间的至少一种候选关系,并对待解析区段之间的至少一种候选关系进行后处理,确定待解析区段之间的编辑关系,从而能够基于预测得到的候选关系进行后处理,能够有利于尽可能地减少矛盾或不符合逻辑的候选关系,进而能够有利于提高编辑关系的准确性。
[0085]
请参阅图9,图9是本申请电子设备90一实施例的框架示意图。电子设备90包括相互耦接的存储器91和处理器92,存储器91中存储有程序指令,处理器92用于执行程序指令以实现上述任一篇章解析方法实施例中的步骤。具体地,电子设备90可以包括但不限于:手机、笔记本电脑、平板电脑等,在此不做限定。
[0086]
具体而言,处理器92用于控制其自身以及存储器91以实现上述任一篇章解析方法实施例中的步骤。处理器92还可以称为cpu(central processing unit,中央处理单元)。处理器92可能是一种集成电路芯片,具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器92可以由集成电路芯片共同实现。
[0087]
本公开实施例中,处理器92用于获取待解析篇章;其中,待解析篇章包括若干段落;处理器92用于对若干段落进行识别,将属于同一主题类型且连续的段落,作为与主题类型对应的区段;处理器92用于分别确定与同一主题类型对应的区段之间的编辑关系。
[0088]
上述方案,获取包含若干段落的待解析篇章,并对若干段落进行识别,将属于同一主题类型且连续的段落,作为与主题类型对应的区段,从而分别确定与同一主题类型对应的区段之间的编辑关系。故此,不仅能够在篇章结构层面,识别出与主题类型对应的区段,还能够在篇章语义层面,分别确定同一主题类型下的区段之间的编辑关系,从而能够有利于从篇章结构以及进一步的偏篇章语义两个维度,加深篇章解析深度。
[0089]
在一些公开实施例中,处理器92用于分别将与同一主题类型对应的区段,作为待解析区段;处理器92用于利用待解析区段的区段特征,确定待解析区段之间的编辑关系;其中,区段特征包括以下至少一者:待解析区段的内容、待解析区段在待解析篇章中的位置。
[0090]
区别于前述实施例,利用包含待解析区段的内容、待解析区段在待解析篇章中的位置中的至少一者的区段特征,来确定待解析区段之间的编辑关系,能够有利于综合多个
维度,来确定编辑关系,从而能够有利于提高编辑关系的准确性。
[0091]
在一些公开实施例中,处理器92用于利用待解析区段的区段特征进行关系预测,得到待解析区段之间的至少一种候选关系;处理器92用于对待解析区段之间的至少一种候选关系进行后处理,确定待解析区段之间的编辑关系。
[0092]
区别于前述实施例,通过利用待解析区段的区段特征进行关系预测,得到待解析区段之间的至少一种候选关系,并对待解析区段之间的至少一种候选关系进行后处理,确定待解析区段之间的编辑关系,从而能够基于预测得到的候选关系进行后处理,能够有利于尽可能地减少矛盾或不符合逻辑的候选关系,进而能够有利于提高编辑关系的准确性。
[0093]
在一些公开实施例中,处理器92用于利用待解析区段的区段特征进行关系预测,得到待解析区段之间的至少一种候选关系分别对应的第一概率值,处理器92用于对待解析区段进行逻辑分析,得到待解析区段的逻辑特征,处理器92用于利用逻辑特征,对第一概率值进行调整,得到待解析区段之间的至少一种候选关系分别对应的第二概率值;处理器92用于基于待解析区段之间的至少一种候选关系分别对应的第二概率值,得到最大生成树;处理器92用于利用最大生成树,确定待解析区段之间的编辑关系。
[0094]
区别于前述实施例,可以先利用逻辑特征优化第一概率值,在此基础上再生成最大生成树,以确定待解析区段之间的编辑关系,能够有利于提高编辑关系的准确性。
[0095]
在一些公开实施例中,逻辑特征包括以下至少一者:待解析区段中与时间相关的特征、与待解析区段之间编辑距离相关的特征、待解析区段中与文本编辑相关的特征。
[0096]
区别于前述实施例,将逻辑特征设置为包括以下至少一者:待解析区段中与时间相关的特征、与待解析区段之间编辑距离相关的特征、待解析区段中与文本编辑相关的特征,能够有利于从多个维度优化第一概率值,从而能够有利于进一步提高编辑关系的准确性。
[0097]
在一些公开实施例中,在待解析区段包括表格时,区段特征还包括以下至少一者:表格的表头、表格的标题。
[0098]
区别于前述实施例,在待解析区段包括表格时,将区段特征设置为进一步包括以下至少一者:表格的表格、表格的标题,能够进一步丰富区段特征的表现维度,从而能够有利于提高编辑关系的准确性。
[0099]
在一些公开实施例中,处理器92用于利用主题类型的若干定义语句,对若干段落进行识别,确定各个段落所属的主题类型。
[0100]
区别于前述实施例,通过利用主题类型的若干定义语句,对若干段落进行识别,确定各个段落所属的主题类型,能够免于直接预测段落的主题类型,从而能够降低段落对主题类型的敏感度,进而能够有利于在新增主题类型时,只需维护新增主题类型的定义语句即可,而免于重新训练用于主题类型识别的模型。
[0101]
在一些公开实施例中,处理器92用于分别提取若干段落的第一特征表示,并分别提取若干定义语句的第二特征表示;其中,第一特征表示包括若干段落之间的上下文语义信息;处理器92用于基于第一特征表示和第二特征表示,确定各个段落所属的主题类型。
[0102]
区别于前述实施例,通过分别提取若干段落的第一特征表示,并分别提取若干定义语句的第二特征表示,且第一特征表示包括若干段落之间的上下文语义信息,从而基于第一特征表示和第二特征表示,确定各个段落所属的主题类型,进而能够有利于提高确定
主题类型的准确性。
[0103]
在一些公开实施例中,处理器92用于获取主题类型的若干定义关键词和与主题类型相关的若干预设语句;处理器92用于分别提取若干定义关键词的第三特征表示,并分别提取若干预设语句的第四特征表示;处理器92用于利用每一预设语句的第四特征表示分别与若干定义关键词的第三特征表示的相似度得分,得到对应预设语句的总相似度得分;处理器92用于基于预设语句的总相似度得分满足预设条件,将预设语句作为主题类型的定义语句。
[0104]
区别于前述实施例,能够仅通过主题类型的若干定义关键词和相关的若干预设语句,即可筛选出主题类型的若干定义语句,从而能够有利于免于人工设置定义语句,进而能够有利于提高获取定义语句的效率。
[0105]
在一些公开实施例中,若干定义语句包括以下至少一者:正例定义语句、鉴别定义语句,其中,正例定义语句表示与主题类型相关的语句,鉴别定义语句用于与正例定义语句区别,表示与主题类型无关的语句;和/或,若干定义关键词包括以下至少一者:正例定义关键词、鉴别定义关键词,其中,正例定义关键词表示与主题类型相关的关键词,鉴别定义关键词用于与正例定义关键词区别,表示与主题类型无关的关键词。
[0106]
区别于前述实施例,通过将若干定义语句设置为包括以下至少一者:正例定义语句、鉴别定义语句,且正例定义语句表示与主题类型相关的语句,鉴别定义语句用于与正例定义语句区别,表示与主题类型无关的语句,通过将若干定义关键词设置为包括以下至少一者:正例定义关键词、鉴别定义关键词,且正例定义关键词表示与主题类型相关的关键词,鉴别定义关键词用于与正例定义关键词区别,表示与主题类型无关的关键词,能够有利于从正例、鉴别中的至少一个维度来最终确定主题类型,有利于提高确定主题类型的准确性。
[0107]
在一些公开实施例中,编辑关系包括:等价关系、补充关系、替换关系。
[0108]
区别于前述实施例,将编辑关系设置为包括:等价关系、补充关系、替换关系,能够有利于涵盖多种区段关系,提高用户体验。
[0109]
请参阅图10,图10是本申请存储装置100一实施例的框架示意图。存储装置100存储有能够被处理器运行的程序指令101,程序指令101用于实现上述任一篇章解析方法实施例中的步骤。
[0110]
上述方案,能够加深篇章解析深度。
[0111]
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
[0112]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
[0113]
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合
或通信连接,可以是电性、机械或其它的形式。
[0114]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0115]
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0116]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。