信息提取方法及装置与流程

文档序号:32055803发布日期:2022-11-04 21:20阅读:38来源:国知局
信息提取方法及装置与流程

1.本说明书实施例涉及自然语言处理技术领域,特别涉及一种信息提取方法。本说明书一个或者多个实施例同时涉及一种信息提取装置,一种计算设备,以及一种计算机可读存储介质。


背景技术:

2.随着人们越来越重视健康,购买医疗保险的人越来越多,而在参保人员患病就诊产生医疗费用后,可通过理赔程序向保险机构申请理赔,在理赔过程中,保险人员会通过视频的方式与参保人员进行沟通,询问参保人员关于本次理赔的相关就诊信息,并将这些信息记录到标准化表单中,用于后续公估调查。
3.在沟通过程中,保险人员可以使用智能纪要系统识别参保人员与保险人员的对话内容,智能纪要系统会将对话语音转换成文本数据,并提取其中的关键信息,将关键信息推荐给保险人员,以提升保险人员的理赔作业效率。
4.目前,由于语音识别错误、不能提取连续实体内容等问题,导致提取出的关键信息出错率很高且提取过程繁琐、耗费时间长,因此,如何提高关键信息提取的准确率和减少提取时间是目前亟需解决的技术问题。


技术实现要素:

5.有鉴于此,本说明书实施例提供了一种信息提取方法。本说明书一个或者多个实施例同时涉及一种信息提取装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
6.根据本说明书实施例的第一方面,提供了一种信息提取方法,包括:
7.获取待处理文本和所述待处理文本对应的标记信息;
8.基于所述标记信息对所述待处理文本进行数据预处理,获得待处理标记文本;
9.将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息,其中,所述信息提取模型包括自回归解码器;
10.将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息,其中,所述信息校正模型包括非自回归解码器。
11.根据本说明书实施例的第二方面,提供了一种信息提取装置,包括:
12.获取模块,被配置为获取待处理文本和所述待处理文本对应的标记信息;
13.预处理模块,被配置为基于所述标记信息对所述待处理文本进行数据预处理,获得待处理标记文本;
14.提取模块,被配置为将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息,其中,所述信息提取模型包括自回归解码器;
15.校正模块,被配置为将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息,其中,所述信息校正模型包括非自回归解码器。
16.根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述信息提取方法的步骤。
17.根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述信息提取方法的步骤。
18.根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述信息提取方法的步骤。
19.本说明书提供的信息提取方法,包括:获取待处理文本和所述待处理文本对应的标记信息;基于所述标记信息对所述待处理文本进行数据预处理,获得待处理标记文本;将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息,其中,所述信息提取模型包括自回归解码器;将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息,其中,所述信息校正模型包括非自回归解码器。
20.本说明书一实施例实现了通过对待处理文本和待处理文本对应的标记信息进行数据预处理,对待处理文本进行标记获取待处理标记文本,基于信息提取模型提取出待处理文本中的初始文本信息,并基于信息校正模型对初始文本信息进行校正,生成更加准确的目标文本信息。通过信息提取模型和信息校正模型自然克服了非连续槽位和语言识别错误的问题,可以自动根据上下文连续输出槽位值,快速生成更加准确且完整的槽位和槽位值,采用自回归和非自回归混合解码框架,大大降低了模型的预测耗时,提高模型任务处理效率。
附图说明
21.图1是本说明书一个实施例提供的序列标注方法的应用示意图;
22.图2是本说明书一个实施例提供的一种信息提取方法的流程图;
23.图3是本说明书一个实施例提供的一种信息提取方法的处理过程流程图;
24.图4是本说明书一个实施例提供的一种信息提取装置的结构示意图;
25.图5是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
26.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
27.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
28.应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分
开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
29.首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
30.智能纪要系统:一种融合了多种自然语言处理技术的对话关键信息抽取系统,智能纪要会系统自动提取出视频、面访会话过程中的关键词信息,辅助用户进行笔录回填,从而来提高整个线上公估流程的效率。
31.asr:(automatic speech recognition)自动语音识别技术,可以将声音信号转化为文本信号。
32.nlp:(natural language processing)自然语言处理是一种专业分析人类语言的人工智能,它的工作原理是:接收自然语并转译自然语言,分析自然语言并输出结果。
33.标化:自然语言处理领域的一类算法,指将一个非标准的词语关联到领域内的一个标准概念。
34.ar:(autoregressive model)自回归模型又称为时间序列模型,自回归模型是一种线性预测,利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型,其按照串行顺序进行预测。
35.nar:(non-autoregressive model)非自回归模型,不同于自回归模型需要用已生成的词来预测下一个位置的词,非自回归模型打破了生成时的串行顺序,能够解码出整个目标句子。
36.在日常生活中的很多场景下需要从视频、面访等对话中提取关键信息,例如、视频会议、保险理赔等,以视频保险理赔为例,保险项目人员通过视频的形式与客户进行沟通,询问客户关于本次理赔相关的就诊信息、常住地信息、工作信息、居住地信息等,并将这些信息记录到标准化表单中,用于后续公估调查。在此过程中,智能纪要系统通过asr技术识别客户与保险项目人员的对话内容,利用nlp算法提取其中的关键信息,并自动将这些信息标化并作为推荐值,将推荐值推荐给保险项目人员,以使保险项目人员填写表单时,可以使用推荐值快速填写表单,提升作业效率。
37.但是,在利用nlp算法提取关键信息时,需要根据槽位从对话中提取相应的槽位值,槽位可以理解为需要填写的信息类型,槽位值可以理解为填写的信息,例如,槽位为“医院”,则对应的槽位值为“北京协和医院”,在提取地址槽位和医院槽位时是一个难点,目前通常使用序列标注方法进行提取,在从对话内容中提取关键信息大多采用序列标注方法(ner),但是序列标注模型只能对输入的每个字进行(bio)标记,如图1所示,图1示出了本说明书一个实施例提供的序列标注方法的应用示意图,其中,b-loc表示地址开始,i-loc表示地址,b-hos表示医院名开始,i-hos表示医院名。序列标注模型需要从标注结果进行后处理,得到“北京肿瘤医院”,图1中表示出序列标注模型识别错误。从而获得“北京xxx中瘤医院”。序列标注模型虽然可以提取出关键信息,但是会有如下几点问题:
38.(1)无法连续提取槽位值:例如提取“北京肿瘤医院”时,在上文提到“北京”之后,在当前轮会直接说“肿瘤医院”,在传统序列标注方法中预测出结果之后需要进一步做后处理,将“肿瘤医院”和“北京”整合到一起,导致预测步骤繁琐、效率低。
39.(2)无法校正语音识别错误:例如提取“辽宁省沈阳市沈北新区”时,客户会直接说
地址,但是由于asr识别错误,将语音识别转换成“辽宁省沈阳市省北新区”,导致基于传统序列标注方法预测错误,难以处理。
40.(3)提取效率低:由于自回归模型的预测需要从左向右依次生成,从而提取效率低。
41.基于此,在本说明书中,提供了一种信息提取方法,通过本方法可以结合上下文与当前轮语句直接预测出预期的槽位值,解决无法连续提取槽位值的问题;通过第输入数据加噪音和学习,会自动学习纠错和补全,直接预测出正确的结果,解决了无法校正语音识别错误的问题。本说明书同时涉及一种信息提取装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
42.图2示出了根据本说明书一个实施例提供的一种信息提取方法的流程图,包括步骤202至步骤208。
43.步骤202:获取待处理文本和所述待处理文本对应的标记信息。
44.其中,待处理文本可以理解为需要进行提取关键信息的文本,待处理文本的内容是在理赔过程中项目保险人员与理赔客户的对话内容;待处理文本对应的标记信息可以理解为需要从待处理文本信息中提取的关键信息的类型信息,根据待处理文本对应的标记信息可以知道接下来需要从待处理文本中提取何种类型的关键信息。例如,在待处理文本“我在北京同仁医院看的病”中,在标记信息为[hospital]时,则最后提取出的关键信息则为“北京同仁医院”;在标识信息为[address]时,则可以从待处理文本中提取出“北京”。此外,标记信息还可以包括句子结束标识、例如,在标记信息中包括[eos]时,代表句子结束。
[0045]
在实际应用中,根据项目保险人员和客户的对话内容可以生成多个待处理文本,每个待处理文本提取的关键信息不同,因此每个待处理文本对应的标记信息也可能不同,并且每个待处理文本信息对应的标记信息中也可以包括有多个标记。例如,输入待处理文本a“user:xxx。agent:xxx。user:xxx。”,其中,user表示为客户的标识信息,agent表示为项目保险人员的标识信息,xxx表示各自的说话内容,待处理文本a对应的标记信息为[address]、[hospital],则表示需要从待处理文本a中提取出医院信息和地址信息,则可以并行处理标记有[address]的待处理文本a和标记有[hospital]的待处理文本a;输入待处理文本b“user:xxxx。agent:xxxx。user:xxxx。”待处理文本b对应的标记信息为[hospital],则表示需要从待处理文本b中提取出医院信息,待处理文本b也可以与待处理文本a进行并行处理。
[0046]
在本技术一具体实施例中,获取待处理文本a“agent:您是在哪个医院就诊。user:北京肿瘤医院”,待处理文本a对应的标记信息为[hospital],其中,agent表示保险项目人员开始说话,user表示理赔客户开始说话。
[0047]
具体地,获取待处理文本和所述待处理文本对应的标记信息,包括:
[0048]
接收待识别语音信息和表单信息;
[0049]
将所述待识别语音信息输入至语音识别模型,获得所述语音识别模型输出的待处理文本;
[0050]
根据所述表单信息确定所述待处理文本对应的标记信息。
[0051]
其中,待识别语音信息可以理解为项目保险人员与理赔客户的对话语音,根据待识别语音信息可以生成待处理文本,以便后续根据待处理文本提取出理赔所需的关键信
输入至信息提取模型,信息提取模型根据待处理标记文本输出初始文本信息,初始文本信息为“北京肿瘤医院”。
[0065]
在本技术另一具体实施例中,沿用上例,将待处理标记文本a2“agent:您是在哪一天去哪个医院就诊。user:我在2020年的3月1日在北京肿瘤医院进行治疗。标记:[date]”输入至信息提取模型,信息提取模型根据待处理标记文本输出初始文本信息,初始文本信息为“2020.3.1”。
[0066]
具体地,所述信息提取模型包括第一编码器和自回归解码器;
[0067]
将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息,包括:
[0068]
将所述待处理标记文本输入至所述第一编码器进行编码,获得所述第一编码器输出的第一文本编码向量;
[0069]
将所述第一文本编码向量输入至所述自回归解码器进行解码,获得所述自回归解码器输出的初始文本信息。
[0070]
其中,信息提取模型中的第一编码器与其他标注方法中的编码器一致,第一编码器用于对上下文输入进行深层transformer编码,并且,本技术实施例中的第一编码器的编码层数一般设置为12层或24层,可根据实际需求确定编码层数,本技术在此不作具体限制。第一编码器根据待处理标记文本可以生成待处理标记文本中每个词的编码向量,即输入序列中每个元素的隐状态(hidden state)。
[0071]
自回归解码器采用浅层transformer解码器,通常解码层数设置为1层或2层;需要注意的是自回归解码器的第一个hidden state是第一编码器输出的最后一个元素的hidden state。
[0072]
在实际应用中,自回归解码器使用第一编码器的最后一个词的hidden state预测第一个词,例如“北”,然后根据“北”预测下一个词“京”。依次类推直至预测结束获得自回归解码器输出的初始文本信息。
[0073]
在本技术一具体实施例中,将待处理标记文本输入至第一编码器进行编码,获取所述第一编码器输出的第一文本编码向量“h1……h6”,将第一文本编码向量输入至自回归解码器进行解码,自回归解码器使用h6进行第一个词的预测,预测结果为“北”,再根据“北”进行下一个词的预测,预测结果为“京”,以此类推依次对每个编码向量进行解码处理,生成初始文本信息“北京肿瘤医院”。
[0074]
具体地,所述信息提取模型通过下述步骤训练获得:
[0075]
获取训练样本,其中,所述训练样本包括训练标记文本和所述训练标记文本对应的标记信息;
[0076]
将所述训练标记文本输入至所述信息提取模型,获得所述信息提取模型输出的预测信息;
[0077]
根据所述预测信息和所述标记信息计算模型损失值;
[0078]
根据所述模型损失值调整所述信息提取模型的模型参数,并继续训练所述信息提取模型,直至达到模型训练停止条件。
[0079]
其中,训练样本可以理解为用于训练信息提取模型的训练数据,训练样本中包括训练标记文本和训练标记文本对应的标记信息,训练标记文本可以理解为已经处理过的训
练数据,即完成标记并引入特殊token,例如,训练标记文本可以为“user:xxx。agent:xxx。user:xxxx。[address]。标记:北京”。
[0080]
模型损失值用来评价模型的预测值和真实值不一样的程度,在实际应用中,根据大量训练样本可以完成信息提取模型的训练,通过每次预测并计算模型损失值可以不断调整模型参数,从而提高模型的输出正确率。
[0081]
在本技术一具体实施例中,将训练标记文本输入至信息提取模型,获得信息提取模型输出的预测信息,根据预测信息和标记信息计算模型损失值,根据模型损失值调整信息提取模型的模型参数,并继续输入下一个训练标记文本,依次类推直至达到模型训练停止条件。
[0082]
具体地,所述模型训练停止条件,包括:
[0083]
所述模型损失值小于预设损失值阈值;和/或
[0084]
训练轮次达到预设训练轮次。
[0085]
其中,预设损失值阈值可以理解为用户设定的期望的损失值。小于该预设损失值阈值时,表示当前模型已经训练完成,符合用户期望的标准。
[0086]
训练轮次可以理解为模型使用样本数据进行训练的次数;预设训练轮次可以理解为用户设定的模型使用样本数据进行训练的次数,在模型使用样本数据达到预设训练轮次之后,模型即停止训练。
[0087]
在本技术提供的一具体实施方式中,以通过损失值小于预设损失值阈值来停止训练信息提取模型为例,预设损失值阈值为0.5,则当计算得到的loss值小于0.5时,则认定信息提取模型训练完成。
[0088]
在本技术提供的另一具体实施方式中,以预设的训练轮次来停止训练信息提取模型为例,预设的训练轮次为20轮,当样本数据的训练轮次到达20轮后,则认定信息提取模型已经训练完成。
[0089]
步骤208:将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息,其中,所述信息校正模型包括非自回归解码器。
[0090]
其中,信息校正模型可以理解为校正初始文本信息中的错误信息的模型,信息校正模型可以对初始文本信息进行并行预测,以提高预测效率。
[0091]
目标文本信息可以理解为完成校正后的初始文本信息,在初始文本信息中出现错误时,通过信息校正模型可以输出正确的目标文本信息。例如,在初始文本信息为“北京中瘤医院”的情况下,信息校正模型可以根据初始文本信息,输出目标文本信息“北京肿瘤医院”。
[0092]
在实际应用中,信息校正模型包括非自回归解码器,非自回归解码器使用深层解码,通常为12层或24层,可以对浅层自回归解码器输出的结果进行并行预测。
[0093]
在本技术一具体实施例中,将初始文本信息“北京同人医院”输入至信息校正模型进行信息校正,信息校正模型输出目标文本信息“北京同仁医院”。
[0094]
通过信息校正模型可以在语音识别错误的情况下,输出正确的结果,提高预测准确率,方便后续保险项目人员能够正确的填写表单。
[0095]
具体地,所述信息校正模型包括第二编码器和非自回归解码器;
[0096]
将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型
输出的目标文本信息,包括:
[0097]
将所述初始文本信息输入至所述第二编码器进行编码,获得所述第二编码器输出的第二文本编码向量;
[0098]
将所述第二文本编码向量输入至所述非自回归解码器进行解码,获得所述非自回归解码器输出的目标文本信息。
[0099]
其中,信息校正模型中的第二编码器与其他标注方法中的编码器一致,第一编码器用于对上下文输入进行深层transformer编码,并且,本技术实施例中的第二编码器的编码层数一般设置为12层或24层,可根据实际需求确定编码层数,本技术在此不作具体限制。第二编码器根据待处理标记文本可以生成待处理标记文本中每个词的编码向量,即输入序列中每个元素的隐状态(hidden state)。
[0100]
在实际应用中,在初始文本信息中没有错误信息时,信息校正模型根据初始文本信息输出的目标文本信息即与初始文本信息一致。并且,深层非自回归解码器虽然解码层数多,但是通过并行解码能够提高解码速度。
[0101]
在本技术一具体实施例中,沿用上例,将初始文本信息输入至信息校正模型进行处理,信息校正模型中的第二编码器根据初始文本信息,生成第二文本编码向量,将第二文本编码向量输入至深层非自回归解码器进行解码,获取校正过的目标文本信息。
[0102]
通过浅层自回归解码器和深层非自回归解码器混合解码框架,由于自回归解码器的解码层数少,所以解码速度快,加上深层非自回归解码器的并行解码,在保证高预测准确率的情况下,将最大预测速度从1秒降低至170毫秒,提高预测效率。
[0103]
在实际应用中,信息校正模型和信息提取模型可以使用相同的编码器,或者两者编码器使用相同的参数。具体地,所述信息提取模型包括第一编码器,所述信息校正模型包括第二编码器,所述方法还包括:
[0104]
所述第一编码器的编码器参数与所述第二编码器的编码器参数相同。
[0105]
进一步地,信息校正模型和信息提取模型可以在文本处理模型中,文本处理模型中包括信息校正模型、信息提取模型、编码器、自回归解码器、非自回归解码器。在文本处理模型中,输入待处理标记文本至编码器,获得编码向量,将编码向量输入至信息提取模型,获得初始文本信息,将初始文本信息输入至信息校正模型,获得目标文本信息。
[0106]
在本技术一具体实施例中,沿用上例,获取信息提取模型中的第一编码器的编码器参数,根据第一编码器的编码器参数设置信息校正模型中第二编码器的编码器参数,使得第一编码器的编码器参数与第二编码器的编码器参数相同。
[0107]
具体地,所述信息校正模型通过下述步骤训练获得:
[0108]
获取训练样本信息和所述训练样本信息对应的标签校正信息;
[0109]
将所述训练样本信息输入至所述信息校正模型,获得所述信息校正模型输出的预测校正信息;
[0110]
根据所述预测校正信息和所述标签校正信息计算模型损失值;
[0111]
根据所述模型损失值调整所述信息校正模型的模型参数,并继续训练所述信息校正模型,直至达到模型训练停止条件。
[0112]
其中,训练样本信息可以理解为训练信息校正模型的训练数据,标签校正信息可以理解为训练样本信息对应的标签信息。例如,训练样本信息为“北京市有益医院”,标签校
正信息可以为“有益:友谊”,则将训练样本信息输入至信息校正模型,使得最后输出正确的预测结果“北京友谊医院”。
[0113]
模型损失值用来评价模型的预测值和真实值不一样的程度,在实际应用中,根据大量训练样本可以完成信息提取模型的训练,通过每次预测并计算模型损失值可以不断调整模型参数,从而提高模型的输出正确率。
[0114]
在本技术一具体实施例中,将训练样本信息“北京鞋盒医院”输入至信息校正模型,获取信息校正模型输出的预测校正信息,预测校正信息为“北京谐和医院”,则根据预测校正信息和标签校正信息计算模型损失值,根据模型损失值调整信息校正模型的模型参数,并继续训练信息校正模型,直至达到模型训练停止条件。
[0115]
具体地,所述模型训练停止条件,包括:
[0116]
所述模型损失值小于预设损失值阈值;和/或
[0117]
训练轮次达到预设训练轮次。
[0118]
其中,预设损失值阈值可以理解为用户设定的期望的损失值。小于该预设损失值阈值时,表示当前模型已经训练完成,符合用户期望的标准。训练轮次可以理解为模型使用样本数据进行训练的次数;预设训练轮次可以理解为用户设定的模型使用样本数据进行训练的次数,在模型使用样本数据达到预设训练轮次之后,模型即停止训练。
[0119]
在本技术提供的一具体实施方式中,以通过损失值小于预设损失值阈值来停止训练信息提取模型为例,预设损失值阈值为0.2,则当计算得到的loss值小于0.2时,则认定信息提取模型训练完成。
[0120]
在本技术提供的另一具体实施方式中,以预设的训练轮次来停止训练信息提取模型为例,预设的训练轮次为30轮,当样本数据的训练轮次到达30轮后,则认定信息提取模型已经训练完成。
[0121]
具体地,获取所述信息校正模型输出的目标文本信息之后,还包括:
[0122]
根据所述目标文本信息和所述表单信息生成表单预测信息。
[0123]
其中,目标文本信息为信息校正模型输出的预测结果,表单信息为项目保险人员需要填写何种类型信息的标识信息,例如,目标文本信息为“北京肿瘤医院”,表单信息为“医院信息”,则可以根据目标文本信息和表单信息生成表单预测信息“医院:北京肿瘤医院”,表单预测信息即包括槽位和槽位值。
[0124]
在实际应用中,根据目标文本信息和表单信息生成的表单预测信息可以为项目保险人员提供更加标准化的预测结果,提高后续保险人员的处理理赔的效率。
[0125]
在本技术一具体实施例中,根据目标文本信息“沈阳市沈北新区”和对应的表单信息“家庭住址信息”生成表单预测信息“家庭住址:沈阳市沈北新区”。
[0126]
本技术提供的一种信息提取方法,包括:获取待处理文本和所述待处理文本对应的标记信息;基于所述标记信息对所述待处理文本进行数据预处理,获得待处理标记文本;将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息,其中,所述信息提取模型包括自回归解码器;将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息,其中,所述信息校正模型包括非自回归解码器。通过包括自回归解码器的信息提取模型可以结合上下文信息与当前轮语句直接预测出关键信息,并通过包括有非自回归解码器的信息校正模型对信息
提取模型的预测结果进行校正处理,使得最后生成的目标文本信息更为准确,并对预测结果进行标准化处理,提高后续保险人员的作业效率。
[0127]
下述结合附图3,以本说明书提供的信息提取方法在理赔面访的应用为例,对所述信息提取方法进行进一步说明。其中,图3示出了本说明书一个实施例提供的一种信息提取方法的处理过程流程图,具体步骤包括步骤302至步骤310。
[0128]
步骤302:接收待识别语音信息和表单信息。
[0129]
其中,待识别语音信息为项目保险人员与理赔客户在理赔面访中的对话录音,表单信息为本次理赔项目保险人员所需填写的信息。
[0130]
在本技术一具体实施例中,接收项目保险人员与理赔客户在理赔面访中的对话录音,获取项目保险人员在本次理赔中所需填写的信息。
[0131]
步骤304:将所述待识别语音信息输入至语音识别模型,获得所述语音识别模型输出的待处理文本,根据所述表单信息确定所述待处理文本对应的标记信息。
[0132]
在本技术一具体实施例中,沿用上例,将对话录音输入至语音识别模型,获得语音识别模型输出的待处理文本,待处理文本为“您的家庭住址是在哪儿?我家住在江苏省南京四xxx”,表单信息为“家庭住址”,确定出待处理文本对应的标记信息为[address]。
[0133]
步骤306:基于所述标记信息对所述待处理文本进行数据预处理,获得待处理标记文本。
[0134]
在本技术一具体实施例中,沿用上例,基于标记信息对待处理文本进行标记,获得待处理标记文本“agent:您的家庭住址是在哪儿。user:我家住在江苏省南京四xxx[eos][address]”。
[0135]
步骤308:将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息,其中,所述信息提取模型包括自回归解码器。
[0136]
在本技术一具体实施例中,沿用上例,将待处理标记文本输入至信息提取模型进行信息提取,获取信息提取模型输出的初始文本信息,初始文本信息为“江苏省南京四xxx”。
[0137]
步骤310:将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息,其中,所述信息校正模型包括非自回归解码器。
[0138]
在本技术一具体实施例中,沿用上例,将初始文本信息输出值信息校正模型进行信息校正,获取信息校正模型输出的目标文本信息“江苏省南京市xxx”。
[0139]
本技术提供的一种信息提取,包括接收待识别语音信息和表单信息,将所述待识别语音信息输入至语音识别模型,获得所述语音识别模型输出的待处理文本,根据所述表单信息确定所述待处理文本对应的标记信息,基于所述标记信息对所述待处理文本进行数据预处理,获得待处理标记文本,将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息,其中,所述信息提取模型包括自回归解码器,将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息,其中,所述信息校正模型包括非自回归解码器。通过信息提取模型可以快速提取出待处理文本中的关键信息,并通过信息校正模型对信息提取模型的输出结果进行校正,得到更为准确的提取结果,使得项目保险人员在后续能够根据提取结果快速填写理赔表单,提高作业效率。
[0140]
与上述方法实施例相对应,本说明书还提供了信息提取装置实施例,图4示出了本说明书一实施例提供的一种信息提取装置的结构示意图。如图4所示,该装置包括:
[0141]
获取模块402,被配置为获取待处理文本和所述待处理文本对应的标记信息;
[0142]
预处理模块404,被配置为基于所述标记信息对所述待处理文本进行数据预处理,获得待处理标记文本;
[0143]
提取模块406,被配置为将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息,其中,所述信息提取模型包括自回归解码器;
[0144]
校正模块408,被配置为将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息,其中,所述信息校正模型包括非自回归解码器。
[0145]
可选地,所述信息提取模型包括第一编码器和自回归解码器;
[0146]
所述提取模块406进一步配置为:
[0147]
将所述待处理标记文本输入至所述第一编码器进行编码,获得所述第一编码器输出的第一文本编码向量;
[0148]
将所述第一文本编码向量输入至所述自回归解码器进行解码,获得所述自回归解码器输出的初始文本信息。
[0149]
可选地,所述信息校正模型包括第二编码器和非自回归解码器;
[0150]
所述校正模块408进一步配置为:
[0151]
将所述初始文本信息输入至所述第二编码器进行编码,获得所述第二编码器输出的第二文本编码向量;
[0152]
将所述第二文本编码向量输入至所述非自回归解码器进行解码,获得所述非自回归解码器输出的目标文本信息。
[0153]
可选地,所述信息提取装置还被配置为:
[0154]
所述第一编码器的编码器参数与所述第二编码器的编码器参数相同。
[0155]
可选地,所述提取模块406进一步配置为:
[0156]
所述信息提取模型通过下述步骤训练获得:
[0157]
获取训练样本,其中,所述训练样本包括训练标记文本和所述训练标记文本对应的标记信息;
[0158]
将所述训练标记文本输入至所述信息提取模型,获得所述信息提取模型输出的预测信息;
[0159]
根据所述预测信息和所述标记信息计算模型损失值;
[0160]
根据所述模型损失值调整所述信息提取模型的模型参数,并继续训练所述信息提取模型,直至达到模型训练停止条件。
[0161]
所述模型损失值小于预设损失值阈值;和/或
[0162]
训练轮次达到预设训练轮次。
[0163]
可选地,所述校正模块408进一步配置为:
[0164]
所述信息校正模型通过下述步骤训练获得:
[0165]
获取训练样本信息和所述训练样本信息对应的标签校正信息;
[0166]
将所述训练样本信息输入至所述信息校正模型,获得所述信息校正模型输出的预测校正信息;
[0167]
根据所述预测校正信息和所述标签校正信息计算模型损失值;
[0168]
根据所述模型损失值调整所述信息校正模型的模型参数,并继续训练所述信息校正模型,直至达到模型训练停止条件。
[0169]
所述模型损失值小于预设损失值阈值;和/或
[0170]
训练轮次达到预设训练轮次。
[0171]
可选地,所述获取模块402进一步配置为:
[0172]
接收待识别语音信息和表单信息;
[0173]
将所述待识别语音信息输入至语音识别模型,获得所述语音识别模型输出的待处理文本;
[0174]
根据所述表单信息确定所述待处理文本对应的标记信息。
[0175]
可选地。所述信息提取装置还包括:
[0176]
生成模块,被配置为:根据所述目标文本信息和所述表单信息生成表单预测信息。
[0177]
本技术提供的一种信息提取装置,包括获取模块,被配置为获取待处理文本和所述待处理文本对应的标记信息;预处理模块,被配置为基于所述标记信息对所述待处理文本进行数据预处理,获得待处理标记文本;提取模块,被配置为将所述待处理标记文本输入至信息提取模型进行信息提取,获取所述信息提取模型输出的初始文本信息,其中,所述信息提取模型包括自回归解码器;校正模块,被配置为将所述初始文本信息输入至信息校正模型进行信息校正,获取所述信息校正模型输出的目标文本信息,其中,所述信息校正模型包括非自回归解码器。通过包括自回归解码器的信息提取模型可以结合上下文信息与当前轮语句直接预测出关键信息,并通过包括有非自回归解码器的信息校正模型对信息提取模型的预测结果进行校正处理,使得最后生成的目标文本信息更为准确,并对预测结果进行标准化处理,提高后续保险人员的作业效率。
[0178]
上述为本实施例的一种信息提取装置的示意性方案。需要说明的是,该信息提取装置的技术方案与上述的信息提取方法的技术方案属于同一构思,信息提取装置的技术方案未详细描述的细节内容,均可以参见上述信息提取方法的技术方案的描述。
[0179]
图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
[0180]
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
[0181]
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其
他部件。
[0182]
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
[0183]
其中,处理器520执行所述计算机指令时实现所述的信息提取方法的步骤。
[0184]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的信息提取方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述信息提取方法的技术方案的描述。
[0185]
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述信息提取方法的步骤。
[0186]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的信息提取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述信息提取方法的技术方案的描述。
[0187]
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述信息提取方法的步骤。
[0188]
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的信息提取方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述信息提取方法的技术方案的描述。
[0189]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0190]
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0191]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
[0192]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0193]
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1