事故信息提取方法、装置及电子设备与流程

文档序号:29789242发布日期:2022-04-23 16:49阅读:102来源:国知局
事故信息提取方法、装置及电子设备与流程

1.本发明涉及应急管理技术领域,特别是涉及事故信息提取方法、装置及电子设备。


背景技术:

2.近年来,随着社会经济水平不断提高,社会活动也逐渐增加,使得各类突发事故的数量也在增加,给社会稳定和谐带来不利影响。其中,按照事故类型划分,突发事故主要包括工矿商贸的安全生产事故、交通运输事故、建筑物起火事故等,且一般会有多个事故要素构成,例如:发生时间、发生地点、受伤人数、死亡人数、经济损失等。
3.为了快速响应突发事故,事务接报平台的接线员在接收到紧急电话后,需要根据与上报人员的对话,对突发事故的情况作分析研判,确定突发事故的事故信息,以便匹配和启动对应的应急预案。然而,大中城市每日事故接报可达上百起,单纯依靠人工进行处理,使得事故信息确定的效率较低。


技术实现要素:

4.本发明实施例的目的在于提供事故信息提取方法、装置及电子设备,以提高事故信息确定的效率。具体技术方案如下:
5.第一方面,本发明实施例提供一种事故信息提取方法,所述方法包括:
6.获取事故接报文本;其中,所述事故接报文件为:基于针对待处理事故的事故接报对话所生成的文本;
7.利用预先训练的信息分类模型,对所述事故接报文本进行事故信息分类,得到所述事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别;其中,所述信息分类模型为:基于样本文本与所对应的标注结果训练得到的,所述标注结果用于指示:所述样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别;
8.针对所述事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的所述待处理事故的事故信息。
9.可选的,按照以下方式训练所述信息分类模型:
10.从训练样本集中,获取目标样本文本;
11.将所述目标样本文本输入待训练的神经网络模型,以使所述神经网络模型对所述目标样本文本进行事故信息分类,得到预测分类结果;其中,所述预测分类结果包括:所述目标样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别;
12.基于所述预测分类结果,与所述目标样本文本的标定结果的差异,调整所述神经网络模型的网络参数;并返回所述从训练样本集中,获取目标样本文本的步骤。
13.可选的,每一样本文本对应的标注结果为:所述样本文本的有效文本段内每一字符所属的事故信息类别;
14.所述神经网络模型采用如下方式,得到预测分类结果:
15.将所述目标样本文本内每一字符转换为与该字符对应的字符向量;
16.基于所述样本文本内各字符的字符顺序,依次对所述各字符的字符向量进行循环处理,得到每一字符的初始的概率向量;其中,每一字符的概率向量中每一维度的数值表征:该字符属于与该维度对应的事故信息类型的概率;
17.按照约束条件,对所述各字符的初始的概率向量进行调整;得到目标概率向量;其中,所述约束条件为所述神经网络模型通过历史训练数据学习所得;
18.基于每一字符的目标概率向量,确定所述各字符所属的事故信息类别,作为预测分类结果。
19.可选的,所述基于所述样本文本内各字符的字符顺序,依次对所述各字符的字符向量进行循环处理,得到每一字符的初始的概率向量,包括:
20.针对所述各字符中的每一字符,采用如下方式得到该字符的得到初始的概率向量,包括:
21.按照所述样本文本内各字符的正向字符顺序,获取该字符的前文特征和前字符特征;其中,所述前文特征为基于该字符前文所有字符所提取的特征;所述前字符特征为:基于该字符的前一字符所提取的第一字符特征;
22.基于所述前文特征、所述前字符特征以及该字符的字符向量,计算该字符的第一字符特征,并基于该字符的第一字符特征,确定该字符的初始的概率向量。
23.可选的,在所述基于所述前文特征、所述前字符特征以及该字符的字符向量,计算该字符的第一字符特征之后,还包括:
24.基于所述前字符特征以及该字符的字符向量,更新所述前文特征。
25.可选的,在所述基于该字符的第一字符特征,确定该字符的初始的概率向量之前,还包括:
26.按照所述样本文本内各字符的反向字符顺序,获取该字符的后文特征和后字符特征;其中,所述后文特征为基于该字符后文所有字符所提取的特征;所述后字符特征为:基于该字符的后一字符所提取的第二字符特征;
27.基于所述后文特征、所述后字符特征以及该字符的字符向量,计算该字符的第二字符特征;
28.所述基于该字符的第一字符特征,确定该字符的初始的概率向量,包括:
29.基于该字符的第一字符特征和该字符的第二字符特征,确定该字符的初始的概率向量。
30.可选的,所述基于所述预测分类结果,与所述目标样本文本的标定结果的差异,调整所述神经网络模型的网络参数,包括:
31.基于所述预测分类结果和所述目标样本文本的标定结果,计算所述神经网络模型的损失函数值,作为所述预测分类结果与所述目标样本文本的标定结果的差异;
32.基于所述损失函数值,调整所述神经网络模型的网络参数。
33.可选的,所述预测分类结果为多个;
34.所述基于所述预测分类结果和所述目标样本文本的标定结果,计算所述神经网络模型的损失函数值,包括:
35.计算每一预测分类结果的结果评分;
36.将各测分类结果的结果评分相加,得到所述神经网络模型的预测评分;
37.基于所述预测评分与所述目标样本文本的标定结果对应的标注评分,计算所述神经网络模型的损失函数值。
38.可选的,所述计算每一预测分类结果的结果评分,包括:
39.采用如下公式计算每一预测分类结果的结果评分:
[0040][0041][0042]
其中,pi为第i种预测结果的结果评分;表示在第i种预测结果中第j个字符所属的事故信息类别的概率;表示在第i种预测结果中第j-1个字符所属的事故信息类别与第j个字符所属的事故信息类别的跳转概率。
[0043]
可选的,所述基于所述预测评分与所述目标样本文本的标定结果对应的标注评分,计算所述神经网络模型的损失函数值,包括:
[0044]
按照以下公式,计算所述神经网络模型的损失函数值:
[0045][0046]
其中,lossfunction为损失函数值,p
realpath
为所述目标样本文本的标定结果对应的标注评分,p
total
为所述预测评分。
[0047]
可选的,每一样本文本对应的标注结果为:采用bio标注方式,对该样本文本进行标注所得到的标注结果。
[0048]
可选的,采用如下方式,基于针对待处理事故的事故接报对话生成事故接报文本,包括:
[0049]
对针对待处理事故的事故接报对话进行语音识别,生成事故接报文本。
[0050]
可选的,在所述针对所述事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的所述待处理事故的事故信息之后,所述方法还包括:
[0051]
基于所得到的事故信息,生成事故信息报告表。
[0052]
第二方面,本发明实施例提供一种事故信息提取装置,所述装置包括:
[0053]
文本获取模块,用于获取事故接报文本;其中,所述事故接报文件为:基于针对待处理事故的事故接报对话所生成的文本;
[0054]
信息分类模块,用于利用预先训练的信息分类模型,对所述事故接报文本进行事故信息分类,得到所述事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别;其中,所述信息分类模型为:基于样本文本与所对应的标注结果训练得到的,所述标注结果用于指示:所述样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别;
[0055]
信息提取模块,用于针对所述事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的所述待处理事故的事故信息。
[0056]
可选地,按照以下模块训练所述信息分类模型:
[0057]
文本获取模块,用于从训练样本集中,获取目标样本文本;
[0058]
文本输入模块,用于将所述目标样本文本输入待训练的神经网络模型,以使所述神经网络模型对所述目标样本文本进行事故信息分类,得到预测分类结果;其中,所述预测分类结果包括:所述目标样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别;
[0059]
参数调整模块,用于基于所述预测分类结果,与所述目标样本文本的标定结果的差异,调整所述神经网络模型的网络参数;并返回所述从训练样本集中,获取目标样本文本的步骤。
[0060]
可选地,每一样本文本对应的标注结果为:所述样本文本的有效文本段内每一字符所属的事故信息类别;
[0061]
所述神经网络模型,包括:
[0062]
向量转换模块,用于将所述目标样本文本内每一字符转换为与该字符对应的字符向量;
[0063]
循环处理模块,用于基于所述样本文本内各字符的字符顺序,依次对所述各字符的字符向量进行循环处理,得到每一字符的初始的概率向量;其中,每一字符的概率向量中每一维度的数值表征:该字符属于与该维度对应的事故信息类型的概率;
[0064]
概率调整模块,用于按照约束条件,对所述各字符的初始的概率向量进行调整;得到目标概率向量;其中,所述约束条件为所述神经网络模型通过历史训练数据学习所得;
[0065]
类别预测模块,用于基于每一字符的目标概率向量,确定所述各字符所属的事故信息类别,作为预测分类结果。
[0066]
可选地,所述循环处理模块,具体用于针对所述各字符中的每一字符,采用如下方式得到该字符的得到初始的概率向量,包括:按照所述样本文本内各字符的正向字符顺序,获取该字符的前文特征和前字符特征;其中,所述前文特征为基于该字符前文所有字符所提取的特征;所述前字符特征为:基于该字符的前一字符所提取的第一字符特征;基于所述前文特征、所述前字符特征以及该字符的字符向量,计算该字符的第一字符特征,并基于该字符的第一字符特征,确定该字符的初始的概率向量。
[0067]
可选地,所述循环处理模块,还用于在所述基于所述前文特征、所述前字符特征以及该字符的字符向量,计算该字符的第一字符特征之后,基于所述前字符特征以及该字符的字符向量,更新所述前文特征。
[0068]
可选地,所述循环处理模块,还用于在所述基于该字符的第一字符特征,确定该字符的初始的概率向量之前,按照所述样本文本内各字符的反向字符顺序,获取该字符的后文特征和后字符特征;其中,所述后文特征为基于该字符后文所有字符所提取的特征;所述后字符特征为:基于该字符的后一字符所提取的第二字符特征;基于所述后文特征、所述后字符特征以及该字符的字符向量,计算该字符的第二字符特征;
[0069]
所述循环处理模块,具体用于基于该字符的第一字符特征和该字符的第二字符特
征,确定该字符的初始的概率向量。
[0070]
可选地,所述参数调整模块,具体用于基于所述预测分类结果和所述目标样本文本的标定结果,计算所述神经网络模型的损失函数值,作为所述预测分类结果与所述目标样本文本的标定结果的差异;基于所述损失函数值,调整所述神经网络模型的网络参数。
[0071]
可选地,所述预测分类结果为多个;
[0072]
所述参数调整模块,具体用于计算每一预测分类结果的结果评分;将各测分类结果的结果评分相加,得到所述神经网络模型的预测评分;基于所述预测评分与所述目标样本文本的标定结果对应的标注评分,计算所述神经网络模型的损失函数值。
[0073]
可选地,所述参数调整模块,具体用于:
[0074]
采用如下公式计算每一预测分类结果的结果评分:
[0075][0076][0077]
其中,pi为第i种预测结果的结果评分;表示在第i种预测结果中第j个字符所属的事故信息类别的概率;表示在第i种预测结果中第j-1个字符所属的事故信息类别与第j个字符所属的事故信息类别的跳转概率。
[0078]
可选地,所述参数调整模块,具体用于按照以下公式,计算所述神经网络模型的损失函数值:
[0079][0080]
其中,lossfunction为损失函数值,p
realpath
为所述目标样本文本的标定结果对应的标注评分,p
total
为所述预测评分。
[0081]
可选地,每一样本文本对应的标注结果为:采用bio标注方式,对该样本文本进行标注所得到的标注结果。
[0082]
可选地,还包括:事故接报文本生成模块,用于采用如下方式,基于针对待处理事故的事故接报对话生成事故接报文本,包括:对针对待处理事故的事故接报对话进行语音识别,生成事故接报文本。
[0083]
可选地,所述装置还包括:报告表生成模块,用于在所述信息提取模块执行所述针对所述事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的所述待处理事故的事故信息之后,基于所得到的事故信息,生成事故信息报告表。
[0084]
第三方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0085]
存储器,用于存放计算机程序;
[0086]
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
[0087]
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介
质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述的方法步骤。
[0088]
本发明实施例有益效果:
[0089]
本发明实施例所提供的事故信息提取方法中,可以获取待处理事故的事故接报文本,进而利用预先训练的信息分类模型,对事故接报文本进行事故信息分类,得到事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别,并针对事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的待处理事故的事故信息可见,通过本方案,可以自动提取待处理事故的事故信息,从而可以提高事故信息确定的效率。
[0090]
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
[0091]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
[0092]
图1为本发明实施例所提供的事故信息提取方法的流程图;
[0093]
图2为本发明实施例所提供的事故信息提取方法的另一流程图;
[0094]
图3为本发明实施例所提供的事故接报文本的示意图;
[0095]
图4为本发明实施例所提供的神经网络模型示意图;
[0096]
图5为本发明实施例所提供的单个lstm结构的示意图;
[0097]
图6为本发明实施例所提供的事故信息提取方法的另一流程图;
[0098]
图7为本发明实施例所提供的事故信息提取方法的另一流程图;
[0099]
图8为本发明实施例所提供的信息报告表的示意图;
[0100]
图9为本发明实施例所提供的事故信息提取装置的结构示意图;
[0101]
图10为本发明实施例所提供的电子设备的结构示意图。
具体实施方式
[0102]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0103]
近年来,随着社会经济水平不断提高,社会活动也逐渐增加,使得各类突发事故的数量也在增加,给社会稳定和谐带来不利影响。其中,按照事故类型划分,突发事故主要包括工矿商贸的安全生产事故、交通运输事故、建筑物起火事故等,且一般会有多个事故要素构成,例如:发生时间、发生地点、受伤人数、死亡人数、经济损失等。
[0104]
为了快速响应突发事故,事务接报平台的接线员在接收到紧急电话后,需要根据
与上报人员的对话,对突发事故的情况作分析研判,确定突发事故的事故信息,以便匹配和启动对应的应急预案。然而,大中城市每日事故接报可达上百起,单纯依靠人工进行处理,使得事故信息确定的效率较低。
[0105]
为了提高事故信息确定的效率,本发明实施例提供了事故信息提取方法、装置及电子设备。
[0106]
本发明实施例可以应用于各类电子设备,例如,个人电脑、服务器、手机以及其他具有数据处理能力的设备。并且,本发明实施例提供的事故信息提取方法可以通过软件、硬件或软硬件结合的方式实现。
[0107]
在一实施例中,应用本发明所提供事故信息提取方法的电子设备,可以预先部署有预先训练的信息分类模型。或者,在另一实施例中,预先训练的信息分类模型也可以部署在云端,应用本发明所提供事故信息提取方法的电子设备可以与云端通信,这都是可以的。在又一实施例中,本发明的执行主体可以部署在事务接报平台内,例如事务接报平台内的服务器、终端电路等。
[0108]
其中,本发明实施例提供的一种事故信息提取方法,可以包括如下步骤:
[0109]
获取事故接报文本;其中,事故接报文件为:基于针对待处理事故的事故接报对话所生成的文本;
[0110]
利用预先训练的信息分类模型,对事故接报文本进行事故信息分类,得到事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别;其中,信息分类模型为:基于样本文本与所对应的标注结果训练得到的,标注结果用于指示:样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别;
[0111]
针对事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的待处理事故的事故信息。
[0112]
本发明实施例上述方案,可以获取待处理事故的事故接报文本,进而利用预先训练的信息分类模型,对事故接报文本进行事故信息分类,得到事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别,并针对事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的待处理事故的事故信息可见,通过本方案,可以自动提取待处理事故的事故信息,从而可以提高事故信息确定的效率。
[0113]
下面结合附图,对本发明实施例提供的一种事故信息提取方法进行详细介绍。
[0114]
如图1所示,本发明实施例提供的一种事故信息提取方法,可以包括如下步骤:
[0115]
s101,获取事故接报文本;
[0116]
其中,事故接报文件为:基于针对待处理事故的事故接报对话所生成的文本。
[0117]
其中,事故接报对话可以为事故接报平台的对话录音。其中,对话路由可以为事务接报平台在接收到待处理事故的报警人员的紧急电话后,报警人员针对待处理事故进行描述的对话内容。例如:xx小区发生了火灾,快来救火等。
[0118]
在一种实现方式中,可以采用如下方式,基于针对待处理事故的事故接报对话生成事故接报文本,包括:
[0119]
对针对待处理事故的事故接报对话进行语音识别,生成事故接报文本。
[0120]
其中,可以通过语音识别离线sdk(software development kit,软件开发工具包)将事故接报对话的语音内容转成文本内容,进而生成事故接报文本。或者,也可以通过在线语音识别的方式,将事故接报对话上传至云端,由部署与云端的具有语音识别功能的设备,对针对待处理事故的事故接报对话进行语音识别,生成事故接报文本。
[0121]
在一种实现方式中,对事故接报对话的语音内容所生成的文本内容中,往往包含多人对话,如接线员询问文本,报警人员陈述文本等。对于本发明实施例而言,所需确定的事故信息均是报警人员所陈述的,因此,在对事故接报对话进行语音识别后,可以将报警人员的陈述文本合并成一段话,作为事故接报文本。
[0122]
若事故接报文本由本发明执行主体生成,则事故接报文本生成的过程即可理解为事故接报文本的获取过程。若事故接报文本由本发明执行主体以外的电子设备生成时,则本发明执行主体可以从生成事故接报文本的电子设备处获取事故接报文本。
[0123]
s102,利用预先训练的信息分类模型,对事故接报文本进行事故信息分类,得到事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别;其中,信息分类模型为:基于样本文本与所对应的标注结果训练得到的,标注结果用于指示:样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别;
[0124]
其中,事故信息分类可以包括事故类型以及事故要素,其中,事故类型可以包括6类类型,分别为危化品、矿山、交通、建筑施工、火灾以及工商贸。而事故要素可以包括4类要素,分别为发生时间、发生地点、受伤人数以及死亡人数。
[0125]
文本中的有效文本段为包含有效信息的文本段,而有效信息可以理解为与事故信息。例如,事故接报文本为:刚刚4点多的时候,在s海高速wl段附件,有一辆槽罐车发生爆炸,现场有人员伤亡。上述对话中,“刚刚4点多”包含事故时间,“s海高速wl段”包含事故地点,“爆炸”包含事故类型,因此,“刚刚4点多”、“s海高速wl段”以及“爆炸”为包含有效信息的有效文本段,而除有效文本段之外的文本段,则为包含无效信息的无效文本段。
[0126]
为了提高事故信息确定的效率,需要在获取到事故接报文本后,确定事故接报文本中的有效文本段,以及有效文本段所属的事务信息类型。基于此,本发明实施例基于样本文本与所对应的标注结果训练得到信息分类模型,其中,标注结果用于指示:样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别。从而使得训练所得到的信息分类模型可以对输入文本进行信息分类,确定文本中的有效文本段和有效文本段所属的事务信息类型。具体训练过程将在后续描述,在此不再赘述。
[0127]
s103,针对事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的待处理事故的事故信息。
[0128]
由于事故接报文本内文字偏于口语化,使得其中包含的事故信息不清晰、不标准,因此,在确定事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别后,需要对有效文本段作进一步的处理,确定文本段所记录的待处理事故的事故信息。
[0129]
预设的事故信息类别与文本处理操作之间的对应关系可以基于经验与需求进行设置。
[0130]
示例性的,对于事故时间这一事故信息类别而言,其对应的信息提取操作为:对抽取到的时间要素进行格式转换,一般对话中会涉及到“今天”、“上午”、“下午”、“晚上”、“几点左右”,“刚刚”等大致时间段。通过使用正则表达式,将事故发生时间转换为yyyy-mm-dd hh:mm:ss的格式。
[0131]
又如,对于事故地点这一事故信息类别而言,其对应的信息提取操作为:预先建立辖区内详细地名表并采用树型结构存储,在获取到事故接报文本内的事故地点对应的文本段后,进而结巴(中文分词库)分词,并根据结巴的词性标注功能过滤出地点名词,再与已建立的地名表进行查找匹配,最终以
××

××

××

××
街道
××
门牌号的格式返回事故地点;
[0132]
再如,对于死亡人数这一事故信息类别而言,其对应的信息提取操作为:在获取到事故接报文本内的死亡人数对应的文本段后,将该文本段内的伤亡人数转成阿拉伯数字格式。若提取到的数字为中文格式(如二十一),则使用正则表达式(数字[一、二、...、九])+(数词[十、百、千、万、十万、百万、千万、亿])进行匹配,并转成阿拉伯数字格式;
[0133]
本发明实施例上述方案,可以获取待处理事故的事故接报文本,进而利用预先训练的信息分类模型,对事故接报文本进行事故信息分类,得到事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别,并针对事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的待处理事故的事故信息可见,通过本方案,可以自动提取待处理事故的事故信息,从而可以提高事故信息确定的效率。
[0134]
基于图1所示实施例,如图2所示,本发实施例还提供一种事故信息提取方法,按照以下步骤训练信息分类模型:
[0135]
s201,从训练样本集中,获取目标样本文本;
[0136]
其中,训练样本集的构建过程包括:采集大量的事故接报对话,通过语音识别技术转成样本文本,在初始语料库内存储;进一步的,对初始预料库中的每一样本文本进行标注,标注出样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别,得到样本文本的标注结果。
[0137]
在一种实现方式中,每一样本文本对应的标注结果采用bio(begin-inside-outside,开始-内部-外部)标注方式,对该样本文本进行标注所得到的标注结果。其中,b所标注的字符为某一有效文本段(事故类型或事故要素)的开头,i所标注的字符为有效文本段的中间或结尾,o所标注的字符为无效文本段的字符。示例性的,如图3所示,对于事故接报文本“刚刚4点多的时候,在s海高速wl段附近,有一辆槽罐车发生爆炸,现场有人员伤亡”而言,“刚刚4点多”、“s海高速wl段”以及“爆炸”为有效文本段,则每一有效文本段的开头字符:“刚”、“s”以及“爆”,使用b进行标注,而中间字符:“刚4点多”、“海高速wl段”以及“炸”,则其中每一字符均使用i进行标注,其他字符使用o进行标注。进一步的,每一字符还标注由其所在文本段所属的事故信息类别,如3中的时间、地点和类型等。
[0138]
在每一样本文本均标注好了之后,在一种实现方式中,将所有的标注好的样本文本均作为训练样本集中的样本,或者,在另一实现方式中,可以将所有的标注好的样本文本均按照预设比例分为两部分,一部分作为训练样本集,一部分作为测试样本集。例如,训练
样本集占80%,测试样本集占20%。
[0139]
在确定了训练样本集后,即可从训练样本集中获取目标样本文本。
[0140]
s202,将目标样本文本输入待训练的神经网络模型,以使神经网络模型对目标样本文本进行事故信息分类,得到预测分类结果;其中,预测分类结果包括:目标样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别;
[0141]
在获取到目标样本文本后,即可将述目标样本文本输入待训练的神经网络模型,以使神经网络模型对目标样本文本进行事故信息分类,得到预测分类结果。后续实施例将做进一步地进行描述,在此不再赘述。
[0142]
s203,基于预测分类结果,与目标样本文本的标定结果的差异,调整神经网络模型的网络参数;并返回从训练样本集中,获取目标样本文本的步骤。
[0143]
本步骤将在后续实施例做进一步地进行描述,在此不再赘述。
[0144]
本发明实施例上述方案,可以提高事故信息确定的效率。进一步的,可以通过目标样本文本,对神经网络模型进行训练,进而可以得到信息分类模型。从而当需要提取事故信息时,可以先利用信息分类模型提取事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类,进而基于此确定事故信息。可见,通过本实施例所提供方案,为提高事故信息确定效率提供了实现基础。
[0145]
可选的,在一实施例中,每一样本文本对应的标注结果为:样本文本的有效文本段内每一字符所属的事故信息类别;
[0146]
在一种实施例中,如图4所示,为本发明实施例提供的神经网络模型示意图。上述神经网络模型包括:albert、bi-lstm和crf。其中,albert是一个轻量级预训练的语言表征模型,具体作用可理解为将一个句子转化为具有语义信息的向量形式,即数字化。albert的输入为新闻句子的字符(包括中文字符、英文单词、数字和标点符号等),内容长度不超过512,记为n;输出为每一个字符经计算得到的向量,向量维度大小为128,因此最终输出为n
×
128(x1,x2,

,xn)。
[0147]
bi-lstm为一种循环神经网络,由2
×
n个单元组成,每个单元的结构完全相同,n与输入数据的长度相等。每个单元都由输入层、隐藏层和输出层组成,第一个单元的输出作为第二个单元的输入,以此类推,直至最后一个单元完成正向计算;再从最后一个单元依次往前,直至第一个单元完成反向计算;再将同一个输入数据的正向结果和反向结果相加得到每一个输出。示例性的,如图5所示,为本发明实施例中提供的单个lstm结构的示意图。lstm单元内包含了4个网络层,其中两个网络层的激活函数是s型函数(sigmoid函数),另外两个网络层的激活函数是双曲函数(tanh函数)。另外还设置了3道门来控制信息的流通方式,如图5中的和“门”是lstm循环神经网络最典型的特征,起到了保留信息和过滤噪音的作用。xi作为第i个循环单元的输入,同时输入单元系数c
i-1
和激活值a
i-1
,经过计算后输出yi、单元系数ci、激活值ai,ci和ai又作为第i+1个循环单元的输入,整个过程如下:
[0148][0149][0150]
[0151][0152][0153]
yi=ai[0154]
其中,wf、wu、w
t
分别对应三个步骤的权重系数,bf、bu、b
t
则是偏置系数,分别对应运算过程中产生的中间变量。
[0155]
此时,基于图2所示实施例,如图6所示,本发实施例还提供一种事故信息提取方法,采用如下步骤得到预测分类结果,包括:
[0156]
s601,将目标样本文本内每一字符转换为与该字符对应的字符向量;
[0157]
通过albert将目标样本文本内每一字符转换为128维的与每一字符对应的字符向量。
[0158]
s602,基于样本文本内各字符的字符顺序,依次对各字符的字符向量进行循环处理,得到每一字符的初始的概率向量;其中,每一字符的概率向量中每一维度的数值表征:该字符属于与该维度对应的事故信息类型的概率;
[0159]
在一种实现方式中,针对各字符中的每一字符,采用如下方式得到该字符的得到初始的概率向量,包括:
[0160]
按照样本文本内各字符的正向字符顺序,获取该字符的前文特征和前字符特征;其中,前文特征为基于该字符前文所有字符所提取的特征;前字符特征为:基于该字符的前一字符所提取的第一字符特征;
[0161]
基于前文特征、前字符特征以及该字符的字符向量,计算该字符的第一字符特征,并基于该字符的第一字符特征,确定该字符的初始的概率向量。
[0162]
其中,样本文本内各字符的正向字符顺序即样本文本的阅读顺序。示例性的,样本文本为“今天四点时,在xx路口发生了车祸”,则正向字符顺序为“今天四点时在xx路口发生了车祸”,则按照该顺序,依次输入字符。相应的,反向字符顺序为“祸车了生发口路xx在时点四天今”,则按照该顺序,依次输入字符。
[0163]
可选的,在一种实现方式中,在基于前文特征、前字符特征以及该字符的字符向量,计算该字符的第一字符特征之后,还包括:
[0164]
基于前字符特征以及该字符的字符向量,更新前文特征。
[0165]
可选的,在一种实现方式中,将s601所得到的中每一个字符对应的字符向量xi,依次作为bi-lstm的输入,经过循环计算,得到每一个lstm单元的输出向量yi,yi的维度大小为21(6类事故类型和4类事故要素,每一类均含“b
‑”
和“i
‑”
两种标签,再加“o”标签),yi的含义为21种标签对应的概率值,bi-lstm的最终输出为n
×
21(y1,y2,

,yn)。
[0166]
s603,按照约束条件,对各字符的初始的概率向量进行调整;得到目标概率向量;其中,约束条件为神经网络模型通过历史训练数据学习所得;
[0167]
其中,约束条件为神经网络模型通过历史训练数据学习所得。可选的,为crf层在训练的过程中学习得到的,例如“b-label(标签)1i-labe1”是有效的,“b-label1 i-labe2”则是无效的。
[0168]
s604,基于每一字符的目标概率向量,确定各字符所属的事故信息类别,作为预测分类结果。
[0169]
本发明实施例上述方案,可以提高事故信息确定的效率。进一步的,可以通过目标样本文本,对神经网络模型进行训练,进而可以得到信息分类模型。从而当需要提取事故信息时,可以先利用信息分类模型提取事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类,进而基于此确定事故信息。可见,通过本实施例所提供方案,为提高事故信息确定效率提供了实现基础。
[0170]
可选的,在一实施例中,在基于该字符的第一字符特征,确定该字符的初始的概率向量之前,还包括:
[0171]
按照样本文本内各字符的反向字符顺序,获取该字符的后文特征和后字符特征;其中,后文特征为基于该字符后文所有字符所提取的特征;后字符特征为:基于该字符的后一字符所提取的第二字符特征;
[0172]
基于后文特征、后字符特征以及该字符的字符向量,计算该字符的第二字符特征;
[0173]
此时,基于该字符的第一字符特征,确定该字符的初始的概率向量,可以包括:
[0174]
基于该字符的第一字符特征和该字符的第二字符特征,确定该字符的初始的概率向量。
[0175]
本发明实施例上述方案,可以提高事故信息确定的效率。进一步的,可以通过目标样本文本,对神经网络模型进行训练,进而可以得到信息分类模型。从而当需要提取事故信息时,可以先利用信息分类模型提取事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类,进而基于此确定事故信息。可见,通过本实施例所提供方案,为提高事故信息确定效率提供了实现基础。
[0176]
基于图2所示的实施例,如图7所示,本发明实施例还提供了一种瞳孔亮斑消除模型的训练方法,上述步骤s203中基于预测分类结果,与目标样本文本的标定结果的差异,调整神经网络模型的网络参数,可以包括:
[0177]
s701,基于预测分类结果和目标样本文本的标定结果,计算神经网络模型的损失函数值,作为预测分类结果与目标样本文本的标定结果的差异;
[0178]
可选的,在一实施例中,预测分类结果为多个;
[0179]
基于预测分类结果和目标样本文本的标定结果,计算神经网络模型的损失函数值,可以包括:
[0180]
步骤1:计算每一预测分类结果的结果评分;
[0181]
在一种实现方式中,采用如下公式计算每一预测分类结果的结果评分:
[0182][0183][0184]
其中,pi为第i种预测结果的结果评分;表示在第i种预测结果中第j个字符所属的事故信息类别的概率;表示在第i种预测结果中第j-1个字符所属的事故信息类别与第j个字符所属的事故信息类别的跳转概率。
[0185]
步骤2:将各测分类结果的结果评分相加,得到神经网络模型的预测评分;
[0186]
步骤3:基于预测评分与目标样本文本的标定结果对应的标注评分,计算神经网络模型的损失函数值。
[0187]
在一种实现方式中,按照以下公式,计算神经网络模型的损失函数值:
[0188][0189]
其中,lossfunction为损失函数值,p
realpath
为目标样本文本的标定结果对应的标注评分,p
total
为预测评分。
[0190]
s702,基于损失函数值,调整神经网络模型的网络参数。
[0191]
本发明实施例上述方案,可以提高事故信息确定的效率。进一步的,可以通过目标样本文本,对神经网络模型进行训练,进而可以得到信息分类模型。从而当需要提取事故信息时,可以先利用信息分类模型提取事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类,进而基于此确定事故信息。可见,通过本实施例所提供方案,为提高事故信息确定效率提供了实现基础。
[0192]
可选的,在实施例中,在针对事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的待处理事故的事故信息之后,还可以包括:
[0193]
基于所得到的事故信息,生成事故信息报告表。
[0194]
示例性的,如图8所示,为本发明实施例提供的一种事故信息报告表,将所提取的事故信息填至信息报告表中的对应位置。将所提取的事故时间填写至对应时间文本框,将所提取的事故地点填写至对应地点文本框,并将事故类型填写至对应类型文本框,生成事故信息报告表。
[0195]
相应于上述所提供的方法,如图9所示,本发明实施例还提供了一种事故信息提取装置,装置包括:
[0196]
文本获取模块901,用于获取事故接报文本;其中,事故接报文件为:基于针对待处理事故的事故接报对话所生成的文本;
[0197]
信息分类模块902,用于利用预先训练的信息分类模型,对事故接报文本进行事故信息分类,得到事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别;其中,信息分类模型为:基于样本文本与所对应的标注结果训练得到的,标注结果用于指示:样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别;
[0198]
信息提取模块903,用于针对事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的待处理事故的事故信息。
[0199]
可选地,按照以下模块训练信息分类模型:
[0200]
文本获取模块,用于从训练样本集中,获取目标样本文本;
[0201]
文本输入模块,用于将目标样本文本输入待训练的神经网络模型,以使神经网络模型对目标样本文本进行事故信息分类,得到预测分类结果;其中,预测分类结果包括:目标样本文本内的各有效文本段,以及每一有效文本段所属的事故信息类别;
[0202]
参数调整模块,用于基于预测分类结果,与目标样本文本的标定结果的差异,调整神经网络模型的网络参数;并返回从训练样本集中,获取目标样本文本的步骤。
[0203]
可选地,每一样本文本对应的标注结果为:样本文本的有效文本段内每一字符所属的事故信息类别;
[0204]
神经网络模型,包括:
[0205]
向量转换模块,用于将目标样本文本内每一字符转换为与该字符对应的字符向量;
[0206]
循环处理模块,用于基于样本文本内各字符的字符顺序,依次对各字符的字符向量进行循环处理,得到每一字符的初始的概率向量;其中,每一字符的概率向量中每一维度的数值表征:该字符属于与该维度对应的事故信息类型的概率;
[0207]
概率调整模块,用于按照约束条件,对各字符的初始的概率向量进行调整;得到目标概率向量;其中,约束条件为神经网络模型通过历史训练数据学习所得;
[0208]
类别预测模块,用于基于每一字符的目标概率向量,确定各字符所属的事故信息类别,作为预测分类结果。
[0209]
可选地,循环处理模块,具体用于针对各字符中的每一字符,采用如下方式得到该字符的得到初始的概率向量,包括:按照样本文本内各字符的正向字符顺序,获取该字符的前文特征和前字符特征;其中,前文特征为基于该字符前文所有字符所提取的特征;前字符特征为:基于该字符的前一字符所提取的第一字符特征;基于前文特征、前字符特征以及该字符的字符向量,计算该字符的第一字符特征,并基于该字符的第一字符特征,确定该字符的初始的概率向量。
[0210]
可选地,循环处理模块,还用于在基于前文特征、前字符特征以及该字符的字符向量,计算该字符的第一字符特征之后,基于前字符特征以及该字符的字符向量,更新前文特征。
[0211]
可选地,循环处理模块,还用于在基于该字符的第一字符特征,确定该字符的初始的概率向量之前,按照样本文本内各字符的反向字符顺序,获取该字符的后文特征和后字符特征;其中,后文特征为基于该字符后文所有字符所提取的特征;后字符特征为:基于该字符的后一字符所提取的第二字符特征;基于后文特征、后字符特征以及该字符的字符向量,计算该字符的第二字符特征;
[0212]
循环处理模块,具体用于基于该字符的第一字符特征和该字符的第二字符特征,确定该字符的初始的概率向量。
[0213]
可选地,参数调整模块,具体用于基于预测分类结果和目标样本文本的标定结果,计算神经网络模型的损失函数值,作为预测分类结果与目标样本文本的标定结果的差异;基于损失函数值,调整神经网络模型的网络参数。
[0214]
可选地,预测分类结果为多个;
[0215]
参数调整模块,具体用于计算每一预测分类结果的结果评分;将各测分类结果的结果评分相加,得到神经网络模型的预测评分;基于预测评分与目标样本文本的标定结果对应的标注评分,计算神经网络模型的损失函数值。
[0216]
可选地,参数调整模块,具体用于:
[0217]
采用如下公式计算每一预测分类结果的结果评分:
[0218]
[0219][0220]
其中,pi为第i种预测结果的结果评分;表示在第i种预测结果中第j个字符所属的事故信息类别的概率;表示在第i种预测结果中第j-1个字符所属的事故信息类别与第j个字符所属的事故信息类别的跳转概率。
[0221]
可选地,参数调整模块,具体用于按照以下公式,计算神经网络模型的损失函数值:
[0222][0223]
其中,lossfunction为损失函数值,p
realpath
为目标样本文本的标定结果对应的标注评分,p
total
为预测评分。
[0224]
可选地,每一样本文本对应的标注结果为:采用bio标注方式,对该样本文本进行标注所得到的标注结果。
[0225]
可选地,还包括:事故接报文本生成模块,用于采用如下方式,基于针对待处理事故的事故接报对话生成事故接报文本,包括:对针对待处理事故的事故接报对话进行语音识别,生成事故接报文本。
[0226]
可选地,装置还包括:报告表生成模块,用于在信息提取模块执行针对事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的待处理事故的事故信息之后,基于所得到的事故信息,生成事故信息报告表。
[0227]
本发明实施例上述方案,可以获取待处理事故的事故接报文本,进而利用预先训练的信息分类模型,对事故接报文本进行事故信息分类,得到事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别,并针对事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记录的待处理事故的事故信息可见,通过本方案,可以自动提取待处理事故的事故信息,从而可以提高事故信息确定的效率。
[0228]
本发明实施例还提供了一种电子设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,
[0229]
存储器1003,用于存放计算机程序;
[0230]
处理器1001,用于执行存储器1003上所存放的程序时,实现上述事故信息提取方法步骤。
[0231]
本发明实施例上述电子设备,可以获取待处理事故的事故接报文本,进而利用预先训练的信息分类模型,对事故接报文本进行事故信息分类,得到事故接报文本内各包含有效信息的有效文本段,以及每一有效文本段所属的事故信息类别,并针对事故接报文本内每一有效文本段,基于预设的事故信息类别与文本处理操作之间的对应关系,采用与该文本段所属事故信息类别对应的信息提取操作,对该文本段进行处理,得到该文本段所记
录的待处理事故的事故信息可见,通过本方案,可以自动提取待处理事故的事故信息,从而可以提高事故信息确定的效率。
[0232]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0233]
通信接口用于上述电子设备与其他设备之间的通信。
[0234]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0235]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0236]
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一事故信息提取方法的步骤。
[0237]
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一事故信息提取方法。
[0238]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0239]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0240]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0241]
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1