一种文本挖掘应用于道路交通事故数据处理的方法与流程

文档序号:18465711发布日期:2019-08-17 02:26阅读:449来源:国知局
本发明涉及道路事故处理
技术领域
:,尤其涉及一种文本挖掘应用于道路交通事故数据处理的方法。
背景技术
::在交通强国战略的推动下,我国道路交通已进入由高速增长向高质量发展的转型期,交通安全问题倍受关注和重视。而交通事故数据是交通安全研究的核心数据来源,为道路安全改善提供基础情报支撑。近年来,公安交通管理综合应用平台(“六合一”平台)的全面应用,有效提高了交通事故处理和历史事故存档的信息化水平。然而据2014年中华人民共和国道路交通统计年报显示,中国大陆事故主要原因统计中,事故致因不明确的机动车违法行为,即事故原因中显示为“其他影响安全的行为”占据了43%,这极大影响了事故数据的可用性,使分析并改善我国道路交通安全状况的准确度和效果急剧下降。对比香港运输署发布的中国香港事故原因统计,“其他”类别的违法行为只占13%。值得注意的是,“六合一”平台中存储了事故发生时交警记录的事故文本描述,详细记录了事故发生的情景。然而由于自然语言非结构化的特征,事故文本中蕴含的有效信息不能直接批量提取,难以被纳入道路安全研究数据资料体系。在以往交通事故研究中,应对事故数据不完整的问题,主要有以下两种方法:①应用可以解决数据异质性的统计方法,通过灵活泛化参数,减小数据信息记录不全造成的参数估计偏差,包括随机参数模型、潜变量模型、多元结构模型和引入空间结构等等。该类方法的优势在于处理过程简单,无需重新收集数据,但难以完整修复缺失信息,无法量化缺失信息的影响,且分析结果对模型选取有较大的依赖性;②展开事故深度调查,利用可获取的视频数据、痕迹数据、目击数据等原始材料,应用事故重建技术,深入探究事故发生机理。该类方法的优势是可完整还原事故发生场景,但仅适应于原始数据完备和小样本案例分析。目前,已有少量研究利用文本挖掘对交通事件(拥堵、事故等)的持续时间进行预测,但尚未开展基于文本挖掘的交通事故信息分析及数据质量改善等相关基础性研究工作。综上,交通事故数据的质量亟待提高,而现有针对数据不完整问题的解决方案有着修复能力不可靠、依赖单一事故难以全部找出的过多原始数据等短板。且“六合一”平台中存储的事故描述文本数据应被有效利用。因此,本发明提出的应用文本挖掘技术修复事故数据将成为解决修复事故数据问题的全新有效解决方案。技术实现要素:本发明旨在至少解决现有技术中存在的技术问题。为此,本发明公开了一种文本挖掘应用于道路交通事故数据处理的方法,对道路交通事故数据样本进行中文分词,通过词嵌入模型将所述样本数据集三维向量化,再通过神经网络cnn搭建大规模文本分类网络textcnn网络构建模型,输出关键交通信息。更进一步地,所述对道路交通事故数据样本进行中文分词包括:在开源库jieba本身的普适语料库的基础上,根据场景特点,导入交通安全语料库作为自定义词库,对样本进行分词,再去除停用词,删去与判责无关系的文本,增强歧义纠错能力。更进一步地,所述通过词嵌入模型将所述样本数据集三维向量化进一步包括:根据道路交通事故场景短文本的特点,将文本的词组中的每一个词对应的行向量进行上下拼接,所述文本用一个二维矩阵(x,y)来表示,每一个词的特征保存在矩阵中,将所有文本转化为二维矩阵后,将多个文本平面相叠,按垂直方向进行上下拼接,用一个立体三维矩阵(x,y,z)表示整个数据集,若文本次数不等,则用0填充,以保证得到结构一致的三维矩阵。更进一步地,所述通过神经网络cnn搭建大规模文本分类网络textcnn网络构建模型进一步包括:对所述数据集进行划分,将标记值y二值化,通过训练模型进行预测,再随机化数据,并按预设比例划分训练数据集和测试数据集;使用基于tensorflow作为后端的keras框架进行建模,构建conv1d卷积层、全局最大池化层、dropout防止过拟合和输出;对训练数据集经过200epoch训练后,再运用测试数据集对模型进行测试,得到模型效果、精度以及误差。更进一步地,所述按预设比例划分训练数据集和测试数据集,其中的预设比例为8:2。更进一步地,将事故原因分为五类,状态因素、速度因素、转向因素、车距因素四类原因设置为模型类别,将分类尚未明晰数据设置为“其他”,模型训练前,先将类别为“其他”的数据全部抽出,在运用训练集对模型训练完成后,将分类尚未明晰数据导入模型进行预测,得到模型所判断的输出类别。更进一步地,进行数据可视化,生成以不同高亮形式显示交通事故频率的地理区域图,直观表示交通事故大数据分析结果。更进一步地,在excel中运用相关函数提取出每条事故详细记录中与事故发生地列,再将该表导入到tableau作为要与地理信息数据库连接的事故数据表,tableau将根据事故源数据表和tableau自带的地理信息数据库进行连接,得到交通事故财产损失及事故规模区域分布热力图。更进一步地,在java环境下开发交通事故致因修复系统,将交通事故文本记录中的关键信息进行提取,修复认定原因为“其他”的事故致因;在系统中检索交通事故文本记录,系统将对事故文本记录进行结构化处理,最终输出交通关键信息。更进一步地,所述交通关键信息包括:最终分类、事故发生时间、驾驶员姓名、车牌号、车辆类型、事故发生地点、损失、是否状态相关。受限于传统技术,交通事故文本记录作为高度非结构化数据,难以有效利用。与现有技术相比,发明基于自然语言处理技术处理交通事故记录文本,再综合运用python和c++语言开发事故致因修复系统,可自动化、大批量处理事故数据记录,有效提高事故数据质量,该事故致因修复系统操作简便、处理高效、信息直观、致因分析准确。针对中文分词不能通过空格或其他标点来识别的特殊性,在开源库jieba本身语料库的基础上,根据相关法律法规和实施条例构建好的交通安全语料库,作为自定义词库,再对样本中文分词和去除停用词,可增强歧义纠错能力,保证分词准确性。通过word2vec模型将文本向量化,用三维矩阵表示整个数据集,且能将每一个词的特征较好地保存在矩阵中,突破了文本数据非结构化特征的局限,充分应用文本数据并便利其在建立模型过程中的使用。本发明的制作成本较低,有效克服我国道路交通事故结构化记录的不足,且能够高效准确地修复交通事故数据。同时,本系统是国内首次应用文本挖掘技术修复事故数据,应用的文本分析技术达到了世界先进水平。附图说明从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。图1是本发明的样本立体三维矩阵数据集图;图2是本发明一实施例中的事故规模区域分布热力图;图3是本发明一实施例中事故致因修复系统处理界面的示例图;图4是本发明一实施例中事故致因修复系统输出界面示例图。具体实施方式实施例一本实施例中,首先对数据进行处理和模型构建,本发明使用python,将其作为主语言,利用开源库jieba对样本进行中文分词,再凭借word2vec模型,将数据集三维向量化,最后运用卷积神经网络cnn,搭出textcnn网络,实现模型。1.1中文分词如图1所示,中文分词是指将汉字序列按照提取专用词的规范重新组合成词序列的过程,其中去除停用词作为关键步骤,是指在信息检索中,处理自然语言数据时过滤掉某些对本文本数据无实际含义的字、字符和词,以此节省存储空间和提高搜索效率。在开源库jieba本身的普适语料库的基础上,根据场景特点,导入交通安全语料库作为自定义词库,对样本进行分词,再去除停用词,删去许多与判责无关系的文本,增强歧义纠错能力。在原始数据集中,字段’x’是原始事故数据案情描述,字段’y’是最后确定的新分类类别,字段’split’是分词后的结果。1.2构建立体向量数据集原始数据集是传统二维表,一维表示特征,二维表示数据数量,该二维表只能进行向量平均化,即用行向量代表整个文本,特征属性抽象化,故效果不佳。依照本场景短文本的特色,如果将一段文本的词组中的每一个词对应的行向量进行上下拼接,则该段文本就可用一个矩阵(x,y)来表示,且每一个词的特征都能较好地保存在矩阵中,效果相比均值化更好。由于数据集中包含多段文本,因此,还需增加一个维度z,若将每一个文本都用一个平面表示,即将所有文本转化为二维矩阵后,再按垂直方向进行上下拼接,即将多个文本平面相叠,则可用一个立体三维矩阵(x,y,z)表示整个数据集,若文本次数不等,则可用0填充,以保证得到结构一致的三维矩阵。1.3建立模型对数据集进行划分,将标记值y二值化,然后训练模型并预测,再随机化数据,并按8:2的比例划分训练数据集和测试数据集。使用基于tensorflow作为后端的keras框架进行建模。构建conv1d卷积层、全局最大池化层、dropout防止过拟合和输出。对训练数据集经过200epoch训练后,再运用测试数据集对模型进行测试,得到模型效果、精度以及误差。本发明将事故原因分为五类,第1类为“其他”,即分类尚未明晰数据,因此将剩下的2(状态因素),3(速度因素),4(转向因素),5(车距因素)四类原因设置为模型类别。模型训练前,先将类别为1约占事故原因总数据的1/3的数据全部抽出,在运用训练集对模型训练完成后,将1类数据导入模型进行预测,即可得到模型所判断的输出类别,经检查,测试效果准确度较高。2数据可视化如图2所示,本实施例通过利用tableau对2012年至2018年湖南省高速公路7座以上客车事故,进行数据可视化,生成以不同高亮形式显示湖南省各市交通事故频率的地理区域图,直观表示交通事故大数据分析结果。可视化操作的数据源是湖南省7年高速公路交通事故记录文本数据,在excel中运用相关函数提取出每条事故详细记录中与湖南省省辖市有关信息到事故发生地列,再将该表导入到tableau作为要与地理信息数据库连接的事故数据表,tableau将根据事故源数据表和tableau自带的地理信息数据库进行连接,得到湖南省交通事故财产损失及事故规模区域分布热力图。通过图2所示,可以明晰湖南省交通事故高发地,未来将进一步对该地事故发生致因进行分类分析,构建并识别不同地区的交通事故高危场景,并针对性地规划和改进该地交通设施。3事故致因修复系统开发如图3-4所示所示的系统前端界面,在java环境下开发交通事故致因修复系统,实现将自然语言文本结构化功能,将交通事故文本记录中的关键信息进行提取,修复认定原因为“其他”的事故致因。在系统中检索交通事故文本记录,系统将对事故文本记录进行解释,即结构化处理,最终可输出“最终分类”、“事故发生时间”、“驾驶员姓名”、“车牌号”、“车辆类型”、“事故发生地点”、“损失”、“是否状态相关”等关键信息。该系统可在历史事故数据中存在致因不完善的情况下准确修复事故数据致因,提高数据质量,并可便利地应用于处理今后交通事故数据的致因,增强数据完整性和可用性。由道路交通事故统计年报对于交通事故主要致因的统计进行分类可得,案件数量最多的致因是未按规定让行、无证驾驶、酒后驾驶、违法会车等,但经过进一步分析可以看出,其中部分致因(无证驾驶、酒后驾驶、疲劳驾驶)仅是驾驶状态因素,并非是致使事故发生的直接致因。如此,事故直接致因和驾驶状态因素杂糅的情况则会导致事故原因分析、交通安全改善工作缺乏可靠性。实施例二一种文本挖掘应用于道路交通事故数据处理的方法,对道路交通事故数据样本进行中文分词,通过词嵌入模型将所述样本数据集三维向量化,再通过神经网络cnn搭建大规模文本分类网络textcnn网络构建模型,输出关键交通信息。更进一步地,所述对道路交通事故数据样本进行中文分词包括:在开源库jieba本身的普适语料库的基础上,根据场景特点,导入交通安全语料库作为自定义词库,对样本进行分词,再去除停用词,删去与判责无关系的文本,增强歧义纠错能力。更进一步地,所述通过词嵌入模型将所述样本数据集三维向量化进一步包括:根据道路交通事故场景短文本的特点,将文本的词组中的每一个词对应的行向量进行上下拼接,所述文本用一个二维矩阵(x,y)来表示,每一个词的特征保存在矩阵中,将所有文本转化为二维矩阵后,将多个文本平面相叠,按垂直方向进行上下拼接,用一个立体三维矩阵(x,y,z)表示整个数据集,若文本次数不等,则用0填充,以保证得到结构一致的三维矩阵。更进一步地,所述通过神经网络cnn搭建大规模文本分类网络textcnn网络构建模型进一步包括:对所述数据集进行划分,将标记值y二值化,通过训练模型进行预测,再随机化数据,并按预设比例划分训练数据集和测试数据集;使用基于tensorflow作为后端的keras框架进行建模,构建conv1d卷积层、全局最大池化层、dropout防止过拟合和输出;对训练数据集经过200epoch训练后,再运用测试数据集对模型进行测试,得到模型效果、精度以及误差。更进一步地,所述按预设比例划分训练数据集和测试数据集,其中的预设比例为8:2。更进一步地,将事故原因分为五类,状态因素、速度因素、转向因素、车距因素四类原因设置为模型类别,将分类尚未明晰数据设置为“其他”,模型训练前,先将类别为“其他”的数据全部抽出,在运用训练集对模型训练完成后,将分类尚未明晰数据导入模型进行预测,得到模型所判断的输出类别。更进一步地,进行数据可视化,生成以不同高亮形式显示交通事故频率的地理区域图,直观表示交通事故大数据分析结果。更进一步地,在excel中运用相关函数提取出每条事故详细记录中与事故发生地列,再将该表导入到tableau作为要与地理信息数据库连接的事故数据表,tableau将根据事故源数据表和tableau自带的地理信息数据库进行连接,得到交通事故财产损失及事故规模区域分布热力图。更进一步地,在java环境下开发交通事故致因修复系统,将交通事故文本记录中的关键信息进行提取,修复认定原因为“其他”的事故致因;在系统中检索交通事故文本记录,系统将对事故文本记录进行结构化处理,最终输出交通关键信息。更进一步地,所述交通关键信息包括:最终分类、事故发生时间、驾驶员姓名、车牌号、车辆类型、事故发生地点、损失、是否状态相关。本实施例中,所述方法探索性地提出重构变量设计,利用模型和文本处理方法,还原在不同状态下的事故直接致因,最终共识别出自然状况不佳、疲劳驾驶等9种状态,并为之前致因被判定为“状态因素”的事故找到事故直接致因并作了统计,从而厘清事故的直接致因和状态因素,减少有偏估计,有效提高安全分析结果鲁棒性。交通安全分析工作可在状态统计分析的基础上,对驾驶员在不同状态下的驾驶行为做出准确把握,以采取合理措施减少事故的发生。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1