1.本发明涉及企业隐患排治理技术领域,具体而言,涉及一种隐患大数据智能分析诊断方法与系统。
背景技术:2.当下企业隐患排治理过程中实际面临“想不到、管不全、管不住、管不细”问题:一方面,现有技术中涉及到企业事故隐患的数据,格式多样缺乏统一调配,以至于大多数风险和隐患都只能靠相关人员凭经验或相关知识标准去发现,受人为主观因素影响,得到的企业事故隐患结果可靠性、精确性不高。
3.另一方面,在落实“企业主体责任”方面,大多数企业没有能力实现全方面、全环节、全覆盖、深层次的隐患排查治理,数据的格式转换和统一分析成为企业在隐患排查治理方面的天然门槛。
4.再者,在落实“政府监管责任”方面,由于监管对象众多、涉及面广,主管部门众多,数据虽然共享但缺乏统一调度使用,各行业主管部门独立运作,故行业主管部门无法有针对性开展精准监管,存在监管滞后问题。
5.综上,发明人发现现有技术中至少存在如下问题:现有技术对于企业隐患排查治理的技术问题的解决方案,都是尝试在较为单一的数据维度尝试对企业安全生产提供保障,数据维度少的前提必然导致无法解决“管不细”的问题,以主管部门来看,很难从较为全面的视角对企业安全生产进行管控,以至于终究无法脱离人为主观因素影响。
技术实现要素:6.为了克服现有技术的不足,本发明的目的在于提供一种隐患大数据智能分析诊断方法与系统。
7.一种隐患大数据智能分析诊断方法,包括:步骤1:获取目标行业的安全隐患数据;步骤2:对所述安全隐患数据进行数据清洗得到数据清洗后的安全隐患数据;步骤3:对所述数据清洗后的安全隐患数据进行聚类得到目标行业的通用隐患清单;步骤4:使用所述通用隐患清单对相应行业的隐患进行在线排查得到排查结果;步骤5:根据所述排查结果发出隐患报警提示。
8.优选的,所述步骤3:对所述数据清洗后的安全隐患数据进行聚类得到目标行业的通用隐患清单,包括:步骤3.1:将所述数据清洗后的每条安全隐患数据转换成相应的词频矩阵;步骤3.2:对所述词频矩阵进行聚类得到目标行业的通用隐患清单。
9.优选的,所述步骤3.1:将所述数据清洗后的每条安全隐患数据转换成相应的词频矩阵,包括:
采用公式:其中, 表示词条 的逆向文件频率, 表示词条 的词频;将所述数据清洗后的每条安全隐患数据转换成相应的词频矩阵。
10.优选的,所述步骤3.2:对所述词频矩阵进行聚类得到目标行业的通用隐患清单,包括:使用birch层次聚类算法对所述词频矩阵进行聚类得到目标行业的通用隐患清单。
11.优选的,所述步骤4:使用所述通用隐患清单对相应行业的隐患进行在线排查得到排查结果,包括:提取所述通用隐患清单上的每个隐患的前n个关键字,作为人机料法环隐患分类清单样本;利用所述人机料法环隐患分类清单样本构建机器学习算法模型;利用所述机器学习算法模型对所述通用隐患清单进行分类,得到隐患分类数据;利用所述隐患分类数据对相应行业的隐患进行在线排查得到排查结果。
12.本发明还提供了一种隐患大数据智能分析诊断系统,包括:隐患数据获取模块,用于获取目标行业的安全隐患数据;数据清洗模块,用于对所述安全隐患数据进行数据清洗得到数据清洗后的安全隐患数据;聚类模块,用于对所述数据清洗后的安全隐患数据进行聚类得到目标行业的通用隐患清单;隐患排查模块,用于使用所述通用隐患清单对相应行业的隐患进行在线排查得到排查结果;隐患报警模块,用于根据所述排查结果发出隐患报警提示。
13.本发明还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现上述的一种隐患大数据智能分析诊断方法中的步骤。
14.本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的一种隐患大数据智能分析诊断方法中的步骤。
15.本发明提供的一种隐患大数据智能分析诊断方法与系统的有益效果在于:与现有技术相比,本发明通过对目标行业的安全隐患数据进行聚类,可以直观的得到目标行业的通用隐患清单,基于此清单可以指导企业发现自身薄弱环节和安全生产管理能力,有助于
提升企业隐患排查治理和风险防控综合能力。
16.为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1示出了本发明实施例所提供的一种隐患大数据智能分析诊断方法流程图;图2示出了本发明实施例所提供的文本分词原理图;图3示出了本发明实施例所提供的提取文本特征原理图;图4示出了本发明实施例所提供的隐患数据聚类原理图。
具体实施方式
19.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
20.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
21.在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
22.请参阅图1,一种隐患大数据智能分析诊断方法,包括:步骤1:获取目标行业的安全隐患数据;在实际应用中,本发明首先需要获取安全生产相关的多维数据,并对获取的多维数据进行数据清洗、格式转换以及数据融合等操作,形成涵盖安全生产监管对象基础信息、安全风险点、安全隐患、国内外历史事故案例、行政处罚以及行业标准规范等数据的数据库,即安全生产数据湖。本发明的多维数据具体包括安全生产企业信息(名称、统一信用代码、地址、企业类型、所属行业等)、安全隐患数据、事故案例数据、区域监管行业标准数据、企业行政处罚数据等,并在安全生产数据湖中提取出目标行业的安全隐患数据。
23.步骤2:对所述安全隐患数据进行数据清洗得到数据清洗后的安全隐患数据;具体的,由于安全隐患数据来自于各种渠道,所以需要对数据进行清洗、格式转换
和融合,具体的过程如下:a将获取到的安全隐患数据全部入库,形成原始数据的数据库;b对数据进行清洗,清洗的具体过程采用正则表达式清除空格、换行、特殊符号、序号等内容,然后将清洗过后的数据再次入库,形成清洗后的数据库;c明确安全隐患数据相应的企业信息、事故数据等数据的标准;d按照标准格式将清洗后的数据进行入库。
24.步骤3:对所述数据清洗后的安全隐患数据进行聚类得到目标行业的通用隐患清单;需要说明的是,本发明在聚类之前,需要对数据清洗后的安全隐患数据进行分词,进一步的,本发明可采用通用的开源库(python的jieba分词)进行分词,jieba分词完后,会自动生成一个分词库(语料库的文档总数)。
25.其中,所述步骤3包括:步骤3.1:将所述数据清洗后的每条安全隐患数据转换成相应的词频矩阵;具体的,本发明可采用公式:其中,表示词条的逆向文件频率,表示词条的词频;将所述数据清洗后的每条安全隐患数据转换成相应的词频矩阵。
26.步骤3.2:对所述词频矩阵进行聚类得到目标行业的通用隐患清单。需要说明的是,本发明可使用birch层次聚类算法对所述词频矩阵进行聚类得到目标行业的通用隐患清单。
27.下面结合具体的实施例对本发明的聚类过程做进一步的说明:本发明在进行聚类时,需要以行业为维度,对安全生产数据湖中的安全隐患数据进行数据处理,利用层次聚类算法,将意思相同、文本内容不同的安全隐患数据进行聚类,形成行业的通用隐患清单。其具体过程如下:a首先利用tf-idf(term frequency
–
inverse document frequency)算法将文本隐患内容转换成带有隐患重点内容特征的数字类型的矩阵;tf-idf的算法公式:其中是词频,表示词条(关键字)在文本中出现的频率,具体公式如下:其中 ni,j 是第n个词在文件 dj 中出现的次数,分母则是文件 dj 中所有词汇出现的次数总和。
28.即:其中idf是逆向文件频率,表示某一特定词语的idf,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到,具体公式如下: 其中,|d| 是语料库中的文件总数。 || 表示包含词语 t
i 的文件数目(即 ni,j≠0 的文件数目)。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用 1+||即:b然后采用python中sklearn中的birch层次聚类算法对上一步的每条隐患的tf-idf词频矩阵进行聚类,将隐患文本相似高达75%以上的归为同一类隐患。
29.在聚类完成之后,本发明基于可在通用隐患清单基础上,通过按照通用隐患的行业跨度、某行业下通用隐患的出现的频次、某行业下某隐患出现的频次进行隐患通用分析,形成共性隐患清单、高频隐患清单、反复隐患清单,其中具体的规则如下;高频隐患:某行业下同一隐患出现次数>50;反复隐患:(某行业下某隐患的出现次数
÷
该行业企业覆盖数)>3;共性隐患:(某隐患在全行业的出现次数
÷
企业覆盖数*行业覆盖数)>10,行业覆盖数>2。
30.步骤4:使用所述通用隐患清单对相应行业的隐患进行在线排查得到排查结果;其中,步骤4包括:步骤4.1:通过hanlp提供的自然语义分析的关键词提取功能,提取所述通用隐患清单上的每个隐患的前n个关键字,作为人机料法环隐患分类清单样本;步骤4.2:利用所述人机料法环隐患分类清单样本构建机器学习算法模型;步骤4.3:利用所述机器学习算法模型对所述通用隐患清单进行分类,得到隐患分类数据;步骤4.4:利用所述隐患分类数据对相应行业的隐患进行在线排查得到排查结果。
31.进一步的,步骤4.4包括:本发明可在隐患通用分析的基础上,基于多行业的典型特征进一步对隐患分类数据进行分类,形成有针对性的典型隐患排查建议清单,包括基础管理隐患分析、典型场所隐患分析、典型设备隐患分析、典型作业隐患分析、典型工艺隐患分析排查建议清单等,这样
可以方便对相关行业的某个方面进行排查。如表1所示。
32.表1基础管理隐患分析是围绕企业安全生产标准化的安全许可、规章制度、档案管理、教育培训、应急救援、安全投入、巡检巡查等方面进行深度学习分类;典型场所隐患分析是对特定行业中的一些比较典型的场所存在的事故隐患进行深度学习,如化工行业的罐区、库区、加油站等等,最终分析形成该行业的典型场所隐患排查建议清单;典型设备隐患分析是对不同行业中的典型设备存在的常见隐患进行深度分析,如压力容器、反应釜等特种设备,最终形成某行业的典型设备隐患清单;典型作业隐患分析主要是对行业八大典型作业可能存在的原始隐患进行深度学习、关联分析,如:动火作业、高处作业等等,最终形成某行业某类典型作业的隐患排查建议清单;而典型工艺隐患分析,主要是基于重点关注的十八大危化工艺隐患进行深度学习,如硝化工艺、氯化工艺等等,分析形成不同行业下的某典型工艺隐患建议清单。
33.在对企业进行排查过程中,可由用户输入企业所属行业、主要产品或者服务等企业属性数据,通过聚类形成的通用隐患清单、高频隐患清单、反复隐患清单等,形成对企业
可能存在的隐患清单,并推送至用户,完成对企业的在线把脉问诊。同时根据行业隐患分析结果,比对企业隐患清单项,从而形成企业遗漏的隐患清单,系统再主动将遗漏的隐患数据推送给企业,提醒企业对遗漏隐患进行深度排查。
34.步骤5:根据所述排查结果发出隐患报警提示。在实际应用中,本发明一般对某个企业在高频隐患清单和反复隐患清单出现的隐患数据发出隐患报警提示,以便于工作人员对相关的隐患进行排查。
35.下面本发明以危险化学品行业为例,对本发明的分析诊断过程做说明:a、构建企业隐患大数据池(1)数据清洗:通过etl、正则表达式以及人工处理等方式对某区危化品行业的5万余条原始事故隐患数据进行数据清洗,形成4万余条危险化学品行业待聚合隐患数据。
36.(2)文本分词:如图2所示,首先基于python下的jieba分词库提供的基础语料库对隐患数据进行分词形成初步分词库,为了分词能更贴合安全生产领域,通过人工方式对初步分词库进行词语甄别,形成安全生产领域分词库,然后基于jieba分词的基础语料库和安全生产领域分词库重新分词,形成危险化学品行业的隐患数据分词表。
37.(3)提取文本特征:如图3所示,在文本分词基础之上,通过sklearn提供的词袋库模型构建词袋库,然后采用tf-idf算法构建每条隐患数据的词频矩阵,根据隐患数据特性,将词频矩阵中出现超过50%的词频去除,例如隐患数据中的“记录”、“企业”等词语,同时将词频低于30个的词语去除,例如隐患数据中设备型号、单据编号等,最终形成安全生产隐患数据的词频矩阵。
38.(4)隐患数据聚合:如图4所示,在安全生产隐患数据词频矩阵基础之上,为了最终隐患清单是最大集,通过sklearn中的层次聚类birch算法模型,按照不规定聚类数量,只根据词频特性,以0.75至0.95的权重进行隐患数据聚类。但存在原本同一隐患但分为两类隐患数据,因此采用3至5次聚类迭代,使隐患数据聚合。例如按照树形结构对隐患数据进行聚类,形成3259条的危险化学品行业常见隐患清单。
39.b、企业隐患在线诊断(5)隐患智能分析:对危险化学品行业常见隐患的出现频次进行分级,形成行业高频隐患清单219条(>10次);对危险化学品行业常见隐患清单,按照安全生产标准化、典型特征进行分类,生成基础管理隐患清单、典型场所隐患清单、典型设备隐患清单、典型作业隐患清单等;(6)隐患排查建议清单:根据某危化企业的行业特征,系统根据算法模型分析生成了危险化学品行业高频隐患213条、基础管理隐患144条、典型场所隐患85条、典型设备隐患225条、典型作业隐患27条。
40.c、企业确认诊断结果(7)企业隐患排查诊断:将(6)中的隐患排查清单与企业历史实际排查出的原始隐患进行比对,并将全量隐患建议清单推送给企业便于工作人员复查验证。
41.需要说明的是,在实践操作中,企业可将隐患排查验证结果录入系统,系统会继续优化隐患诊断模型,促使企业隐患分析结果越来越准确。
42.根据本发明具体的实施例本发明公开了一下技术效果:1)本发明构建了基于企业安全生产的数据湖,该数据湖存储了大量为隐患诊断、
隐患排查、隐患治理提供的样本数据。一方面,数据湖作为数据拥有者,不仅可为企业的海量数据进行集中式管理,还负责获取和分析数据,为算法模型的建立、优化提供一个可追溯性的数据服务;另一方面,数据湖又作为数据消费者,可应用于机器学习与人工智能技术,便于对算法模型进行优化。
43.2)本发明应用大数据、机器学习等人工智能分析算法,生成隐患排查建议清单,解决了企业、行业部门传统的风险辨识、隐患排查治理过程中受人为主观影响可靠性不高、管理滞后等问题。
44.3)本发明运用机器学习、语义分析等关键算法综合分析企业薄弱环节,建立通用隐患清单,有助于提升企业隐患排查治理和风险防控综合能力,解决了传统排查手段主观、片面的问题。
45.本发明还提供了一种隐患大数据智能分析诊断系统,包括:隐患数据获取模块,用于获取目标行业的安全隐患数据;数据清洗模块,用于对所述安全隐患数据进行数据清洗得到数据清洗后的安全隐患数据;聚类模块,用于对所述数据清洗后的安全隐患数据进行聚类得到目标行业的通用隐患清单;隐患排查模块,用于使用所述通用隐患清单对相应行业的隐患进行在线排查得到排查结果;隐患报警模块,用于根据所述排查结果发出隐患报警提示。
46.与现有技术相比,本发明提供的一种隐患大数据智能分析诊断系统的有益效果与上述技术方案所述一种隐患大数据智能分析诊断方法的有益效果相同,在此不做赘述。
47.本发明还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现上述的一种隐患大数据智能分析诊断方法中的步骤,与现有技术相比,本发明提供的电子设备的有益效果与上述技术方案所述一种隐患大数据智能分析诊断方法的有益效果相同,在此不做赘述。
48.本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的一种隐患大数据智能分析诊断方法中的步骤,与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案所述一种隐患大数据智能分析诊断方法的有益效果相同,在此不做赘述。
49.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换的技术方案,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。