一种基于多模态大模型的作业现场安全管控方法及系统与流程

文档序号:41298117发布日期:2025-03-17 18:06阅读:9来源:国知局
一种基于多模态大模型的作业现场安全管控方法及系统与流程

本发明属于工程作业安全管理,具体涉及一种基于多模态大模型的作业现场安全管控方法及系统。


背景技术:

1、随着全球工业化的快速发展,作业现场的安全问题逐渐成为社会关注的焦点。在诸如建筑工地、化工园区、矿山等高危行业中,确保工作人员的安全以及有效预防事故发生显得尤为重要。传统的安全管控手段,如人工巡检、视频监控等,由于受到人员素质、设备性能、环境因素等诸多限制,往往难以应对复杂多变环境下可能出现的各种安全隐患和违规行为。

2、近年来,随着人工智能技术的迅猛发展,尤其是计算机视觉和深度学习领域的突破,越来越多的基于目标检测的人工智能算法被应用于安全管控领域。这些算法能够在一定程度上自动识别作业现场的人员、设备、环境等关键要素,并实时监测其状态变化,从而辅助或替代人工进行高效的安全检查和风险预警。

3、然而,尽管这些基于单一模态数据(如视频图像)的算法已经取得了一定的成效,但在实际应用中仍存在诸多挑战。首先,单一模态数据的处理能力有限,无法充分利用作业现场的多种信息源(如音频、文本、传感器数据等),这限制了系统对复杂场景的理解和潜在风险的识别能力。例如,在嘈杂的施工环境中,仅依靠视觉信息可能难以准确判断工作人员是否佩戴了安全帽;而在光线不足或遮挡严重的条件下,单一的视觉数据可能使得系统无法有效识别违规行为。

4、其次,现有的人工智能算法对于复杂违章行为的理解和识别能力仍有待提高。例如,对于一些需要结合多个动作和环境因素才能判断的违规行为(如高空作业未系安全绳、危险区域未设置警示标志等),单一模态的数据处理方法往往难以准确把握事件的全貌,从而导致较高的漏检率和误检率。


技术实现思路

1、本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于多模态大模型的作业现场安全管控方法及系统,用于解决现有复杂作业现场安全隐患无法实时监测、预警及智能响应的技术问题。

2、本发明采用以下技术方案:

3、一种基于多模态大模型的作业现场安全管控方法,包括以下步骤:

4、采集现场违章数据并进行预处理,得到多模态数据;

5、构建多模态大模型;

6、利用预处理后的多模态数据对多模态大模型进行训练和优化;

7、利用优化后的多模态大模型输出违章行为判断结果,实现作业现场安全管控。

8、优选地,数据预处理具体为:

9、对现场违章图像进行收集并标注,构建安全违章知识库,将现场违章图像与安全违章知识库进行融合,形成多模态数据集,对多模态数据集进行增强和清洗处理,然后将多模态数据集划分为训练集、验证集和测试集。

10、优选地,标注内容包括违章行为的类型、发生地点、时间、涉及的人员或车辆。

11、优选地,安全违章知识库包括违章行为分类、具体描述、相关法规引用、案例分析。

12、优选地,多模态数据集中的每个数据样本包括一张或多张违章图像,以及与之对应的违章行为描述、类型、危害、预防措施等文本信息。

13、优选地,增强处理包括旋转、缩放、裁剪和添加噪声。

14、优选地,构建多模态大模型用于将多模态数据映射到同一个特征空间,使得语义相似的图像和文本在特征空间中距离最近。

15、优选地,多模态大模型的损失函数 l如下:

16、

17、其中,d表示训练数据集,(xi,yi)表示数据集中的一对图像和文本;zi表示图像xi的特征向量,wi表示文本yi的特征向量;s()表示相似度函数;τ是温度参数,用于控制相似度的平滑程度;n和m分别是数据集中文本和图像的总数。

18、优选地,利用预处理后的数据对构建的多模态大模型进行训练具体为:

19、在训练过程中,多模态模型不断从训练数据集中学习并更新其内部参数,拟合数据并预测未知样本的输出;

20、每个周期内,多模态模型遍历整个训练数据集一次,对每个样本进行前向传播计算预测值,然后计算预测值与真实值之间的损失,并通过反向传播算法将损失值反向传播回网络的每一层,更新权重和偏置参数;

21、通过不断重复,使得多模态模型逐渐学习到数据的内在规律,并优化其预测能力。

22、优选地,优化过程如下:

23、通过网格搜索等调优方法,找到能够最小化验证集上损失的超参数配置,优化多模态大模型的泛化能力。

24、第二方面,本发明实施例提供了一种基于多模态大模型的作业现场安全管控系统,包括:

25、数据模块,采集现场违章数据并进行预处理,得到多模态数据;

26、构建模块,构建多模态大模型;

27、训练模块,利用预处理后的多模态数据对多模态大模型进行训练和优化;

28、输出模块,利用优化后的多模态大模型输出违章行为判断结果,实现作业现场安全管控。

29、优选地,数据预处理具体为:

30、对现场违章图像进行收集并标注,构建安全违章知识库,将现场违章图像与安全违章知识库进行融合,形成多模态数据集,对多模态数据集进行增强和清洗处理,然后将多模态数据集划分为训练集、验证集和测试集。

31、优选地,标注内容包括违章行为的类型、发生地点、时间、涉及的人员或车辆;

32、安全违章知识库包括违章行为分类、具体描述、相关法规引用、案例分析;

33、多模态数据集中的每个数据样本包括一张或多张违章图像,以及与之对应的违章行为描述、类型、危害、预防措施等文本信息;增强处理包括旋转、缩放、裁剪和添加噪声。

34、优选地,构建多模态大模型用于将多模态数据映射到同一个特征空间,使得语义相似的图像和文本在特征空间中距离最近,多模态大模型的损失函数 l如下:

35、

36、其中,d表示训练数据集,(xi,yi)表示数据集中的一对图像和文本;zi表示图像xi的特征向量,wi表示文本yi的特征向量;s()表示相似度函数;τ是温度参数,用于控制相似度的平滑程度;n和m分别是数据集中文本和图像的总数。

37、第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于多模态大模型的作业现场安全管控方法的步骤。

38、第四方面,本发明实施例提供了一种计算机可读存储介质,包括计算机程序,所述计算机程序被处理器执行时实现上述基于多模态大模型的作业现场安全管控方法的步骤。

39、第五方面,一种芯片,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于多模态大模型的作业现场安全管控方法的步骤。

40、第六方面,本发明实施例提供了一种电子设备,包括计算机程序,所述计算机程序被电子设备执行时实现上述基于多模态大模型的作业现场安全管控方法的步骤。

41、与现有技术相比,本发明至少具有以下有益效果:

42、一种基于多模态大模型的作业现场安全管控方法,融合多模态数据,全面分析作业现场违章情况,实现对复杂作业现场的安全隐患进行实时监测、预警及智能响应,提升作业现场的安全管理水平。

43、进一步的,通过收集并标注现场违章图像,可以确保数据的准确性和相关性。高质量的数据是训练出高效、准确模型的基础。进一步的,构建安全违章知识库,将现场违章图像与安全违章知识库融合,形成多模态数据集,这一过程本身就依赖于数据预处理来确保不同来源数据的一致性和兼容性。预处理帮助整合了图像信息和文本描述(如违章类型、地点等),使得知识库更加全面且易于检索,为后续的分析和模型训练提供了丰富的资源。

44、进一步的,提高数据可用性,这种标注方式使得数据在后续的分析、挖掘和模型训练中具有更高的可用性,有助于模型构建起图中设备与安全违章之间的逻辑联系,支持更复杂的分析任务和更准确的模型预测。

45、进一步的,丰富数据多样性,图像增强处理通过对原始图像进行各种变换,如旋转、缩放、平移、翻转、对比度调整、颜色变换等,生成了一系列与原始图像相似但又不完全相同的新图像。这些新图像作为训练样本,极大地丰富了数据集的多样性,有助于模型学习到更加全面和鲁棒的特征表示。

46、进一步的,简化数据处理流程,通过将多模态数据映射到同一特征空间,可以避免在不同模态之间进行复杂的转换和匹配,从而简化数据处理流程,更好的支持数据挖掘与分析;增强数据关联性,在特征空间中,语义相似的图像和文本被表示为相近的点,这有助于算法自动识别和理解数据之间的关联性,更好的辅助模型训练。

47、进一步的,这个损失函数旨在最大化正样本对(即语义相似的图像和文本)之间的相似度,同时最小化负样本对(即语义不相似的图像和文本)之间的相似度。通过同时优化两种类型的对数损失,来增强模型在区分相似与不相似样本对方面的能力。

48、进一步的,通过训练,多模态大模型能够更准确地理解和处理来自不同模态的数据,学习数据之间的逻辑关系,从而更好的识别违章行为。进一步的,网格搜索等调优方法通过系统地遍历参数空间,寻找最优或接近最优的参数组合,从而显著提升模型的性能。这包括提高模型的准确率、召回率、f1分数等评估指标,使得模型在训练集和测试集上的表现更加出色。

49、可以理解的是,上述第二方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

50、综上所述,本发明通过融合可见光图像和安全违章知识库等多种模态数据,利用大模型及大数据处理技术构建的综合安全监控与管理平台,旨在实现对复杂作业现场的安全隐患进行实时监测、预警及智能响应,提升作业现场的安全管理水平。

51、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1