一种基于大数据分析的研判平台的制作方法

文档序号:21848210发布日期:2020-08-14 17:16阅读:216来源:国知局
一种基于大数据分析的研判平台的制作方法

本发明涉及大数据技术领域,具体为一种基于大数据分析的研判平台。



背景技术:

目前很多业务系统都是单独建设、独立运行、分头管理,各业务系统之间基本没有横向和纵向联系,数据资源无法互通、共享,形成了诸多的“信息孤岛”,数据资源尚未充分挖掘使用,且未进行数据的有效归集和统一规范管理。



技术实现要素:

本发明的目的在于提供一种基于大数据分析的研判平台,以解决上述背景技术中提出的目前很多业务系统都是单独建设、独立运行、分头管理,各业务系统之间基本没有横向和纵向联系,数据资源无法互通、共享,形成了诸多的“信息孤岛”,数据资源尚未充分挖掘使用,且未进行数据的有效归集和统一规范管理的问题。

为实现上述目的,本发明提供如下技术方案:一种基于大数据分析的研判平台,该基于大数据分析的研判平台包括大数据分析系统,所述大数据分析系统包括数据采集和接入、数据存储、计算服务、算法库、分析模型、系统组件、业务应用、标准与安全体系、运维管理平台;

还包括:接入接口,所述大数据分析系统通过接入接口与外接设备建立数据传输连接;

服务器,所述服务器用于大数据分析系统与智能设备数据传输;

所述智能设备通过有线传输或者无线传输与服务器建立连接;所述智能设备上集成行业用户端,行业用户端与大数据分析系统建立连接,所述行业用户端内集成不同行业的应用;

用户通过行业用户端进行登录,输入账号和密码后进行登录,也可以选择跳过输入账号和密码直接登入,直接登入的用户会以ip地址代替用户名进行标识,然后用户即可进行数据的上传;根据用户的账号数据对服务器中的账号列表进行比对来筛选出普通用户和高级用户,采用ip地址标识的用户定义为游客用户;根据筛选出的用户类型分配不同的解码器进行解码,高级用户采用专用解码器进行解码,普通用户和游客用户则共同使用共用解码器进行解码,其中游客用户上传数据到共用解码器的过程中会经过轮询器,轮询器对共用解码器的工作状态进行轮询,若共用解码器繁忙,则共用解码器优先解码普通用户的数据,若共用解码器空闲,则进行游客用户数据的解码;解码完成的数据进行智能分析,识别出其中的无效数据并分离出来,剩余的数据即为有效数据;分离出的无效数据暂存到专用的服务器中,由审核员进行人工审核,审核员对无效数据进行逐一审核,将其中被误分离为无效数据的有效数据分离出来,真正的无效数据会被丢弃,分离出的有效数据和有效数据一同进行数据分类,根据文件的类型将有效数据进行分类归纳;

所述智能设备包括手机、平板电脑、笔记本电脑或者台式电脑,所述智能设备输出请求分析数据并通过服务器输出到大数据分析系统,所述大数据分析系统的数据采集和接入对智能设备输出的请求分析数据接收,分析模型对请求分析数据分析并在大数据空间范围内搜集相关数据,并将相关数据反馈至智能设备;

所述大数据分析系统内还集成不断学习的卷积神经网络,所述大数据分析系统通过卷积神经网络结合分析模型对智能设备输出的请求分析数据快速分析并反馈数据。

优选的,所述数据采集与接入基于大数据分析的研判平台通过数据抽取、数据库对接、文件交换等形式接收不同的数据源,并按照规定的数据标准转换成统一的数据格式提供给数据库存储,对于接入大数据量的时候基于分布式消息队列实现对数据存储压力的缓冲;

所述数据存储用于数据接入后,将不同类型的数据存储到不同的存储引擎中,基础信息保存到强事务型的关系型数据库中,文档型的记录保存到文档数据库,采集的记录则存储到全文检索提供搜索,关系类的数据存储到图数据库。

优选的,所述计算服务基于存储的数据进行计算,针对大数据量的分析采用离线计算服务,针对实时性要求比较高的采用实时计算和图计算服务,计算结果为分析模型提供计算能力支撑;

所述算法库存储计算服务的执行依赖各种算法,计算两个人之间最直接的通联关系可以采用最短路径算法、计算两个人是否伴随出行可以采用伴随算法,丰富的算法库为计算服务、分析模型的建设提供算法支撑;

所述分析模型依赖于计算服务、系统组件、算法库,通过被调查人手机通联信息、出行轨迹、好友关系、资产动态等数据进行计算分析,刻画出被调查人的手机画像、银行卡画像、房产画像等维度的信息,为业务应用的用户提供更加丰富的案件数据支撑。

优选的,所述系统组件可以用来对接入的数据进行规则校验,打标操作等,也可以对上层业务应用提供日志组件、安全组件、工作流组件,将这些操作独立成组件的方式有利于扩展,不同的模块只要引入了该组件,就可以有该组件的这部分能力,通过组件化方式更加灵活;

所述业务应用集成了pki登录,多媒体播放,报表生成等多种能力,基于分析模型刻画出的不同维度的画像,加上可视化组件为用户渲染被调查人相关的信息,用户可以更加直观的进行研判分析并生成研判报告;

所述标准与安全体系规定了数据接入的标准、日志格式标准、数据分类分级标准、授权标准、身份认证标准。定义各个业务模块的操作日志格式、不同用户能看什么类型的数据等;

所述运维管理平台基于计算、存储、网络三个维度对服务器进行监控、支持对数据库进行备份、服务配置修改等能力。

优选的,所述接入接口包括dvi接口、r-j45接口、fddi接口、aui接口、vga接口。

优选的,所述智能设备通过无线传输与服务器建立连接,所述无线传输包括蓝牙传输、wifi传输、gprs传输、zigbee传输。

与现有技术相比,本发明的有益效果是:

1)解决数据异构、共享困难、“数据烟囱”、“应用孤岛”等现状;

2)解决建设规范模糊,系统间不能互通,标准不一,数据格式各异,名称使用混乱等问题;

3)解决信息共享量和共享方便程度得不到保障,导致信息量太少,反过来影响信息共享量,形成信息共享的恶性循环的问题;

4)解决当前信息化系统智能化刻画不足,缺乏数据清洗、数据管理、数据分析等数据应用,缺乏对数据的智能分析、智能预警、智能办理等功能。

附图说明

图1为本发明大数据分析系统的逻辑框图;

图2为本发明时间信息治理技术途径方法流程图;

图3为本发明空间信息治理技术途径方法流程图;

图4为本发明属性信息治理技术途径方法流程图;

图5为本发明管道模型下事件触发词抽取方法流程图;

图6为本发明联合模型下事件触发词抽取方法流程图;

图7为本发明大数据分析系统的逻辑架构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

实施例:

请参阅图1-7,本发明提供一种技术方案:一种基于大数据分析的研判平台,该基于大数据分析的研判平台包括大数据分析系统,所述大数据分析系统包括数据采集和接入、数据存储、计算服务、算法库、分析模型、系统组件、业务应用、标准与安全体系、运维管理平台;

还包括:接入接口,所述大数据分析系统通过接入接口与外接设备建立数据传输连接;

服务器,所述服务器用于大数据分析系统与智能设备数据传输;

所述智能设备通过有线传输或者无线传输与服务器建立连接;所述智能设备上集成行业用户端,行业用户端与大数据分析系统建立连接,所述行业用户端内集成不同行业的应用;

用户通过行业用户端进行登录,输入账号和密码后进行登录,也可以选择跳过输入账号和密码直接登入,直接登入的用户会以ip地址代替用户名进行标识,然后用户即可进行数据的上传;根据用户的账号数据对服务器中的账号列表进行比对来筛选出普通用户和高级用户,采用ip地址标识的用户定义为游客用户;根据筛选出的用户类型分配不同的解码器进行解码,高级用户采用专用解码器进行解码,普通用户和游客用户则共同使用共用解码器进行解码,其中游客用户上传数据到共用解码器的过程中会经过轮询器,轮询器对共用解码器的工作状态进行轮询,若共用解码器繁忙,则共用解码器优先解码普通用户的数据,若共用解码器空闲,则进行游客用户数据的解码;解码完成的数据进行智能分析,识别出其中的无效数据并分离出来,剩余的数据即为有效数据;分离出的无效数据暂存到专用的服务器中,由审核员进行人工审核,审核员对无效数据进行逐一审核,将其中被误分离为无效数据的有效数据分离出来,真正的无效数据会被丢弃,分离出的有效数据和有效数据一同进行数据分类,根据文件的类型将有效数据进行分类归纳;

所述智能设备包括手机、平板电脑、笔记本电脑或者台式电脑,所述智能设备输出请求分析数据并通过服务器输出到大数据分析系统,所述大数据分析系统的数据采集和接入对智能设备输出的请求分析数据接收,分析模型对请求分析数据分析并在大数据空间范围内搜集相关数据,并将相关数据反馈至智能设备;

所述大数据分析系统内还集成不断学习的卷积神经网络,所述大数据分析系统通过卷积神经网络结合分析模型对智能设备输出的请求分析数据快速分析并反馈数据。

所述数据采集与接入基于大数据分析的研判平台通过数据抽取、数据库对接、文件交换等形式接收不同的数据源,并按照规定的数据标准转换成统一的数据格式提供给数据库存储,对于接入大数据量的时候基于分布式消息队列实现对数据存储压力的缓冲;

所述数据存储用于数据接入后,将不同类型的数据存储到不同的存储引擎中,基础信息保存到强事务型的关系型数据库中,文档型的记录保存到文档数据库,采集的记录则存储到全文检索提供搜索,关系类的数据存储到图数据库。

所述计算服务基于存储的数据进行计算,针对大数据量的分析采用离线计算服务,针对实时性要求比较高的采用实时计算和图计算服务,计算结果为分析模型提供计算能力支撑;

所述算法库存储计算服务的执行依赖各种算法,计算两个人之间最直接的通联关系可以采用最短路径算法、计算两个人是否伴随出行可以采用伴随算法,丰富的算法库为计算服务、分析模型的建设提供算法支撑;

所述分析模型依赖于计算服务、系统组件、算法库,通过被调查人手机通联信息、出行轨迹、好友关系、资产动态等数据进行计算分析,刻画出被调查人的手机画像、银行卡画像、房产画像等维度的信息,为业务应用的用户提供更加丰富的案件数据支撑。

所述系统组件可以用来对接入的数据进行规则校验,打标操作等,也可以对上层业务应用提供日志组件、安全组件、工作流组件,将这些操作独立成组件的方式有利于扩展,不同的模块只要引入了该组件,就可以有该组件的这部分能力,通过组件化方式更加灵活;

所述业务应用集成了pki登录,多媒体播放,报表生成等多种能力,基于分析模型刻画出的不同维度的画像,加上可视化组件为用户渲染被调查人相关的信息,用户可以更加直观的进行研判分析并生成研判报告;

所述标准与安全体系规定了数据接入的标准、日志格式标准、数据分类分级标准、授权标准、身份认证标准。定义各个业务模块的操作日志格式、不同用户能看什么类型的数据等;

所述运维管理平台基于计算、存储、网络三个维度对服务器进行监控、支持对数据库进行备份、服务配置修改等能力。

所述接入接口包括dvi接口、r-j45接口、fddi接口、aui接口、vga接口。

所述智能设备通过无线传输与服务器建立连接,所述无线传输包括蓝牙传输、wifi传输、gprs传输、zigbee传输。

大数据信息治理技术途径

时间信息治理技术途径

在自然语言表达中,时间信息表示事物变化的过程,是一种重要的语义载体。人们通过了解事件的发生时间、中间时间过程和结束时间,掌握事件发生、发展的全部过程。

文本中,时间信息描述包含大量的省略、模糊等现象,但是此类信息往往和上下文信息结合在一起,呈现出一定的表达规律,如时间表达式通常由基本的时间元素组合而成,与表示时间单位的触发词紧密结合等。因此,本项目采用触发词和规则模型相结合的方式实现时间信息的抽取,将其看成是一个时间语义角色标注、短语识别、句法模式匹配的三级信息提取与过滤的过程,提出一种基于触发词和规则模型相结合的时间信息抽取方法,其流程如图3所示;

空间信息治理技术途径

数据信息中通常包括地名实体、空间关系、地址、地标、兴趣点等内容,以及地名与空间关系的组合描述。地名实体包含地标和兴趣点信息,地址信息是文本中常用的空间位置描述形式,由地名实体单元组合而成。因此,地址、地标和兴趣点的抽取均可以概括为地名实体的识别。

地名识别可以看作是序列标注问题:地名是多个词语按照一定的顺序排列组合而成,地名实体识别就是从这些词语序列中标注出正确名称的组合。序列标注问题的有效解决方法是条件随机场模型,它是一种判别式概率无向图学习的条件概率模型,结合了在最大熵模型和隐马尔科夫模型优点,能够用于序列数据的标注和切分。

基于条件随机场的地名识别方法流程如图所示,主要由5个模块组成:①数据处理;②特征生成;③特征选择;④参数训练;⑤地名识别。其中特征模板包括地名要素、词性、短语结构特和依存关系4类特征。

空间关系包括拓扑关系(相交、包含、叠加、相离、重合、穿越)、方向关系(东、南、西、北等)和度量关系(距离、面积、周长等)。特别是方向关系是人们日常生活中表示方位信息的最常用空间关系类型。本项目通过建立规则,实现空间关系抽取(如图4所示)。

属性信息治理技术途径

属性信息抽取包括基于模式匹配和机器学习两种方法。由于描述形式的多样性和特殊性,属性信息表达模式的人工获取工作量较大,且难以达到较高覆盖度。而大规模标注语料的构建同样需要耗费大量的人力、物力和财力。目前很多机器学习方法都受限于语料获取的难度。弱监督学习方法利用少量标注样本和大量未标注样本进行训练和分类,结合了规则模型和统计模型的优点。本项目提出一种基于弱监督学习的属性信息抽取方法,通过构建属性信息触发词汇词典,采用bootstrapping弱监督学习方法实现事件属性信息抽取,其实现流程如图5所示。

事件信息治理技术途径

基于机器学习的事件检测与分类方法主要包括基于触发词的方法和基于事件实例的方法。事件触发词是能够触动事件发生的词,是决定事件类型最重要的特征词,由于一句话内可能包含多个事件,基于触发词的事件抽取方法对事件抽取更加准确全面。因此,已有的相关研究大多将事件检测与类型识别转化为事件触发词抽取问题。事件触发词抽取包括触发词检测及对检测出的触发词的分类,分别对应于事件的检测与分类。其中,事件检测通过判定句子中是否含有事件触发词来实现,事件的类型则是通过识别事件触发词类型来判断。

文本中如果包含事件,则事件信息往往包含在触发词与相应论元角色之中,而论元角色通常为实体描述、数值和时间。在触发词没有抽取出的情况下,触发词与实体描述的关系能较好体现事件信息,并且这个关系可以通过依存句法分析获得。通过提取这一关系可以获得更多的事件信息,利用触发词-实体描述对抽取可以在另一种形式上完成触发词抽取,进而完善触发词抽取的不足。这一关系下的特征很多与传统触发词抽取特征相重叠,因此,需要重新构造一个分类器用于触发词-实体描述对抽取。触发词-实体描述对抽取与单一触发词抽取互为补充,因此,需要将两个抽取对应的分类器相融合,进而使得最终抽取效果优于两者各自独立的抽取效果。

本项目利用依存句法分析提取触发词与实体描述的关系作为事件抽取的特征,并在此基础上提出了基于依存句法分析与分类器融合的事件触发词抽取方法。

事件检测与分类包括两步,第一步是判断句子中的每一个词是否为触发词,第二步是判别检测出的触发词的类别。由于触发词抽取存在管道和联合两种模型,以下两张图分别给出了两种模型下,事件触发词抽取方法的基本流程。无论哪种模型,方法都包含三个步骤:

首先,实现单一触发词抽取;

然后,实现触发词-实体描述对抽取;

最后,将单一触发词抽取中分类器结果与触发词-实体描述对抽取中分类器结果相融合,得到最终触发词抽取方法的结果。

由于支持向量机具有较强的抗噪声能力和较好的分类性能,且能较好地处理高维特征,所有分类器均采用svm分类器(如图6和图7所示)。

产品工作过程或原理:

大数据分析研判平台逻辑架构分为五层,分为数据源层、预处理层、存储层、服务层、应用层,具体每层的功能如下:

数据源层

数据源层负责采集接入原始业务数据。

预处理层

预处理层负责将数据源层的数据进行预加工处理,包括提取、清洗、关联、比对、标识等几个步骤。

存储层

存储层负责将预处理层加工后的数据分门别类进行存储。

服务层

服务层是一组可以被应用层调用进行运算的服务组合,包括有独立的中间件服务或者是基于存储层的数据运算的微服务等,具体有:实时运算、离线运算、流式运算、内存运算、图计算、标签引擎、机器学习、任务调度、算法模型等。

应用层

应用层是通过软件最终呈献给用户的功能集合(如图2所示)。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1