大数据价值发现与应用创新平台系统

文档序号:24731983发布日期:2021-04-20 14:52阅读:98来源:国知局
大数据价值发现与应用创新平台系统

1.本发明具体涉及大数据技术领域,具体涉及一种大数据价值发现与应用创新平台系统。


背景技术:

2.近年来,大数据发展已经上升为国家战略,国务院颁布了《关于促进大数据发展行动纲要》,工信部印发了《国家大数据产业发展规划(2016

2020年)》。我国经济正在向形态更高级、分工更复杂、结构更合理的阶段演化,经济发展进入新常态,正从高速增长转向中高速增长。成都市新经济发展大会提出,成都将重点发展数字经济、智能经济、绿色经济、创意经济、流量经济、共享经济“六大新经济形态”,为建设全面体现新发展理念的国家中心城市打造新的动力引擎,构建具有成都特色的新经济产业体系。
3.随着大数据时代的到来,对于政府和企业而言,拥有海量、多样的数据资源,而经济增长方式是“生产要素的分配、投入、组合和使用的方式”,创新性地挖掘和应用隐藏在经济增长相关数据背后的事物发展规律,可以有效实现传统资源的投入、组合和使用方式的优化和预测。但就目前而言,大数据是一门新兴的技术,处于高速发展阶段,一方面利用传统技术难以进行充分的数据分析与挖掘,另一方面,大数据人才的严重匮乏,而且人力成本非常昂贵,使得政府和企业不能够及时充分地利用内外部数据,不能发现数据背后的价值和规律。如何提升海量数据的快速处理能力、数据的分析挖掘能力、大数据算法能力以通过数据助力新经济发展,是亟待解决的重要问题,也是新经济发展的关键所在。


技术实现要素:

4.本发明的目的在于针对现有技术的不足,提供一种大数据价值发现与应用创新平台系统,该大数据价值发现与应用创新平台系统可以很好地解决上述问题。
5.为达到上述要求,本发明采取的技术方案是:提供一种大数据价值发现与应用创新平台系统,该大数据价值发现与应用创新平台系统包括协作式业务建模模块、数据管理模块、批量任务调度模块、用户管理模块、可视化用户界面模块、活动和通知模块、标签和搜索模块;协作式业务建模模块通过将业务建模所需的数据读写、数据预处理、特征工程、模型训练、模型评估和模型应用环节,统一封装为形式一致的可视化算子,以可视化算子的形式提供机器学习算法和数据读写、数据处理工具箱,用户在浏览器上,使用可视化组件和拖拉拽操作来拼装crisp

dm工作流,即可完成海量数据探索、业务建模和模型部署的数据挖掘过程,从而发现数据价值;数据管理模块用于供用户通过本地文件系统、oracle、mysql数据库上传数据;批量任务调度模块用于供用户将多个工作流设置为顺序执行的批量作业列表,然后一键触发批量任务执行,或让任务在指定时间范围内自动按某一周期运行,任务执行完毕,用户在邮件和通知栏收到执行报告,执行报告包含每个工作流作业的完成状态和完成时间信息;用户管理模块用于供管理员对平台用户进行用户管理,所述用户管理包括license 管理、创建平台用户、修改管理员及平台用户资料、删除平台用户;可视化用户界
面模块用于实现模块增减和模块顺序调整,通过拖拽和连线的方式构建业务建模流程;活动和通知模块用于实现通知、标注及评论的功能;标签和搜索模块用于实现创建标签及搜索资源的功能。
6.该大数据价值发现与应用创新平台系统具有的优点如下:
7.通过建设一个分布式、无需编码的可视化大数据分析与挖掘平台,以此为基础汇聚大数据解决方案构建智库,形成集大数据分析挖掘技术、大数据综合解决方案为一体的大数据生态圈。平台提供包括大数据服务基础平台集成、数据分析挖掘、模型部署和创新应用的完善解决方案,并为客户提供数据挖掘和业务建模的技术指导,力求以产品自助使用为主、各种培训方式为辅的方式来帮助客户降低大数据应用门槛,提升大数据价值发现的效率。
附图说明
8.此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
9.图1示意性地示出了根据本申请一个实施例的大数据价值发现与应用创新平台系统的逻辑架构示意图。
10.图2示意性地示出了根据本申请一个实施例的大数据价值发现与应用创新平台系统的技术架构示意图。
11.图3示意性地示出了根据本申请一个实施例的大数据价值发现与应用创新平台系统的前端设计架构示意图。
12.图4示意性地示出了根据本申请一个实施例的大数据价值发现与应用创新平台系统的后端设计架构示意图。
13.图5示意性地示出了根据本申请一个实施例的大数据价值发现与应用创新平台系统的结构示意图核心挖掘服务端设计结构。
具体实施方式
14.为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
15.在以下描述中,对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度,但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外,重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例,但并非必然指代相同的实施例。
16.为简单起见,以下描述中省略了本领域技术人员公知的某些技术特征。
17.根据本申请的一个实施例,提供一种大数据价值发现与应用创新平台系统,该平台主要由七个功能模块组成,包括协作式业务建模、数据管理、批量任务调度、用户管理、可视化用户界面、活动和通知、标签和搜索七个功能模块,七个功能模块实现的具体功能如下:
18.(1)协作式业务建模模块:通过将业务建模所需的数据读写、数据预处理、特征工
程、模型训练、模型评估和模型应用环节,统一封装为形式一致的可视化算子,以可视化算子的形式提供机器学习算法和数据读写、数据处理工具箱,用户在浏览器上,使用可视化组件和拖拉拽操作来拼装crisp

dm工作流,即可完成海量数据探索、业务建模和模型部署的数据挖掘过程,从而发现数据价值。
19.(2)数据管理模块:用户可通过本地文件系统、oracle、mysql数据库上传数据,工作流运行时得到的数据也可以保存起来,这些数据都通过hdfs文件或hive表的形式持久化保存在平台的存储子系统中,平台向用户呈现hdfs和 hive数据视图空间,在hdfs空间下可创建或删除文件夹。用户也可以批量删除 hdfs文件或hive表。
20.(3)批量任务调度模块:通过任务调度功能,用户可将多个工作流设置为顺序执行的批量作业列表,然后一键触发批量任务执行,或让任务在指定时间范围内自动按某一周期运行。任务执行完毕,用户可在邮件和通知栏收到执行报告,执行报告包含每个工作流作业的完成状态(成功或失败)和完成时间。
21.(4)用户管理模块:通过管理员创建(企业私有云版)或自主注册(公有云版)的方式成为平台用户。企业私有云版拥有管理员,管理员具有维护平台的功能,包括license管理、创建平台用户、修改管理员及平台用户资料、删除平台用户。管理员还可以将平台活动日志下载到本地,监测或分析用户行为。
22.(5)可视化用户界面模块:平台提供导航式的主功能界面。而用户个人也可进行模块增减和模块顺序调整。通过可拖拽和连线的方式构建业务建模流程。在模型逻辑建立好以后,可以将建模逻辑以工作流的形式保存在平台持久化存储系统中,并可以随时手动或自动运行自己或协作伙伴的工作流以观察建模效果,平台提供了文本、表格、直方图、环图、折线图、roc曲线图、2d/3d词云、树、森林等视图,以满足建模过程中不同阶段、不同输出类型数据的预览需求。
23.(6)活动和通知模块:与用户相关的几乎所有活动都会得到记录并呈现给用户自己和协作伙伴,协作伙伴可以将自己执行单个或批量建模工作流任务的完成状态通过通知栏或邮件自动通知给协作伙伴。协作伙伴之间可以对自己和别人的活动进行标注、评论。
24.(7)标签和搜索模块:用户可为平台内的各种实体资源如数据集、工作空间和工作流等创建标签,方便归类和定位。全局搜索功能则让用户可以一键搜索平台内的各种实体资源。
25.根据本申请的一个实施例,提供一种大数据价值发现与应用创新平台系统,该大数据价值发现与应用创新平台的技术路线具体如下:
26.1.平台逻辑架构
27.创新平台以分析和预测为核心,用户仅需通过简单的拖拉拽即可实现可视化的数据管理、建模和批量任务调度等多种功能的应用,内置了关联规则分析、深度学习等近百种数据挖掘算子,为用户提供数据探索、特征工程、模型建立、模型评估及模型发布等数据发现的完整流程应用。
28.平台包括web gui、web service、核心算法引擎服务core、k8s和hadoop。
29.其中web gui和web service主要负责实现用户空间管理、用户数据逻辑空间、用户权限和用户交互逻辑,核心算法引擎服务core主要负责实现数据解析、算法管理和业务建模工作流的解析和调度,三者共同搭建数据挖掘平台产品系统,用户进行拖拉拽的操作
即可便捷实现可视化的数据挖掘流程,提升数据价值发现效率。此外,提供了notebook服务,通过编程模式提供特定算法需求情况下的高度定制开发功能,以适应不同的数据挖掘过程中的各种需求。hadoop 为整个创新平台底层的大数据基础架构,用于存储和管理数据,以及核心的计算服务。
30.2.技术架构
31.大数据价值发现与应用创新平台数据挖掘平台分为三大模块,分别是平台前端、平台后端和核心挖掘服务端。平台前端处理用户交互、在浏览器中展示数据。平台后端和核心挖掘服务通过rpc的方式交互,核心挖掘服务端处理平台后端的请求,负责工作流的执行,并返回结果给平台后端。
32.3.平台前端
33.平台前端是基于backbone框架的单页面应用。它的model通过发送get请求给后端获取所需内容。然后该内容通过模板渲染到前端。如果用户改变了model,前端会通过发送put\post请求给后端来保存数据。前端工作流程图基于draw2d 框架开发,以满足用户拖拽算子组成工作流的需求。
34.平台前端以m(models)v(view)p(presenter)模式进行开发,整个页面由 handlebars template前端模板渲染生成,用户通过对url路由的操作或者页面中某些dom节点的操作使页面跳转并重新渲染新的页面(页面部分属于v)。页面渲染需要获取模板中对应的属性参数和节点的绑定事件,这时就需要p与v 和m进行交互,在p里存在着views,一些继承于views的对象和presenters, views可以为handlebars template提供其需要的属性参数并为对应的dom节点绑定事件,presenters是处理一些复杂的models和collections使其能被views 调用。m部分包括models和collections,它们会给p部分提供数据和需要处理的数据,使其能被v部分展示,m能与后台进行交互使数据能增删改查。当m 发生变化后v也会重新渲染,这个过程需要p去处理中间交互过程,因为m和v 不能直接交互。
35.4.平台后端
36.后端使用ruby on rails作为开发框架,在此基础上开发具体业务逻辑,前端通过restful风格的api和具体的路由表和它交互,它和计算后端的 minerserver交互,持久化数据库使用postgresql。
37.rails是基于ruby的web应用框架,遵循mvc的软件开发模式,并强调约定由于配置,通过约定来减少配置,从而可以快速敏捷开发项目。
38.rails中的模型和持久化数据库之间通过orm框架交互,rails中的 activerecord即为orm实现。rails所遵循的web接口是rack,rack是ruby 上定义的一个简单的web接口。
39.5.核心挖掘服务端
40.大数据价值发现与应用创新平台的核心挖掘服务端基于netty对外提供rpc 服务,主要提供算子、工作流、模型访问服务。服务端还封装了一层connector,实现对hadoop相关组件的调用。rpc服务端在线的情况下,可通过rpc客户端 api获取各类服务对象(rpcservice),进而调用各类service提供的相关接口。 rpc服务不直接操作hadoop相关组件,而rpc服务内部通过connectorservice 来获取底层基础框架(infrastructure)的数据或计算资源。
41.以上所述实施例仅表示本发明的几种实施方式,其描述较为具体和详细,但并不
能理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1