一种电力营销大数据的处理方法及系统的制作方法
【技术领域】
[0001]本申请涉及数据处理技术领域,更具体地说,涉及一种电力营销大数据的处理方法及系统。
【背景技术】
[0002]随着电网营销信息化和营销自动化建设的逐步推进,营销领域积累了海量数据,尤其是业扩、计量、电费、客服等业务相关的数据量大、总类繁多、实时性强且极具分析价值。
[0003]目前营销基础数据平台将从各业务系统集成的海量结构化业务数据存储到平台的Oracle数据库中,支撑基础业务数据共享和业务融合交互。由于营销基础数据平台使用关系数据库存储数据,不能存储客服录音、系统日志等非结构化数据,因此在营销基础数据平台上不能进行语音挖掘、日志挖掘等大数据分析项目。此外,平台只集成、存储了业务数据,没有气象、社会事件、经济发展等外部数据,而上述外部数据对电力行业有着巨大影响,外部数据的缺失将导致相关数据分析、挖掘的成果失去意义。此外,平台使用数据库软件和BI工具进行数据统计分析,没有考虑对海量数据进行复杂的分析挖掘,因此没有提供海量数据进行复杂计算所需的计算平台。
【发明内容】
[0004]有鉴于此,本申请提供了一种电力营销大数据的处理方法及系统,用于提供一种融合非结构化数据和外部数据,对电力营销大数据进行分析挖掘的方案。
[0005]为了实现上述目的,现提出的方案如下:
[0006]一种电力营销大数据的处理方法,包括:
[0007]将营销基础数据平台数据库中的结构化业务数据和外部数据导入至Hadoop生态系统的Hive数据库中,所述外部数据为通过网络爬虫技术从外部网站采集的包括气象、新闻的外部数据;
[0008]将非结构化的营销基础数据小文件合并为一个HAR大文件,并将其存储到Hadoop生态系统的分布式文件系统HDFS中;
[0009]利用Hadoop生态系统的编程计算框架MapReduce对Hive数据库和HDFS中的数据进行预处理,并对预处理后的数据进行分析及挖掘,保存分析及挖掘结果。
[0010]优选地,所述将营销基础数据平台数据库中的结构化业务数据和外部数据导入至Hadoop生态系统的Hive数据库中,具体为:
[0011]利用Sqoop工具将营销基础数据平台数据库中的结构化业务数据和外部数据导入至Hadoop生态系统的Hive数据库中。
[0012]优选地,所述将非结构化的营销基础数据小文件合并为一个HAR大文件,具体为:
[0013]采用Hadoop Archive文件归档技术将非结构化的营销基础数据小文件合并为一个HAR大文件。
[0014]优选地,所述利用Hadoop生态系统的编程计算框架MapReduce对Hive数据库和HDFS中的数据进行预处理,包括:
[0015]利用Hadoop生态系统的编程计算框架MapReduce对Hive数据库和HDFS中的数据进行数据清洗、数据变换和数据归约。
[0016]一种电力营销大数据的处理系统,包括营销基础数据平台和Hadoop生态系统;
[0017]由Hadoop生态系统将营销基础数据平台数据库中的结构化业务数据和外部数据导入至Hadoop生态系统的Hive数据库中,所述外部数据为通过网络爬虫技术从外部网站采集的包括气象、新闻的外部数据;
[0018]由Hadoop生态系统将非结构化的营销基础数据小文件合并为一个HAR大文件,并将其存储到Hadoop生态系统的分布式文件系统HDFS中;
[0019]由Hadoop生态系统利用编程计算框架MapReduce对Hive数据库和HDFS中的数据进行预处理,并对预处理后的数据进行分析及挖掘,保存分析及挖掘结果。
[0020]优选地,Hadoop生态系统将营销基础数据平台数据库中的结构化业务数据和外部数据导入至Hadoop生态系统的Hive数据库中的过程,具体为:
[0021]利用Hadoop生态系统的Sqoop工具将营销基础数据平台数据库中的结构化业务数据和外部数据导入至Hadoop生态系统的Hive数据库中。
[0022]优选地,Hadoop生态系统将非结构化的营销基础数据小文件合并为一个HAR大文件的过程,具体为:
[0023]由Hadoop生态系统采用Hadoop Archive文件归档技术将非结构化的营销基础数据小文件合并为一个HAR大文件。
[0024]优选地,Hadoop生态系统利用编程计算框架MapReduce对Hive数据库和HDFS中的数据进行预处理的过程,具体为:
[0025]利用Hadoop生态系统的编程计算框架MapReduce对Hive数据库和HDFS中的数据进行数据清洗、数据变换和数据归约。
[0026]从上述的技术方案可以看出,本申请实施例提供的电力营销大数据的处理方法,将营销基础数据平台数据库中的结构化业务数据和外部数据导入至Hadoop生态系统的Hive数据库中,其中所述外部数据为通过网络爬虫技术从外部网站采集的包括气象、新闻的外部数据,然后将非结构化的营销基础数据小文件合并为一个HAR大文件,并将其存储到Hadoop生态系统的分布式文件系统HDFS中,最后利用Hadoop生态系统的编程计算框架MapReduce对Hive数据库和HDFS中的数据进行预处理,并对预处理后的数据进行分析及挖掘,保存分析及挖掘结果。本申请提出的融合营销基础数据平台和Hadoop生态系统的营销基础大数据的处理方法,解决了海量电力营销结构化和非结构化数据的存储和海量数据的计算分析问题,同时充分利用了气象、新闻等外部数据对电力营销大数据进行分析、挖掘,满足了智能化营销管理和辅助决策的需求。
【附图说明】
[0027]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0028]图1为现有Hadoop生态系统常用组件加工图;
[0029]图2为本申请实施例公开的一种电力营销大数据的处理方法流程图;
[0030]图3为本申请实施例公开的一种外部数据采集、存储示意图;
[0031]图4为本申请实施例公开的一种结构化数据导入Hadoop集群过程示意图;
[0032]图5为本申请实施例公开的一种非结构化数据导入Hadoop集群过程示意图;
[0033]图6为本申请实施例公开的一种电力营销大数据的处理系统结构示意图。
【具体实施方式】
[0034]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0035]随着电网营销信息化和营销自动化建设的逐步推进,营销领域积累了海量数据,尤其是业扩、计量、电费、客服等业务相关的数据量大、总类繁多、实时性强且极具分析价值。当前,营销业务应用系统和计量生产调度平台存储了约3.6亿客户的档案、业扩、计量、电费等结构化数据,年增长量约50TB ;用电信息采集系统存储了约2.0亿客户的有功、无功电量和电能质量等结构化数据,年增长量约500TB。客服中心核心信息系统中,95598呼叫平台存储了约每天30万次客服通话相关结构化数据和语音数据,年增长量约1TB ;95598智能互动网站存储了约180万网站客户的基础信息和网站访问情况等结构化数据,年增长量约500GB ;95598业务支持系统存储了约每天25万张客服工单的基础信息和流转信息等结构化数据,年增长量约2TB ;95598运营管理系统存储了以客服中心内部管理为主的结