基于大数据回归分析算法扩展最佳缴费渠道的方法和装置的制造方法_2

文档序号:9288758阅读:来源:国知局
缴费数据记录以行形式存储, 使待处理数据能按行分片,且片间数据无相关性。由于是超大矩阵,必须把超大矩阵分成N 份,划分后将得到N个数据块,这N个数据块的格式是(矩阵行号,行数值)的组合,即:(Key, Value)组合,这些(Key,Value)组合将作为Map函数计算的输入值。在现有技术中,数据划 分的原则是让每个Map作业能够尽可能的在同一时间结束,这样可以让下一层能尽早的进 入作业状态。矩阵进行乘法运算时,由于矩阵的乘法特性,需把行作为运算单元,因此在划 分阶段后计算时把行作为Key,作为Map函数计算的输入值。
[0019] 通过大数据平台的MapReduce模型进行进一步的数据格式转换。Map函数计算每 个元组集然后产生中间数据元组(k2, v2)。Map函数计算的主要任务是把上一层的输入转 化为(Key,Value)组合,并且这些组合能够进行Reduce作业,因此针对不同的业务,Map函 数计算方法也不相同。本发明所用到的主要是矩阵的转置和乘法。矩阵的转置是把该矩阵 的行转换成列,如果用(Key,Value)形式计算的最简单的方法是:把矩阵的列的key和行的 key互换,因此可以把key设置成(行,列)的二维组合,value为样本值。Map函数作矩阵的 转置计算时只需把列和行互换即可。根据矩阵的乘法特性,矩阵A与B相乘,可以划分为A 的转置TA的行与B矩阵的行做乘法运算后的和。矩阵需按行分类,并且不同的矩阵需要有 个区别码,所以经过Map作业后输出Key为行号,Value为三元组一矩阵码、列、矩阵项值的 (Key,Value)对。
[0020] 如附图1、2所示,在步骤301中,用最小二乘法估算参数b。上,· · *bk,就是要选 择参数kA,· · *,bk,使Y的观测值Y1与相应函数值_的离差平方和达到最小,BP:
[0021] 通过大数据平台的MapReduce模型进行数据格式的映射回归转换,并将其存入大 数据平台的非关系型数据库模块HBase中。将所有的key按数值划分,每一个key值的所 有元组运行一次Reduce函数计算。
[0022] 使用MapReduce程序来计算矩阵的系数和离差平方和。Reduce函数主要完成数 据简化工作;在矩阵运算中,Reduce函数计算比较简单,当进行矩阵的置换运算时不需要 对(Key,Value)组合做任何修改,直接写入最终的结果文件中。当进行矩阵的乘法运算时, 根据总离差平方和把Key值相同的value相加得到最终结果,即得出最佳缴费位置和最佳 缴费方式实现最小投资和最大程度获得客户服务满意度。
[0023] 实施例二:如图2所示,一种基于大数据回归分析算法扩展最佳缴费渠道的装置, 包括居民缴费特征数据导入模块1、改进线性回归分析算法并发处理模块和电力企业扩展 缴费渠道的最佳投资分析结果输出模块5,所述的改进线性回归分析算法并发处理模块包 括分布数据处理单元2、回归方程计算单元3和离差平方和回归分析计算单元4,居民缴费 特征数据导入模块1实现用户用电特征数据的读取,并将数据传输至改进线性回归分析算 法并发处理模块中,所述的改进线性回归分析算法并发处理模块用于将用户用电特征数据 进行回归分析计算,并将计算结果进行归一后计算出离差平方和;所述的居民缴费特征数 据导入模块1的数据输出端与分布数据处理单元2的数据输入端相连接,分布数据处理单 元2的数据输出端与回归方程计算单元3的数据输入端相连接,回归方程计算单元3的数 据输出端与离差平方和回归分析计算单元4的数据输入端相连接,离差平方和回归分析计 算单元4的数据输出端与电力企业扩展缴费渠道的最佳投资分析结果输出模块5的数据输 入端相连接。
【主权项】
1. 一种基于大数据回归分析算法扩展最佳缴费渠道的方法,其特征在于按照w下步骤 进行: 步骤101,从大数据分布式数据库中读取存储的用电单位特征数据; 步骤201,在Map函数中进行数据回归分析计算,得到多个不同用户W数值形式存在的 缴费位置和缴费方式; 步骤301,将计算出的多个不同用户W数值形式存在的缴费位置和缴费方式在Re化ce函数下进行数值合并归一计算; 步骤401,通过数值归一计算结果计算出离差平方和Q值,将离差平方和Q值与给定阔 值进行对比,判断离差平方和Q值是否满足小于给定阔值; 步骤501,当离差平方和Q值小于给定阔值时,则在得出最佳缴费位置和最佳缴费方式 后结束;当离差平方和Q值大于给定阔值时,则进入步骤201再次进行回归分析运算。2. 根据权利要求1所述的基于大数据回归分析算法扩展最佳缴费渠道的方法,其特征 在于在步骤101中,大数据分布式数据库中的用电特征数据包括居民选择缴费方式比例数 据、各类缴费渠道承载业务量数据、用户居住地点与缴费网点距离数据、人口密度数据W及 各缴费渠道投资成本数据。3. 根据权利要求1或2所述的基于大数据回归分析算法扩展最佳缴费渠道的方法,其 特征在于在步骤201中,在Map函数中进行回归分析运算,线性回归方程通式为: Y=b〇+biXi+b2X2+b3X3+''' +bkXk+u 其中,¥为因变量,即:缴费点位置或缴费方式,义1,义2,义3'--义。为各个自变量,即:居 民选择的缴费方式比例数据、各类缴费渠道承载业务量数据、用户居住地点与缴费网点距 离数据、人口密度数据和各缴费渠道投资成本,b为各自变量的系数,U为随机扰动项观测 值, 当样本为i时,4. 根据权利要求1或2所述的基于大数据回归分析算法扩展最佳缴费渠道的方法,其 特征在于在步骤301中,用最小二乘法估算参数b。,bi,? ?就是要选择参数b。,bi,? ? ?, bk,使Y的观测值Yi与相应函数值襲的离差平方和达到最小,即:5. 根据权利要求3所述的基于大数据回归分析算法扩展最佳缴费渠道的方法,其特征 在于在步骤301中,用最小二乘法估算参数be,bi,? ? -bk,就是要选择参数be,bi,? ? ?, bk,使Y的观巧mYi与相应函数值黯的离差平方和达到最小,良P:6. -种基于大数据回归分析算法扩展最佳缴费渠道的装置,其特征在于包括居民缴费 特征数据导入模块、改进线性回归分析算法并发处理模块和电力企业扩展缴费渠道的最佳 投资分析结果输出模块,所述的改进线性回归分析算法并发处理模块包括分布数据处理单 元、回归方程计算单元和离差平方和回归分析计算单元;居民缴费特征数据导入模块实现 用户用电特征数据的读取,并将数据传输至改进线性回归分析算法并发处理模块中,改进 线性回归分析算法并发处理模块用于将用户用电特征数据进行回归分析计算,并将计算结 果进行归一后计算出离差平方和;所述的居民缴费特征数据导入模块的数据输出端与分布 数据处理单元的数据输入端相连接,分布数据处理单元的数据输出端与回归方程计算单元 的数据输入端相连接,回归方程计算单元的数据输出端与离差平方和回归分析计算单元的 数据输入端相连接,离差平方和回归分析计算单元的数据输出端与电力企业扩展缴费渠道 的最佳投资分析结果输出模块的数据输入端相连接。
【专利摘要】<b>本发明涉及扩展用户最佳缴费渠道技术领域,是一种基于大数据回归分析算法扩展最佳缴费渠道的方法和系统,包括步骤:从大数据分布式数据库中读取已经存储的用电单位特征数据;在Map函数中进行回归分析计算,得到多个不同用户以数值形式存在的缴费位置和缴费方式;将计算结果在Reduce函数下进行数值合并归一计算;计算出离差平方和Q值,将离差平方和Q值与给定阈值进行对比,判断离差平方和Q值是否满足小于给定阈值;若离差平方和Q值小于给定阈值,则结束。本发明使用大数据平台的改进的回归分析算法并发分析海量用户缴费数据,分析效率更高,更加准确的统计出用户缴纳电费的行为习惯,实现电力企业扩展缴费渠道的最佳投资分析。</b>
【IPC分类】G06Q50/06
【公开号】CN105005944
【申请号】CN201510403149
【发明人】王涛, 顾楠, 尼加提·纳吉米, 周文婷, 付长松, 杨宇, 佘换林, 马天福, 马斌, 刘信, 李凯
【申请人】国家电网公司, 国网新疆电力公司信息通信公司
【公开日】2015年10月28日
【申请日】2015年7月10日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1