本发明属于电力营销,具体涉及一种基于多维数据融合的营销模型迁移处理方法。
背景技术:
1、电力系统是由发电、输电、变电、配电及用电等多个环节构成的超大型控制系统,系统具有的连续性及统一性的特点,要求安全可靠高质地运行,全面满足各行业生产及人民群众生活的需要。随着电力企业各类管理信息系统,电力mis、用电mis、调度mis等的普及应用,电力企业产生了正在以指数速度增长的大量基础性数据,展现在运行人员和决策者面前的已经不是局限于本单位、本部门和本行业的庞大数据库,而是浩瀚无垠的数据海洋。传统的mis系统只能对数据库中的数据进行诸如录入、查询、统计等操作性处理,通过这种处理所获得的信息仅仅是整个数据库所包含信息知识的一小部分,缺乏对数据整体特征的描述及其发展趋势预测方面的知识,无法发现数据中存在的关系和规则以及根据现有的数据预测未来的发展趋势,从而导致“数据爆炸和知识贫乏”的现象。而电力营销决策就是以业务数据作为参考,如何将多维数据分析方法应用其中成为一大难题。因此,有待找出将多维数据分析方法合理应用在电力营销决策的措施,需要一种基于多维数据融合的营销模型迁移处理方法。
技术实现思路
1、本发明的目的是为了克服现有技术的不足,而提供一种基于多维数据融合的营销模型迁移处理方法,解决了上述背景技术中的问题。
2、本发明的目的是这样实现的:基于多维数据融合的营销模型迁移处理方法,其包括以下步骤:
3、s1、对电力营销数据仓库进行分析;
4、s2、构建多维数据挖掘模型;
5、s3、通过聚类分析作为独立工具用于获得数据分布的情况。
6、进一步地,所述对电力营销数据仓库进行分析包括数据仓库的引入及特征、电力营销的olap分析和电力营销数据仓库方案,在事务处理环境中,用户的行为特点是数据的存取操作,且每次操作允许多个用户按分时方式使用系统资源,同时保持响应时间;考虑系统响应的及时性原因,事务处理数据库中只存储当前和近期的历史数据,且不同数据的保存期限不同;将数据从联机事务处理系统、外部数据源、脱机的数据存储介质导入到数据仓库中,数据抽取包括有互连、复制、转换、调度和监控,考虑到数据仓库的特性,其数据并不要求与olap系统保持实时同步,因此数据抽取可以定时进行;在数据抽取的技术实现策略方面,其发展将集中在系统集成化方面,将互连、复制、转换、调度和监控标准化的统一管理,用于以适应数据仓库本身或数据源可能的变化,使系统更易于实现管理和维护。
7、进一步地,所述数据仓库的引入及特征包括存储和管理;所述存储和管理包括数据仓库的组织管理方式,数据仓库需要对数据进行存储和管理,通过数据分割将一个大的数据库表分散在多个物理存储设备中,用于进一步增强了系统管理大数据量的扩展能力,以便获得更好的数据查询响应性能。
8、进一步地,所述电力营销数据仓库方案包括:
9、汇总和收集分散的电力营销的原始业务数据,用于提高查询效率,便于对基层工作的实现全面掌握、有效监管和指导;
10、集中管理原来分散的代码表、目录电价表,用于对全局的用电管理实现统一规范化,提高电力营销管理工作的现代化水平;根据电力营销辅助决策系统的需求分析中的综合分析和客户分析,归纳整理后产生八大分析主题,所述主题包括电价电费分析、负荷电量预测、业扩工作分析、电能计量分析、客户状况分析、市场竞争分析、营销能力分析和优质服务分析;根据主题的性质以及分析的需要,每一个主题下细分为若干小题,包括电价电费分析再按电费类别分为目录电费、基本电费、代收电费、力调电费以及综合电费。
11、进一步地,所述构建多维数据挖掘模型包括非线性模型的变量选择和多维空间选择的ann结构;所述非线性模型的变量选择通过数理统计的贡献分析法或基于神经网络的方法;所述贡献分析法为:
12、若某系统含有p个自变量,采用修正条件期望算法确定该系统的最佳函数然后通过贡献分析法剔除一个或几个变量,得到新的指标子集xtj,j=1,...,q,1≤q≤p-1;对新的指标子集再重新用期望算法确定最佳函数重复上述过程,直到无进一步变量可删除为止,余下指标则为所选取的重要变量,用于作为系统建立的基础;
13、该系统是一类可加的非线性单方程模型,其表达式为:
14、
15、式中,yt是因变量,xtj是自变量,εt是随机误差项,βt为对应自变量的权重,均是非线性函数;用于方便叙述,定义为:
16、y=(y1,...,yn)t
17、x=(xij,...,xnj)t
18、θ(y)=(θ(y1),...,θ(yn))t
19、
20、推导出以下的决定系数:
21、
22、通过数理方差原理,可定义第j个自变量对输出的贡献大小为:
23、
24、具体为若m个变量贡献之和其中λ为接近1的值0.95或0.9,认为这m个变量为重要变量,其它则为次要变量。
25、进一步地,所述基于神经网络的方法包括在系统建模与预测研究中基于神经网络的变量选择方法,一方面避免在建模过程中如何正确设定函数形式这一现实困难,另一方面扩充回归建模中的函数类型,使变量选择研究更具一般性,用于为结构未知下的变量筛选开辟途径;
26、单隐层前向神经网络,输出表达式为:
27、
28、式中,x=(x1,...,xp)t,p为输入变量个数,是隐节点与输出节点之间的连接权,n为隐层节点数,w表示全部网络权值,f1(·)是隐层转换函数,f2(·)是输出层转换函数;
29、关于f1(·)、f2(·)选取包括两种方案,f1(x)=f2(x)=1/(1+e-x)或者f1(x)=1/(1+e-x),f2(x)=x;由于后者简单且具有相当一般性,则式简化为:
30、
31、比较上述式后,具有相同的形式,用贡献分析法得出:
32、
33、从方差分析角度理解式,可得出第i个隐层节点对输出的贡献系数为:
34、
35、得出第j个输入对第i个隐层节点的贡献系数为:
36、
37、各个输入变量对输出的总体贡献为:
38、
39、基于神经网络的变量选择基本步骤如下:
40、构建三层前馈神经网络:输入层神经元个数为问题输入个数p,隐层节点神经元个数根据需要设置;隐层神经元转换函数用sigmoid,输出用线性函数;
41、设置好初始参数值包括权值初值、学习率、动量因子,用bp算法训练网络,直到收敛;再对网络使用测试集和验证集,用于保证网络的正确性;
42、用式计算出各个输入的贡献分量,取最大的若干个分量,如果其和不小于预先设定的百分比,认为这几个输入即为对输出影响的重要变量。
43、进一步地,所述通过聚类分析作为独立工具用于获得数据分布的情况包括聚类准则方案,所述聚类准则方案包括将n个样本分成k类{c1,c2,...,ck},对i=1,2,...,c和j=1,2,...,n定义为:
44、
45、表示第i类的中心,ni表示第i类所包含的样本个数,则:
46、
47、第i类的类内差异为:
48、
49、式中的|| ||表示欧氏范数,整体类内差异为:
50、
51、k-均值算法的目的是用于针对一个预先给定的聚类数k寻找最优的μ*使得s(u)取得极小值。
52、进一步地,对于聚类数k未知的情况下,如k=n时上式的聚类则取得最小值0,其优化问题的表达式为:
53、
54、进一步将式中的第二个式子改为用类间最小连接距离代替,即变为以下式子的优化问题:
55、
56、聚类分析根据事物的特征对其进行聚类或分类,且基于物以类聚的朴素思想,从中发现规律和典型模式,当要分析的数据缺乏描述信息,或者无法组织成任何分类模式时,利用聚类分析用于自动将数据按某些特征划分。
57、本发明的有益效果:通过针对电力营销决策支持系统进行详细的需求分析设计,在深入分析和研究数据仓库、数据挖掘以及多维分析技术基础上提出了一种基于数据挖掘的电力营销决策支持系统的结构框架模式。对电力营销决策支持系统框架模式中关键的olap技术进行分析和研究,设计电力营销数据仓库的具体实现方案,采用olap工具businessobject设计并实现电量电费的olap分析。利用ann擅长于模拟复杂的非线性系统的特点,设计了一种非全连接的三层前馈神经网络结构,该算法既避免统计方法中复杂的非线性建模问题,又比一般神经网络变量选择方法的计算量小,实验仿真证明了其在多维数据空间选择上的有效性。采用结构自适应的聚类神经网络技术实现了用户用电量时间特征分析,自动生成了用户分时段、分地区、行业、用电类别的的用电比例情况,从而可更为合理地对电价以及发电计划进行调整。
58、通过将多维数据分析方法应用在电力营销决策工作,能更好的进行电力营销决策,通过构建多维数据模型迁移处理,对电力营销的客户需求、购电需求、电价等多种数据进行分析,促进多维数据分析功能的实现,大大提高相关工作人员的工作效率,调整电力营销行业发展方向,使之与国家经济发展方向匹配,促进电力行业的可持续发展。