一种用基于文本挖掘的电力用户分群方法与流程

文档序号:12064599阅读:来源:国知局

技术特征:

1.一种用基于文本挖掘的电力用户分群方法,其特征在于,包括以下步骤:

步骤100:原始数据的采集与预处理

通过数据挖掘和ETL工具收集电力企业的客户档案数据和历史运营数据;

通过网络爬虫收网上营业厅等系统的客户用电行为、偏好、操作日志等数据;

通过语音转换工具将95598等语音系统的语音信息转化为结构化文本数据;

步骤200:基于机器学习的文本自动分类模型建立标签体系库:其中,

步骤201:准备训练集数据和测试集数据;

步骤202:文本预处理和数据清洗;

进行文本分词,通过去除停用词、低频词和标记信息等手段除去文档噪音,保留每一个文档的特征和有效字段;

步骤203:用向量空间模型文本建模;

步骤204:分析训练集合数据特征,提取文本特征并对文本特征进行加权处理;

步骤205:应用机器学习算法进行分类器训练;

步骤206:对模型进行验证,根据反馈调整模型,以获得最终的结果;

步骤300:根据标签体系库中的标签和标签属性权重,利用K-means聚类算法对用电客户进行用户画像;

步骤400:依据用户画像下的若干个标签属性,将用户按照一定的规则进行聚类,采用Jaccard计算相似度的方法,实现基于用户画像的客户群划分。

2.根据权利要求1所述的一种用基于文本挖掘的电力用户分群方法,其特征在于,其步骤200具体步骤如下:

步骤201准备训练集数据和测试集数据;

步骤202文本预处理和数据清洗:进行文本分词,通过去除停用词、低频词和标记信息等手段除去文档噪音,保留每一个文档的特征和有效字段;

步骤203用向量空间模型文本建模;

步骤204分析训练集合数据特征,提取文本特征并对文本特征进行加权处理;

步骤205采用KNN(K近邻算法)对文本分类器进行训练;

步骤206对模型进行验证,根据反馈调整模型,以获得最终的结果。

3.根据权利要求1所述的一种用基于文本挖掘的电力用户分群方法,其特征在于,根据步骤300所得的用户画像,将用户按照一定的规则进行聚类;依据用户画像下的若干个标签属性,采用Jaccard计算相似度的方法,计算出用户间的相似度,然后采用k-means方法对相似度在特定阀值范围内的用户进行聚类,完成客户群划分;其中相似度公式为:

<mrow> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>&cap;</mo> <msub> <mi>C</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>&cup;</mo> <msub> <mi>C</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> </mfrac> <mo>|</mo> </mrow> </mrow>

Cik与Cjk分别表示第i个用户的第K个属性和第j个用户的第K个属性

用户相似度定义为:

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msup> <mi>M</mi> <mn>2</mn> </msup> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>

其中Sim(u1,u2)表示用户u1和u2的相似度,M表示用户u的维度属性,Sij表示用户u1的第i个属性跟u2的第j个属性的相似度,且i=j。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1