一种用基于文本挖掘的电力用户分群方法与流程

文档序号：12064599阅读：来源：国知局

技术特征：

1.一种用基于文本挖掘的电力用户分群方法，其特征在于，包括以下步骤：

步骤100：原始数据的采集与预处理

通过数据挖掘和ETL工具收集电力企业的客户档案数据和历史运营数据；

通过网络爬虫收网上营业厅等系统的客户用电行为、偏好、操作日志等数据；

通过语音转换工具将95598等语音系统的语音信息转化为结构化文本数据；

步骤200：基于机器学习的文本自动分类模型建立标签体系库：其中，

步骤201：准备训练集数据和测试集数据；

步骤202：文本预处理和数据清洗；

进行文本分词，通过去除停用词、低频词和标记信息等手段除去文档噪音，保留每一个文档的特征和有效字段；

步骤203：用向量空间模型文本建模；

步骤204：分析训练集合数据特征，提取文本特征并对文本特征进行加权处理；

步骤205：应用机器学习算法进行分类器训练；

步骤206：对模型进行验证，根据反馈调整模型，以获得最终的结果；

步骤300：根据标签体系库中的标签和标签属性权重，利用K-means聚类算法对用电客户进行用户画像；

步骤400：依据用户画像下的若干个标签属性，将用户按照一定的规则进行聚类，采用Jaccard计算相似度的方法，实现基于用户画像的客户群划分。

2.根据权利要求1所述的一种用基于文本挖掘的电力用户分群方法，其特征在于，其步骤200具体步骤如下：

步骤201准备训练集数据和测试集数据；

步骤202文本预处理和数据清洗：进行文本分词，通过去除停用词、低频词和标记信息等手段除去文档噪音，保留每一个文档的特征和有效字段；

步骤203用向量空间模型文本建模；

步骤204分析训练集合数据特征，提取文本特征并对文本特征进行加权处理；

步骤205采用KNN(K近邻算法)对文本分类器进行训练；

步骤206对模型进行验证，根据反馈调整模型，以获得最终的结果。

3.根据权利要求1所述的一种用基于文本挖掘的电力用户分群方法，其特征在于，根据步骤300所得的用户画像，将用户按照一定的规则进行聚类；依据用户画像下的若干个标签属性，采用Jaccard计算相似度的方法，计算出用户间的相似度，然后采用k-means方法对相似度在特定阀值范围内的用户进行聚类，完成客户群划分；其中相似度公式为：

$<mrow> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mrow> <mo>|</mo> <mfrac> <mrow> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>∩</mo> <msub> <mi>C</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>∪</mo> <msub> <mi>C</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> </mfrac> <mo>|</mo> </mrow> </mrow>$

Cik与Cjk分别表示第i个用户的第K个属性和第j个用户的第K个属性

用户相似度定义为：

$<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msup> <mi>M</mi> <mn>2</mn> </msup> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <munderover> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow>$

其中Sim(u1,u2)表示用户u1和u2的相似度，M表示用户u的维度属性，S_ij表示用户u1的第i个属性跟u2的第j个属性的相似度，且i＝j。

完整全部详细技术资料下载

当前第2页1 2 3