1.一种用基于文本挖掘的电力用户分群方法,其特征在于,包括以下步骤:
步骤100:原始数据的采集与预处理
通过数据挖掘和ETL工具收集电力企业的客户档案数据和历史运营数据;
通过网络爬虫收网上营业厅等系统的客户用电行为、偏好、操作日志等数据;
通过语音转换工具将95598等语音系统的语音信息转化为结构化文本数据;
步骤200:基于机器学习的文本自动分类模型建立标签体系库:其中,
步骤201:准备训练集数据和测试集数据;
步骤202:文本预处理和数据清洗;
进行文本分词,通过去除停用词、低频词和标记信息等手段除去文档噪音,保留每一个文档的特征和有效字段;
步骤203:用向量空间模型文本建模;
步骤204:分析训练集合数据特征,提取文本特征并对文本特征进行加权处理;
步骤205:应用机器学习算法进行分类器训练;
步骤206:对模型进行验证,根据反馈调整模型,以获得最终的结果;
步骤300:根据标签体系库中的标签和标签属性权重,利用K-means聚类算法对用电客户进行用户画像;
步骤400:依据用户画像下的若干个标签属性,将用户按照一定的规则进行聚类,采用Jaccard计算相似度的方法,实现基于用户画像的客户群划分。
2.根据权利要求1所述的一种用基于文本挖掘的电力用户分群方法,其特征在于,其步骤200具体步骤如下:
步骤201准备训练集数据和测试集数据;
步骤202文本预处理和数据清洗:进行文本分词,通过去除停用词、低频词和标记信息等手段除去文档噪音,保留每一个文档的特征和有效字段;
步骤203用向量空间模型文本建模;
步骤204分析训练集合数据特征,提取文本特征并对文本特征进行加权处理;
步骤205采用KNN(K近邻算法)对文本分类器进行训练;
步骤206对模型进行验证,根据反馈调整模型,以获得最终的结果。
3.根据权利要求1所述的一种用基于文本挖掘的电力用户分群方法,其特征在于,根据步骤300所得的用户画像,将用户按照一定的规则进行聚类;依据用户画像下的若干个标签属性,采用Jaccard计算相似度的方法,计算出用户间的相似度,然后采用k-means方法对相似度在特定阀值范围内的用户进行聚类,完成客户群划分;其中相似度公式为:
Cik与Cjk分别表示第i个用户的第K个属性和第j个用户的第K个属性
用户相似度定义为:
其中Sim(u1,u2)表示用户u1和u2的相似度,M表示用户u的维度属性,Sij表示用户u1的第i个属性跟u2的第j个属性的相似度,且i=j。