一种基于数据湖的品牌门店的进店率预测方法与系统与流程

文档序号:33649274发布日期:2023-03-29 06:44阅读:85来源:国知局
一种基于数据湖的品牌门店的进店率预测方法与系统与流程

1.本发明涉及人工智能技术领域,具体涉及一种基于数据湖的品牌门店的进店率预测方法与系统。


背景技术:

2.随着社会发展,电商成为一种基础设施,线上开店门槛低且灵活,但随着线上流量红利的消失,线上增长出现瓶颈,且线上营销费用日趋增长,消费者也越来越注重线下体验消费,于是线下以灵活开店为特点的快闪店和慢闪店形式兴起,不同品牌越来越多回归线下开店,给用户带来体验式消费,通过灵活开店形式,品牌可以通过在不同地方开店,快速触达其目标消费群体。
3.不同品牌在开店过程中,通常会根据客流量*进店率*转化率*客单价的公式,事先预估在某个拟开业位置的门店销售额,然后结合成本计算roi,以确定是否要在该位置开店。传统上,不同品牌是根据其现有门店的过店与进店客流数据历史平均值来估算拟开业门店的进店率,或者凭以往经验估计一个进店率。而实际上,不同品牌在不同位置的进店率是不同的,传统方法没有考虑这种差异性,对进店率的估算并不准确。
4.另外,现有的进店率预估模型通常把进店率直接作为预测目标去构建模型,并不考虑进店率处于【0,1】区间的性质,很可能导致模型预测结果违反这一性质。
5.因此,针对这种不同品牌在不同位置的进店率估计问题,本发明综合品牌和门店位置相关的多种影响因素,提出一种基于二项分布建模的进店率预测方法与系统,帮助不同品牌在不同位置拟开店时有效估计进店率,支持开店决策。


技术实现要素:

6.针对现有技术中存在的没法准确预测进店率的问题,本发明提供了一种基于数据湖的品牌门店的进店率预测方法与系统。
7.本发明提供了一种基于数据湖的品牌门店的进店率预测方法:包括
8.步骤s1:采集历史数据:包括门店信息store(poi)、位置信息loc_info(place)、场地信息(place)、周边信息sur_info(place)、商家品牌信息brand_info(brand)、环境信息context、客流数据flow(poi)等建模必备数据;
9.步骤s2:数据处理:进行数据清洗、异常值检测并剔除、缺失值填补;步骤s3:样本构造与模型训练:对处理后的数据构造特征,对类别特征进行编码;通过基于二项分布对进店率建模,构造极大似然函数作为优化目标进行模型参数求解;对所有样本取出一定比例的样本进行机器学习或深度学习的模型训练和调参,得到最优模型,再用所有样本重新训练模型在线部署;
10.步骤s4:在线预测:在线推理根据收集到的拟开业门店的模型所需特征信息,调用训练好的模型得到在线预测结果。
11.优选地,步骤s1中:
12.采集门店信息store(poi):从门店信息管理系统录入要采集客流的门店信息,包括品牌,门店具体定位,店铺类型,位置类型,场地(具体商场名称,id或大楼名称,id),所处楼层,门牌号,面积,开业时间,租金等具体信息;
13.采集位置信息loc_info(place):包含省市区、经纬度、所处商圈,城市等级、城市类型等基础位置信息;
14.采集场地信息place_info(place):包含场地地址、场地类型、场地id、场地面积、建筑时间、场地楼层、场地平均租金、场地品牌偏好、客流量水平、消费水平等场地标签画像、场地业态分布、场地客群人群画像、场地历史成交信息、场地各楼层业态分布等,其中场地类型涉及商场、写字楼、景区,街铺、小区等,场地指的是具体的购物中心、写字楼、小区、楼宇等名称和编号;采集周边信息sur_info(place)包含场地周边的交通设施、公共设施(加油站、充电站,交通设施等);
15.采集环境信息context包含天气状况、温度、季节、节假日、星期、促销活动等;
16.采集商家品牌信息brand_info(brand)包含行业、企业、连锁门店数、品牌定位、目标客群、产品均价、竞品品牌等;
17.采集的客流数据flow(poi)包含进店人数、过店人数,采集时间,客群属性(如性别比例,年龄段比例,客流流向比例);
18.优选地,步骤s1中的客流数据包括:
19.通过客流检测设备,包括固定摄像头和移动视频拍摄设备,运用人体识别和目标跟踪技术获取进店人数和过店人数及其对应的数据采集时间,发送数据到后端数据库;不同品牌不同门店客流数据汇集一起,构成门店客流数据湖。
20.优选地,步骤s2中:采用步骤s1中的促销环境信息处理历史数据,处理方式可以采用剔除掉促销日,或者计算促销日相对平日进店率的增长倍率,把促销日的进店率还原成平日。
21.优选地,步骤s3中:由于未来的环境信息未知,因此可根据业务目标分别设置指定维度的预测目标和样本,按照不同维度构建模型,维度按照月份、工作日周末等多个维度划分,构成诸如(月份、日期类型)维度的门店(store,poi)的平均进店率预测目标,实现长期和短期的预测任务。
22.优选地,对处理后的数据构造特征具体是指:数据经过指定维度聚合后,经特征转换、特征编码、特征组合生成模型所需特征。聚合后环境信息特征不保留。
23.优选地,基于二项分布的进店率建模,构造极大似然函数作为优化目标函数求解,如下:
[0024][0025]
其中,ti表示品牌门店第i个时段的总过店人数,ni表示总进店人数,xi表示影响品
牌门店进店率的特征因素,进店率w是参数,需要通过样本估计出来。π(xi)也可以是其它形式,视具体问题而定。时段划分可以是天或者周或者月,假设总量为n段,即n个样本。参数w估计问题,就是寻找最优的w,让l(w)取得最大值。
[0026]
优选地,步骤s3中:将所有样本划分为训练集、验证集、测试集,用于机器学习和深度学习各开源算法训练和调参,最后选择测试集表现最优的模型重新训练所有样本得到待上线模型。
[0027]
一种基于数据湖的品牌门店的进店率预测系统,包括:
[0028]
数据获取模块,用于获取模型训练所需的基础数据,包括门店信息store(poi)、位置信息loc_info(place)、场地信息(place)、周边信息sur_info(place)、商家品牌信息brand_info(brand)、环境信息context、客流数据flow(poi);
[0029]
数据处理模块,用于处理和清洗收集的数据,异常值处理等,去除噪声;
[0030]
样本构造模块,用于生成模型所需的样本和特征,此模块还包括预测目标维度确定单元,根据设置的维度构造目标和样本。
[0031]
模型训练模块,用于将所述训练样本输入到模型中得到进店率预测模型,此模块还包含样本划分单元,用于划分训练集、验证集和测试集、模型训练寻参单元,用于各种算法得到最优模型、待上线模型训练单元,用于将所有样本输入到最优模型中得到最终待上线模型。
[0032]
在线预测模块,用于评估拟开业位置品牌的未来短期、长期的进店率,输入模型所需特征,得到进店率预测结果。
[0033]
本发明有益效果:
[0034]
与现有技术相比,本发明充分利用各种维度的大数据,采用机器学习和深度学习自动建模技术,对不同品牌在不同位置的进店率进行科学预测,改变了当前根据以往门店简单的测算。当系统中的积累的门店和品牌越来越多,模型预测的结果将越来越准确,将越来越能提升品牌和位置的匹配度预估能力。
附图说明
[0035]
图1是本发明实施例采用该方法的具体流程图;
[0036]
图2是本发明实施例采用该系统的示例图。
具体实施方式
[0037]
下面结合附图对本发明作进一步详细的说明,但并不是对本发明保护范围的限制。
[0038]
在本发明实施例中,参照图1:
[0039]
步骤s1:采集历史数据:包括门店信息store(poi)、位置信息loc_info(place)、场地信息(place)、周边信息sur_info(place)、商家品牌信息brand_info(brand)、环境信息context、客流数据flow(poi)等建模必备数据;
[0040]
步骤s2:数据处理:进行数据清洗、异常值检测并剔除、缺失值填补;
[0041]
步骤s3:样本构造与模型训练:对处理后的数据构造特征,对类别特征进行编码;
通过基于二项分布对进店率建模,构造极大似然函数作为优化目标进行模型参数求解;对所有样本取出一定比例的样本进行机器学习或深度学习的模型训练和调参,得到最优模型,再用所有样本重新训练模型在线部署;
[0042]
步骤s4:在线预测:在线推理根据收集到的拟开业门店的模型所需特征信息,调用训练好的模型得到在线预测结果。
[0043]
步骤s1中:
[0044]
采集门店信息store(poi):从门店信息管理系统录入要采集客流的门店信息,包括品牌,门店具体定位,店铺类型,位置类型,场地(具体商场名称,id或大楼名称,id),所处楼层,门牌号,面积,开业时间,租金等具体信息;
[0045]
采集位置信息loc_info(place):包含省市区、经纬度、所处商圈,城市等级、城市类型等基础位置信息;
[0046]
采集场地信息place_info(place):包含场地地址、场地类型、场地id、场地面积、建筑时间、场地楼层、场地平均租金、场地品牌偏好、客流量水平、消费水平等场地标签画像、场地业态分布、场地客群人群画像、场地历史成交信息、场地各楼层业态分布等,其中场地类型涉及商场、写字楼、景区,街铺、小区等,场地指的是具体的购物中心、写字楼、小区、楼宇等名称和编号;采集周边信息sur_info(place)包含场地周边的交通设施、公共设施(加油站、充电站,交通设施等);
[0047]
采集环境信息context包含天气状况、温度、季节、节假日、星期、促销活动等;
[0048]
采集商家品牌信息brand_info(brand)包含行业、企业、连锁门店数、品牌定位、目标客群、产品均价、竞品品牌等;
[0049]
采集的客流数据flow(poi)包含进店人数、过店人数,采集时间,客群属性(如性别比例,年龄段比例,客流流向比例);
[0050]
步骤s1中的客流数据包括:
[0051]
通过客流检测设备,包括固定摄像头和移动视频拍摄设备,运用人体识别和目标跟踪技术获取进店人数和过店人数及其对应的数据采集时间,发送数据到后端数据库;不同品牌不同门店客流数据汇集一起,构成门店客流数据湖;
[0052]
步骤s2中包括:采用步骤s1中的促销等环境信息处理历史数据,处理方式可以采用剔除掉促销日,或者计算促销日相对平日进店率的增长倍率,把促销日的进店率还原成平日,
[0053]
步骤s3中包括:由于未来的环境信息未知,因此可根据业务目标设置指定维度的预测目标和样本,按照不同维度构建模型,维度按照月份、工作日周末等多个维度划分,构成诸如(月份、日期类型)维度的门店(store,poi)的平均进店率预测目标,实现长期和短期的预测任务。维度不仅限于月份、工作日周末两个维度,还可以根据具体进店率的预测场景进行设置修改,综合评估多种情况下门店的进店率,从而有助于综合评估门店效益;
[0054]
构造特征权利要求2所述数据经过指定维度聚合后,经特征转换、特征编码、特征组合生成模型所需特征。聚合后环境信息特征不保留。
[0055]
基于二项分布的进店率建模权利要求建立极大似然函数作为优化目标函数求解,如下:
[0056][0057]
其中,ti表示品牌门店第i个时段的总过店人数,ni表示总进店人数,xi表示影响品牌门店进店率的特征因素,进店率w是参数,需要通过样本估计出来。π(xi)也可以是其它形式,视具体问题而定。时段划分可以是天或者周或者月,假设总量为n段,即n个样本。参数w估计问题,就是寻找最优的w,让l(w)取得最大值。
[0058]
步骤s3中包括:将所有样本划分为训练集、验证集、测试集,用于机器学习和深度学习各开源算法训练和调参,最后选择测试集表现最优的模型重新训练所有样本得到待上线模型。比如分别训练调参模型a1,a2,a3

,进入测试集测试效果最优的模型a1,那么用模型a1和所有样本重新训练得到最终可以上线的模型a。
[0059]
一种基于数据湖的品牌门店的进店率预测系统,包括:
[0060]
数据获取模块,用于获取模型训练所需的基础数据,包括门店信息store(poi)、位置信息loc_info(place)、场地信息(place)、周边信息sur_info(place)、商家品牌信息brand_info(brand)、环境信息context、客流数据flow(poi);
[0061]
数据处理模块,用于处理和清洗收集的数据,异常值处理等,去除噪声;
[0062]
样本构造模块,用于生成模型所需的样本和特征,此模块还包括预测目标维度确定单元,根据设置的维度构造目标和样本。
[0063]
模型训练模块,用于将所述训练样本输入到模型中得到进店率预测模型,此模块还包含样本划分单元,用于划分训练集、验证集和测试集、模型训练寻参单元,用于各种算法得到最优模型、待上线模型训练单元,用于将所有样本输入到最优模型中得到最终待上线模型。
[0064]
在线预测模块,用于评估拟开业位置品牌的未来短期、长期的进店率,输入模型所需特征,得到进店率预测结果。
[0065]
本发明不仅局限于上述具体实施方式,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方案实施本发明。因此,凡是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落入本发明保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1