本发明涉及数据处理及统计推算领域,具体地说是一种基于统计推算的网络零售平台店铺抽样方法。
背景技术:
统计推算也称统计推论。是在抽样调查方式中运用科学的方法从样本的调查结果推断总体特征的方法。统计推算是统计分析的重要组成部分。它对社会调查研究者来说是非常重要的方法。社会调查研究所涉及的对象通常是具有相当大的数量,有的甚至是具有无限量的总体,因此,调查人员对所研究的社会现象的全体,一般都不进行普遍研究,而是抽选其中少数代表进行研究,然后运用统计推算的方法,从样本的分析结果推算出对总体的情况估计或判断,从而认识总体。
统计推算所研究的问题有一个确定的总体,其总体分布未知或部分未知,通过从该总体中抽取的样本(观测数据)作出与未知分布有关的某种结论。个体是总体的一部分,局部的特性能反映全局的特点,由于总体的不均匀性和样本的随机性,又使得样本不能精确地反映总体。因此,抽取部分个体经分析得出有关总体的结论存在着差错和不可靠。从理论上讲有两种途径可以消除和减少这种差错:1)尽量均匀;2)确保抽样代表性;采取适当的抽样方法确保抽样的“代表性”,可有效地控制和提高统计推断的可靠性和正确性。
目前对于网络零售平台店铺样本的选取,大多还是使用简单随机抽样方法或分层抽样方法。使用简单随机抽样方法将会忽略样本的特殊性,存在数据代表性不足的缺点,分层抽样方法虽然弥补了简单随机抽样方法的缺点,但分层的合理性严重影响着分析结果的正确性,依然存在较大的改进空间。故如何对网络平零售台店铺进行抽样,全面、准确、及时的了解全国电商行业的发展情况,从而推算各领域及各类别的网络零售额,进而推算全国零售平台的网络零售额是目前存在的技术问题。
技术实现要素:
本发明的技术任务是提供一种基于统计推算的网络零售平台店铺抽样方法,来解决如何对网络平零售台店铺进行抽样,全面、准确、及时的了解全国电商行业的发展情况,从而推算各领域及各类别的网络零售额,进而推算全国零售平台的网络零售额的问题。
本发明的技术任务是按以下方式实现的,一种基于统计推算的网络零售平台店铺抽样方法,该方法是通过采集电商平台中店铺地址url的所有店铺的数据,采用重点平台全面调查与两步多层次相结合的多阶段抽样方法抽取样本数据,再利用样本数据推算全量宏观数据并控制数据质量;具体如下:
数据采集阶段:在各个电商平台采集店铺信息,根据预设的置信度阀值,选取抽样目标;
数据处理阶段:使用抽样各层名录和抽样单元基本信息作为统一的抽样框,根据抽样框信息对异常数据按照机器学习或者线性插补方式补全、去除或修正;
样本抽取阶段:采用重点平台全面调查与两步多层次抽样相结合的抽样方法抽取店铺样本;
确定样本阶段:在样本抽取阶段抽取的样本中再抽取预设比例的样本,对店铺所在地及所属行业信息进行甄别筛查,确定店铺信息的可靠性;
数据推算阶段:根据样本数据推算处全量宏观数据。
作为优选,在选取抽样目标过程中,分地域、分类别店铺销售额的抽样误差预设为0-5%,优选3%,进而汇总生成的全国店铺销售额抽样误差控制在0-5%。
作为优选,在数据处理阶段,抽样各层名录包括个地域(城市)、主营类型、销售额区间及交叉所需的样本量;
抽样单元基本信息包括所有待抽样店铺名称、序号、所属地域(城市)、所属主营类型和所属年销售额区间。
作为优选,重点平台全面调查为获取下一年抽样框打下基础,具体步骤如下:
对电商平台进行全面调查,采集近期各个电商平台所有店铺的地域信息、主营类型信息及年销售额信息;
添加店铺最新地域标签、最新主营类型标签、近期销售额区间标签。
作为优选,两步多层次抽样是考虑“二八原则”与“代表性原则”的综合抽样方法,具体步骤如下:
将抽样框分两部分,按近一年销售额高低排序,取前10%的店铺全部采集,店铺销售额分布是左倾厚尾,将这部分抽样等于抓住了店铺主流,但是只根据此推断缺乏地域或行业的代表性;
将剩余部分店铺进行分层抽样,在电商平台,按预设误差及置信度确定样本总量(仅指定了最低样本量,为备用样本可在各层增加1%样本量);
按全面调查的地域、类别比例确定地域及类别的样本店铺数,再在每个最细分的层中按销售额排序根据等距抽样方法抽样得到样本。
更优地,控制数据质量具体如下:
在数据采集阶段,采集店铺信息,并与全面调查时的店铺分类及地域信息对比,检查是否满足抽样条件,将不再满足条件的店铺用备用样本替换;或是采集过程漏采商品表现出商品数波动过大,及时补采该店铺商品;
在数据处理阶段,发现存在数据异常情况或是商品缺失具有系统性,可按照机器学习或者线性插补方式补全;
在样本抽取阶段中的重点平台全面调查过程中,多方面考证采集店铺数是否为全量,包括利用第三方数据核实店铺数是否遗缺,核查公布总销售额和自有采集数据是否一致,如是漏采店铺造成销售额偏小可填补店铺;
在确定样本阶段,在样本中再抽取预设比例的样本,对店铺所在地及所属行业信息进行甄别考察,进行统计调查或者电话回访,以确定其网页公布信息与实际信息是否一致如网上最近的地域信息是否是真实的,近一个月销量是否是准确;
在数据推算阶段,跨平台的店铺类别或地域名称需要做好标准化工作,不同平台的店铺类型不能简单对应,需要拆分大类别,从小到大逐渐统一类别;同时做推算工作,每一步推算需要有科学依据。
作为优选,数据推算阶段具体如下:
确定推算依据:根据大数定理,在样本足够大的条件下,按样本得到的统计量分布渐近于总体分布;再利用大样本数据计算的各商品大类、各地区及省份的同比、占比近似于网络零售总体的各商品大类、各地区及省份的同比、占比;
准备推算样本数据:明细数据是推算的基础;
推算全国网络零售额;
推算细分维度网络零售额。
更优地,确定推算依据具体如下:
获取反映网络零售行业总体趋势和结构的大样本数据;
以统计局公布的网上零售额为基准,推算当期的全国网上零售额;
推算当期的各商品大类、各交易类型、各地区及各省份的网上零售额;
准备推算样本数据具体如下:
筛选出各平台同期可比店铺,使数据具有可比性;
剔除各商品大类中拉动率异常的店铺,得到可比、可汇总分析的大样本数据,为避免异常值干扰。
更优地,推算全国网络零售额具体如下:
实物商品网上零售额推算:利用网络购物平台剔除虚拟商品的大样本数据,计算实物商品网上零售额的当期同比增速,并以统计局公布的历史实物商品网上零售额为基准,推算出当期实物商品网上零售额;
非实物商品网上零售额推算:利用生活服务类平台的大样本数据,计算非实物商品网上零售额的当期同比增速,并以统计局公布的历史非实物商品网上零售额为基准,推算出当期非实物商品网上零售额;
全国网上零售额推算:实物商品网上零售额与非实物商品网上零售额加总即为全国网上零售额。
更优地,推算细分维度网络零售额具体如下:
利用大样本数据,计算各商品大类在实物商品网上零售额的各时期占比;
结合当期推算的实物商品网上零售额和统计局公布的历史同期实物商品网上零售额,推算出当期和历史同期的各商品大类的网上零售额;
计算各商品大类的同比增速。
本发明的基于统计推算的网络零售平台店铺抽样方法具有以下优点:本发明通过抽样电商平台中店铺地址url的所有店铺(天猫、京东、苏宁、淘宝、一号店、国美等14个电商平台),可以全面、准确、及时了解全国电商行业发展状况,客观监测各地区、各电商主营类型的发展变化趋势,更好地满足研究定制电商行业政策的需要,对网络电商平台按统计抽样方法采集数据,从而推算各地域、各类别的网络零售额,进而推算全电商平台的网络零售额。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于统计推算的网络零售平台店铺抽样方法的结构框图;
附图2为数据推算阶段的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于统计推算的网络零售平台店铺抽样方法作以下详细地说明。
实施例1:
如附图1所示,本发明的基于统计推算的网络零售平台店铺抽样方法,该方法是通过采集电商平台中店铺地址url的所有店铺的数据,采用重点平台全面调查与两步多层次相结合的多阶段抽样方法抽取样本数据,再利用样本数据推算全量宏观数据并控制数据质量;具体如下:
s1、数据采集阶段:在各个电商平台采集店铺信息,根据预设的置信度阀值为95%,选取抽样目标;
s2、数据处理阶段:使用抽样各层名录和抽样单元基本信息作为统一的抽样框,根据抽样框信息对异常数据按照机器学习或者线性插补方式补全、去除或修正;
s3、样本抽取阶段:采用重点平台全面调查与两步多层次抽样相结合的抽样方法抽取店铺样本;
s4、确定样本阶段:在样本抽取阶段抽取的样本中再抽取预设比例的样本,对店铺所在地及所属行业信息进行甄别筛查,确定店铺信息的可靠性;
s5、数据推算阶段:根据样本数据推算处全量宏观数据。
本实施例中,控制数据质量具体如下:
①、在数据采集阶段,采集店铺信息,并与全面调查时的店铺分类及地域信息对比,检查是否满足抽样条件,将不再满足条件的店铺用备用样本替换;或是采集过程漏采商品表现出商品数波动过大,及时补采该店铺商品;
②、在数据处理阶段,发现存在数据异常情况或是商品缺失具有系统性,可按照机器学习或者线性插补方式补全;
③、在样本抽取阶段中的重点平台全面调查过程中,多方面考证采集店铺数是否为全量,包括利用第三方数据核实店铺数是否遗缺,核查公布总销售额和自有采集数据是否一致,如是漏采店铺造成销售额偏小可填补店铺;
④、在确定样本阶段,在样本中再抽取预设比例的样本,对店铺所在地及所属行业信息进行甄别考察,进行统计调查或者电话回访,以确定其网页公布信息与实际信息是否一致如网上最近的地域信息是否是真实的,近一个月销量是否是准确;
⑤、在数据推算阶段,跨平台的店铺类别或地域名称需要做好标准化工作,不同平台的店铺类型不能简单对应,需要拆分大类别,从小到大逐渐统一类别;同时做推算工作,每一步推算需要有科学依据。
本实施例中,在步骤s1中的选取抽样目标过程中,分地域、分类别店铺销售额的抽样误差预设为3%以内(个别店铺较少的地域在5%以内),进而汇总生成的全国店铺销售额抽样误差控制在3%以内。
本实施例中,在步骤s2中的数据处理阶段,抽样各层名录包括个地域(城市)、主营类型、销售额区间及交叉所需的样本量;
抽样单元基本信息包括所有待抽样店铺名称、序号、所属地域(城市)、所属主营类型和所属年销售额区间。
本实施例中,在步骤s3中的样本抽取阶段,重点平台全面调查为获取下一年抽样框打下基础,具体步骤如下:
s301-1、对电商平台进行全面调查,采集近期各个电商平台所有店铺的地域信息、主营类型信息及年销售额信息;
s301-2、添加店铺最新地域标签、最新主营类型标签、近期销售额区间标签。
在步骤s3中的样本抽取阶段,两步多层次抽样是考虑“二八原则”与“代表性原则”的综合抽样方法,具体步骤如下:
s302-1、将抽样框分两部分,按近一年销售额高低排序,取前10%的店铺全部采集,店铺销售额分布是左倾厚尾,将这部分抽样等于抓住了店铺主流,但是只根据此推断缺乏地域或行业的代表性;
s302-2将剩余部分店铺进行分层抽样,在电商平台,按预设误差及置信度确定样本总量(仅指定了最低样本量,为备用样本可在各层增加1%样本量);
s302-3、按全面调查的地域、类别比例确定地域及类别的样本店铺数,再在每个最细分的层中按销售额排序根据等距抽样方法抽样得到样本。
举例:以预测2017年各月电商总额举例,在2016年底,根据专家评估法和电商行业不记名问卷调查的方法获取主流电商平台共14家(占比整个电商份额98%左右),及各平台占比份额。(样本近似总体方法,从98%推算100%近似零误差)。
重点全面调查步骤:对14家电商平台进行全面调查,采集近一年来各平台所有店铺的地域信息、主营类型信息、年销售额信息,添加店铺最近地域标签、最近主营类型标签、近一年销售额区间标签。为下一步多层次抽样设计抽样框做准备。
两步多层次抽样步骤:将抽样框分两部分,按近一年销售额高低排序,取前10%的店铺全部采集,店铺销售额分布是左倾厚尾的,因此将这部分获取等于抓住了店铺主流,但是只根据此推断缺乏地域或行业的代表性,因此将剩余部分进行分层抽样,在某平台,按可接受误差及置信度确定样本总量(仅指定了最低样本量,为备用样本可在各层增加1%样本量),按全面调查的地域、类别比例确定地域、类别的样本店铺数,再在每个最细分的层中按销售额排序根据等距抽样方法抽样得到样本。
本实施例中,在步骤s5中的数据推算阶段具体如下:
s501、确定推算依据:根据大数定理,在样本足够大的条件下,按样本得到的统计量分布渐近于总体分布;再利用大样本数据计算的各商品大类、各地区及省份的同比、占比近似于网络零售总体的各商品大类、各地区及省份的同比、占比;具体如下:
s50101、获取反映网络零售行业总体趋势和结构的大样本数据;
s50102、以统计局公布的网上零售额为基准,推算当期的全国网上零售额;
s50103、推算当期的各商品大类、各交易类型、各地区及各省份的网上零售额;
s502、准备推算样本数据:明细数据是推算的基础;具体如下:
s50201、筛选出各平台同期可比店铺,使数据具有可比性;
s50202、剔除各商品大类中拉动率异常的店铺,得到可比、可汇总分析的大样本数据,为避免异常值干扰。
s503、推算全国网络零售额;具体如下:
s50301、实物商品网上零售额推算:利用网络购物平台剔除虚拟商品的大样本数据,计算实物商品网上零售额的当期同比增速,并以统计局公布的历史实物商品网上零售额为基准,推算出当期实物商品网上零售额;
s50302、非实物商品网上零售额推算:利用生活服务类平台的大样本数据,计算非实物商品网上零售额的当期同比增速,并以统计局公布的历史非实物商品网上零售额为基准,推算出当期非实物商品网上零售额;
s50303、全国网上零售额推算:实物商品网上零售额与非实物商品网上零售额加总即为全国网上零售额;
s504、推算细分维度网络零售额;具体如下:
s50401、利用大样本数据,计算各商品大类在实物商品网上零售额的各时期占比;
s50402、结合当期推算的实物商品网上零售额和统计局公布的历史同期实物商品网上零售额,推算出当期和历史同期的各商品大类的网上零售额;
s50403、计算各商品大类的同比增速;同理,各交易类型、各地区、各省份的网上零售额及同比增速,均按上述方法推算。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。