一种基于云POS机的新零售扫码数据异常检测方法与流程

文档序号:16998197发布日期:2019-03-02 01:32阅读:1621来源:国知局
一种基于云POS机的新零售扫码数据异常检测方法与流程
本发明涉及零售终端数据检测
技术领域
,特别涉及一种基于云pos机的新零售扫码数据异常检测方法。
背景技术
:现代零售终端建设在品牌培育、宣传促销、消费跟踪等方面体现出至关重要的地位。因此,终端数据质量的好坏,直接决定了零售终端能否在数据营销、品牌培育和发展、货源投放等市场策略的制定中发挥正确作用。零售户在使用云pos机的时候存在许多问题,其中主要包括不扫码销售、漏扫、集中不扫码、部分交易商品扫码、故意扫码不提交和量价异常六类问题,这些问题使得终端数据的高质量水准难以得到保障。针对零售户上传pos机的海量扫码销售数据,准确快速辨别哪些零售户为优质扫码店铺,对于根据店铺实时数据进行市场价值动态预估和市场布局分析十分重要。基于上述情况,本发明设计了一种基于云pos机的新零售扫码数据异常检测方法。机器学习中的分类算法包括knn算法、决策树算法、logistic回归算法、支持向量机算法等等。作为经典的机器学习算法在分类任务上具有很好的效果。将机器学习分类算法和基于专家经验的智能识别模型和时间拟合度算法相结合,可以实时监测终端数据的异常状态。技术实现要素:本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于云pos机的新零售扫码数据异常检测方法。本发明是通过如下技术方案实现的:一种基于云pos机的新零售扫码数据异常检测方法,其特征在于:首先以云pos机系统为基础,结合智能识别模型,时间拟合分析模型和机器学习分类算法模型,构建基于云pos机的实时扫码数据异常监测系统;然后采集各区域店铺扫码终端的零售商销售记录数据,并对数据进行初始化处理,对终端数据采取包括编码和处理字段异常值在内的修正操作;最后,根据判断条件对数据进行判断,根据零售商销售记录数据是否符合四个条件,将零售户分为优质扫码店铺,疑似异常扫码店铺或异常扫码店铺,并基于此构建带有标签的数据集;同时基于机器学习的监督学习方法-分类算法,将实时更新的扫码数据进行分类,可实现对零售商扫码异常的动态检测。所述判断条件如下:条件一,判断所述零售商销售记录数据是否来自特殊零售户,如果是,则该数据为异常数据;条件二,判断所述零售商销售记录数据中扫码天数达标率是否合格,如果未达到预设定值,则该数据为异常数据;条件三,判断符合条件一和条件二的零售商销售记录数据是否在扫码均值参考线和扫码波动率标准差参考线的达标范围之内,如果不是,则该数据属于异常数据;条件四,对于符合条件三的零售商销售记录数据,判断扫码时间拟合度是否达标,如果达标则属于正常数据,否则,属于异常数据;其中条件二与条件三组成智能识别模型,条件四为时间拟合分析模型。所述条件一中,特殊零售户为特殊营业场所,销售规律不符合正常市场销售规律的店铺,以排除其对数据的影响。所述条件二中,扫码天数描述的是店铺一段时间内对终端使用的连续性,能够反馈店铺经营的周期特性;统计给定时间段内店铺扫码天数,低于预定值即代表扫码天数不达标;计算扫码天数达成率,即实际扫码天数与应扫码天数的比值;扫码天数达标率在1~0.6之间的店铺若仅因为某一天调试没有使用终端,虽然没有在开始使用后连续不间断使用,但是不扫码天数较少,可以不予考虑,观察其之后的表现;扫码天数达标率在0.6~0.3之间的店铺的扫码天数达成率较低,接近应扫码天数的一半时间都没有扫码,情况较为严重,若开始扫码之后中间有几天调试没有扫码,后面调试好后连续扫码,也可以不予考虑,观察其之后的表现;扫码天数达标率在0.3以下的店铺基本可以断定为不认真扫码的店铺,应予以督促。所述条件三按照扫码笔数法过滤,扫码笔数过滤是在扫码天数达标率达标的基础上进行的,以保证所有店铺有可靠的扫码天数作为数据支撑;首先统计每个店铺每天的扫码笔数,其次计算一个月的扫码均值,然后计算每个店铺每天扫码笔数与当月扫码均值的波动率,最后求每个店铺当月的扫码笔数波动率标准差,将均值和标准差两个维度作为筛选依据;扫码波动率大于0.5则为异常扫码店铺,扫码波动率小于0.5且扫码笔数小于30则为疑似异常扫码店铺,扫码波动率小于0.5且扫码笔数大于30则为扫码笔数优质店铺。所述条件四中,扫码时间拟合度用来刻画各个店铺一天中销售趋势与其所属区域的全部店铺平均销售趋势的离散情况,将零售户时间拟合度高于0.75的销售日定义为达标,计算一个月达标天数大于26天为合格;一天m个时间段,某区域的n个店铺中,店铺i在时间段j与参考标准趋势的扫码时间拟合度为:其中,为店铺i在时间段j的扫码笔数占比,为所有店铺在时间段j扫码均值占比,计算式分别如下:其中,为店铺i在时间段j的扫码笔数,为所有店铺在时间段j扫码笔数均值,计算式如下:其中,m,n,j,i均为自然数,且i小于n,j小于m。当判断新零售扫码数据为异常数据时,将该数据加入异常扫码零售商数据库中,将优质扫码数据加入到优质零售商扫码数据库,与异常扫码零售户进行沟通,改善零售户的云pos的使用规范性。所述扫码终端为带有摄像头的移动智能终端,包括但不限于台式电脑,智能手机和平板电脑。处理好的终端数据需要用到店铺编码shop_id、销售单号sales_id、销售日期sales_date、小包装条码small_barcode和销售单创建时间crea_date字段。本发明的有益效果是:该基于云pos机的新零售扫码数据异常检测方法,从终端数据质量的角度出发,归纳总结终端销售过程中存在的问题,并通过智能识别模型、扫码时间拟合度算法和机器学习分类算法实时监控检测并反馈终端运行情况,不但能够节省大量的人力物力,大大提高工作效率,而且还大大提高了分类准确率;结合运行结果给出改善建议,辅助提升现代终端建设和新零售的发展。附图说明附图1为本发明应扫码天数与达成率关系示意图。附图2为本发明零售户交易数据均值和波动率标准差关系示意图。附图3为本发明零售户交易数据均值参考线和波动率标准差参考线示意图。附图4为本发明店铺扫码笔数走势示意图。附图5为本发明大连市所有店铺一天扫码走势示意图。附图6为本发明拟合最好店铺一天扫码走势示意图。附图7为本发明拟合不好店铺扫码走势示意图。具体实施方式为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。该基于云pos机的新零售扫码数据异常检测方法,首先以云pos机系统为基础,结合智能识别模型,时间拟合分析模型和机器学习分类算法模型,构建基于云pos机的实时扫码数据异常监测系统;然后采集各区域店铺终端的零售商销售记录数据,并对数据进行初始化处理,对终端数据采取包括编码和处理字段异常值在内的修正操作;最后,根据判断条件对数据进行判断,根据零售商销售记录数据是否符合四个条件,将零售户分为优质扫码店铺,疑似异常扫码店铺或异常扫码店铺,并基于此构建带有标签的数据集;同时基于机器学习的监督学习方法-分类算法,将实时更新的扫码数据进行分类,可实现对零售商扫码异常的动态检测;所述判断条件如下:条件一,判断所述零售商销售记录数据是否来自特殊零售户,如果是,则该数据为异常数据;条件二,判断所述零售商销售记录数据中扫码天数达标率是否合格,如果未达到预设定值,则该数据为异常数据;条件三,判断符合条件一和条件二的零售商销售记录数据是否在扫码均值参考线和扫码波动率标准差参考线的达标范围之内,如果不是,则该数据属于异常数据;条件四,对于符合条件三的零售商销售记录数据,判断扫码时间拟合度是否达标,如果达标则属于正常数据,否则,属于异常数据;其中条件二与条件三组成智能识别模型,条件四为时间拟合分析模型。所述条件一中,特殊零售户为不符合正常市场销售规律的店铺,以排除其对数据的影响。所述条件二中,扫码天数描述的是店铺一段时间内对终端使用的连续性,能够反馈店铺经营的周期特性;统计给定时间段内店铺扫码天数,低于预定值即代表扫码天数不达标;计算扫码天数达成率,即实际扫码天数与应扫码天数的比值。如附图1所示,为扫码天数达成率与应扫码天数的整体分布。将扫码天数达成率分段统计结果如表1。其中达成率为1的店铺可能为本月刚上云pos终端,虽然扫码天数较少,但是开始扫码后每天都有扫码。表1扫码天数达成率分段统计结果天数达成率1(1,0.6](0.6,0.3](0.3,0]总数店铺户数114917379357占比32.0%25.5%20.4%22.1%100%扫码天数达标率在1~0.6之间的店铺若仅因为某一天调试没有使用终端,虽然没有在开始使用后连续不间断使用,但是不扫码天数较少,可以不予考虑,观察其之后的表现。扫码天数达标率在0.6~0.3之间的店铺的扫码天数达成率较低,接近应扫码天数的一半时间都没有扫码,情况较为严重;但是也可能是开始扫码之后中间有几天调试没有扫码,后面调试好后连续扫码的情况,如表2所示。表2店铺调试pos机扫码统计实例表店铺id扫码情况实际扫码天数应扫码天数达成率210202151319000001000000111116120.50该店铺实际扫码天数为6天,应扫码天数为12天,中间有6天未扫码,但是之后连续扫码,这种应该考虑实际情况进行归类。达成率在0.3以下的店铺基本可以断定为不认真扫码的店铺,应予以督促。如表3所示。表3不认真扫码店铺实例表店铺id扫码情况实际扫码天数应扫码天数达成率210282150028001000000000000001150.07210213116000010000000000000001160.06所述条件三按照扫码笔数法过滤,扫码笔数过滤是在扫码天数达标率达标的基础上进行的,以保证所有店铺有可靠的扫码天数作为数据支撑;首先统计每个店铺每天的扫码笔数,其次计算一个月的扫码均值,然后计算每个店铺每天扫码笔数与当月扫码均值的波动率,最后求每个店铺当月的扫码笔数波动率标准差,将均值和标准差两个维度作为筛选依据。如图2所示为8月份店铺扫码笔数特点整体分布。由附图2可以明显看出,店铺主要集中在扫码笔数均值小于200,且波动率标准差小于1的范围内。标准差大于1的店铺明显是扫码异常店铺,而均值大于200、波动率标准差小于0.25的店铺为优质扫码店铺。如附图3所示进一步放大集中区域。附图3中两条参考线分别为扫码均值为30和波动率标准差为0.5。将所有店铺划分为四个象限。第一象限中的零售户的特征为平均每天扫码笔数较多,但是一个月内每天的扫码笔数起伏较大。如附图4所示以箭头指向的点代表的店铺为例,从附图4的走势可以看出,该店铺在本月1号到7号每天扫码笔数很少,后面扫码笔数开始增加,但是起伏很大判定为不正常扫码。第二象限所属的店铺特点为扫码笔数较少,而且扫码波动率很大,判定为为不正常扫码。第三象限的店铺特点为扫码笔数少且波动率小,猜测是规模较小的店铺,或者是烟酒专卖店,这类店铺可不予考虑,后期继续观察。第四象限的店铺特点为扫码笔数较多,且波动率较小,判定是优质扫码零售户。通过上述数据划分,可将店铺扫码笔数情况分为三类:扫码波动率大于0.5为异常扫码店铺;扫码波动率小于0.5,扫码笔数小于30为疑似异常扫码店铺;扫码波动率小于0.5,扫码笔数大于30为扫码笔数优质店铺。详细数量如表4所示。表4扫码笔数质量分类统计表总数扫码笔数质量好待观察扫码笔数质量不好552272148132所述条件四中,扫码时间拟合度用来刻画各个店铺一天中销售趋势与其所属区域的全部店铺平均销售趋势的离散情况;一天m个时间段,某区域的n个店铺中,店铺i在时间段j与参考标准趋势的扫码时间拟合度为:其中,为店铺i在时间段j的扫码笔数占比,为所有店铺在时间段j扫码均值占比,计算式分别如下:其中,为店铺i在时间段j的扫码笔数,为所有店铺在时间段j扫码笔数均值,计算式如下:其中,m,n,j,i均为自然数,且i小于n,j小于m。具体的,一天取10分钟为一个时间段,共144个时间段。计算每个店铺每个时间段内的扫码笔数,分别除以这一天的总扫码笔数,得到每个时间段扫码笔数在全天中的占比。同样将全大连每个时间段所有店铺的平均数占全天总扫码平均数的比例,作为参考趋势标准。计算每个店铺所代表的占比点到全大连数据所代表的占比点的距离作为该店铺当天的时间拟合度。综合一个月内每一天的扫码时间拟合度,计算达标天数作为筛选依据进行过滤。如附图5所示,为某一时间段内,大连市所有店铺一天扫码走势图;附图6为同一时间段内,以大连市为例,拟合最好店铺扫码走势图;附图7为同一时间段内,拟合不好店铺走势图。从走势图中可以很明显看出,拟合较好的扫码走势图全天的扫码较为分散,符合全大连的扫码规律。扫码拟合不好的走势图会存在较大的扫码笔数集中在某一个十分钟(较大笔数达到全天扫码总量的七成甚至九成),明显是不正常扫码店铺。通过观察数据,将零售户时间拟合度高于0.75的销售日定义为达标,计算一个月达标天数大于26天为合格。当判断新零售扫码数据为异常数据时,将该数据加入异常扫码零售商数据库中,将优质扫码数据加入到优质零售商扫码数据库,与异常扫码零售户进行沟通,改善零售户的云pos的使用规范性。所述扫码终端为带有摄像头的移动智能终端,包括但不限于台式电脑,智能手机和平板电脑。各区域店铺按销售额划分种类包括:大、中、小店铺;按区域划分为华北、东北、华东等地区店铺,或采用东部沿海城市、沿边城市、中西部内陆地区城市的市场划分方式。在区域划分的基础上,根据每个区域的店铺位置,划分成商业区、文教区、住宅区、工业区等或不同级别的店铺类型。处理好的终端数据需要用到店铺编码shop_id、销售单号sales_id、销售日期sales_date、小包装条码small_barcode和销售单创建时间crea_date字段。该基于云pos机的新零售扫码数据异常检测方法,利用智能分析模型和时间拟合度方法将原始数据进行分类,将其分为扫码优质用户,疑似扫码异常用户和扫码异常用户;然后基于机器学习的分类算法实时对新的扫码数据进行分类。通过分析扫码数据特征,刻画零售户对云pos终端使用情况,便于规范化零售户使用云pos机,确保pos机获取的数据真实可靠,从而确保市场分析与用户画像的实时精准性。机器学习不但能节省大量的人力物力,大大提高工作效率,而且相对于传统方法分类准确率大大提高。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1