1.一种基于聚类算法的境外旅客购物行为分析方法,其特征在于,该分析方法步骤如下:
步骤1)从购物分析的源数据对象中抽取一个随机样本S;
步骤2)将样本S分割为一组划分;
步骤3)对划分局部的聚类;
步骤4)用相应的簇标签标记数据;
步骤5)通过随机取样提出孤立点,如果一个簇增长得太慢,就去掉该族,重新进入步骤3)。
2.根据权利要求1所述的一种基于聚类算法的境外旅客购物行为分析方法,其特征在于,所述的步骤1)中抽取待聚类数据N个模式样本,每个数据对象有7个属性,则数据对象定义为S={Si|Si=(si1,si2,…,si7),i=1,2,…,N}。
3.根据权利要求1所述的一种基于聚类算法的境外旅客购物行为分析方法,其特征在于,所述的购物分析包括性别分析、年龄分析、地域分析、商品类别分析、购买频次分析。
4.根据权利要求1所述的一种基于聚类算法的境外旅客购物行为分析方法,其特征在于,所述的步骤2)中样本S分割为p个分区,每个分区大小n/p;每个分区内作聚类,直到分区内的簇的个数为n/pq,q>1;或者指定一个距离阈值,当最近簇距离大于阈值,则停止。
5.根据权利要求1所述的一种基于聚类算法的境外旅客购物行为分析方法,其特征在于,所述的步骤3)中每个数据对象分别设置一个蚂蚁,i分配给第j个聚类中心Cj(j=1,2,…,K),蚂蚁就在模式样本i到聚类中心Cj的路径(i,j)上留下信息素τij(t);计算任意两个数据项p和q之间的距离,即d(p,q);不同对象之间的距离可以用欧几里得距离来度量;
数据对象Si合并到Sj的概率为:
如果Pij(t)大于阈值P0,就将Xi合并到Xj的领域内;这里ηij是dij的倒数,称为能见度;α和β是调节因子,起到防止所有蚂蚁均沿相同路径得到相同结果所产生的停止搜索;检验是否聚类最优,如果是最优则结束算法;若不是最优,则进入步骤4)。
6.根据权利要求1所述的一种基于聚类算法的境外旅客购物行为分析方法,其特征在于,所述的步骤4)中对未参加聚类的数据或新增的数据进行标注从而计算聚类的可信度,其可以准确的识别非球状数据集。
7.根据权利要求1所述的一种基于聚类算法的境外旅客购物行为分析方法,其特征在于,所述的步骤5)中随机取样过滤了大多数的异常点;异常点所在的簇的点个数少于正常簇的点的个数,此时分两个阶段消除异常点:第一阶段:增长速度慢的簇作为异常,以点的个数作为阈值;第二阶段:在第一阶段中,有些相近的异常点已经组合,所以进行第二阶段中异常点形成的簇非常小,很容易鉴别。