基于特征相似度与特征值相似度融合的快递地址聚类方法

文档序号:32249857发布日期:2022-11-19 00:59阅读:157来源:国知局
基于特征相似度与特征值相似度融合的快递地址聚类方法

1.本发明属于智能快递技术领域,具体涉及一种基于特征相似度 与特征值相似度融合的快递地址聚类方法。


背景技术:

2.随着互联网技术以及移动终端的普及,电子商务零售业得到了 快速发展,快递行业与电子商务业并驾齐驱,电子商务的加速发展 推动了快递行业的发展。数据显示,2021年全年实物商品网上零售 额130884亿元,增长14.1%,占社会零售总额的24.5%。
3.但是快递行业整体追力不足,特别是在最后一公里配送环节成 本高,效率低。快递业务量的增加对快递员派件造成了很大都得压 力,对于快件物流领域,地址信息是快递高效接单、派单的基础。 目前的物流信息系统仍旧缺乏准确有效的客户地址聚类功能,无法 对客户地址进行聚类分析、高效处理快件任务,仍然需要大量的人 工参与分拣;通过一些智能手段,将配送区域内的快件进行聚合, 在一定程度上节省派件员的一些时间,减轻末端压力,是解决目前 快递派件效率低下的一种可行且有效的途径。
4.现有研究中,对于该问题的研究工作非常少。在已有相关工作 中,广泛采用三段码来进行快递的分拣分派,在订单进入我们的快 递运单系统那一刻起,就会生成三段码信息。其中,一段码标识目 标城市,二段码标识派件网点,三段码标识派件员,根据运单上的 三段码能够有效的将一件快递分配到末端派件网点的派件员,派件 员分配到当天的派送件后,再根据具体的地址进行派送。一般来说, 在快递量不是很多的情况下,快递员能够在当天的快递到达后,对 自己要派送的快件根据具体地址做分拣分别派送,绝大多数情况下 可以及时的完成快递的派件工作。但是随着快递业务量的增长,派 件员的派件压力逐渐增大。目前采用的方式是根据客户地址进行地 理坐标转化或者对用户的地址,但当用户输入的地址信息不规范不 标准的时候,地理坐标转化误差很大,会将原本不属于一个范围内 的快件聚合到一个区域,或将本属于一个区域内的快件聚合到不同 区域,并且目前并没有定义一种聚类规范,设定聚类粒度,以何种 方式进行聚类以及如何判定聚类结果。
5.综上,现有技术中存在以下不足:1)定义何种规范进行聚类是 首要面临的问题;2)由于地址信息数据不规范导致快递包裹正确派 送率低下;3)聚类的粒度的设定对于聚类结果的影响是非常大的, 以何种粒度进行聚类、以及如何判定聚类结果的准确度也是需要进 一步研究的。此为现有技术的不足之处。
6.有鉴于此,本发明提供一种基于特征相似度与特征值相似度融 合的快递地址聚类方法,以解决现有技术中存在的上述技术缺陷, 是非常有必要的。


技术实现要素:

7.本发明的目的在于,针对上述现有技术存在的缺陷,提供设计 一种基于特征相似度与特征值相似度融合的快递地址聚类方法,以 解决上述技术问题。
8.为实现上述目的,本发明给出以下技术方案:
9.一种基于特征相似度与特征值相似度融合的快递地址聚类方 法,包括以下步骤:
10.s1:获取快递的下单数据,统一获取快递地址信息,并对下单 数据进行预处理,得到原始数据集;
11.s2:按照设定的行政地址划分规则进行分词处理,进行词频统 计过滤停用词;
12.s3:建立特征词抽取模型对特征词进行选取,然后对不同特征 赋予不同的权值;
13.s4:建立相似度计算公式,依照改进的相似度计算公式对抽取 到的特征词进行相似度计算;
14.s5:建立基于特征相似度和特征值相似度融合的层次聚类算法, 对客户行政地址进行聚类;
15.s6:对快递末端网点客户地址聚类结果进行可视化展示。
16.作为优选,所述步骤s1中,数据预处理定义为:将经过数据预 处理的d条客户地址文本定义为d个簇。
17.作为优选,所述的步骤s2具体包括以下步骤:
18.s21:对于得到的中文快递地址信息数据集,进行文本预处理, 将文本以设定的行政地址划分规则进行分词处理;
19.s22:对步骤s21分词处理后的地址数据,进行词频统计和停用 词过滤操作,过滤掉出现频率低于预设频率阈值的分词,整个过程 类似于特征筛选操作;
20.s23:建立文本向量化模型进行词嵌入,对文本进行向量化表示, 构建快递地址信息文本中词序列的分布,用以评估其中任意一词的 特征权重。
21.作为优选,所述步骤s3中,利用特征词抽取模型对客户地址信 息中的特征词进行选取,具体包括以下步骤:
22.s31:确定字词重要程度与出现频率的关系,根据一个字或者一 个词在一条文本当中的重要程度,字或者词的重要性与它在这条文本 当中出现的次数成正比,出现的次数越多则重要程度越高,其公式表 达为:
[0023][0024]
其中nw代表某一文本中词条w出现的次数,n
i,j
代表该类中所有 词条出现的次数;
[0025]
s32:根据逆向的文件频率计算词条的区分能力,包含词条t的 文本越少,则该词条的类别区分能力越高;公式定义为:
[0026][0027]
其中|d|是文本数,|{j:ti∈dj}|表示包含词语ti的文本数目;
[0028]
s33:当该条词语不在语料库中时,将导致上述公式(2)推论 的分母为0,不符合设计规定,在这种特殊条件下使用分母为 1+|{j:ti∈dj}|;公式如下:
[0029][0030]
s34:将文本编码成数值向量时会存在一些问题,因此利用二者 的乘积表示特定文本内的高频词语频率,以及该词语在整个文本集 合中的低文本频率,产生出高权重的
tf-idf,该处理方式具有保留 重要词语的作用;公式如下:
[0031]
tf-idf=tf*idf
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)。
[0032]
本文考虑到将文本编码成数值向量时会存在一些问题,例如特 征侯选数的数量非常多,但是根据计算得到的有效特征数数量非常 少,这会导致即使只选择少量的特征,数值向量维数也仍然很大, 因此需要选择一种合适有效的相似度计算方式进行计算。
[0033]
作为优选,所述步骤s4中,通过建立相似度计算方式,依据提 出的相似度计算方式对抽取到的特征进行相似度计算,具体包括以 下步骤:
[0034]
s41:将经过特征抽取的客户地址数据文本建立相似度矩阵,其 中组成该矩阵的词语为选定的特征候选集,相似度矩阵的大小为 d*d,w代表不同的特征文本,相关定义如下:
[0035][0036]
s42:词语间的相似度不仅要考虑距离大小而且要考虑方向,因 此定义词语间的相似度计算方式w
ij
定义如下:
[0037][0038]
其中df(ti,tj)为同时包含单词ti和tj的文本数,df(ti)为同时包含单 词ti的文本数,df(tj)为同时包含单词tj的文本数;
[0039]
s43:通过相似度矩阵得到特征之间的相似度,由于文本中的向 量特征并非独立个体,词语与词语间均具有语义相关性,因此考虑 到稀疏数值向量的判别性差异,数值向量间的相似度w(ti,tj)定义如 下:
[0040][0041]
其中,w
ij
代表相似度矩阵中的某一特征,v
1i
和v
2i
是单词t1,t2,

,td从 特征集中选出,用来表示两个文本被成编码的两个向量;
[0042]
作为优选,所述步骤s5包括:
[0043]
步骤s51:从客户地址中读取一条样本,将它放入一个新的cf 元组,从根节点向下寻找距离新样本最近的叶子节点,以及距离该 叶子节点最近的cf节点;
[0044]
步骤s52:加入新样本,判断新的样本数据与上一样本的距离, 如果小于阈值,更新路径中的所有cf元组,否则转步骤s53;
[0045]
步骤s53:如果当前叶子节点的个数小于阈值,则创建一个新的 节点,放入新的样本数据,更新cf树,结束插入操作;
[0046]
步骤s54:将当前叶子节点进行计算,找到新旧叶子节点的所有 cf元组里距离最大的两个叶子节点,并将其分裂,依次向上逐层检 查父节点是否需要分裂,如果需要,则分
裂,最终形成一个新的cf 树。
[0047]
本发明的有益效果在于,本发明提出了一种基于特征相似度和 特征值相似度融合的文本聚类模型,即一个可以对客户地址信息进 行文本间相似度计算进而进行聚类的模型。通过这种方式,建立词 条表,得到具有相似特征的快递信息文本;从快递地址信息语料库 提取特征候选词,对于不同的词语进行不同权值的赋予;然后利用 数值向量内特征相似度和多个数值向量的特征值相似度结合都得方 法,依据设定的相似度矩阵进行特征候选词的相似度计算;最后根 据基于特征相似度的层次聚类算法对客户地址进行聚类操作从正反 两个方向挖掘文本中的上下文信息并考虑字符间的关联性从而输出 更准确的预测序列,很好的改善了目前快递包裹分拣过程中的人工 干预程度。
[0048]
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用 前景。
[0049]
由此可见,本发明与现有技术相比,具有突出的实质性特点和 显著地进步,其实施的有益效果也是显而易见的。
附图说明
[0050]
图1是本发明提供的一种基于特征相似度与特征值相似度融合 的快递地址聚类方法的流程图。
具体实施方式
[0051]
下面结合附图并通过具体实施例对本发明进行详细阐述,以下 实施例是对本发明的解释,而本发明并不局限于以下实施方式。
[0052]
如图1所示,本实施例提供的一种基于特征相似度与特征值相 似度融合的快递地址聚类方法,包括以下步骤:
[0053]
s1:获取快递的下单数据,统一获取快递地址信息,并对下单 数据进行预处理,得到原始数据集;数据预处理定义为:将经过数 据预处理的d条客户地址文本定义为d个簇。
[0054]
s2:按照设定的行政地址划分规则进行分词处理,进行词频统 计过滤停用词;
[0055]
所述的步骤s2具体包括以下步骤:
[0056]
s21:对于得到的中文快递地址信息数据集,进行文本预处理, 将文本以设定的行政地址划分规则进行分词处理;
[0057]
s22:对步骤s21分词处理后的地址数据,进行词频统计和停用 词过滤操作,过滤掉出现频率低于预设频率阈值的分词,整个过程 类似于特征筛选操作;
[0058]
s23:建立文本向量化模型进行词嵌入,对文本进行向量化表示, 构建快递地址信息文本中词序列的分布,用以评估其中任意一词的 特征权重。
[0059]
s3:建立特征词抽取模型对特征词进行选取,然后对不同特征 赋予不同的权值;
[0060]
所述步骤s3中,利用特征词抽取模型对客户地址信息中的特征 词进行选取,具体包括以下步骤:
[0061]
s31:确定字词重要程度与出现频率的关系,根据一个字或者一 个词在一条文本当中的重要程度,字或者词的重要性与它在这条文本 当中出现的次数成正比,出现的次数越多则重要程度越高,其公式表 达为:
[0062][0063]
其中nw代表某一文本中词条w出现的次数,n
i,j
代表该类中所有 词条出现的次数;
[0064]
s32:根据逆向的文件频率计算词条的区分能力,包含词条t的 文本越少,则该词条的类别区分能力越高;公式定义为:
[0065][0066]
其中|d|是文本数,|{j:ti∈dj}|表示包含词语ti的文本数目;
[0067]
s33:当该条词语不在语料库中时,将导致上述公式(2)推论 的分母为0,不符合设计规定,在这种特殊条件下使用分母为 1+|{j:ti∈dj}|;公式如下:
[0068][0069]
s34:将文本编码成数值向量时会存在一些问题,因此利用二者 的乘积表示特定文本内的高频词语频率,以及该词语在整个文本集 合中的低文本频率,产生出高权重的tf-idf,该处理方式具有保留 重要词语的作用;公式如下:
[0070]
tf-idf=tf*idf
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)。
[0071]
本文考虑到将文本编码成数值向量时会存在一些问题,例如特 征侯选数的数量非常多,但是根据计算得到的有效特征数数量非常 少,这会导致即使只选择少量的特征,数值向量维数也仍然很大, 因此需要选择一种合适有效的相似度计算方式进行计算。
[0072]
s4:建立相似度计算公式,依照改进的相似度计算公式对抽取 到的特征词进行相似度计算;
[0073]
所述步骤s4中,通过建立相似度计算方式,依据提出的相似度 计算方式对抽取到的特征进行相似度计算,具体包括以下步骤:
[0074]
s41:将经过特征抽取的客户地址数据文本建立相似度矩阵,其 中组成该矩阵的词语为选定的特征候选集,相似度矩阵的大小为 d*d,w代表不同的特征文本,相关定义如下:
[0075][0076]
s42:词语间的相似度不仅要考虑距离大小而且要考虑方向,因 此定义词语间的相似度计算方式w
ij
定义如下:
[0077][0078]
其中df(ti,tj)为同时包含单词ti和tj的文本数,df(ti)为同时包含单 词ti的文本数,df(tj)为同时包含单词tj的文本数;
[0079]
s43:通过相似度矩阵得到特征之间的相似度,由于文本中的向 量特征并非独立
个体,词语与词语间均具有语义相关性,因此考虑 到稀疏数值向量的判别性差异,数值向量间的相似度w(ti,tj)定义如 下:
[0080][0081]
其中,w
ij
代表相似度矩阵中的某一特征,v
1i
和v
2i
是单词t1,t2,

,td从 特征集中选出,用来表示两个文本被成编码的两个向量;
[0082]
s5:建立基于特征相似度和特征值相似度融合的层次聚类算法, 对客户行政地址进行聚类;
[0083]
所述步骤s5包括:
[0084]
步骤s51:从客户地址中读取一条样本,将它放入一个新的cf 元组,从根节点向下寻找距离新样本最近的叶子节点,以及距离该 叶子节点最近的cf节点;
[0085]
步骤s52:加入新样本,判断新的样本数据与上一样本的距离, 如果小于阈值,更新路径中的所有cf元组,否则转步骤s53;
[0086]
步骤s53:如果当前叶子节点的个数小于阈值,则创建一个新的 节点,放入新的样本数据,更新cf树,结束插入操作;
[0087]
步骤s54:将当前叶子节点进行计算,找到新旧叶子节点的所有 cf元组里距离最大的两个叶子节点,并将其分裂,依次向上逐层检 查父节点是否需要分裂,如果需要,则分裂,最终形成一个新的cf 树。
[0088]
s6:对快递末端网点客户地址聚类结果进行可视化展示。
[0089]
以上公开的仅为本发明的优选实施方式,但本发明并非局限于 此,任何本领域的技术人员能思之的没有创造性的变化,以及在不 脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的 保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1