基于特征相似度与特征值相似度融合的快递地址聚类方法

文档序号：32249857发布日期：2022-11-19 00:59阅读：157来源：国知局

1.本发明属于智能快递技术领域，具体涉及一种基于特征相似度与特征值相似度融合的快递地址聚类方法。

背景技术：

2.随着互联网技术以及移动终端的普及，电子商务零售业得到了快速发展，快递行业与电子商务业并驾齐驱，电子商务的加速发展推动了快递行业的发展。数据显示，2021年全年实物商品网上零售额130884亿元，增长14.1％，占社会零售总额的24.5％。
3.但是快递行业整体追力不足，特别是在最后一公里配送环节成本高，效率低。快递业务量的增加对快递员派件造成了很大都得压力，对于快件物流领域，地址信息是快递高效接单、派单的基础。目前的物流信息系统仍旧缺乏准确有效的客户地址聚类功能，无法对客户地址进行聚类分析、高效处理快件任务，仍然需要大量的人工参与分拣；通过一些智能手段，将配送区域内的快件进行聚合，在一定程度上节省派件员的一些时间，减轻末端压力，是解决目前快递派件效率低下的一种可行且有效的途径。
4.现有研究中，对于该问题的研究工作非常少。在已有相关工作中，广泛采用三段码来进行快递的分拣分派，在订单进入我们的快递运单系统那一刻起，就会生成三段码信息。其中，一段码标识目标城市，二段码标识派件网点，三段码标识派件员，根据运单上的三段码能够有效的将一件快递分配到末端派件网点的派件员，派件员分配到当天的派送件后，再根据具体的地址进行派送。一般来说，在快递量不是很多的情况下，快递员能够在当天的快递到达后，对自己要派送的快件根据具体地址做分拣分别派送，绝大多数情况下可以及时的完成快递的派件工作。但是随着快递业务量的增长，派件员的派件压力逐渐增大。目前采用的方式是根据客户地址进行地理坐标转化或者对用户的地址，但当用户输入的地址信息不规范不标准的时候，地理坐标转化误差很大，会将原本不属于一个范围内的快件聚合到一个区域，或将本属于一个区域内的快件聚合到不同区域，并且目前并没有定义一种聚类规范，设定聚类粒度，以何种方式进行聚类以及如何判定聚类结果。
5.综上，现有技术中存在以下不足：1)定义何种规范进行聚类是首要面临的问题；2)由于地址信息数据不规范导致快递包裹正确派送率低下；3)聚类的粒度的设定对于聚类结果的影响是非常大的，以何种粒度进行聚类、以及如何判定聚类结果的准确度也是需要进一步研究的。此为现有技术的不足之处。
6.有鉴于此，本发明提供一种基于特征相似度与特征值相似度融合的快递地址聚类方法，以解决现有技术中存在的上述技术缺陷，是非常有必要的。

技术实现要素：

7.本发明的目的在于，针对上述现有技术存在的缺陷，提供设计一种基于特征相似度与特征值相似度融合的快递地址聚类方法，以解决上述技术问题。
8.为实现上述目的，本发明给出以下技术方案：
9.一种基于特征相似度与特征值相似度融合的快递地址聚类方法，包括以下步骤：
10.s1：获取快递的下单数据，统一获取快递地址信息，并对下单数据进行预处理，得到原始数据集；
11.s2：按照设定的行政地址划分规则进行分词处理，进行词频统计过滤停用词；
12.s3：建立特征词抽取模型对特征词进行选取，然后对不同特征赋予不同的权值；
13.s4：建立相似度计算公式，依照改进的相似度计算公式对抽取到的特征词进行相似度计算；
14.s5：建立基于特征相似度和特征值相似度融合的层次聚类算法，对客户行政地址进行聚类；
15.s6：对快递末端网点客户地址聚类结果进行可视化展示。
16.作为优选，所述步骤s1中，数据预处理定义为：将经过数据预处理的d条客户地址文本定义为d个簇。
17.作为优选，所述的步骤s2具体包括以下步骤：
18.s21：对于得到的中文快递地址信息数据集，进行文本预处理，将文本以设定的行政地址划分规则进行分词处理；
19.s22：对步骤s21分词处理后的地址数据，进行词频统计和停用词过滤操作，过滤掉出现频率低于预设频率阈值的分词，整个过程类似于特征筛选操作；
20.s23：建立文本向量化模型进行词嵌入，对文本进行向量化表示，构建快递地址信息文本中词序列的分布，用以评估其中任意一词的特征权重。
21.作为优选，所述步骤s3中，利用特征词抽取模型对客户地址信息中的特征词进行选取，具体包括以下步骤：
22.s31：确定字词重要程度与出现频率的关系，根据一个字或者一个词在一条文本当中的重要程度，字或者词的重要性与它在这条文本当中出现的次数成正比，出现的次数越多则重要程度越高，其公式表达为：
[0023][0024]
其中nw代表某一文本中词条w出现的次数，n
i,j
代表该类中所有词条出现的次数；
[0025]
s32：根据逆向的文件频率计算词条的区分能力，包含词条t的文本越少，则该词条的类别区分能力越高；公式定义为：
[0026][0027]
其中|d|是文本数，|{j:ti∈dj}|表示包含词语ti的文本数目；
[0028]
s33：当该条词语不在语料库中时，将导致上述公式(2)推论的分母为0，不符合设计规定，在这种特殊条件下使用分母为 1+|{j:ti∈dj}|；公式如下：
[0029][0030]
s34：将文本编码成数值向量时会存在一些问题，因此利用二者的乘积表示特定文本内的高频词语频率，以及该词语在整个文本集合中的低文本频率，产生出高权重的
tf-idf，该处理方式具有保留重要词语的作用；公式如下：
[0031]
tf-idf＝tf*idf
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)。
[0032]
本文考虑到将文本编码成数值向量时会存在一些问题，例如特征侯选数的数量非常多，但是根据计算得到的有效特征数数量非常少，这会导致即使只选择少量的特征，数值向量维数也仍然很大，因此需要选择一种合适有效的相似度计算方式进行计算。
[0033]
作为优选，所述步骤s4中，通过建立相似度计算方式，依据提出的相似度计算方式对抽取到的特征进行相似度计算，具体包括以下步骤：
[0034]
s41：将经过特征抽取的客户地址数据文本建立相似度矩阵，其中组成该矩阵的词语为选定的特征候选集，相似度矩阵的大小为 d*d，w代表不同的特征文本，相关定义如下：
[0035][0036]
s42：词语间的相似度不仅要考虑距离大小而且要考虑方向，因此定义词语间的相似度计算方式w
ij
定义如下：
[0037][0038]
其中df(ti,tj)为同时包含单词ti和tj的文本数，df(ti)为同时包含单词ti的文本数，df(tj)为同时包含单词tj的文本数；
[0039]
s43：通过相似度矩阵得到特征之间的相似度，由于文本中的向量特征并非独立个体，词语与词语间均具有语义相关性，因此考虑到稀疏数值向量的判别性差异，数值向量间的相似度w(ti,tj)定义如下：
[0040][0041]
其中，w
ij
代表相似度矩阵中的某一特征，v
1i
和v
2i
是单词t1,t2,
…
,td从特征集中选出，用来表示两个文本被成编码的两个向量；
[0042]
作为优选，所述步骤s5包括：
[0043]
步骤s51：从客户地址中读取一条样本，将它放入一个新的cf 元组，从根节点向下寻找距离新样本最近的叶子节点，以及距离该叶子节点最近的cf节点；
[0044]
步骤s52：加入新样本，判断新的样本数据与上一样本的距离，如果小于阈值，更新路径中的所有cf元组，否则转步骤s53；
[0045]
步骤s53：如果当前叶子节点的个数小于阈值，则创建一个新的节点，放入新的样本数据，更新cf树，结束插入操作；
[0046]
步骤s54：将当前叶子节点进行计算，找到新旧叶子节点的所有 cf元组里距离最大的两个叶子节点，并将其分裂，依次向上逐层检查父节点是否需要分裂，如果需要，则分
裂，最终形成一个新的cf 树。
[0047]
本发明的有益效果在于，本发明提出了一种基于特征相似度和特征值相似度融合的文本聚类模型，即一个可以对客户地址信息进行文本间相似度计算进而进行聚类的模型。通过这种方式，建立词条表，得到具有相似特征的快递信息文本；从快递地址信息语料库提取特征候选词，对于不同的词语进行不同权值的赋予；然后利用数值向量内特征相似度和多个数值向量的特征值相似度结合都得方法，依据设定的相似度矩阵进行特征候选词的相似度计算；最后根据基于特征相似度的层次聚类算法对客户地址进行聚类操作从正反两个方向挖掘文本中的上下文信息并考虑字符间的关联性从而输出更准确的预测序列，很好的改善了目前快递包裹分拣过程中的人工干预程度。
[0048]
此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。
[0049]
由此可见，本发明与现有技术相比，具有突出的实质性特点和显著地进步，其实施的有益效果也是显而易见的。
附图说明
[0050]
图1是本发明提供的一种基于特征相似度与特征值相似度融合的快递地址聚类方法的流程图。
具体实施方式
[0051]
下面结合附图并通过具体实施例对本发明进行详细阐述，以下实施例是对本发明的解释，而本发明并不局限于以下实施方式。
[0052]
如图1所示，本实施例提供的一种基于特征相似度与特征值相似度融合的快递地址聚类方法，包括以下步骤：
[0053]
s1：获取快递的下单数据，统一获取快递地址信息，并对下单数据进行预处理，得到原始数据集；数据预处理定义为：将经过数据预处理的d条客户地址文本定义为d个簇。
[0054]
s2：按照设定的行政地址划分规则进行分词处理，进行词频统计过滤停用词；
[0055]
所述的步骤s2具体包括以下步骤：
[0056]
s21：对于得到的中文快递地址信息数据集，进行文本预处理，将文本以设定的行政地址划分规则进行分词处理；
[0057]
s22：对步骤s21分词处理后的地址数据，进行词频统计和停用词过滤操作，过滤掉出现频率低于预设频率阈值的分词，整个过程类似于特征筛选操作；
[0058]
s23：建立文本向量化模型进行词嵌入，对文本进行向量化表示，构建快递地址信息文本中词序列的分布，用以评估其中任意一词的特征权重。
[0059]
s3：建立特征词抽取模型对特征词进行选取，然后对不同特征赋予不同的权值；
[0060]
所述步骤s3中，利用特征词抽取模型对客户地址信息中的特征词进行选取，具体包括以下步骤：
[0061]
s31：确定字词重要程度与出现频率的关系，根据一个字或者一个词在一条文本当中的重要程度，字或者词的重要性与它在这条文本当中出现的次数成正比，出现的次数越多则重要程度越高，其公式表达为：
[0062][0063]
其中nw代表某一文本中词条w出现的次数，n
i,j
代表该类中所有词条出现的次数；
[0064]
s32：根据逆向的文件频率计算词条的区分能力，包含词条t的文本越少，则该词条的类别区分能力越高；公式定义为：
[0065][0066]
其中|d|是文本数，|{j:ti∈dj}|表示包含词语ti的文本数目；
[0067]
s33：当该条词语不在语料库中时，将导致上述公式(2)推论的分母为0，不符合设计规定，在这种特殊条件下使用分母为 1+|{j:ti∈dj}|；公式如下：
[0068][0069]
s34：将文本编码成数值向量时会存在一些问题，因此利用二者的乘积表示特定文本内的高频词语频率，以及该词语在整个文本集合中的低文本频率，产生出高权重的tf-idf，该处理方式具有保留重要词语的作用；公式如下：
[0070]
tf-idf＝tf*idf
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)。
[0071]
本文考虑到将文本编码成数值向量时会存在一些问题，例如特征侯选数的数量非常多，但是根据计算得到的有效特征数数量非常少，这会导致即使只选择少量的特征，数值向量维数也仍然很大，因此需要选择一种合适有效的相似度计算方式进行计算。
[0072]
s4：建立相似度计算公式，依照改进的相似度计算公式对抽取到的特征词进行相似度计算；
[0073]
所述步骤s4中，通过建立相似度计算方式，依据提出的相似度计算方式对抽取到的特征进行相似度计算，具体包括以下步骤：
[0074]
s41：将经过特征抽取的客户地址数据文本建立相似度矩阵，其中组成该矩阵的词语为选定的特征候选集，相似度矩阵的大小为 d*d，w代表不同的特征文本，相关定义如下：
[0075][0076]
s42：词语间的相似度不仅要考虑距离大小而且要考虑方向，因此定义词语间的相似度计算方式w
ij
定义如下：
[0077][0078]
其中df(ti,tj)为同时包含单词ti和tj的文本数，df(ti)为同时包含单词ti的文本数，df(tj)为同时包含单词tj的文本数；
[0079]
s43：通过相似度矩阵得到特征之间的相似度，由于文本中的向量特征并非独立
个体，词语与词语间均具有语义相关性，因此考虑到稀疏数值向量的判别性差异，数值向量间的相似度w(ti,tj)定义如下：
[0080][0081]
其中，w
ij
代表相似度矩阵中的某一特征，v
1i
和v
2i
是单词t1,t2,
…
,td从特征集中选出，用来表示两个文本被成编码的两个向量；
[0082]
s5：建立基于特征相似度和特征值相似度融合的层次聚类算法，对客户行政地址进行聚类；
[0083]
所述步骤s5包括：
[0084]
步骤s51：从客户地址中读取一条样本，将它放入一个新的cf 元组，从根节点向下寻找距离新样本最近的叶子节点，以及距离该叶子节点最近的cf节点；
[0085]
步骤s52：加入新样本，判断新的样本数据与上一样本的距离，如果小于阈值，更新路径中的所有cf元组，否则转步骤s53；
[0086]
步骤s53：如果当前叶子节点的个数小于阈值，则创建一个新的节点，放入新的样本数据，更新cf树，结束插入操作；
[0087]
步骤s54：将当前叶子节点进行计算，找到新旧叶子节点的所有 cf元组里距离最大的两个叶子节点，并将其分裂，依次向上逐层检查父节点是否需要分裂，如果需要，则分裂，最终形成一个新的cf 树。
[0088]
s6：对快递末端网点客户地址聚类结果进行可视化展示。
[0089]
以上公开的仅为本发明的优选实施方式，但本发明并非局限于此，任何本领域的技术人员能思之的没有创造性的变化，以及在不脱离本发明原理前提下所作的若干改进和润饰，都应落在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孟凡超叶子曹博初佃辉周学权
技术所有人：哈尔滨工业大学
我是此专利的发明人

上一篇：一种多段式焊药及自预热的多段式无电焊条和其制备方法
上一篇：一种辅助安装CKD主阀的工具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。