一种基于深度学习的智能物流地址实体识别系统的制作方法

文档序号:29624798发布日期:2022-04-13 14:10阅读:563来源:国知局
一种基于深度学习的智能物流地址实体识别系统的制作方法

1.本发明涉及物流技术领域,特别是一种基于深度学习的智能物流地址实体提取识别系统及物流地址实体的提取识别方法。


背景技术:

2.当前智能化越来越成为时代的关键词互联网、物联网、大数据、人工智能等技术不断发展给多个行业带来创新的推动力,所谓智能物流是指通过先进的物流网技术实现物资运输过程的自动化运作和高效化管理.物流行业的智能化对于中国物流行业提高利润、降低物流成本具有积极的推动作用。
3.而作为智能物流的核心组成部分,“三段码”由三段编码构成:一段码(转运中心)+二段码(独立网点)+三段码(派件员)+四段码(末端实体)。一二三段码是通过对转运中心、独立网点和派件员进行编码。上述四段码则是根据地址数据对每个网点下派送的末端实体进行识别提取,从而提升物流的分拣效率,节约人员成本。在现有技术中,尚没有对四段码进行应用和提取的案例,即使有也是人工实现,存在着识别困难和识别准确率过低的问题。本发明拟就末端实体的应用和提取进行探索,以促进物流业的快速发展。


技术实现要素:

4.本技术将利用深度学习技术解决目前智能物流领域物流地址实体识别困难、识别准确率过低的问题。提供一种基于深度学习的智能物流地址实体提取识别系统及物流地址实体的提取识别方法。
5.为了达到上述发明目的,本发明专利提供的技术方案如下:
6.一种基于深度学习的智能物流地址实体识别系统,该系统组成包括有地址实体数据标注模块、bert编码器模块和结果解析模块,其中,
7.所述地址实体数据标注模块接收地址结构化数据,并对接收的地址结构化数据进行数据清洗,获得高质量的已标注地址实体数据;
8.所述的bert编码器模块基于已标注地址实体数据,进行深度学习算法学习物流业务实际应用场景的特定句子的编码表示,训练完成获得地址实体识别模型;
9.所述的结构解析模块基于训练完成的地址实体识别模块,在输入物流地址时,对输入地址信息数据进行解析,解析完成后输出由所输入地址提取的实体内容。
10.在本发明的一种基于深度学习的智能物流实体识别系统中,在所述的bert编码器模块中设有bert编码器、全连接层、softmax分类器和分类优化器,所述bert编码器处理输入的地址实体数据得到数据的向量表示,全连接层对数据向量表示增加权重,softmax分类器得到预测结果,分类优化器逐层调整模型权重实现模型迭代优化。
11.本发明还提供一种基于深度学习的智能物流地址实体的识别提取方法,该识别提取方法包括如下步骤:
12.第一步,数据预处理,将历史运单数据筛选,删除重复数据,获得干净的地址实体
集;
13.第二步,地址实体集清洗,并对清洗后数据进行标注提取,经筛选过滤后提取有意义的实体数据,获得模型训练所用的数据;
14.第三步,bert编码及模型训练,由bert编码得到地址数据的向量表示,经模型训练和优化得到物流地址实体识别模型;
15.第四步,输入地址及结果解析,将物流地址输入至训练得到的物流地址实体识别模型,经过解析输出获得物流地址中的实体内容。
16.在本发明一种基于深度学习的智能物流地址实体的识别提取方法中,第一步将历史运单数据进行筛选过滤,对省市区+详细地址拼接的数据进行省市区递归删除,删除省市区部分重复的数据,对进行了递归删除的地址进行md5值计算,删除md5值一致的数据,该md5值一致表示为全部重复的数据。
17.在本发明一种基于深度学习的智能物流地址实体的识别提取方法中,第二步使用词频/逆文本频率策略对地址提取出的实体进行筛选过滤,只提取具有具体意义的主要实体的数据,得到模型训练所用的标注地址数据。
18.在本发明一种基于深度学习的智能物流地址实体的识别提取方法中,第三步使用bert模型对处理好的地址进行命名实体识别任务,得到地址数据的向量表示,在命名实体识别任务中,对训练结果迭代优化,数据表示向量分别经过全连接层和softmax分类层输出预测结果;预测结果与数据标签计算分类损失;模型优化器通过将损失逐层回传并通过优化算法来迭代优化bert模型的权重。
19.在本发明一种基于深度学习的智能物流地址实体的识别提取方法中,在第三步的基础上,bert编码和分类优化器的实现过程为:
20.s1.输入地址实体数据通过bert编码器得到数据的向量表示c:
21.c=encodertransformer(x1,x2,x3,...,xm)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
22.s2.c经过全连接层加一层权重后,进到softmax分类器得到预测结果:
23.pred=softmax(cw
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
24.s3.根据预测值pred和真实标签label计算分类损失:
[0025][0026]
s4.通过优化器来逐层调整模型权重实现模型迭代优化,最终得到收敛的地址实体识别模型。
[0027]
在本发明一种基于深度学习的智能物流地址实体的识别提取方法中,还包括有第五步,将训练完成的实体识别模型部署为triton inference服务,进行物流地址实体识别模型计算解析加速,承担大批量地址实体数据处理。
[0028]
基于上述技术方案,本发明一种基于深度学习的智能物流地址实体提取识别系统及物流地址实体的提取识别方法与现有技术相比,取得了如下技术效果:
[0029]
1.本发明基于深度学习的智能物流地址实体识别系统中,在物流地址数据获得时使用了第三方的地址结构化数据,无需采用人工再进行标注,既节省人工标注成本又能够获取一批比较高质量的地址实体标注数据。
[0030]
2.本发明基于深度学习的智能物流地址实体识别系统中,用tf-idf(词频/逆文本
频率)的策略对地址实体进行筛选过滤,筛选出高质量的地址实体,提取具有具体意义的主要实体数据,为了模型训练提供了良好的数据源基础。
[0031]
3.本发明基于深度学习的智能物流地址实体识别系统中,利用提取的出地址实体信息可以在三段码的基础上生成四段码,即一段码(转运中心)+二段码(独立网点)+三段码(派件员)+四段码(末端实体),有利于节省物流的分拣人工成本,从而提高物流企业的核心竞争力。
附图说明
[0032]
图1是本发明基于深度学习的智能物流地址实体识别系统框图。
具体实施方式
[0033]
下面我们结合附图和具体的实施例来对本发明一种基于深度学习的智能物流地址实体提取识别系统及物流地址实体的提取识别方法做进一步的详细说明,以求更为清楚明了地理解本发明的组成和工作过程,但不以此来限制本发明的保护范围。
[0034]
如图1所示,本发明涉及到一种基于深度学习的智能物流地址实体识别系统,该系统组成包括有地址实体数据标注模块、bert编码器模块和结果解析模块,其中,
[0035]
所述地址实体数据标注模块接收地址结构化数据,并对接收的地址结构化数据进行数据清洗,获得高质量的已标注地址实体数据;
[0036]
所述的bert编码器模块基于已标注地址实体数据,进行深度学习算法学习物流业务实际应用场景的特定句子的编码表示,训练完成获得地址实体识别模型;
[0037]
所述的结构解析模块基于训练完成的地址实体识别模块,在输入物流地址时,对输入地址信息数据进行解析,解析完成后输出由所输入地址提取的实体内容。
[0038]
上述基于深度学习的智能物流地址实体识别系统地址标注处理模块在第三方公司的地址结构化解析服务的基础上根据tf-idf以及一些统计学上的方式进行数据清洗。既节省人工标注成本又能够获取一批比较高质量的地址实体标注数据;bert编码器模块是基于已完成标注的地址实体数据进行深度学习算法学习物流业务实际应用场景下的特定句子的编码表示。
[0039]
在本发明的一种基于深度学习的智能物流实体识别系统中,在所述的bert编码器模块中设有bert编码器、全连接层、softmax分类器和分类优化器,所述bert编码器处理输入的地址实体数据得到数据的向量表示,全连接层对数据向量表示增加权重,softmax分类器得到预测结果,分类优化器逐层调整模型权重实现模型迭代优化。
[0040]
本发明还提供一种基于深度学习的智能物流地址实体的识别提取方法,该识别提取方法包括如下步骤:
[0041]
第一步,数据预处理,将历史运单数据筛选,删除重复数据,获得干净的地址实体集;
[0042]
第二步,地址实体集清洗,并对清洗后数据进行标注提取,经筛选过滤后提取有意义的实体数据,获得模型训练所用的数据;
[0043]
第三步,bert编码及模型训练,由bert编码得到地址数据的向量表示,经模型训练和优化得到物流地址实体识别模型;
[0044]
第四步,输入地址及结果解析,将物流地址输入至训练得到的物流地址实体识别模型,经过解析输出获得物流地址中的实体内容。
[0045]
上述第一步中,将历史运单数据进行筛选过滤,对省市区+详细地址拼接的数据进行省市区递归删除,删除省市区部分重复的数据,对进行了递归删除的地址进行md5值计算,删除md5值一致的数据,该md5值一致表示为全部重复的数据。
[0046]
上述第二步中,使用词频/逆文本频率策略对地址提取出的实体进行筛选过滤,只提取具有具体意义的主要实体的数据,得到模型训练所用的标注地址数据。
[0047]
上述第三步中,使用bert模型对处理好的地址进行命名实体识别任务,得到地址数据的向量表示,在命名实体识别任务中,对训练结果迭代优化,数据表示向量分别经过全连接层和softmax分类层输出预测结果;预测结果与数据标签计算分类损失;模型优化器通过将损失逐层回传并通过优化算法来迭代优化bert模型的权重。
[0048]
在上述第三步的基础上,bert编码和分类优化器的实现过程为:
[0049]
s1.输入地址实体数据通过bert编码器得到数据的向量表示c:
[0050]
c=encodertransformer(x1,x2,x3,...,xm)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0051]
s2.c经过全连接层加一层权重后,进到softmax分类器得到预测结果:
[0052]
pred=softmax(cw
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0053]
s3.根据预测值pred和真实标签label计算分类损失:
[0054][0055]
s4.通过优化器来逐层调整模型权重实现模型迭代优化,最终得到收敛的地址实体识别模型。
[0056]
在本发明一种基于深度学习的智能物流地址实体的识别提取方法中,还包括有第五步,将训练完成的实体识别模型部署为triton inference服务,进行物流地址实体识别模型计算解析加速,承担大批量地址实体数据处理。
[0057]
本发明的系统和方法中,采用深度学习与地址实体提取相结合的技术实现了地址实体提取的自动学习,在第三方公司例如阿里、美团等提供的地址结构化解析服务的基础上获得标注的地址实体信息数据,根据tf-idf以及一些统计学上的方式进行数据清洗,这种操作既节省人工标注成本又能够获取一批比较高质量的地址实体标注数据。再根据地址数据对每个网点下派送的末端实体进行识别提取,从而提升物流的分拣效率,节约人员成本。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1