基于数据挖掘的物流信息管理方法

文档序号:10594729阅读:251来源:国知局
基于数据挖掘的物流信息管理方法
【专利摘要】本发明提供了一种基于数据挖掘的物流信息管理方法,该方法包括:物流信息云平台采集物流运输数据,根据运输节点位置信息和运输量,在MapReduce编程框架下通过聚类来计算运输路线。本发明提出了一种基于数据挖掘的物流信息管理方法,为物流企业优化物流路径,提高资源利用率并降低过载风险,为用户提供高质量的物流供应体验。
【专利说明】
基于数据挖掘的物流信息管理方法
技术领域
[0001] 本发明设及大数据处理,特别设及一种基于数据挖掘的物流信息管理方法。
【背景技术】
[0002] 随着社交网络、电商的迅速发展,互联网在线购物的交易量急剧增长,无论对于电 商企业、消费者还是物流商,海量运单带来的一系列物流运输问题日益凸出。由于传统的物 流管理模式缺乏统一管理,各物流企业之间缺乏合作,没有一个统一的调度体系,面对越来 越多的产品运输量,人力、物力、财力等重复性的资源投入造成了巨大浪费,运样的管理模 式存在着大量的盲点,诸如跨区域运输、车辆空载等,因此传统的物流管理模式已经无法满 足当前高效、低成本的物流运输要求。云计算平台高效的收集、存储、处理物流信息,确保物 流调度方案制定的实时性W及资源的高效合理配置,从而最大化降低成本。但现有的云计 算系统在如何保证快速有序的供货,保持持续稳定的供应链,W确保物流的通杨和信息的 实时性上仍然存在问题。因为物流供应链体系规模越大和越来越复杂,例如同时有上万人 提交物流单的情况下,普通的关系数据库运行效率成为瓶颈;并且现有的云计算运行监控 层大多是对物理资源或是某些特定功能的监控,不适用于规模巨大且具有高度虚拟化特性 的物流物流信息云平台。

【发明内容】

[0003] 为解决上述现有技术所存在的问题,本发明提出了一种基于数据挖掘的物流信息 管理方法,包括:
[0004] 物流信息云平台采集物流运输数据,根据运输节点位置信息和运输量,在 MapReduce编程框架下通过聚类来计算运输路线。
[0005] 优选地,所述MapReduce框架在处理原始数据时,在云平台集群中设置一个主控节 点,当做名字节点控制数据分发,其余从属节点作为数据节点,存储并分析处理由名字节点 分发的数据;主控节点将待处理数据分块,并设置两个备份,然后通过云平台架构将数据库 存储在数据节点,进行数据的进一步处理;在计算运输路线过程中,首先通过K均值算法,将 需求节点按照位置和运输量聚类,最终将划分的每一类分配至对应的一个车辆运输;然后 针对每个聚类区域,计算该区域车辆的最优路线;
[0006] 其中在聚类过程中,对n个用户需求节点的点集合D,每个节点标记为di,Cb, Cb......dn,产品由k个车辆来进行发送,通过聚类得到k个点集化,,化......Dk,具体过程 是:
[0007] 首先,在空间平面上选取k个客户节点di,d2,d3......dk;形成初始聚类D'i,D'2, D'3......D'k;对于由具有权值W和坐标x、y的n个二维加权点组成的点阵集合D ',分别计算 每个初始聚类的加权重屯、和总权值,产生新的聚类中屯、:
[000引 Xk= E X巧i/ E Xi,Yk= E WiYi/ E Yi,其中i为遍历D ' k中的节点数,D ' k的总权值为化 = Ewi
[0009]对于集合D中所有的点重新聚类,即对于每一个点dn,计算其到聚类D'k的加权划分 距畜
[0010]其中r为权值衰减系数;
[0011] 计算得到dil,di2,di3......dik-共k个加权的距离,选取其中最小的距离dif,然后 将节点d加入聚类D'f,对每个节点重新聚类后形成新的聚类护1,护2,护3......Kk;
[0012] 依次计算每一个聚类的加权聚类中屯、和总权值;然后重复上述步骤直到聚类收 敛,输出最终聚类结果Di,化,〇3......Dk;
[0013] 经过聚类处理后,对每一个聚类区域,即在有限的解空间中,从解空间树的根节点 出发,寻找一条各节点之间的权值之和最小的路线,物流调度中将两个节点之间的距离作 为其权值,也就是寻找一条最短的运输回路,根据与上下限的关系,从当前节点中选择一个 最有利的节点作为扩展节点,对每一个可扩展节点都计算一个函数值,逐次逼近最优解;
[0014] 其中求解下限和上限的过程包括:对于图V中的n个顶点,定义化为与顶点Vi相连的 两条最短距离的边权值之和,其中KKn,计算n个顶点的化之和ECu,并除2得到下限值,即 下限HiinD= ECu/2;利用贪屯、算法得到完整路径的所有权值总和作为上限;如果当前节点 求解得到的下限值或者从根节点到此节点所有的边权值之和大于该上限值,舍弃该节点; 选择代价最小的节点优先扩展,得到最优路径。
[0015] 本发明相比现有技术,具有W下优点:
[0016] 本发明提出了一种基于数据挖掘的物流信息管理方法,为物流企业优化物流路 径,提高资源利用率并降低过载风险,为用户提供高质量的物流供应体验。
【附图说明】
[0017] 图1是根据本发明实施例的基于数据挖掘的物流信息管理方法的流程图。
【具体实施方式】
[0018] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描 述。结合运样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利 要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节W 便提供对本发明的透彻理解。出于示例的目的而提供运些细节,并且无运些具体细节中的 一些或者所有细节也可W根据权利要求书实现本发明。
[0019] 本发明的一方面提供了一种基于数据挖掘的物流信息管理方法。图1是根据本发 明实施例的基于数据挖掘的物流信息管理方法流程图。
[0020] 本发明提出的物流信息云平台,将数据库部署在云端,并行接收来自多个电商网 站的运单数据,并进行存储管理。平台体系结构包括采集层、持久化层、计算层、离线更新 层、担化监担层、义互层。
[0021] 采集层作为物流信息云平台的数据来源,接收电商网站提交给物流企业的运单, 电商网站提交运单号成功后,W该运单号为主键的一条记录通过采集层,自动添加到系统 的数据库集群中一个节点,利用分布式处理框架,采集层可W同时接收大规模记录的提交, 人工输入的大量数据,也通过采集层将数据输入到数据库中。该采集层还通过数据迁移,存 储物流企业自身关系数据库中的运单信息。对于来自不同的电商网站的数据,通过采集层 进行预处理,按照预先设定存储结构进行格式归一化,再输入到持久化层。采集层保存有数 据库集群的地址、W及服务端口等信息,W此和数据库建立连接和数据输入。
[0022] 数据输入数据库服务器后,首先需要执行写日志写入操作,用来记录对数据的插 入和删除,然后才将数据写到实际存储数据的内存中。数据写入到内存后,当数据大小达到 设定的阔值时,触发刷新操作将其中的内容刷入分布式文件中,最终存储到分布式数据库。
[0023] 持久化层用于运单数据的永久存储。数据库集群是通过分布在各物流企业的存储 节点构建,用户提交每条物流记录,都存储到物流信息云平台数据库集群的一个节点数据 库中。数据库采用备份的方式存储数据。在数据库结构上,每条物流记录就是数据库集群中 某节点数据库的表中的一行,数据库中的数据依靠底层的分布式文件系统进行存储。
[0024] 计算层通过基于MapReduce编程框架的调度对数据库存储的数据进行计算处理, 根据地理信息系统的运输节点位置信息,计算每个车辆的运输路线,同时将调度方案存储 在对应车辆管理信息表。处理原始数据时,通过MapReduce进行分布式处理,在云平台集群 中设置一个主控节点,当做名字节点控制数据分发,其余从属节点作为数据节点,存储并分 析处理由名字节点分发的数据。主控节点将待处理数据分块,并设置两个备份,然后通过云 平台架构将数据库存储在数据节点,进行数据的进一步处理。
[0025] 离线更新层用于仓库和车辆信息的实时更新,使用地理信息系统定位车辆和产品 的当前位置,每件产品进仓出仓,上车下车的扫描数据,将仓储量、运输量、车辆和产品的实 时位置更新到数据库,W便调度过程调用最新数据。
[0026] 运行监控层用于使用实时监控与非实时监控,利用优化策略降低网络负载。将物 流信息云平台中每一个节点都作为包含监控目标的监控终端。监控目标包括计算资源、存 储资源、网络资源。监控终端用于监控数据的采集和本地存储。运行监控层获取本地所有监 控终端的物流业务数据,并提供数据分析,从各个监控终端拉取的监控数据,提供状态分 析、预测、报警和存储。物流信息云平台提供监控数据展现和监控层控制功能。数据展现可 W向用户呈现物流信息云平台的当前运行状态,而系统控制则可W根据当前运行状态对监 控层做出适当调整。
[0027] 交互层根据物流厂商用户提交的运输查询请求调用相关函数查询数据库,对返回 的结果经过处理后反馈到查询界面,最后展示给用户。当云平台收到解析后的查询请求时, 先到内存中进行查询,若查询失败进入块缓存查询,如果仍然没有查询成功,就转到硬盘上 查询,并将查询到的数据存储在块缓存,如果块缓存被写满,采用替换机制删除旧数据,最 终查询到的结果经过处理后呈现给用户。
[0028] 进一步实施例中,本发明的计算层将云平台物流调度看作一个多约束多目标决策 的问题,对大规模的运输网络进行聚类,根据每个聚类的运输量,利用外部约束条件权值, 进行平衡,进而减少聚类划分次数,进而优化物流运输路径。
[0029] 本发明采用的调度过程分为两个阶段:第一阶段通过K均值算法,将需求节点按照 位置和运输量聚类,最终划分为k类,并分配至k个车辆运输;第二阶段针对每个聚类区域, 计算该区域车辆的最优路线。
[0030] 在聚类过程中,输入含有n个用户需求节点的点集合D,其中的每个节点,假设为 di,d2,d3......dn,则总运输I
I若运批产品由k个车辆来进行发送,通过聚 类得到k个点集化,D2,化......Dk,具体过程是:
[00川首先,在空间平面上选取k个客户节点di,Cb,Cb......dk;形成初始聚类D ' 1,D ' 2,D '3......D'k;对于由具有权值W和坐标x、y的n个二维加权点组成的点阵集合D'k,分别计算 每个初始聚类的加权重屯、和总权值,产生新的聚类中屯、:
[00创 Xk= E Xiyi/E Xi,yk= E Wiyi/乙yi,其中i为遍历D'k中的节点数,D'k的总权值为Wk = Ewi
[0033] 对于集合D中所有的点重新聚类,对于每一个点dn,计算其到聚类D'k的加权划分距 离:dij=心 .非+(_>,,'-乂.)2/ W';
[0034] 其中r为权值衰减系数;
[003引通过此公式可W计算得到dil,di2,di3......dik-共k个加权的距离,选取其中最小 的距离dif,然后将节点d加入聚类D'f,对每个节点重新聚类后形成新的聚类D"i,D"2,D "3......护 k;
[0036] 计算每一个聚类的加权聚类中屯、和总权值;然后重复上述步骤直到聚类收敛,输 出最终聚类结果化,化......Dk。
[0037] 其中,在K均值算法聚类的具体并行化实现上,本发明采用MapReduce编程模型,从 数据库读取数据,产生k个初始聚类中屯、,并保存在分布式文件系统上的文件中,作为 MapReduce编程模型的全局变量;将所有数据集分块和聚类中屯、全局变量一起发送到各映 射节点,计算数据块中各节点到全局变量中的k个聚类中屯、的距离,从而判断该节点属于哪 个聚类,形成k个聚类区域后,每一个聚类中屯、节点周围包括属于该聚类区域的节点,运样 就W聚类中屯、为键,该聚类区域本身为值,形成中间键值对传递给规约节点;属于同一个聚 类中屯、的所有键值对作为同一个规约的输入,对其计算加权重屯、和总权值,产生新的聚类 中屯、,覆盖原有的全局变量,依此进行下一次聚类迭代;比较新的聚类中屯、与前次聚类中屯、 是否一致或者达到事先设定的差异值,如果满足条件,即收敛,聚类完成,否则需要返回重 新迭代。
[0038] 物流数据经过第一阶段的聚类处理后,对每一个聚类区域求解最优路径。即在有 限的解空间中,从解空间树的根节点出发,寻找一条各节点之间的权值之和最小的路线,物 流调度中将两个节点之间的距离作为其权值,也就是寻找一条最短的运输回路,根据与上 下限的关系,从当前节点中选择一个最有利的节点作为扩展节点,对每一个可扩展节点都 计算一个函数值,逐次逼近最优解。
[0039] 其中求解下限和上限的过程包括:对于图V中的n个顶点,定义Di(l<i<n)为与顶点 V袖连的两条最短距离的边权值之和,计算n个顶点的化之和ECu,并除2得到下限值,即下 限HiinD= ECu/2;利用贪屯、算法得到完整路径的所有权值总和作为上限。如果当前节点求 解得到的下限值或者从根节点到此节点所有的边权值之和大于该上限值,舍弃该节点。选 择代价最小的节点优先扩展,得到最优路径。
[0040] 进一步,在运行监控层的实时监控中,监控终端在采集到监控数据,实时将监控数 据发送给运行监控层。非实时监控下,监控终端的物理机和虚拟机采集器采集到物流业务 数据后,将物流业务数据存储在本地的数据库中。监控终端设置状态监测单元,并为监控目 标设定状态阔值。当监控目标的业务量超过预定的阔值时,监控终端的状态监测单元与运 行监控层的状态监测单元进行数据交互,判断是否需要触发状态报警。当运行监控层确定 本地发送状态报警时,将报警信息发送给物流信息云平台,物流信息云平台的系统报警器 负责实现系统报警功能。
[0041] 非实时监控的优化包括采用对过载状态量进行累加的方式抑制暂态过载报警的 数量。确定是否需要将当前的暂态过载状态信息发送给运行监控层。监控终端定期采集本 地各监控目标的业务量并将所得到的监控值与预设的本地阔值进行比较。监控终端i自身 保存累加值Si(t)和累加阔值出。其中,Si(t)累加量受时间和过载量两个因素影响,初始时 为0。当累加值Si(t)大于预设的累加阔值出时,监控终端将累加值从(W-1化1至W出(权值系 数W=I,2,3,-'Li)的时间消耗At和加权平均过载程度k报告至运行监控层,其中,监控终 端i在t时亥Il的夏巾n估A貸公式为;
[0042]
[0043] mi U)巧不监巧巧端i在时间点X所采集的各监控目标的监控值,to表示监控终端i 的各监控目标的监控值连续过载状态阔值的起始时刻,Tl表示监控终端i的各监控目标的 状态阔值,f为监控终端采集本地性能参数的频率。
[0044] 监控终端i的累加值从(W-1化i至W出的加权平均过载程度以计算为:
[0045]
[OOW A t = tk-tk-功监控终端i的累加值Si(t)从(W-I)出至wHi的时间消耗,tk、tk-i分别 为监控终端i的累加值Si(t)超过第k个出和超过第化-1)个出的时间点,Sk、Sk-i分别表示监 控终端i的累加值Si(t)超过第k个出和第化-1)个出时的实际值。
[0047]当累加值Si(t)超过出的整数倍时,向运行监控层发送本地状态过载报警信息。运 行监控层在时间点tk接收到信息后,根据监控终端报告的过载信息的数据,计算时间区间 (tk- A t,tk)中监控目标的整体过载程度:
[004引 L(t)=L'(t)+k,
[0049] tk表示运行监控层接收到某个监控终端的暂态过载报警的时间点,At是暂态过 载报警中传递的时间消耗值,L'(t)是更新前的值。若在某个时间点,运行监控层同时接收 到多个监控终端的暂态过载报警信息,则需要针对每一个监控终端的暂态过载报警信息进 行一次计算。
[0050] 若监控终端满足Si(k-l)>(k-l)地1,则在时间点tk时,本地状态过载结束,即nil (tk)<Ti,计算A t = tk-tk-i,并计算本地的加权平均过载程度Li,然后将A巧日以作为本次暂 态过载报警的最后一次信息发送给运行监控层。
[0051] 综上所述,本发明提出了一种基于数据挖掘的物流信息管理方法,为物流企业优 化物流路径,提高资源利用率并降低过载风险,为用户提供高质量的物流供应体验。
[0052] 显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可W用通用 的计算系统来实现,它们可W集中在单个的计算系统上,或者分布在多个计算系统所组成 的网络上,可选地,它们可W用计算系统可执行的程序代码来实现,从而,可W将它们存储 在存储系统中由计算系统来执行。运样,本发明不限制于任何特定的硬件和软件结合。
[0053]应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的 原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何 修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨 在涵盖落入所附权利要求范围和边界、或者运种范围和边界的等同形式内的全部变化和修 改例。
【主权项】
1. 基于数据挖掘的物流信息管理方法,其特征在于,包括: 物流信息云平台采集物流运输数据,根据运输节点位置信息和运输量,在MapReduce编 程框架下通过聚类来计算运输路线。2. 根据权利要求1所述的方法,其特征在于,所述MapReduce框架在处理原始数据时,在 云平台集群中设置一个主控节点,当做名字节点控制数据分发,其余从属节点作为数据节 点,存储并分析处理由名字节点分发的数据;主控节点将待处理数据分块,并设置两个备 份,然后通过云平台架构将数据库存储在数据节点,进行数据的进一步处理;在计算运输路 线过程中,首先通过K均值算法,将需求节点按照位置和运输量聚类,最终将划分的每一类 分配至对应的一个车辆运输;然后针对每个聚类区域,计算该区域车辆的最优路线; 其中在聚类过程中,对η个用户需求节点的点集合D,每个节点标记为di,d2,d3......dn, 产品由k个车辆来进行发送,通过聚类得到k个点集Di,D2,D3......Dk,具体过程是: 首先,在空间平面上选取k个客户节点d^d^cb......dk;形成初始聚类D'^D'^D '3......D ' k;对于由具有权值w和坐标X、y的η个二维加权点组成的点阵集合D ',分别计算每 个初始聚类的加权重心和总权值,产生新的聚类中心: xk= Exiyi/Exi,yk= Ewiyi/Eyi,其中i为遍历D'k中的节点数,D'k的总权值为wk= Σ Wi 对于集合D中所有的点重新聚类,即对于每一个点dn,计算其到聚类D'k的加权划分距 离其中r为权值衰减系数; 计算得到cU^cUMu......dlk-共k个加权的距离,选取其中最小的距离dlf,然后将节 点d加入聚类D'f,对每个节点重新聚类后形成新的聚类D'JW、......D"k; 依次计算每一个聚类的加权聚类中心和总权值;然后重复上述步骤直到聚类收敛,输 出最终聚类结果Di,D2,D3......Dk; 经过聚类处理后,对每一个聚类区域,即在有限的解空间中,从解空间树的根节点出 发,寻找一条各节点之间的权值之和最小的路线,物流调度中将两个节点之间的距离作为 其权值,也就是寻找一条最短的运输回路,根据与上下限的关系,从当前节点中选择一个最 有利的节点作为扩展节点,对每一个可扩展节点都计算一个函数值,逐次逼近最优解; 其中求解下限和上限的过程包括:对于图V中的η个顶点,定义Di为与顶点^相连的两条 最短距离的边权值之和,其中l〈i〈n,计算η个顶点的01之和Σ(^,并除2得到下限值,即下限 minD=EC^/2;利用贪心算法得到完整路径的所有权值总和作为上限;如果当前节点求解 得到的下限值或者从根节点到此节点所有的边权值之和大于该上限值,舍弃该节点;选择 代价最小的节点优先扩展,得到最优路径。
【文档编号】G06Q10/04GK105956723SQ201610567737
【公开日】2016年9月21日
【申请日】2016年7月19日
【发明人】郭建锋
【申请人】成都镜杰科技有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1