分布式全链路自动化智能通关系统、方法及存储介质与流程

文档序号:24074670发布日期:2021-02-26 16:37阅读:97来源:国知局
分布式全链路自动化智能通关系统、方法及存储介质与流程

[0001]
本申请涉及通关数据处理技术领域,尤其是涉及分布式全链路自动化智能通关系统、方法及存储介质。


背景技术:

[0002]
近些年随着国际贸易不断发展和国家不断开放的进出口市场,进出口贸易得到了飞速的发展,尤其是看近些年由网络购物兴起的跨境电商出口已经成为了对外贸易不可或缺的一部分,并且在未来的出口贸易中起着越来越重要的作用。
[0003]
在跨境交易的日常操作中需要和海关进行各种数据的申报,来完成物品的交易。目前海关申报的工作大部分仍然采用人工excel制单的方式进行数据的整理,需要根据商品品名查询服务器中的海关编码进行重复的工作,对于不规范的品名需要手动进行修改或替换,不仅效率低而且易出错。


技术实现要素:

[0004]
为了提高海关申报的效率及准确率,本申请提供了分布式全链路自动化智能通关系统、方法及存储介质。
[0005]
第一方面,本申请提供的分布式全链路自动化智能通关方法,包括:
[0006]
接收订单,接收订单数据信息、通关原始文件及口岸渠道信息;
[0007]
基于订单数据信息、通关原始文件及预设的模板制单;
[0008]
基于口岸渠道信息分配清关口岸,生成符合相应口岸数据格式的申报清单;
[0009]
向海关服务器发送申报清单并接收海关服务器返回的回执单;
[0010]
申报完成后,查询清关状态;
[0011]
清关完成后对税费进行计算并缴纳;
[0012]
其中,通关原始文件包括excel文件和非excel文件,当通关原始文件为非excel文件时,基于订单数据信息、通关原始文件及预设的模板制单包括:
[0013]
将非图片类通关原始文件转换为图片格式;
[0014]
文件解析,解析通关原始文件类型及格式;
[0015]
图像预处理,修正通关原始文件的图像成像问题;
[0016]
文字检测,检测通关原始文件中文本的所在位置、范围及布局;
[0017]
文字识别,在文本检测的基础上对文本内容进行识别;
[0018]
文本提取,从文本识别结果中抽取需要的字段和/或要素;
[0019]
当通关原始文件为excel文件时,基于订单数据信息、通关原始文件及预设的模板制单包括:
[0020]
匹配模板,上传通关原始文件,将通关原始文件依次与各模板进行匹配,选择有效数值匹配最多的模板;
[0021]
文件解析,抓取通关原始文件中与模板匹配的数据。
[0022]
在一些实施方式中,所述图像预处理包括:
[0023]
将通关原始文件的图像输入预先训练的图像校正网络中进行几何变化和/ 或畸变校正,得到校正后的第一目标图像;
[0024]
将第一目标图像通过cv算法及仿射变换矩阵进行小角度校正,得到第二目标图像;
[0025]
将第二目标图像通过去噪算法去除模糊,得到第三目标图像;
[0026]
将第三目标图像经过二值化处理,得到二值化图像。
[0027]
在一些实施方式中,所述文字检测包括:
[0028]
将二值化图像输入预先训练的特征提取网络中;
[0029]
提取所述特征提取网络中至少两个卷积层的输出信息,并对所述输出信息进行融合;
[0030]
将融合后的信息输入所述特征提取网络中的全连接层,输出对应于所述二值化图像文本区域的k个anchor的2k个竖直方向坐标及坐标得分、k个边界回归结果,以实现文本定位,并得到矩形文本框。
[0031]
在一些实施方式中,文字识别包括:通过预先训练的文字识别网络对矩形文本框内的文本内容进行字符识别,获取文本内容信息。
[0032]
在一些实施方式中,所述文本提取包括:
[0033]
基于预先设置的语义数据库生成基础语义分析引擎,所述语义数据库中包括领域基础语料库、领域词典及领域知识图谱;
[0034]
基于基础语义分析引擎对文本内容信息进行字段分析处理;
[0035]
基于抽取需求提取数据集合抽取文本内容中需要的字段和/或要素。
[0036]
在一些实施方式中,包括预先设置模板,具体包括:
[0037]
模板标注,包括:指定并标注所述模板对应的业务类型,以及标注所述模板的关键字,以区分及确定模板;
[0038]
业务标注,对所述模板进行业务标注,包含关键字标注和循环体标注,以及对应的单元格、组合单元格、行表体和列表体元素的标签,所述循环体标注包括横向循环体标注及竖向循环体标注;
[0039]
模板解析,包括:业务类型解析、业务字段解析及业务表体解析,所述业务字段解析包括关键字解析,所述业务表体解析包括横向循环体解析及竖向循环体解析,解析后保存至数据库。
[0040]
在一些实施方式中,所述文件解析具体包括:
[0041]
对通关原始文件进行匹配解析,包括:业务类型解析、业务字段解析及业务表体解析,所述业务字段解析包括关键字解析,所述业务表体解析包括横向循环体解析及竖向循环体解析;
[0042]
抓取通关原始文件中与所选模板匹配的数据。
[0043]
在一些实施方式中,基于口岸渠道信息分配清关口岸,生成符合相应口岸数据格式的申报清单还包括:基于商品属性进行拆分和合并,所述商品属性包括法检商品、非法检商品、套装商品。
[0044]
第二方面,本申请提供的分布式全链路自动化智能通关系统,包括:
[0045]
订单信息单元:接收订单数据信息、通关原始文件及口岸渠道信息;
[0046]
制单单元:基于订单数据信息、通关原始文件及预设的模板制单;
[0047]
申报清单生成单元:基于口岸渠道信息分配清关口岸,生成符合相应口岸数据格式的申报清单;
[0048]
报关申报单元:向海关服务器发送申报清单并接收海关服务器返回的回执单;
[0049]
清关查询单元:显示海关审核后的审单结果;
[0050]
税费计算单:对产生税费的物品自动计算税额;以及
[0051]
包括存储器和处理器;
[0052]
其中,所述制单单元包括:
[0053]
文件解析单元,接收通关原始文件,并解析通关原始文件类型及格式;
[0054]
图像预处理单元,修正解析后的通关原始文件的图像成像问题;
[0055]
文字检测单元,在修正图像成像问题的基础上检测通关原始文件中文本的所在位置、范围及布局;
[0056]
文字识别单元,在文本检测的基础上对文本内容进行识别;
[0057]
文本提取单元,从文本识别结果中抽取需要的字段和/或要素;
[0058]
业务类型标注单元,用于标注模板的业务类型;
[0059]
模板关键字标注单元,用于标注模板的关键字,以区分及确定模板;
[0060]
业务标注单元,用于对所述模板进行业务标注,包含关键字标注和循环体标注,以及对应的单元格、组合单元格、行表体和列表体元素的标签;
[0061]
excel解析单元,用于匹配解析模板及通关原始文件;
[0062]
所述申报清单生成单元包括:
[0063]
口岸自动分拨、调拨单元:根据口岸渠道信息自动对订单分配清关口岸;
[0064]
所述存储器上存储有能够被处理器加载并执行上述布式全链路自动化智能通关方法的计算机程序。
[0065]
第三方面,本申请提供的计算机可读存储介质,存储有能够被处理器加载并执行上述分布式全链路自动化智能通关方法的计算机程序。
[0066]
综上所述,本申请提供的分布式全链路自动化智能通关系统、方法及存储介质包括以下至少一种有益技术效果:
[0067]
1.通过文件的自动识别及excel模板的匹配,自动提取相关数据,实现了制单、整合数据的自动化,提高了打单速度以及准确;
[0068]
2、对于非excel文件,以图片类文件存储,并对文件进行解析,并进行图像处理,修正图像问题,再从图像中识别文本的所在位置、范围及布局,并在文字检测的基础上对文本内容进行识别,从而精准的识别出票据的字段;
[0069]
3、自然语言处理结合行业识别文字的文本智能处:结合行业对抽取模型进行深度学习模型训练,能够对识别出来的数据进行简单的数据清洗;
[0070]
4、对于excel文件,通过标注模板关键字、字段参照物和表体(开始与结束)参照物等元素,进行excel模板文件自动匹配,并进行数据抽取,同类型excel文件只需标注一次模板,即可自动匹配模板进行数据识别。减少了指定识别模板,大大提升了识别效率。
附图说明
[0071]
图1为本申请提供的分布式全链路自动化智能通关系统的结构框图;
[0072]
图2为本申请提供的分布式全链路自动化智能通关系统中制单单元的结构框图。
[0073]
图中,1、订单信息单元;2、制单单元;3、申报清单生成单元;4、报关申报单元;5、清关查询单元;6、税费计算单元;7、存储器;8、处理器; 21、文件解析单元;22、图像预处理单元;23、文字检测单元;24、文字识别单元;25、文本提取单元;26、业务类型标注单元;27、模板关键字标注单元;28、业务标注单元;29、excel解析单元。
具体实施方式
[0074]
以下结合附图对本申请作进一步详细说明。
[0075]
本申请实施例提供了分布式全链路自动化智能通关系统、方法及存储介质。
[0076]
本申请提供的所述分布式全链路自动化智能通关方法,其主要流程描述如下,包括:
[0077]
接收订单,接收订单数据信息、通关原始文件及口岸渠道信息;在本申请此实施方式中,可接受不同企业单据,并把相应的通关原始文件上传到oss,把地址和通道编号及通道回调地址通过mq消息队列的形式传给通道。
[0078]
基于订单数据信息、通关原始文件及预设的模板制单,具体的:
[0079]
通关原始文件包括excel文件和非excel文件,当通关原始文件为非 excel文件时候,通道调取ocr来识别单据,具体识别过程包括:
[0080]
输入通关原始文件,通关原始文件包括图片类以及非图片类,非图片类包括影印件及pdf文件,同时,将非图片类转换为图片格式,与图片类文件统一存储,输入的通关原始文件同时存储至文件库,基于人工标注进行模型训练,以得到图像校正网络、特征提取网络、文字识别网络及深度学习抽取数据集合;
[0081]
文件解析,解析待处理文件类型及格式,在本申请此实施方式中,文件解析支持包括jpg、png、tif、pdf格式文件的处理;
[0082]
图像预处理,修正待处理文件的图像成像问题;具体包括:
[0083]
将待处理文件的图像输入预先训练的图像校正网络中进行几何变化和/或畸变校正,得到校正后的第一目标图像,即:
[0084]
利用所述图像校正网络中的定位网络回归所述第一目标图像对应的空间变换的网络参数;
[0085]
利用所述图像校正网络中的网格生成器以及所述网络参数,计算所述校正后的第一目标图像中的像素点在所述第一目标图像中的位置;
[0086]
利用所述图像校正网络中的采样器以及计算出的位置,输出所述校正后的第一目标图像;
[0087]
然后,
[0088]
将第一目标图像通过cv算法及仿射变换矩阵进行小角度校正,得到第二目标图像;
[0089]
将第二目标图像通过去噪算法去除模糊,得到第三目标图像;
[0090]
将第三目标图像经过二值化处理,得到二值化图像;
[0091]
图像预处理后进入以下步骤:
[0092]
文字检测,检测待处理文件中文本的所在位置、范围及布局,通常也包括版面分析和文字行检测等,文字检测主要解决的问题是哪里有文字,文字的范围有多大。具体步骤为包括:
[0093]
将二值化图像输入预先训练的特征提取网络中;
[0094]
提取所述特征提取网络中至少两个卷积层的输出信息,并对所述输出信息进行融合;
[0095]
将融合后的信息输入所述特征提取网络中的全连接层,输出对应于所述二值化图像文本区域的k个anchor的2k个竖直方向坐标及坐标得分、k个边界回归结果,以实现文本定位,并得到矩形文本框;
[0096]
以上文字检测采用的处理算法包括:faster-rcnn、mask-rcnn、fpn、 panet、unet、iounet、yolo、ssd;
[0097]
接下来进入文字识别步骤,
[0098]
文字识别,在文字检测的基础上,对文本内容进行识别,文字识别主要解决的问题是每个文字是什么。在本申请此实施方式中,通过预先训练的文字识别网络对矩形文本框内的文本内容进行字符识别,获取文本内容信息,其采用的处理算法包括:crnn、attentionocr、rnnlm、bert;
[0099]
然后通过文本提取,从文本识别结果中抽取需要的字段和/或要素,包括:
[0100]
基于预先设置的语义数据库生成基础语义分析引擎,所述语义数据库中包括领域基础语料库、领域词典及领域知识图谱;
[0101]
基于基础语义分析引擎对文本内容信息进行字段分析处理;
[0102]
基于抽取需求提取数据集合抽取文本内容中需要的字段和/或要素,所述抽取需求包括:序列标注抽取、深度学习抽取及表格抽取,
[0103]
文本提取采用的处理算法包括:crf、hmm、han、dpcnn、bilstm+crf、 bert+crf、regex。
[0104]
最后,结果输出,输出最终文字识别结果或文本抽取处理结果,或生成识别的json格式报文。
[0105]
单据识别后,ocr返给通道,通道再调取制单传的接口地址,制单接收到 json数据时,针对发票、箱单、合同、运单、申报要素、运费等相应的票据解析成相对应的表头、表体、单证、集装箱,把相应的image_name_list随附单据分类,合成相应的分类随附单据pdf入库bill_file表,同时要满足压缩 200张图片pdf小于4m之内,上传到oss。
[0106]
当通关原始文件为excel文件时,基于订单数据信息、通关原始文件及预设的模板制单包括:
[0107]
上传待解析的文件,即上传excel文件,且excel文件以zip格式上;
[0108]
将待解析的文件依次与各excel模板文件进行匹配,选择有效数值匹配最多的excel模板文件;
[0109]
文件解析,抓取待解析的文件中与所选excel模板文件匹配的数据,具体包括:业务类型解析、业务字段解析及业务表体解析,业务字段解析包括关键字解析,业务表体解析包括横向循环体解析及竖向循环体解析,抓取待解析的文件中与所选excel模板文件匹配
的数据,包括字符串截取、拼接、替换的功能函数。
[0110]
在解析excel文件之前,还包括预先设置模板,具体包括:
[0111]
上传excel模板文件;
[0112]
模板标注,包括:指定并标注excel模板文件对应的业务类型,其业务类型可以是【发票】、【箱单】等,以及标注excel模板文件的关键字,以区分及确定模板;
[0113]
业务标注,对excel模板文件进行业务标注,包含关键字标注和循环体标注,以及对应的单元格、组合单元格、行表体和列表体元素的标签,循环体标注包括横向循环体标注及竖向循环体标注,关键字标注以确定字段参照物,通过对应的单元格、组合单元格、行表体和列表体元素的标签确定表体(开始与结束)参照物等元素;
[0114]
对excel模板文件进行解析,包括:业务类型解析、业务字段解析及业务表体解析,业务字段解析包括关键字解析,业务表体解析包括横向循环体解析及竖向循环体解析,解析后保存至数据库;
[0115]
配置预警规则,通过包括日期、数字、中文及十位英文设置预警规则,以在匹配模板时进行初步的数据有效性校验;
[0116]
模板测试,以对标注后的excel模板文件进行抽取测试,查看标注效果。
[0117]
数据抽取后,基于口岸渠道信息分配清关口岸,生成符合相应口岸数据格式的申报清单,并委托数据补录,模板数据补录,三库数据补录,太师傅表数据补录,增加表头表体。同时,自动调取模板中规则来实现拆分,合并,排序,拆单逻辑,如基于法检商品、非法检商品、套装商品等商品属性进行拆分和合并,入库时增加表头表体数据长度是否符合数据库表字段长度校验,相应的ocr数据再入库到bill_ocr表中用于坐标定位及双界面展示和后期拆单,数据大部分入库时再添加任务大厅一条记录,增加历史数据比对入库便于后期逻辑校验,通过异步处理把相应的通道状态补到bill_ui_head表状态,同步 es数据。
[0118]
然后向海关服务器发送申报清单并接收海关服务器返回的回执单,申报完成后,查询清关状态,清关完成后对税费进行计算并缴纳。
[0119]
本申请还公开了分布式全链路自动化智能通关系统,如图1所示,包括:
[0120]
订单信息单元1:接收订单数据信息、通关原始文件及口岸渠道信息;
[0121]
制单单元2:基于订单数据信息、通关原始文件及预设的模板制单;
[0122]
申报清单生成单元3:基于口岸渠道信息分配清关口岸,生成符合相应口岸数据格式的申报清单;
[0123]
报关申报单元4:向海关服务器发送申报清单并接收海关服务器返回的回执单;
[0124]
清关查询单元5:显示海关审核后的审单结果;
[0125]
税费计算单元6:对产生税费的物品自动计算税额;以及
[0126]
包括存储器7和处理器8;
[0127]
其中,如图2所示,制单单元2包括:
[0128]
文件解析单元21,接收通关原始文件,并解析通关原始文件类型及格式;
[0129]
图像预处理单元22,修正解析后的通关原始文件的图像成像问题;
[0130]
文字检测单元23,在修正图像成像问题的基础上检测通关原始文件中文本的所在位置、范围及布局;
[0131]
文字识别单元24,在文本检测的基础上对文本内容进行识别;
[0132]
文本提取单元25,从文本识别结果中抽取需要的字段和/或要素;
[0133]
业务类型标注单元26,用于标注模板的业务类型;
[0134]
模板关键字标注单元27,用于标注模板的关键字,以区分及确定模板;
[0135]
业务标注单元28,用于对模板进行业务标注,包含关键字标注和循环体标注,以及对应的单元格、组合单元格、行表体和列表体元素的标签;
[0136]
excel解析单元29,用于匹配解析模板及通关原始文件;
[0137]
申报清单生成单元3包括:
[0138]
口岸自动分拨、调拨单元:根据口岸渠道信息自动对订单分配清关口岸;
[0139]
存储器7上存储有能够被处理器8加载并执行上述分布式全链路自动化智能通关方法的计算机程序。
[0140]
本申请实施例提供一种存储介质,所述存储介质存储有指令集,该指令集适于一处理器8加载并执行上述分布式全链路自动化智能通关方法步骤。
[0141]
所述计算机存储介质例如包括:u盘、移动硬盘、只读存储器(read
-ꢀ
only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0142]
以上所述,以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本申请的方法及其核心思想,不应理解为对本申请的限制。本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1