HS编码预测系统的制作方法

文档序号:29849027发布日期:2022-04-30 05:03阅读:155来源:国知局
HS编码预测系统的制作方法
hs编码预测系统
技术领域
1.本发明涉及一种hs编码(the harmonized commodity descriptionand coding system,商品名称及编码协调制度)预测系统,所述系统为智能系统,用于对包含商品信息文本的大数据进行分类,然后在仅通过描述和信息来识别商品关税项目的智能自动化系统中使用该数据。


背景技术:

2.利用人工智能技术已成为所有实际领域不可避免的情况,因为它为许多问题提供了根本性的解决方案。该技术的分支之一是机器学习技术,它使计算机系统能够训练、学习然后预测数据。鉴于全球对数据重要性的关注,越来越多的公众意识到这些数据的重要性以及如何能利用它来创建人工智能,人工智能能够像人类从其经验学习一样从该数据学习,机器学习技术的应用相较于从前已经变得更加容易、更快且更便宜。清关并将进口货物与特定的海关关税细目联系起来,对于国家的安全和物质收入非常有用。错误率高的最重要任务之一是为进口货物确定正确的海关关税细目。这就是为什么我们宣称可以使用诸如机器学习技术之类的技术来完成此任务。
3.所列技术类似于2019年3月14日递交的关于最终技术目标是使用人工智能对商品进行自动编码的美国专利号655,127/16,因为这两个系统依赖于先前的数据学习,该数据学习准备就绪并编码以创建能够预测关税条款的人工智能系统。然而,使我们的系统与上述专利不同的是达到最终目标的方式,因为该专利依赖于采用计算机视觉技术的图像、重量和体积对商品进行编码,而所提出的系统依赖于使用机器学习和随机森林算法来访问关税细目的商品地址。
4.与上述专利一样,该技术最终目标也类似于由来自raaddbound大学的研究人员arjun p.de vries教授、及flash hasibi提出的通过可选自然网络的协调制度短文本分类的硕士研究,但不同之处在于它们对深度学习技术的依赖和对差分网络技术的依赖。
5.有许多手动任务可以由能够更快和更准确地完成任务的智能系统代替。其中一项任务是确定进口货物的海关关税细目,这是在专家在场的情况下手动完成的。值得注意的是,由于货物的数量和种类繁多,以及难以培训劳动力以掌握足够的专业知识来快速并且准确地确定进口货物的海关关税细目,因此这项任务的错误率很高。从这个角度来看,我们发现在这项任务中使用机器学习技术是可能的,前提是将来自描述进口货物的文本的足够数据由专家进行准确分类,以训练这些智能模型,从而获得更准确的结果。而进口货物的描述细节应当通过本领域专家评审的方式准确归类和核实。
6.我们对机器学习和随机森林算法的依赖是前所未有的。


技术实现要素:

7.本发明的目的是通过一种hs编码预测系统来至少缓解或解决上述问题。
8.根据本发明,提出一种hs编码预测系统,用于基于商品信息预测商品名称及编码
协调制度(hs编码),包括:
9.第一阶段,数据整理和初步分类,
10.第二阶段,进口货物描述的确认和再分类,
11.第三阶段,验证来自第二阶段的最终输出数据以获得更高的准确性,以及
12.第四阶段,使用随机森林算法预测产品关税税目。
13.优选地,在为产品x的文本指定海关项目y的算法中,使用条件句函数,通过自然语言分析技术,对产品描述进行分类,并且将文本作为句子而不是词进行处理。
14.优选地,使用具有自然语言分析技术的条件句函数对产品描述进行分类,并且将文本视为句子而不是单词。
15.优选地,每个词被传送在用于每个商品地址的每个文本中,并且研究原词之前的词和它之后的词。
16.优选地,将依赖所述条件语句来列举相同关税条款的所有文本之间的相同上下文。
17.优选地,使用自然语言处理技术找到产品词的同义词,其中使用解析分析、语法分析和语义分析来分析文本。
18.优选地,通过为算法(随机森林)准备、准备和输入贸易产品数据来预测商品的关税项目。
19.优选地,核准的文本从先去复杂数学矩阵系统转换成高级维度以输入算法(随机森林)。
20.所提出的系统利用人工智能技术和机器学习来分析商品文本信息(标题、描述等),找到产品与其hs编码之间的联系,并基于商品的文本信息预测用于商品的商品名称和编码协调制度(hs编码)。
附图说明
21.为了最好地描述实施上述实施例的方式,以及定义本公开的其他优点和特征,下面提供更具体的描述并且在附图中示出。应理解,这些附图仅描绘了本发明的示例性实施例,并且因此不被认为是对范围的限制,将通过使用附图以额外的具体内容和细节描述和解释示例,其中:
22.图1显示了所有系统阶段。
23.图2显示了第一阶段:数据整理和初步分类。
24.图3显示了第二阶段:进口货物描述的确认和再分类。
25.图4显示了第三阶段:验证来自第二阶段最终输出数据以获得更高的准确性。
26.图5显示了第四阶段:使用随机森林算法预测产品关税税目。
27.图6显示了系统的完整工作步骤。
28.应当注意,附图旨在呈现本公开的几个示例性实施例的图示。这些附图并非旨在限制本公开的范围。还应注意,附图不一定按比例绘制。
具体实施方式
29.下面的详细描述是目前预期的实施本发明示例性实施例的最佳模式。该描述不应
被理解为限制意义,而仅仅是为了说明本发明的一般原理。
30.本说明书中提到的“一个实施例”或“一实施例”是指结合实施例描述的特定特征、结构或特性包括在本技术的至少一个实施例中。说明书中各处出现的短语“在一个实施例中”不一定都是指同一实施例,也不是与其他实施例相互排斥的单独或替代的实施例。此外,描述了可以由一些实施例而不是由其他实施例展示的各种特征。类似地,描述了各种要求,这些要求可能是一些实施例的要求而不是其他实施例的要求。
31.现在将结合附图详细参考本公开的所选实施例。在此描述的实施例并非旨在限制本公开的范围,并且本公开不应被解释为限于所描述的实施例。在不脱离本公开的范围和精神的情况下,本公开可以以不同的形式体现。应当理解,附图旨在并提供来图示以下描述的实施例公开内容,并且不一定按比例绘制。在附图中,相同的数字始终指代相同的元件,并且一些部件的厚度和尺寸可能被夸大以提供更好的清晰度和易于理解。
32.此外,尽管为了说明的目的,以下描述包含许多具体细节,但本领域技术人员将理解,对所述细节的许多变化和/或改变都在本技术的范围内。类似地,尽管本技术的许多特征是相互关联或相互结合地描述的,但本领域技术人员将理解,这些特征中的许多特征可以独立于其他特征而提供。因此,在不损失对本技术的一般性且不对其施加限制的情况下阐述本技术的该描述。
33.需要说明的是,本文中的“第一”、“第二”等术语不表示任何顺序、等级、数量或重要性,而是用于区分一个元件与另一个元件。此外,这里的术语“一个”和“一”不表示数量的限制,而是表示至少一个所引用项目的存在。
34.参照图1,本发明的系统包括四个阶段,第一阶段数据整理和初步分类,第二阶段确认和再分类进口货物的描述,第三阶段验证第二阶段最终输出数据以获得更高的准确性,以及第四阶段使用随机森林算法预测产品关税税目。
35.下面部分将对各个阶段进行详细说明:
36.第一阶段:数据整理和初步分类。
37.为了能够首先训练后期阶段将要依赖的算法,必须为进口货物的文本描述准备大量、准确的数据;因此,进口货物的描述最初是通过以下方式准备的:
38.1-使用依赖于所有文本的旋转特征的编码函数从每个文本删除重复的词与并纠正拼写错误。
39.2-通过搜索每个项目的最常用词,并在该领域专家的帮助下提取指示每个文本的关税税目的关键词。
40.3-在为产品x的文本指定海关税目y的算法中,如果该文本中每个海关税目的核准关键词比任何其他海关税目更频繁,则使用这些关键词。
41.第一阶段的最终输出将是产品地址文本的海量数据,并以每个产品的关税税目作为初步分类。
42.第二阶段:进口货物描述的确认和再分类。
43.在此阶段,使用更先进的方法以下列方式对进口货物的描述进行确认/再分类:
44.1-使用自然语言分析的条件句,作为句子输入商品标题的文本,而不是作为词来处理。每个词都被传送给商品地址的每个文本,并研究原词之前的词和后面的词。使用条件句,在所有具有单一海关识别条款的文本之间计算相同的上下文,并将关键词作为一个句
子进行收集,以满足每个文本的条件。如果满足条件,则确认海关税目。
45.2-使用语言词典库为条件句中使用的每个词创建同义词,以提高商品标题的每个文本的条件的概率。
46.3-使用自然语言处理技术通过查看产品的每个可能角度来更彻底地分析文本。使用形态分析来分析文本,以确定它们的起源、重量、增减、它们的前缀类型、它们的后缀类型、它们的含义、附着语素以及这些附着语素的组成,然后确定词本身的类型,以便可以找到查看文本的每个可能的角度,从而将其与带有关税税目的其他产品的其他文本联系起来。然后进行语法分析。语法分析则基于词语之间的相互关联以及意思受文本整体意思影响的程度,从而对文本做出最真实的分析,有助于分析理解人类文本,然后接近文本主题,理解人类文本主题,如果提取到更合适的文本来描述进口货物,则将它们放入条件句中,以实现自动化分类更准确。
47.第二阶段的最终输出是海量数据,用于作为每个产品的深度和准确性分类的具有关税税目的产品地址文本。
48.第三阶段:验证来自第二阶段最终输出数据以获得更高的准确度。
49.在这个阶段,聘请了海关专家对第二阶段最终输出数据进行验证,并获得更高的准确性。
50.阶段四:使用随机森林算法预测产品关税税目。
51.在这个阶段设置最终数据以输入算法(随机森林),这是最终系统的验证算法,然后在之前准备的数据上训练该算法。为此,执行以下操作:
52.1-使用全局向量算法将所有产品核准的所有文本转换为高级维度的复杂数学矩阵,其中进口货物的描述被建模以表示分布式词。相似的词被分配到一空间,在该空间中,它们根据一组词的不同程度相关联,然后找到词之间的共同联系,并将其转换为块和数字集群,用于对我们期望提取关税税目的进口货物的描述中。因此,随机森林算法可以处理这些数据。这称为词嵌入。
53.2-将数据分解为训练数据和测试数据,以便将训练数据传送到随机森林算法(random forrest),然后根据测试数据在关税税目的精确可预测性方面测试该训练的算法。
54.第四阶段和第一阶段的最终输出是基于算法的机器学习模型,用于根据其地址文本预测商品的关税税目。
55.为了说明和描述的目的,已经呈现了本技术的特定实施例的前述描述。它们并不旨在详尽无遗或将本技术限制为所公开的精确形式,并且显然根据上述教导可以进行许多修改和变化。选择和描述实施例是为了最好地解释本技术的原理及其实际应用,从而使本领域的其他技术人员能够最好地利用本技术和具有适合预期特定用途的各种修改的各种实施例。应当理解,在不脱离本技术的权利要求的精神或范围的情况下,考虑到情况可能建议或提供权宜之计,预期等效物的各种省略和替换,但是这旨在覆盖应用或实施。
56.虽然本公开已经关于其优选实施例进行了解释,如上文所述,应当理解,可以在不经修改的情况下做出许多其他可能的修改和变化。因此,预期所附权利要求书将涵盖落入本发明真实范围内的此类修改和变化。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1