一种基于深度学习模型的电商商品分类方法与流程

文档序号：36888507发布日期：2024-02-02 21:21阅读：50来源：国知局

本发明属于深度学习模型及直播电商，应用于商品分类过程中，具体为一种基于深度学习模型的电商商品分类方法。

背景技术：

1、近年来，随着直播电商技术的高速发展，直播带货已成为热门行业。直播电商所涉及的商品类别高达数千种，因此给直播后台工作人员带来了较大的工作负担，使其难以面对具有实时准确要求的商品分类任务，这便成为了直播电商领域中亟待解决的新问题。

2、目前，业内针对商品分类任务，主要采用两种独立解决方案：一是基于商品文本数据，利用自然语言处理相关算法，构建文本分类模型；二是基于商品图片数据，利用计算机视觉相关的算法，构建图片分类模型。

3、第一种方案中，商品信息中的相关文本被转化为特征向量，投入模型训练过程；训练出的模型推理效率快、预估精度高，但是遇到商品文本特征缺失，尤其是文本特征不清楚时，推理效果就大幅下降，无法满足应用需求。例如：直播电商中极易出现如“闪购商品21、过节大礼包”等类似描述，这一描述就是典型的文本特征不清楚问题，无法完成商品分类任务。

4、第二种方案将商品图片转化为特征向量，投入模型训练过程，常采用卷积神经网络；训练出的模型同样具有较高的推理精度，但是模型的训练效率和推理效率会变慢；由于图片信息自身的特点，常需要计算机gpu的高性能支持，构建模型的成本也会较高。

5、因此，对于电商业内数量庞大、类型众多的直播带货商品，深度学习模型需要新的能够充分协调推理效率、推理精度和硬件成本的应用方法，来完成快速、精准的商品分类任务，满足日益增长的电商商品分类需求。

技术实现思路

1、本发明的目的是解决现有技术面对商品分类任务时，仅采用单一文本方式或单一图片方式而带来的局限性问题。本发明将商品信息中的文本特征和图片特征进行拆分分析，在模型训练过程中有选择的以商品的文本特征为判别依据，针对性训练不同模型的商品分类能力，最终实现以文本分类模型和图片分类模型协同完成商品分类任务的效果，平衡了模型的推理效率、推理精度和硬件成本，能广泛应用于直播电商平台系统中。

2、本发明采用了以下技术方案来实现目的：

3、一种基于深度学习模型的电商商品分类方法，包括如下步骤：

4、s1、获取直播电商商品分类的原始样本数据，从原始样本数据中拆分出文本训练数据，使用文本训练数据训练文本分类模型；

5、s2、从文本训练数据中拆分出商品标题描述不清的无效训练数据，再从原始样本数据中拆分出无效训练数据对应商品的图片训练数据，使用图片训练数据训练图片分类模型；

6、s3、实时获取直播电商商品分类的商品明细数据，判断商品明细数据中的文本数据是否有效；

7、s4、当文本数据有效时，直接使用训练后的文本分类模型，预测直播电商对应的商品分类；

8、s5、当文本数据无效时，从商品明细数据中拆分出对应商品的图片数据，并使用训练后的图片分类模型，预测直播电商对应的商品分类。

9、具体的，选用fasttext模型作为文本分类模型，选用efficientnet模型作为图片分类模型。

10、进一步的，步骤s1中，文本分类模型的训练过程具体为：

11、s11、获取原始样本数据；

12、s12、对原始样本数据中的商品标题，进行分词与停用词处理，得到文本训练数据；

13、s13、依据文本训练数据，生成训练集与验证集；

14、s14、获取原始fasttext模型并进行改进，同时设置超参数；

15、s15、使用训练集对原始fasttext模型进行训练，并应用验证集与超参数的调优过程，得到最优fasttext模型，作为训练后的文本分类模型。

16、优选的，对原始样本数据中的商品标签深度进行多层级划分；训练后的文本分类模型在进行实际推理时，最终预测结果同样为多层级分类结果。

17、优选的，步骤s13中，将训练集与验证集均以文档形式存储，并使用标识符分隔文本训练数据中的文本分词数据和分类标签数据。

18、优选的，步骤s14中，在原始fasttext模型中应用n-gram方法，使模型学习文本词序相关信息，再利用层次softmax结构替代原有的扁平化softmax结构；同时，设置的超参数为train_supervised函数的超参数。

19、进一步的，步骤s2中，图片分类模型的训练过程具体为：

20、s21、从文本训练数据中，获取标题缺失和标题文本特征关键词不存在的无效训练数据；

21、s22、依据无效训练数据，从原始样本数据中获取对应商品的图片训练数据，并生成图片分类模型训练所需的训练集与验证集；

22、s23、获取原始efficientnet模型并进行改进，同时设置超参数；

23、s24、使用训练集对原始efficientnet模型进行训练，并应用验证集与超参数的调优过程，得到最优efficientnet模型，作为训练后的图片分类模型。

24、优选的，图片训练数据中的样本特征是商品图片，该数据放入分类标签对应的id编码文件夹中，以文件夹形式存储为训练集与验证集；训练后的图片分类模型在进行实际推理时，对id编码进行反译，最终预测结果为对应分类标签层级的多层级分类结果。

25、优选的，步骤s23中，在原始efficientnet模型中选取efficientnet-b0作为base层，在模型结构中加入1个全局平均池化层和1个softmax输出层，使模型进行迁移学习训练。

26、进一步的，步骤s3中，对商品明细数据中的文本数据是否有效的判断方式为：从实时的直播电商平台中获取需要进行商品分类的商品明细数据，应用平台系统中jieba函数库中的extract_tags函数，设置其allowpos参数为"n"、"nr"、"nz"、"ns"、"nt"、"nw"、"an"、"s"、"r"、"i"、"v"和"a"，提取出商品明细数据中的所有文本特征关键词；依据预设的黑名单特征词库，对所有文本特征关键词进行过滤，确定出最终文本特征关键词，完成提取过程；

27、经过上述提取过程后，若能够得出最终文本特征关键词，则判断商品标题描述清楚，对应文本数据有效，直接使用最优fasttext模型预测商品分类；若无法提取出任何文本特征关键词，则判断商品标题描述不清，对应文本数据无效，提取对应图片数据，使用最优efficientnet模型预测商品分类。

28、现有技术仅采用单一文本分类模型时，因文本特征有效信息缺失或匮乏，导致推理结果不准确；仅采用单一图片分类模型时，因向量纬度高、模型结构复杂，导致推理效率低、硬件成本高。因此，与现有技术相比，由于采用了本技术方案，本发明的有益效果如下：

29、1、本发明对大部分文本特征描述清楚的商品，仅使用文本分类模型，可大幅提高推理效率和推理精度，节约硬件成本；

30、2、本发明只有当商品文本特征缺失或不清楚时，才启用图片分类模型，使得局部商品分类推理过程更精准；

31、3、本发明只对少量文本特征缺失或不清楚的商品进行图片分类模型的训练和推理，使得图片模型的训练成本更低，推理效率更高；

32、4、本发明充分考虑了文本特征缺失的情况，以文本分类模型和图片分类模型协同解决商品分类问题。

33、综上，本发明可以提高商品分类系统在海量直播电商商品分类任务中的执行效率和推理精度，同时降低了商品自动分类功能的成本。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：詹杰,王骥,王雨,高冬宝,郑云峰,段洪秀
技术所有人：上海新榜信息技术股份有限公司
我是此专利的发明人

上一篇：一种循环流化床锅炉定量木屑掺烧装置的制作方法
上一篇：一种建筑外墙保温板用拼缝固定装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。