模型训练方法、关键词推荐方法、终端设备以及存储介质

文档序号：37443698发布日期：2024-03-28 18:26阅读：13来源：国知局

本申请主要涉及自然语言，强化学习领域尤其涉及一种基于推荐算法的模型训练方法、关键词推荐方法、终端设备以及计算机可读存储介质。

背景技术：

1、根据调研发现，大型商家可以通过广告及seo(搜索引擎优化技术)的方式，为商品引流，提高商品在搜索引擎及电商平台的搜索排名。无法承担广告成本及没有公司站点的小型商家，只能通过经验对商品描述进行调整，提高商品的搜索排名。seo技术只能帮助有公司主页的商品提供技术服务，没有个人站点。由于电商平台的推荐算法不公开以及电商平台环境的复杂性，没有相应的技术提供给卖家作为调整关键词内容及顺序的依据。

2、现有技术的缺点在于获取真实电商数据的困难很大，即使获取到了，训练出来的模型也是静态的，而电商环境会实时变化，热搜词也会实时更新，训练出来的模型滞后于这种变化，实际应用效果不佳。

技术实现思路

1、本申请提供了一种基于推荐算法的模型训练方法、关键词推荐方法、终端设备以及计算机可读存储介质。

2、为解决上述技术问题，本申请提供了一种基于推荐算法的模型训练方法，所述模型训练方法包括：

3、获取电商平台推荐商品的第一关键词组合；

4、基于电商平台推荐的商品，获取第一用户反馈；

5、将电商平台推荐商品的第一关键词组合及与商品相对应的第一用户反馈，作为强化学习算法模型的输入，对所述强化学习算法模型进行训练，以获得与所述电商平台的推荐算法相匹配的强化学习算法模型，输出相应的关键词组合。

6、其中，所述第一用户反馈包括用户的商品选择、用户在推荐页面的停留时间。

7、其中，所述基于电商平台推荐的商品，获取第一用户反馈之后，所述模型训练方法还包括：

8、获取所述强化学习算法模型基于所述商品生成的第二关键词组合；

9、将所述第一关键词组合、所述第二关键词组合、所述第一用户反馈作为所述强化学习算法模型的输入，对所述强化学习算法模型进行训练。

10、其中，所述获取所述强化学习算法模型基于所述商品生成的第二关键词组合之后，所述模型训练方法还包括：

11、获取所述强化学习算法模型基于所述商品，预测的第二用户反馈；

12、将第一关键词组合、所述第二关键词组合、所述第一用户反馈、所述第二用户反馈作为所述强化学习算法模型的输入，对所述强化学习算法模型进行训练。

13、其中，所述对所述强化学习算法模型进行训练，包括：

14、基于所述第一关键词组合和所述第二关键词组合的差异信息，对所述强化学习算法模型进行训练。

15、其中，所述获取电商平台推荐商品的第一关键词组合，包括：

16、初始化商品推荐界面；

17、基于所述商品推荐界面的历史推荐商品记录，生成第一关键词组合。

18、其中，所述历史推荐商品记录包括历史关键词组合及其推荐商品，以及用户选择商品记录。

19、为解决上述技术问题，本申请提供了一种关键词推荐方法，所述关键词推荐方法包括：

20、获取用户输入的搜索词；

21、将所述搜索词输入预先训练的强化学习算法模型，以获取所述强化学习算法模型输出的关键词组合；

22、其中，所述推荐算法模型由上述的模型训练方法训练所得。

23、为解决上述技术问题，本申请提供了一种终端设备，其中，所述终端设备包括处理器、与所述处理器连接的存储器，其中，所述存储器存储有程序指令；

24、所述处理器用于执行所述存储器存储的程序指令以实现如上述模型训练方法和/或关键词推荐方法。

25、为解决上述技术问题，本申请提供了一种计算机可读存储介质，所述存储介质存储有程序指令，所述程序指令被执行时实现上述模型训练方法和/或关键词推荐方法。

26、与现有技术相比，本申请的有益效果是：终端设备获取电商平台推荐商品的第一关键词组合；基于电商平台推荐的商品，获取第一用户反馈；将电商平台推荐商品的第一关键词组合及与商品相对应的第一用户反馈，作为强化学习算法模型的输入，对所述强化学习算法模型进行训练，以获得与所述电商平台的推荐算法相匹配的强化学习算法模型，输出相应的关键词组合。本申请通过基于强化学习算法模型的模型训练方法使用强化学习的方法，在动态交互的过程中，实时对模型进行训练，以生成和电商平台的推荐算法最匹配的关键词序列。

技术特征：

1.一种基于强化学习算法的模型训练方法，其特征在于，所述模型训练方法包括：

2.根据权利要求1所述的模型训练方法，其特征在于，

3.根据权利要求1所述的模型训练方法，其特征在于，

4.根据权利要求3所述的模型训练方法，其特征在于，

5.根据权利要求4所述的模型训练方法，其特征在于，

6.根据权利要求1所述的模型训练方法，其特征在于，

7.根据权利要求6所述的模型训练方法，其特征在于，

8.一种关键词推荐方法，其特征在于，所述关键词推荐方法包括：

9.一种终端设备，其特征在于，所述终端设备包括处理器、与所述处理器连接的存储器，其中，

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序指令，所述程序指令被执行时实现如权利要求1至7任一项所述的模型训练方法和/或权利要求8所述的关键词推荐方法。

技术总结
本申请提出了一种基于强化学习方法的模型训练方法、关键词推荐方法、终端设备以及计算机可读存储介质。该模型训练方法包括：获取电商平台推荐商品的第一关键词组合；基于电商平台推荐的商品，获取第一用户反馈；将电商平台推荐商品的第一关键词组合及与商品相对应的第一用户反馈，作为强化学习算法模型的输入，对所述强化学习算法模型进行训练，以获得与所述电商平台的推荐算法相匹配的强化学习算法模型，输出相应的关键词组合。本申请通过基于强化学习算法模型的模型训练方法使用强化学习的方法，在动态交互的过程中，实时对模型进行训练，以生成和电商平台的推荐算法最匹配的关键词序列。

技术研发人员：程鹏航,张涌
受保护的技术使用者：中国科学院深圳先进技术研究院
技术研发日：
技术公布日：2024/3/27

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程鹏航,张涌
技术所有人：中国科学院深圳先进技术研究院
我是此专利的发明人

上一篇：一种大米粉碎装置的制作方法
上一篇：一种塑料管材生产用配料设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。