一种数据增强方法及相关装置与流程

文档序号:41271071发布日期:2025-03-17 17:36阅读:1来源:国知局
一种数据增强方法及相关装置与流程

本发明涉及计算机,尤其是涉及一种数据增强方法及相关装置。


背景技术:

1、随着电子商务平台、社交媒体、流媒体服务等平台的迅猛发展,用户每天产生的交互数据量呈爆炸式增长。这些平台积累了大量的用户行为数据,如点击、购物、浏览记录等,通过分析用户的兴趣和偏好,为用户提供感兴趣概率高的对象,如短视频、商品等,从而提升用户体验、增加用户粘性和转化率。

2、相关技术中,通过序列召回预测用户感兴趣的对象,序列召回指在推荐任务中通过分析用户历史行为序列,从大规模的候选对象集合中预测用户感兴趣的对象的过程。

3、然而,相关技术中用于序列召回的历史行为序列准确性较低。


技术实现思路

1、针对上述问题,本技术提供一种数据增强方法及相关装置,用于解决提高历史行为序列的准确性。

2、基于此,本技术公开了如下技术方案:

3、第一方面,本技术实施例提供了一种数据增强方法,所述方法包括:

4、获取待增强序列,所述待增强序列包括多个对象节点以及用于连接所述对象节点之间的有向边,所述待增强序列用于指示用户在会话中选择对象的顺序;

5、根据各个所述对象节点分别对应的潜在对象节点,确定包括多个带权有向边的有向图,所述带权有向边用于从所述对象节点指向所述对象节点对应的潜在对象节点,所述带权有向边携带的权重用于指示所述用户在选择目标对象后选择所述目标对象对应的潜在对象的概率;

6、按照所述带权有向边携带的权重对所述有向图进行遍历,得到所述待增强序列对应的目标增强序列,其中,所述带权有向边携带的权重越大,遍历至所述带权有向边指向的对象节点的概率越高。

7、可选地,所述根据各个所述对象节点分别对应的潜在对象节点,确定多个带权有向边,得到有向图,包括:

8、确定各个所述对象节点分别对应的待赋权有向边,所述待赋权有向边用于从所述对象节点指向所述对象节点对应的潜在对象节点;

9、获取关联程度与权重之间的对应关系,在所述对应关系中,所述关联程度越高,所述权重越大;

10、获取各个所述潜在对象节点与对应的所述对象节点之间的多个关联程度;

11、根据所述对应关系确定各个所述待赋权有向边分别对应的权重,得到包括多个所述带权有向边的有向图。

12、可选地,所述方法还包括:

13、根据所述对应关系确定各个所述待赋权有向边分别对应的基础权重;

14、获取协同过滤模型,所述协同过滤模型用于确定两个对象之间的相似度,所述相似度用于指示所述待赋权有向边对应的两个对象同时出现的频率,所述频率越高,所述相似度越高;

15、根据所述协同过滤模型确定各个所述待赋权有向边分别对应的相似度;

16、根据各个所述待赋权有向边分别对应的相似度对所述基础权重进行调整,得到各个所述待赋权有向边分别对应的权重。

17、可选地,所述潜在对象节点与对应的所述对象节点之间的关联程度通过所述潜在对象节点所在窗口与对应的所述对象节点所在窗口之间的距离确定得到,所述距离越小,所述关联程度越高,所述各个所述对象节点分别对应的潜在对象节点通过如下方式确定:

18、获取预设窗口范围,所述预设窗口范围用于指示当前推荐算法所确定的对象分布范围;

19、针对所述多个对象节点中的目标对象节点,根据所述目标对象节点的位和预设窗口范围确定所述目标对象节点的潜在对象分布范围;

20、将所述多个对象节点中位于所述潜在对象分布范围的对象节点确定为所述目标对象节点的潜在对象节点;

21、将各个所述对象节点分别作为所述目标对象节点,得到各个所述对象节点分别对应的潜在对象节点。

22、可选地,所述根据各个所述对象节点分别对应的潜在对象节点,确定包括多个带权有向边的有向图,包括:

23、根据各个所述对象节点分别对应的潜在对象节点,确定包括多个带权有向边的初始有向图;

24、根据用户选择对象的行为数据,对所述初始有向图执行丢弃操作,得到所述有向图,所述丢弃操作用于对所述初始有向图包括的对象节点或者带权有向边进行丢弃。

25、可选地,所述根据用户选择对象的行为数据,对所述初始有向图执行丢弃操作,得到所述有向图,包括:

26、获取间隔时间阈值,以及各个通过所述带权有向边连接的对象节点对的间隔时间;

27、若所述对象节点对的间隔时间超过所述间隔时间阈值,则根据所述间隔时间超过所述间隔时间阈值的超时程度确定所述丢弃操作的第一概率,所述超时程度越高,所述第一概率越高;

28、按照所述第一概率对所述初始有向图中用于连接所述对象节点对的带权有向边执行所述丢弃操作。

29、可选地,所述根据用户选择对象的行为数据,对所述初始有向图执行丢弃操作,得到有向图,包括:

30、获取概率预测模型,所述概率预测模型用于预测所述用户在选择所述对象后终止互动的概率;

31、根据所述用户的特征数据和各个所述对象节点分别对应的特征数据,通过所述概率预测模型进行预测,得到各个所述对象节点分别对应的第二概率;

32、针对所述初始有向图中的各个所述对象节点,按照所述第二概率对所述第二概率对应的对象节点执行所述丢弃操作。

33、可选地,若所述待增强序列包括第一待增强序列和第二待增强序列,所述有向图包括第一有向图和第二有向图,其中,根据所述第一待增强序列得到第一有向图,根据所述第二待增强序列得到第二有向图,则所述按照所述带权有向边携带的权重对所述有向图进行遍历,得到所述待增强序列对应的目标增强序列,包括:

34、按照所述第一待增强序列中所述带权有向边携带的权重对所述第一有向图进行遍历,得到第一增强序列;

35、按照所述第二待增强序列中所述带权有向边携带的权重对所述第二有向图进行遍历,得到第二增强序列;

36、为所述第一增强序列分配第一标识,为所述第二增强序列分配第二标识,得到所述第一待增强序列对应的第一目标增强序列和所述第二待增强序列对应的第二目标增强序列,所述第一标识和所述第二标识用于表征所述第一待增强序列和所述第二待增强序列对应的会话先后顺序。

37、第二方面,本技术实施例提供了一种数据增强装置,所述装置包括:获取单元、构图单元和遍历单元;

38、所述获取单元,用于获取待增强序列,所述待增强序列包括多个对象节点以及用于连接所述对象节点之间的有向边,所述待增强序列用于指示用户在会话中选择对象的顺序;

39、所述构图单元,用于根据各个所述对象节点分别对应的潜在对象节点,确定包括多个带权有向边的有向图,所述带权有向边用于从所述对象节点指向所述对象节点对应的潜在对象节点,所述带权有向边携带的权重用于指示所述用户在选择目标对象后选择所述目标对象对应的潜在对象的概率;

40、所述遍历单元,用于按照所述带权有向边携带的权重对所述有向图进行遍历,得到所述待增强序列对应的目标增强序列,其中,所述带权有向边携带的权重越大,遍历至所述带权有向边指向的对象节点的概率越高。

41、第三方面,本技术实施例提供了一种计算机设备,所述计算机设备包括处理器以及存储器:

42、所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;

43、所述处理器用于根据所述计算机程序执行以上第一方面所述的方法。

44、第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行以上第一方面所述的方法。

45、第五方面,本技术实施例提供了一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得所述计算机设备执行以上第一方面所述的方法。

46、从以上技术方案可以看出,本技术至少具有以下有益效果:

47、会话为预设时长内用户的一系列交互行为,本技术通过挖掘会话中的潜在信息,对待增强序列进行数据增强,提高推荐任务上游数据的准确性。获取待增强序列,待增强序列包括多个对象节点以及用于连接对象节点之间的有向边,待增强序列用于指示用户在会话中选择对象的顺序。根据各个对象节点分别对应的潜在对象节点,确定包括多个带权有向边的有向图,带权有向边用于从对象节点指向对象节点对应的潜在对象节点,带权有向边携带的权重用于指示用户在选择目标对象后选择目标对象对应的潜在对象的概率,从而能够通过带权有向边建立对象节点与其在会话中对应的潜在对象节点的关联关系,将待增强序列扩展为更能体现用户互动行为的有向图。按照带权有向边携带的权重对有向图进行遍历,得到待增强序列对应的目标增强序列,其中,带权有向边携带的权重越大,遍历至带权有向边指向的对象节点的概率越高。由此,按照能够表征用户选择对象概率的权重,遍历通过挖掘会话潜在信息得到的有向图,得到准确性更高的目标增强序列,使得当目标增强序列用于序列召回时,能够更加准确地预测与用户相关的对象。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1