特征提取模型的训练方法以及对象数据处理方法与流程

文档序号:30425798发布日期:2022-06-15 14:57阅读:489来源:国知局
特征提取模型的训练方法以及对象数据处理方法与流程

1.本技术涉及互联网通信技术领域,尤其涉及一种特征提取模型的训练方法以及对象数据处理方法。


背景技术:

2.随着互联网通信技术的发展,各类互联网产品层出不穷,这些互联网产品可以为用户提供相关业务服务的使用体验。为提高用户的使用体验,可以根据用户数据(经用户许可或者同意的数据)来确定用户的需求、兴趣、偏好等,进而为其提供更准确有效的业务服务。相关技术中,根据用户数据确定用户兴趣时常依赖关系用户(比如好友),那么对于缺乏关系用户场景(比如相关互联网产品未提供建立用户关系的功能、相关用户不存在关系用户)将存在用户兴趣确定困难的问题。同时,对于关系用户的依赖也容易造成所确定的用户兴趣有偏,比如用户兴趣偏向相关用户与关系用户的兴趣交集。因此,需要提供从用户数据进行准确有效的兴趣特征提取的方案。


技术实现要素:

3.为了解决现有技术应用在确定用户兴趣时,准确度低、适用性差等问题,本技术提供了一种特征提取模型的训练方法以及对象数据处理方法:
4.根据本技术的第一方面,提供了一种特征提取模型的训练方法,所述方法包括:
5.将指示同一样本对象的样本数据分别输入特征提取模型中的多个预设动态映射网络;其中,所述样本数据包括多个操作类特征,所述多个预设动态映射网络分别用于关联所述样本数据与不同维度的表征特征;
6.分别利用每个所述预设动态映射网络处理所述多个操作类特征,得到每个所述预设动态映射网络输出的表征特征;
7.分别确定与每个所述预设动态映射网络输出的表征特征相匹配的候选内容,以得到候选内容集;
8.根据所述候选内容集与所述样本对象对应的实际关联内容的差异修正所述特征提取模型。
9.根据本技术的第二方面,提供了一种对象数据处理方法,所述方法包括:
10.响应于对象数据处理指令,确定指示指定对象的多个指定操作类特征;
11.以所述多个指定操作类特征为输入,利用如第一方面所述的修正后的特征提取模型得到对应的多个目标表征特征。
12.根据本技术的第三方面,提供了一种特征提取模型的训练装置,所述装置包括:
13.输入模块:用于将指示同一样本对象的样本数据分别输入特征提取模型中的多个预设动态映射网络;其中,所述样本数据包括多个操作类特征,所述多个预设动态映射网络分别用于关联所述样本数据与不同维度的表征特征;
14.处理模块:用于分别利用每个所述预设动态映射网络处理所述多个操作类特征,
得到每个所述预设动态映射网络输出的表征特征;
15.匹配模块:用于分别确定与每个所述预设动态映射网络输出的表征特征相匹配的候选内容,以得到候选内容集;
16.修正模块:用于根据所述候选内容集与所述样本对象对应的实际关联内容的差异修正所述特征提取模型。
17.根据本技术的第四方面,提供了一种对象数据处理装置,所述装置包括:
18.响应模块:用于响应于对象数据处理指令,确定指示指定对象的多个指定操作类特征;
19.特征提取模块:用于以所述多个指定操作类特征为输入,利用如第一方面所述的修正后的特征提取模型得到对应的多个目标表征特征。
20.根据本技术的第五方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如第一方面所述的特征提取模型的训练方法或者如第二方面所述的对象数据处理方法。
21.根据本技术的第六方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如第一方面所述的特征提取模型的训练方法或者如第二方面所述的对象数据处理方法。
22.根据本技术的第七方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如第一方面所述的特征提取模型的训练方法或者如第二方面所述的对象数据处理方法。
23.本技术提供的一种特征提取模型的训练方法以及对象数据处理方法,具有如下技术效果:
24.本技术通过将指示同一样本对象的样本数据(多个操作类特征)分别输入特征提取模型中的多个预设动态映射网络;然后,分别利用每个预设动态映射网络处理多个操作类特征,得到每个预设动态映射网络输出的表征特征;再者,分别确定与每个预设动态映射网络输出的表征特征相匹配的候选内容,以得到候选内容集,进而根据候选内容集与样本对象对应的实际关联内容的差异修正特征提取模型。本技术提供了一种用于从用户数据提取多个表征特征的模型,该模型中的多个预设动态映射网络分别用于关联样本数据与不同维度的表征特征,这样实现了通过特征提取模型输出多维度特征的能力。相较于相关技术对于关系用户的依赖,本技术中训练数据是样本对象维度的数据,提高了训练数据的采集便捷性。相应的,利用特征提取模型处理指定对象维度的数据,也提高了对于对象数据处理指令的响应能力。在处理指定对象维度的数据时,可以不再关注相关关系用户,提高了表征特征提取的准确度和适应性,进而提高了对于用户兴趣的捕捉、挖掘能力。同时,特征提取模型的建立依赖动态映射网络,动态映射网络中相关参数可以基于训练中间结果动态变化,保证了特征提取模型能够具备高泛化能力。多个依赖动态映射网络的应用,进一步提高了特征提取模型所输出表征特征的全局性,进而提高了表征特征提取的可靠性和有效性。
附图说明
25.为了更清楚地说明本技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
26.图1是本技术实施例提供的一种应用环境的示意图;
27.图2是本技术实施例提供的一种特征提取模型的训练方法的流程示意图;
28.图3是本技术实施例提供的得到预设动态映射网络输出的表征特征的一种流程示意图;
29.图4是本技术实施例提供的一种对象数据处理方法的流程示意图;
30.图5是本技术实施例提供的利用多个目标表征特征建立指定对象与目标内容维度的定向关系的一种流程示意图;
31.图6是本技术实施例提供的一种特征提取模型的训练装置的组成框图;
32.图7是本技术实施例提供的一种对象数据处理装置的组成框图;
33.图8是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
34.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
35.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
36.请参阅图1,图1是本技术实施例提供的一种应用环境的示意图,该应用环境中可以包括客户端10和服务器端20。客户端10与服务器端20可以通过有线或无线通信方式进行直接或间接地连接。相关对象(比如用户、模拟器)可以通过客户端10向服务器端20发送对象数据处理指令。服务器端20响应于接收到的对象数据处理指令,确定指示指定对象的多个指定操作类特征;然后,以多个指定操作类特征为输入,利用修正后的特征提取模型得到对应的多个目标表征特征。其中,修正后的特征提取模型可以是由服务器端20通过下述步骤进行训练得到的:首先,通过将指示同一样本对象的样本数据(多个操作类特征)分别输入特征提取模型中的多个预设动态映射网络;然后,分别利用每个预设动态映射网络处理多个操作类特征,得到每个预设动态映射网络输出的表征特征;再者,分别确定与每个预设动态映射网络输出的表征特征相匹配的候选内容,以得到候选内容集,进而根据候选内容集与样本对象对应的实际关联内容的差异修正特征提取模型。需要说明的是,图1仅仅是一种示例。
37.客户端10可以是智能手机、电脑(如台式电脑、平板电脑、笔记本电脑)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、数字助理、智能语音交互
设备(如智能音箱)、智能可穿戴设备、智能家电、车载终端等类型的实体设备,也可以是运行于实体设备中的软体,比如计算机程序。客户端所对应的操作系统可以是安卓系统(android系统)、ios系统(是由苹果公司开发的移动操作系统)、linux系统(一种操作系统)、microsoft windows系统(微软视窗操作系统)等。
38.服务器端20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端可以为对应的客户端提供后台服务。
39.在实际应用中,修正后的特征提取模型也可以不是服务器端20训练得到的。利用修正后的特征提取模型所得到的多个目标表征特征,可以是不同维度的兴趣特征。通过这些多维度特征可以构建指定对象的画像、可以进行内容召回等。所召回的内容可以不限于文本、图像、图文、视频(比如短视频、长视频、直播视频等),所召回的内容可以是广告的表现形式。
40.本技术实施例提供的特征提取模型的训练方案或者对象数据处理方案可以用到有关机器学习(machine learning,ml)的技术。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
41.本技术实施例提供的特征提取模型的训练方案或者对象数据处理方案可以用到有关云计算(cloud computing)的技术。云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为iaas(infrastructure as a service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在iaas(infrastructure as a service,基础设施即服务)层上可以部署paas(platform as a service,平台即服务)层,paas层之上再部署saas(software as a service,软件即服务)层,也可以直接将saas部署在iaas上。paas为软件运行的平台,如数据库、web容器等。saas为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,saas和paas相对于iaas是上层。
42.需要说明的是,对于与用户信息存在关联关系的操作类特征,当本技术实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
43.以下介绍本技术一种特征提取模型的训练方法的具体实施例,图2是本技术实施例提供的一种特征提取模型的训练方法的流程示意图,本技术提供了如实施例或流程图所
述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
44.s201:将指示同一样本对象的样本数据分别输入特征提取模型中的多个预设动态映射网络;其中,所述样本数据包括多个操作类特征,所述多个预设动态映射网络分别用于关联所述样本数据与不同维度的表征特征;
45.在本技术实施例中,服务器端将指示同一样本对象的样本数据分别输入特征提取模型中的多个预设动态映射网络。一个样本对象(比如用户、模拟器)的样本数据可以包括多个操作类特征。多个操作类特征可以与样本对象的一个操作行为相关,多个操作类特征可以是对该操作行为的表征,多个操作类特征可以是对该操作行为的关联内容的表征,多个操作类特征也可以是对该操作行为以及该操作行为的关联内容的表征。多个操作类特征可以与样本对象的一个操作行为路径(包括连续的至少两个操作行为)相关,多个操作类特征可以是对该操作行为路径的表征,多个操作类特征可以是对该操作行为路径的关联内容的表征,多个操作类特征也可以是对该操作行为路径以及该操作行为路径的关联内容的表征。当然,多个操作类特征也可以与离散的至少两个操作行为(路径)相关。以操作行为a为点击行为为例,对操作行为a的表征可以是对点击行为的表征、对点击行为所作用的页面对象的表征。页面对象可以是按钮、输入框等。操作行为a的关联内容可以是基于页面对象所确定的内容,该内容可以是相关互联网产品中的推送内容,推送内容可以不限于文本、图像、图文、视频(比如短视频、长视频、直播视频等),推送内容可以是广告的表现形式。相应的,对关联内容的表征可以对关联内容的内容标识、内容类型的表征,比如以广告商品id(标识)、广告商品类型作为操作类特征。
46.待训练的特征提取模型可以包括多个预设动态映射网络,多个预设动态映射网络分别用于关联样本数据与不同维度的表征特征,即一个预设动态映射网络用于建立样本数据与一个维度的表征特征间的关联关系。不同维度的表征特征,可以是不同维度的兴趣特征。示例性的,不同维度的兴趣特征可以是基于时间来设置的,比如长期兴趣、短期兴趣。不同维度的兴趣特征可以是基于相关互联网产品中的推送内容来设置的,比如广告商品类型兴趣(如对于饮品的兴趣、对于服装的兴趣)、表现形式兴趣(如对于视频的兴趣、对于图文的兴趣)。多个预设动态映射网络可以组成特征提取模型中的动态映射层。
47.在实际应用中,操作类特征可以是embedding(嵌入)向量的形式。以广告商品id、广告商品类型作为操作类特征为例,可以将广告商品id、广告商品类型视作原始特征,可以将每个原始特征表示成一个one-hot(独热)向量,再通过embedding(嵌入)层将one-hot向量转换成对应的embedding向量。其中,多个原始特征可以形成一个原始特征序列(用户行为序列)为iu={ii,i∈u}。embedding层用于将id类系数特征转化为稠密向量。进一步的,可以再通过pooling(池化)层对embedding向量进行mean(均值)或者max(最大)、min(最小)池化等处理,池化处理后的多个embedding向量可以形成一个目标特征序列(用户行为序列)为eu={ei,i∈u}。
48.s202:分别利用每个所述预设动态映射网络处理所述多个操作类特征,得到每个所述预设动态映射网络输出的表征特征;
49.在本技术实施例中,服务器端分别利用每个预设动态映射网络处理多个操作类特征,得到每个预设动态映射网络输出的表征特征。特征提取模型中参与样本数据处理的预设动态映射网络可以是全部预设动态映射网络,也可以是部分预设动态映射网络。可以根据样本数据的场景属性来确定特征提取模型中参与样本数据处理的具体预设动态映射网络。比如样本数据携带了用于训练模型提取x维度的表征特征的任务信息,那么选取特征提取模型中与提取x维度的表征特征相关的预设动态映射网络参与处理样本数据。所选取的预设动态映射网络可以包括用于提取x维度的表征特征的预设动态映射网络,以及用于提取y维度的表征特征的预设动态映射网络,其中y维度的表征特征与x维度的表征特征具有一定程度的相关性。参与样本数据处理的预设动态映射网络可以并行执行样本数据的处理步骤。以m个预设动态映射网络参与样本数据处理为例,可以得到m个表征特征,即tm={tj,j∈m}。在实际应用中,操作类特征是embedding向量的形式,表征特征也是embedding向量的形式。
50.在一示例性的实施方式中,如图3所示,所述分别利用每个所述预设动态映射网络处理所述多个操作类特征,得到每个所述预设动态映射网络输出的表征特征,包括:
51.s301:基于所述预设动态映射网络的当前映射参数、所述多个操作类特征以及每个所述操作类特征对应的映射权重信息,得到所述预设动态映射网络本次输出的表征特征;其中,所述当前映射参数是基于所述预设动态映射网络前次输出的表征特征和所述多个操作类特征对前次映射参数进行更新得到的,所述操作类特征对应的映射权重信息是基于所述操作类特征、所述当前映射参数以及所述前次输出的表征特征得到的;
52.s302:重复上述得到所述预设动态映射网络本次输出的表征特征的步骤,直至重复次数等于次数阈值;
53.s303:确定最近一次输出的表征特征为所述预设动态映射网络输出的表征特征。
54.在训练过程中,可以利用每个预设动态映射网络一次性输出的表征特征来召回候选内容,进而修正特征提取模型;也可以利用每个预设动态映射网络多次输出的表征特征中最近一次输出的表征特征来召回候选内容,进而修正特征提取模型,这样可以保证用于进行内容召回的表征特征的准确度和有效性,进而减少内容召回、模型修正的次数以提高模型训练的效率,尤其对于首次参与样本数据处理的预设动态映射网络。
55.一个预设动态映射网络可以是一个映射矩阵,比如一个线性映射矩阵。下面以一个预设动态映射网络为例,介绍预设动态映射网络多次输出表征特征的过程:
56.1)预设动态映射网络首次输出的表征特征:该表征特征可以是基于预设动态映射网络的初始映射参数、多个操作类特征以及每个操作类特征对应的映射权重信息得到的。其中,操作类特征对应的映射权重信息可以指示初始映射权重信息。
57.2)预设动态映射网络非首次输出的表征特征:该表征特征可以是基于预设动态映射网络的当前映射参数、多个操作类特征以及每个操作类特征对应的映射权重信息得到的。其中,当前映射参数是基于预设动态映射网络前次输出的表征特征和多个操作类特征对前次映射参数进行更新得到的,操作类特征对应的映射权重信息是基于操作类特征、当前映射参数以及前次输出的表征特征得到的。
58.示例性的,可以使用正太分布的方式初始化线性映射矩阵s,假设线性映射矩阵s中第i行第j列的值为s
ij
。可以取s
ij
对应的初值为上述初始映射参数。若b
ij
表示行为向量
(操作类特征)ei和兴趣向量(表征特征)tj的映射关系,可以利用b
ij
对应的初值确定操作类特征对应的映射权重信息w
ij
=softmax(b
ij
),这样每个操作类特征对应的映射权重信息相同。
59.可以利用前次输出的表征特征和多个操作类特征来确定有关前次映射参数s
ij(w)
的反向梯度进而得到当前映射参数其中w表示已迭代次数。可以通过b
ij(w+1)
=b
ij(w)
+t
j(w)sij(w+1)ei
来实现映射关系的更新,进而利用b
ij(w+1)
更新映射权重信息。相应的,可以利用更新后的映射参数、映射权重信息继续处理样本数据得到对应的表征特征。可以理解,预设动态映射网络每次处理多个操作类特征eu={ei,i∈u},得到一个表征特征tj。该过程一共执行r次,取第r次输出的表征特征作为用于进行内容召回的表征特征。
60.进一步的,所述基于所述预设动态映射网络的当前映射参数、所述多个操作类特征以及每个所述操作类特征对应的映射权重信息,得到所述预设动态映射网络本次输出的表征特征,可以包括以下步骤:首先,分别基于所述多个操作类特征中每个所述操作类特征及其对应的映射权重信息和所述预设动态映射网络的当前映射参数,得到每个所述操作类特征对应的局部关联特征w
ijsijei
;然后,基于所述多个操作类特征中每个所述操作类特征对应的局部关联特征得到全局关联特征zj=∑
i∈uwijsijei
;再者,对所述全局关联特征进行归一化处理得到所述预设动态映射网络本次输出的表征特征
61.先确定每个操作类特征对应的局部关联特征,再整合各个局部关联特征得到全局关联特征,实现了更全面的从多个操作类特征中捕捉、挖掘信息。归一化处理实现了全局关联特征的抽象表达,可以提高用到表征特征的环节的效率和便捷性,比如更新映射参数、映射权重信息。也可以提高源自不同预设动态映射网络的表征特征的兼容性、一致性,进而提高后续内容召回的效率和模型修正效率。
62.此外,对于上述利用映射关系b
ij(w+1)
更新映射权重信息,可以通过下述步骤实现:首先,基于所述操作类特征、所述当前映射参数以及所述前次输出的表征特征得到所述操作类特征对应的第一映射关系信息;然后,利用预设函数处理所述操作类特征对应的第一映射关系信息得到所述操作类特征对应的第二映射关系信息;再者,基于所述多个操作类特征中每个所述操作类特征对应的第一映射关系信息得到第三映射关系信息;最后,基于所述第三映射关系信息和所述操作类特征对应的第二映射关系信息得到所述操作类特征对应的映射权重信息。
63.可以利用b
ij(w+1)
表示第一映射关系信息。为表达方便,这里省略有关已迭代次数w的下标,可以使用b
ij
表示目标操作类特征对应的第一映射关系信息,目标操作类特征可以是多个操作类特征中的任一操作类特征。处理第一映射关系信息的预设函数可以是指数函数,比如带有底数e的指数函数,相应的,可以使用exp(b
ij
)表示目标操作类特征对应的第二映射关系信息。可以使用表示第三映射关系信息,其中m表示多个操作类特征中操作类特征的总数。可以使用表示目标操作类特征对应的映射权重信息。映射权重
信息描述了单个操作类特征对应的局部映射关系在全局映射关系上的权重,局部映射关系采用指数函数的处理结果,可以提高映射权重信息对于局部映射关系的反映能力。映射权重高的操作类特征对应的局部关联特征对全局关联特征的贡献更大,映射权重低的操作类特征对应的局部关联特征对全局关联特征的贡献更小,本技术提供的映射权重信息可以更放大前者的贡献、更缩小后者的贡献,这样可以提高全局关联特征对于多个操作类特征中关键信息的关注。
64.s203:分别确定与每个所述预设动态映射网络输出的表征特征相匹配的候选内容,以得到候选内容集;
65.在本技术实施例中,服务器端分别确定与每个预设动态映射网络输出的表征特征相匹配的候选内容,以得到候选内容集。可以分别基于每个预设动态映射网络输出的表征特征,从待选内容池中召回相匹配的候选内容。待选内容池中的内容与表征特征是否匹配,可以通过分别计算待选内容池中的内容与表征特征的关联度来确定。若关联度大于或等于关联度阈值,那么判定对应内容为候选内容。也可以根据关联度对待选内容池中的内容进行降序排序以得到序列,然后取序列中位于前预设数值的内容为候选内容。以m个表征特征为例,待选内容池中的每个内容可以对应m个关联度。在利用关联度阈值确定候选内容时,可以同一内容对应的m个关联度均参与比较,若有一关联度大于或等于关联度阈值,该内容即为候选内容;可以同一内容对应的m个关联度均参与比较,若有半数以上(设置全数)的关联度大于或等于关联度阈值,该内容即为候选内容;可以取同一内容对应的m个关联度的统计值(比如均值、中位数)参与比较,若该统计值大于或等于关联度阈值,该内容即为候选内容。在利用序列确定候选内容时,可以利用每个内容对应的m个关联度的统计值(比如均值、中位数、最大值)进行内容排序。
66.s204:根据所述候选内容集与所述样本对象对应的实际关联内容的差异修正所述特征提取模型。
67.在本技术实施例中,服务器端根据候选内容集与样本对象对应的实际关联内容的差异修正特征提取模型。样本对象对应的实际关联内容可以是前述步骤s201中涉及的关联内容,不再赘述。候选内容集与实际关联内容的差异,可以根据内容特征来确定。若候选内容集对应的内容特征与实际关联内容对应的内容特征间的相似度小于相似度阈值,那么判定候选内容集与实际关联内容存在差异。内容标识、内容类型可以作为内容特征的数据源,内容特征还可以是文本语义特征、图像特征、风格特征等。相似度可以通过欧式距离、余弦相似度来确定。对于特征提取模型的修正可以是修正参与样本数据处理的预设动态映射网络的相关参数,所修正的相关参数可以是前述映射参数。
68.此外,可以根据实际关联内容所属的内容集合,先从待选内容池中确定待选内容集合,再基于待选内容集合执行候选内容的确定。这样可以提高候选内容确定的效率,从而提高模型修正效率。
69.由以上本技术实施例提供的技术方案可见,本技术实施例通过将指示同一样本对象的样本数据(多个操作类特征)分别输入特征提取模型中的多个预设动态映射网络;然后,分别利用每个预设动态映射网络处理多个操作类特征,得到每个预设动态映射网络输出的表征特征;再者,分别确定与每个预设动态映射网络输出的表征特征相匹配的候选内容,以得到候选内容集,进而根据候选内容集与样本对象对应的实际关联内容的差异修正
特征提取模型。本技术提供了一种用于从用户数据提取多个表征特征的模型,该模型中的多个预设动态映射网络分别用于关联样本数据与不同维度的表征特征,这样实现了通过特征提取模型输出多维度特征的能力。相较于相关技术对于关系用户的依赖,本技术中训练数据是样本对象维度的数据,提高了训练数据的采集便捷性。同时,特征提取模型的建立依赖动态映射网络,动态映射网络中相关参数可以基于训练中间结果动态变化,保证了特征提取模型能够具备高泛化能力。多个依赖动态映射网络的应用,进一步提高了特征提取模型所输出表征特征的全局性,进而提高了表征特征提取的可靠性和有效性。
70.以下介绍本技术一种对象数据处理方法的具体实施例,图4是本技术实施例提供的一种对象数据处理方法的流程示意图,本技术提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图4所示,所述方法可以包括:
71.s401:响应于对象数据处理指令,确定指示指定对象的多个指定操作类特征;
72.在本技术实施例中,响应于对象数据处理指令,服务器端确定指示指定对象的多个指定操作类特征。对象数据处理指令可以是由客户端触发生成并发送而来的,对象数据处理指令也可以是由服务器端触发生成的。对象数据处理指令可以携带指示指定对象(比如用户、模拟器)的信息,进而可以根据该信息确定指示指定对象的多个指定操作类特征。多个指定操作类特征可以参考前述步骤s201中对于多个操作类特征的记载,不再赘述。此外,作为多个指定操作类特征的数据源锚点的操作行为或者操作行为路径可以由对象数据处理指令的携带信息指定的,也可以是在确定指定对象的基础上,将最近的操作行为或者操作行为路径作为多个指定操作类特征的数据源锚点。需要说明的是,这里执行步骤s401-s402的服务器端和上述执行步骤s201-s204的服务器端可以是同一服务器端,也可以是不同服务器端。
73.在一示例性的实施方式中,在所述确定指示指定对象的多个指定操作类特征之后,所述方法还可以包括下述步骤:首先,确定所述多个指定操作类特征对应的第一数量;然后,对所述第一数量进行对数处理得到第二数量;接着,确定所述修正后的特征提取模型中预设动态映射网络对应的第三数量;再者,确定所述第二数量和所述第三数量中的较大值为目标数量;最后,从所述多个指定操作类特征中提取所述目标数量个指定操作类特征为输入数据。
74.以多个指定操作类特征构成一个特征序列(用户行为序列)eu={ei,i∈u}为例,第一数量为多个指定操作类特征的总数u。第二数量是针对第一数量进行对数处理的结果,第二数量可以是log2u。可以确定修正后的特征提取模型中预设动态映射网络对应的第三数量k,再取第二数量和第三数量中的较大值为目标数量,即m=max{k,log2u}。相应的,可以从u个指定操作类特征中取m个指定操作类特征作为输入修正后的特征提取模型的数据。从u个指定操作类特征中取m个指定操作类特征,可以根据历史反馈取其中更具内容召回引导能力的操作类特征,比如取其中表征关联内容的操作类特征。
75.在实际应用中,若m=k≥log2u,那么k个预设动态映射网络均作为处理输入数据的目标预设动态映射网络;若m=log2u》k,那么k个预设动态映射网络均作为处理输入数据
的目标预设动态映射网络;若m=log2u《k,那么可以从k个预设动态映射网络中取m个预设动态映射网络作为处理输入数据的目标预设动态映射网络,其中m个预设动态映射网络可以是随机选取的,也可以是根据业务属性来选取。比如,业务属性指示向指定对象推送视频广告,那么可以优先选取用于关联广告商品类型兴趣的表征特征的预设动态映射网络,可以排除用于关联表现形式兴趣的表征特征的预设动态映射网络。考虑到一般预设动态映射网络的个数是固定的,而指定操作类特征的数量则可能很多,甚至过多。通过目标数量来限制指定操作类特征的数量以及确定目标预设动态映射网络,可以提高处理指定操作类特征得到目标表征特征的效率。
76.s402:以所述多个指定操作类特征为输入,利用如前述步骤s201-s204中所述的修正后的特征提取模型得到对应的多个目标表征特征。
77.在本技术实施例中,服务器端以多个指定操作类特征为输入,利用如前述步骤s201-s204中所述的修正后的特征提取模型得到对应的多个目标表征特征。修正后的特征提取模型处理指定操作类特征得到目标表征特征的过程,可以参见前述步骤s202,不再赘述。以上述从u个指定操作类特征中取m个指定操作类特征作为输入数据、从k个预设动态映射网络中取m个预设动态映射网络作为目标预设动态映射网络为例,可以得到m个目标表征特征。
78.下面将介绍有关多个目标表征特征的应用:
79.1)可以利用多个目标表征特征构建指定对象的画像。与多个目标表征特征一起进行画像构建的还可以包括指定对象的基础属性特征,基础属性特征可以指示性别、年龄、学历等用户信息。基础属性特征可以是embedding向量的形式。基础属性特征可以是相关原始特征经embedding层、pooling层处理后的结果。其中,embedding层可以对需要处理的特征进行concat(连接)操作。
80.2)可以利用多个目标表征特征进行内容召回。可以确定与每个目标表征特征相匹配的目标内容,以得到目标内容集。这里可以参考前述步骤s203中“确定与每个预设动态映射网络输出的表征特征相匹配的候选内容,以得到候选内容集”的过程,不再赘述。多维度表征特征可以提高所召回内容的多样性,进而提高所召回内容作为针对指定对象的推送内容的应用效果。当然,也可以基于1)中的画像来召回内容。
81.3)可以利用多个目标表征特征建立指定对象与目标内容维度的定向关系。
82.图5所示,所述对象数据处理指令指示多个指定内容,所述多个指定内容包括不同内容维度的内容,在以所述多个指定操作类特征为输入,利用如权利要求1至4中任一项所述的修正后的特征提取模型得到对应的多个目标表征特征之后,所述方法还包括:
83.s501:分别基于每个所述指定内容对应的内容特征与目标表征特征组,确定每个所述指定内容对应的第一关联关系;其中,所述目标表征特征组是由所述多个目标表征特征组成的;
84.s502:基于所述多个指定内容中每个所述指定内容对应的第一关联关系,得到每个所述指定内容对应的关联权重信息;
85.s503:确定关联权重信息满足预设要求的指定内容对应的内容维度为目标内容维度;
86.s504:建立所述目标内容维度与所述指定对象间的第二关联关系。
87.可以使用fq表示目标指定内容对应的内容特征,目标指定内容可以是多个指定内容中的任一指定内容。可以使用表示目标指定内容与目标表征特征组间的第一关联关系,其中tm={tj,j∈m}表示目标表征特征组。可以使用表示目标指定内容对应的关联权重信息,其中n表示多个指定内容的总数。可以对关联权重信息所指示的权重值与权重值阈值进行比较,当权重值大于或等于权重值阈值时,判定关联权重信息对应的指定内容为目标指定内容。相应的,确定目标指定内容对应的内容维度为目标内容维度,以及建立目标内容维度与指定对象间的第二关联关系。第二关联关系可以是定向关系,可以判定指定对象是目标内容维度下内容的定向推送对象。当目标内容维度下内容存在推送需求时,可以优先将其推送至指定对象,以提高推送效率和效果。在实际应用中,多个指定内容可以是指示不同参考(基准)内容维度的多个内容。指定内容对应的内容特征可以是embedding向量的形式。指定内容对应的内容特征可以是相关原始特征经embedding层、pooling层处理后的结果。
88.此外,可将这里的指定内容视作前述步骤s203中的候选内容,可以使用表示目标候选内容与表征特征组(是由与每个预设动态映射网络输出的表征特征组成的)间的第三关联关系,目标候选内容可以是候选内容集中的任一候选内容。可以使用表示目标候选内容对应的关联权重信息,其中n表示候选内容集的内容总数。可以利用损失函数为:l=∑
q,m∈d
logp(q|m)来修正预设特征提取模型,其中d为所有候选内容和表征特征的组合。所加入的注意力机制可以辅助模型学习表征特征的提取。
89.由以上本技术实施例提供的技术方案可见,本技术实施例中响应于对象数据处理指令,确定指示指定对象的多个指定操作类特征;然后,以多个指定操作类特征为输入,利用修正后的特征提取模型得到对应的多个目标表征特征。本技术提供了一种用于从用户数据提取多个表征特征的模型,该模型中的多个预设动态映射网络分别用于关联样本数据与不同维度的表征特征,这样实现了通过特征提取模型输出多维度特征的能力。利用特征提取模型处理指定对象维度的数据,提高了对于对象数据处理指令的响应能力。在处理指定对象维度的数据时,可以不再关注相关关系用户,提高了表征特征提取的准确度和适应性,进而提高了对于用户兴趣的捕捉、挖掘能力。
90.本技术实施例还提供了一种特征提取模型的训练装置,如图6所示,该特征提取模型的训练装置60包括:
91.输入模块601:用于将指示同一样本对象的样本数据分别输入特征提取模型中的多个预设动态映射网络;其中,所述样本数据包括多个操作类特征,所述多个预设动态映射网络分别用于关联所述样本数据与不同维度的表征特征;
92.处理模块602:用于分别利用每个所述预设动态映射网络处理所述多个操作类特征,得到每个所述预设动态映射网络输出的表征特征;
93.匹配模块603:用于分别确定与每个所述预设动态映射网络输出的表征特征相匹
配的候选内容,以得到候选内容集;
94.修正模块604:用于根据所述候选内容集与所述样本对象对应的实际关联内容的差异修正所述特征提取模型。
95.需要说明的,所述装置实施例中的装置与方法实施例基于同样的发明构思。
96.本技术实施例还提供了一种对象数据处理装置,如图7所示,该对象数据处理装置70包括:
97.响应模块701:用于响应于对象数据处理指令,确定指示指定对象的多个指定操作类特征;
98.特征提取模块702:用于以所述多个指定操作类特征为输入,利用如前述步骤s201-s204中所述的特征提取模型得到对应的多个目标表征特征。
99.需要说明的,所述装置实施例中的装置与方法实施例基于同样的发明构思。
100.本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的特征提取模型的训练方法或者对象数据处理方法。
101.进一步地,图8示出了一种用于实现本技术实施例所提供的特征提取模型的训练方法或者对象数据处理方法的电子设备的硬件结构示意图,所述电子设备可以参与构成或包含本技术实施例所提供的特征提取模型的训练装置或者对象数据处理装置。如图8所示,电子设备100可以包括一个或多个(图中采用1002a、1002b,
……
,1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备100还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
102.应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到电子设备100(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
103.存储器1004可用于存储应用软件的软件程序以及模块,如本技术实施例中所述的特征提取模型的训练方法或者对象数据处理方法对应的程序指令/数据存储装置,处理器1002通过运行存储在存储器1004内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种特征提取模型的训练方法或者对象数据处理方法。存储器1004可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1004可进一步包括相对于处理器1002远程设置的存储器,这些远程存储器可以通过网络连接至电子设备100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
104.传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括
电子设备100的通信供应商提供的无线网络。在一个实例中,传输装置1006包括一个网络适配器(networkinterfacecontroller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实施例中,传输装置1006可以为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。
105.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与电子设备100(或移动设备)的用户界面进行交互。
106.本技术的实施例还提供了一种计算机可读存储介质,所述存储介质可设置于电子设备之中以保存用于实现方法实施例中一种特征提取模型的训练方法或者对象数据处理方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的特征提取模型的训练方法或者对象数据处理方法。
107.可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
108.需要说明的是:上述本技术实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
109.本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
110.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
111.以上所述仅为本技术的较佳实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1