1.本发明涉及人工智能领域,尤其涉及基于源域特征的迁移学习进行内容推荐的方法和系统。
背景技术:2.当代社会是信息为王的社会,面对海量的视频节目,用户往往无所适从,如何有效的帮助用户从海量视频中搜索和过滤出有用的信息,已经成为一个亟待解决的问题,个性化推荐系统由此应运而生。常用的个性推荐方法主要分为两种:
3.1、协同过滤推荐方法
4.协同过滤的主要思想就是通过收集用户的相关信息,通过这些信息分析用户的兴趣偏好,然后根据不同方法找到具有相似兴趣爱好的其他用户。协同过滤模型非常简单,很容易被应用于实际环境。它的最大优势在于它基本可以推荐一切可以被推荐的物品,而不依赖与物品或项目是否能被机器所识别,比如音乐、电影、图片等等。
5.2、基于内容的推荐方法
6.基于内容的推荐系统其主要是通过抽取物品的内容特征,然后根据用户之前购买的物品的属性特征去学习构建用户的兴趣,最后将与用户兴趣匹配度高的物品推荐给用户。基于内容的推荐技术也要计算物品的相似度,只不过相对于协同过滤,它是通过分析物品的属性内容来判断相似度。
7.然而这些方法需要大量的历史数据建立模型,以致难以满足没有数据进行模型建立的需求。
8.因此,需要能够改进现有技术中的缺陷的方法。
技术实现要素:9.提供本发明内容来以简化形式介绍将在以下具体实施方式部分中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
10.为了解决目前视频个性化推荐中缺乏可用模型的问题,本发明提供一种基于源域特征的迁移学习视频推荐方法,相比于传统迁移学习方法,引入源域的特征作为迁移学习的主要参考模型,而减少目标域的影响,从而解决迁移学习产生的负迁移影响。
11.具体而言,在本发明的一个实施例中,提供了一种通过基于源域特征的迁移学习进行内容推荐的方法,所述方法包括:
12.对原模型进行预处理;
13.对所述原模型的源域变量进行分块以形成变量块;
14.为每个变量块寻找相关变量块以确定邻接矩阵;
15.对每个变量块进行主成分分析pca处理以进行第一次变量特征提取;
16.利用所述原模型的节点、特征和所述邻接矩阵来对每个变量块进行谱聚类以进行
第二次变量特征提取;
17.对两次提取的多个变量特征进行贝叶斯融合以形成源域特征;
18.基于所述源域特征来对所述原模型进行迁移学习以得到目标模型;以及
19.利用所述目标模型来进行内容推荐。
20.在本发明的一个实施例中,对所述原模型进行预处理包括对所述原模型的多余结构进行预处理以形成符合目标数据的模型。
21.在本发明的该实施例中,对所述原模型进行预处理进一步包括对所述原模型的无用和明显的噪声数据进行删除和清理。
22.在本发明的一个实施例中,对所述原模型的源域变量进行分块包括为每个单独变量寻找相关变量以形成变量块。
23.在本发明的一个实施例中,对每个变量块进行pca处理包括对所形成的变量块执行pca算法计算,所述pca算法计算用于通过相关性进行变量块划分并对划分后的变量块进行pca降维处理以剔除相关性较弱的变量块而保留主要变量块。
24.在本发明的一个实施例中,第二次变量特征提取是对聚类后的变量块进行的。
25.在本发明的一个实施例中,所述两次提取的多个变量特征是是作为贝叶斯的统计量进行融合的。
26.在本发明的另一个实施例中,提供了一种内容推荐系统,所述系统包括:
27.原模型预处理模块,其被配置成对原模型进行预处理;
28.主成分分析pca特征提取模块,其被配置成:
29.对所述原模型的源域变量进行分块以形成变量块;
30.为每个变量块寻找相关变量块以确定邻接矩阵;以及
31.对每个变量块进行主成分分析pca处理以进行第一次变量特征提取;
32.谱聚类特征提取模块,其被配置成利用所述原模型的节点、特征和所述邻接矩阵来对每个变量块进行谱聚类以进行第二次变量特征提取;
33.贝叶斯融合模块,其被配置成对两次提取的多个变量特征进行贝叶斯融合以形成源域特征;
34.迁移学习模块,其被配置成基于所述源域特征来对所述原模型进行迁移学习以得到目标模型;以及
35.内容推荐模块,其被配置成利用所述目标模型来进行内容推荐。
36.在本发明的一个实施例中,所述原模型预处理模块被进一步配置成对所述原模型的多余结构进行预处理以形成符合目标数据的模型。
37.在本发明的该实施例中,所述原模型预处理模块被进一步配置成对所述原模型的无用和明显的噪声数据进行删除和清理。
38.在本发明的一个实施例中,所述pca特征提取模块被进一步配置成为每个单独变量寻找相关变量以形成变量块。
39.在本发明的一个实施例中,所述pca特征提取模块被进一步配置成对所形成的变量块执行pca算法计算,所述pca算法计算用于通过相关性进行变量块划分并对划分后的变量块进行pca降维处理以剔除相关性较弱的变量块而保留主要变量块。
40.在本发明的一个实施例中,所述谱聚类特征提取模块被进一步配置成在对每个变
量块进行谱聚类后进行第二次变量特征提取。
41.在本发明的一个实施例中,所述贝叶斯融合模块被进一步配置成对两次提取的多个统计量进行贝叶斯融合以形成源域特征。
42.在本发明的又一个实施例中,提供了一种通过基于源域特征的迁移学习进行内容推荐的系统,所述系统包括:
43.用于对原模型进行预处理的装置;
44.用于对所述原模型的源域变量进行分块以形成变量块的装置;
45.用于为每个变量块寻找相关变量块以确定邻接矩阵的装置;
46.用于对每个变量块进行主成分分析pca处理以进行第一次变量特征提取的装置;
47.用于利用所述原模型的节点、特征和所述邻接矩阵来对每个变量块进行谱聚类以进行第二次变量特征提取的装置;
48.用于对两次提取的多个变量特征进行贝叶斯融合以形成源域特征的装置;
49.用于基于所述源域特征来对所述原模型进行迁移学习以得到目标模型的装置;以及
50.用于利用所述目标模型来进行内容推荐的装置。
51.在本发明的一个实施例中,用于对所述原模型进行预处理的装置包括用于对所述原模型的多余结构进行预处理以形成符合目标数据的模型的装置。
52.在本发明的该实施例中,用于对所述原模型进行预处理的装置进一步包括用于对所述原模型的无用和明显的噪声数据进行删除和清理的装置。
53.在本发明的一个实施例中,用于对所述原模型的源域变量进行分块的装置包括用于为每个单独变量寻找相关变量以形成变量块的装置。
54.在本发明的一个实施例中,用于对每个变量块进行pca处理的装置包括用于对所形成的变量块执行pca算法计算的装置,所述pca算法计算用于通过相关性进行变量块划分并对划分后的变量块进行pca降维处理以剔除相关性较弱的变量块而保留主要变量块。
55.在本发明的又一个实施例中,提供了一种存储计算机可执行指令的计算机可读介质,这些指令包括:
56.用于对原模型进行预处理的指令;
57.用于对所述原模型的源域变量进行分块以形成变量块的指令;
58.用于为每个变量块寻找相关变量块以确定邻接矩阵的指令;
59.用于对每个变量块进行主成分分析pca处理以进行第一次变量特征提取的指令;
60.用于利用所述原模型的节点、特征和所述邻接矩阵来对每个变量块进行谱聚类以进行第二次变量特征提取的指令;
61.用于对两次提取的多个变量特征进行贝叶斯融合以形成源域特征的指令;
62.用于基于所述源域特征来对所述原模型进行迁移学习以得到目标模型的指令;以及
63.用于利用所述目标模型来进行内容推荐的指令。
64.在本发明的一个实施例中,用于对所述原模型进行预处理的指令包括用于对所述原模型的多余结构进行预处理以形成符合目标数据的模型的指令。
65.在本发明的该实施例中,用于对所述原模型进行预处理的指令进一步包括用于对
所述原模型的无用和明显的噪声数据进行删除和清理的指令。
66.在本发明的一个实施例中,用于对所述原模型的源域变量进行分块的指令包括用于为每个单独变量寻找相关变量以形成变量块的指令。
67.在本发明的一个实施例中,用于对每个变量块进行pca处理的指令包括用于对所形成的变量块执行pca算法计算的指令,所述pca算法计算用于通过相关性进行变量块划分并对划分后的变量块进行pca降维处理以剔除相关性较弱的变量块而保留主要变量块。
68.在结合附图研读了下文对本发明的具体示例性实施例的描述之后,本发明的其他方面、特征和实施例对于本领域普通技术人员将是明显的。尽管本发明的特征在以下可能是针对某些实施例和附图来讨论的,但本发明的全部实施例可包括本文所讨论的有利特征中的一个或多个。换言之,尽管可能讨论了一个或多个实施例具有某些有利特征,但也可以根据本文讨论的本发明的各种实施例使用此类特征中的一个或多个特征。以类似方式,尽管示例性实施例在下文可能是作为设备、系统或方法实施例进行讨论的,但是应当领会,此类示例性实施例可以在各种设备、系统、和方法中实现。
附图说明
69.为了能详细理解本公开的以上陈述的特征所用的方式,可参照各方面来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中阐示。然而应该注意,附图仅阐示了本公开的某些典型方面,故不应被认为限定其范围,因为本描述可允许有其他等同有效的方面。
70.图1是根据本公开的一个实施例的内容推荐系统的框图。
71.图2示出了根据本公开的一个实施例的用于二次特征提取的组件的框图。
72.图3示出了根据本公开的一个实施例的通过基于源域特征的迁移学习进行内容推荐的方法的流程图。
具体实施方式
73.以下将参考形成本发明一部分并示出各具体示例性实施例的附图更详尽地描述各个实施例。然而,各实施例可以以许多不同的形式来实现,并且不应将其解释为限制此处所阐述的各实施例;相反地,提供这些实施例以使得本公开变得透彻和完整,并且将这些实施例的范围完全传达给本领域普通技术人员。各实施例可按照方法、系统或设备来实施。因此,这些实施例可采用硬件实现形式、全软件实现形式或者结合软件和硬件方面的实现形式。因此,以下具体实施方式并非是局限性的。
74.各流程图中的步骤可通过硬件(例如,处理器、引擎、存储器、电路)、软件(例如,操作系统、应用、驱动器、机器/处理器可执行指令)或其组合来执行。如本领域普通技术人员将理解的,各实施例中所涉及的方法可以包括比示出的更多或更少的步骤。
75.图1是根据本公开的一个实施例的内容推荐系统100的框图。
76.如图1所示,内容推荐系统100包括原模型预处理模块102、pca特征提取模块104、谱聚类特征提取模块106、贝叶斯融合模块108、迁移学习模块110、以及内容推荐模块112。以下将对这些模块进行详细描述。
77.原模型预处理模块102被配置成对原模型进行预处理,以初步形成符合目标数据
的模型。具体而言,原模型预处理模块被进一步配置成对原模型的多余结构进行预处理,该预处理包括对原模型的无用和明显的噪声数据进行删除和清理;将多个数据源的数据结合起来统一存储以建立数据仓库;将所整理的数据结构化和规范化。
78.pca特征提取模块104被配置成对源域的单变量进行相关变量的寻找,并对变量进行分块,然后对每个小块进行pca处理,以完成第一次的变量特征提取。该pca特征提取模块104的细节将结合图2进一步描述。
79.谱聚类特征提取模块106被配置成使用节点、特征、邻接矩阵对变量利用谱聚类方法进行二次变量特征提取。该谱聚类特征提取模块106的细节将结合图2进一步描述。
80.pca特征提取模块104和谱聚类特征提取模块106的功能的结合实现了对变量特征的二次提取,从而能够更好地表征源域特征。
81.贝叶斯融合模块108被配置成将分两次提取得到的多个变量特征进行贝叶斯融合,以将形成的源域特征用于迁移学习中。
82.迁移学习模块110被配置成对原模型进行迁移学习得到目标模型。具体而言,该迁移学习模块110被配置成基于来自贝叶斯融合模块108的源域特征来对原模型进行迁移学习以得到目标模型。
83.内容推荐模块112被配置成利用学习好的模型来执行内容推荐任务,即利用所获得的目标模型来进行内容推荐。
84.图2示出了根据本公开的一个实施例的用于二次特征提取的组件的框图。
85.如图2所示,pca特征提取模块104包括源域变量分块组件202、邻接矩阵确定组件204、以及pca处理组件206。谱聚类特征提取模块106包括谱聚类组件208和变量特征提取组件210。将在下文中对这些组件进行更详细的描述。
86.pca特征提取模块104中的源域变量分块组件202对原模型的源域变量进行分块以形成变量块。具体而言,源域变量分块组件202通过为每个单独变量寻找相关变量来形成变量块以完成变量分块。
87.接着,邻接矩阵确定组件204为所形成的每个变量块寻找相关变量块以确定邻接矩阵。
88.然后,pca处理组件206通过对所形成的变量块执行pca算法计算来对每个变量块进行pca处理以完成第一次变量特征提取。该pca算法计算用于通过相关性进行变量块划分并对划分后的变量块进行pca降维处理以剔除相关性较弱的变量块而保留主要变量块。
89.随后,谱聚类特征提取模块106中的谱聚类组件208利用原模型的节点、特征以及由邻接矩阵确定组件204确定的邻接矩阵来对每个变量块进行谱聚类。如本领域技术人员可以理解的,可使用本领域内已知的任何合适的谱聚类方式来对每个变量块进行谱聚类,本发明不限于任何特定的谱聚类方式。
90.最后,变量特征提取组件210对聚类后的变量块执行第二次变量特征提取操作。
91.图3示出了根据本公开的一个实施例的通过基于源域特征的迁移学习进行内容推荐的方法300的流程图。
92.如图所示,方法300开始于步骤302。在302,对原模型进行预处理。在本发明的一个实施例中,对原模型进行预处理包括对原模型的多余结构进行预处理以形成符合目标数据的模型。在本发明的该实施例中,对原模型进行预处理进一步包括对原模型的无用和明显
的噪声数据进行删除和清理。
93.接着,方法300继续至步骤304。在304,对原模型的源域变量进行分块以形成变量块。在本发明的一个实施例中,对原模型的源域变量进行分块包括为每个单独变量寻找相关变量以形成变量块。
94.随后,方法300继续至步骤306。在306,为每个变量块寻找相关变量块以确定邻接矩阵。如本领域技术人员可以理解的,可使用本领域内任何合适的邻接矩阵确定方式来确定邻接矩阵,本发明不限于任何特定方式。
95.方法300继续前进至步骤308。在308,对每个变量块进行pca处理以进行第一次变量特征提取。在本发明的一个实施例中,对每个变量块进行pca处理包括对所形成的变量块执行pca算法计算。
96.方法300然后继续至步骤310,在310,利用原模型的节点、特征和邻接矩阵来对每个变量块进行谱聚类以进行第二次变量特征提取。在本发明的一个实施例中,第二次变量特征提取是对聚类后的变量块进行的。
97.方法300然后继续至步骤312,在312,对两次提取的多个变量特征进行贝叶斯融合以形成源域特征。在本发明的一个实施例中,两次提取的多个变量特征是作为贝叶斯的统计量进行融合的。
98.方法300然后继续至步骤314,在314,基于源域特征来对原模型进行迁移学习以得到目标模型。
99.最后,方法300结束于步骤316,在316,利用所得到的目标模型来进行内容推荐。
100.综上,本发明提供了一种基于源域特征的迁移学习内容推荐方法,在内容推荐系统中增加源域特征迁移学习模块。在没有数据模型场景时,能够对已有模型进行迁移学习,迅速的获得目标模型应用于内容推荐功能中。此外,对迁移学习可能产生的负迁移现象通过源域特征的方法进行了优化,对原模型置于较高信任度,从而实现了更好的内容推荐效果。而且,对源域的特征提取采用块pca提取和谱聚类两次特征抽取方法,并对多个变量特征采用贝叶斯融合,以更好地表征源域特征。
101.以上参考根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作说明描述了本发明的实施例。框中所注明的各功能/动作可以按不同于任何流程图所示的次序出现。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以按相反的次序来执行。
102.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。