专利名称:一种基于mds算法的隐性用户特征提取方法
技术领域:
本发明涉及电视节目推荐技术,更具体地说,涉及一种隐性用户特征提取 方法和电一见节目推荐方法。
背景技术:
当4^fr界正处在数字化浪潮之中,广播电视也是如此。欧美主要发达国家
都将广播电视全面数字化的时间定在2010年前后,我国也计划于2015年全面 实现数字化。2006年底,中国数字电视用户已经达到1200万户,并且,根据 赛迪顾问的预测,到2007年,全球数字电视用户将达到6.3亿户。
电视数字化带来的变革之一就是电视节目的极大丰富。按照当前MPEG2 的视频编码方式,有线电视系统将能够传输500套标准清晰度的数字电视节 目。如果使用H.264等先进的编码格式,传输的数字电视节目将达到1500套, 在此趋势下, 一方面电视用户在很高兴地面对日益丰富多彩的电视节目,而另 一方面他们又在为如何在如此众多的电视节目中挑选他们感兴趣的内容而发 愁,电视用户将面临与互联网用户类似的"信息过载"问题。传统的印制电视 节目清单和频道沖浪方式此时已经不能对他们提供帮助。因为对于500个频 道,如果10个频道1天的节目清单印制在一页纸上,那么全部500个频道一 个星期的电视节目清单将是一本350页的厚书,面对这样一本书,用户很难有 耐心来阅读和查找他所需要的节目;另外,如果每个频道浏览IO秒钟,用户 采用频道冲浪方法浏览完全部500个频道的内容将耗时82.5分钟,这样的时 间用户是难以接受的。目前的电子节目指南采用基于频道或类别(例如体育、 财经、电影等)的方式显示节目清单,此种方式虽然能够部分解决上述问题, ^f旦仍然没有彻底解决问题。
要彻底的解决电视信息"过载"的问题,就需要研究用户的收视行为,判断用户的收视喜好以及其他爱好,根据用户的兴趣、爱好和规律自动地向用户 推荐电视节目和服务。为实现电视节目与用户喜好的自动匹配,现有技术为电 视节目预先定义节目特征,为用户定义用户特征,并使用相同的分量来描述节 目特征和用户特征。如此一来,便可通过比较节目特征和用户特征的相似度来 将电视节目与用户喜好进行匹配,继而向用户推荐其喜爱(即与用户特征相似 度高)的电视节目。
在现有的电视节目推荐方案中,节目特征的内容包括节目的类型、播出时 间、播出频道等等,与此相对,用户特征的内容包括喜爱的节目类型、喜爱的 播出时间、喜爱的频道等等。节目特征可通过节目本身的属性来获取。而在现 阶段,用户特征则主要通过问巻调查的方式来获取,即通过纸件或电子等形式 的调查问巻来收集用户特征。由于用户特征可能经常发生变化,因此问巻调查 的结果非常容易过期。同时,由于问巻内容过多过细会使用户失去耐心,因此 问巻调查的结果非常粗略,无法做到十分准确。此外,对于有线电视运营商而 言,从调查问巻中提取用户特征(尤其是以手工方式)也是一项繁重的工作。
因此,需要一种用户特征提取方案,能够克服现有技术存在的缺陷。
发明内容
本发明要解决的技术问题在于,针对现有技术通过问巻调查方式获取用户 特征时存在的调查结果不够准确且容易过期以及任务繁重的缺陷,提供一种隐 性用户特征提取方法和电视节目推荐方法和系统。
本发明解决其技术问题所采用的技术方案是 一种隐性用户特征提取方 法,包括以下步骤
A. 采集用户的历史收4见记录,并将收^见记录空间的节目样本变换到一种可 用距离度量的欧式空间中的样本点;
B. 采用聚类算法将可度量欧式空间中的样本点分成若干聚类簇,确定每簇 的聚类中心;
C. 确定可度量欧式空间中离聚类中心最近的样本点,并找到所述样本点对 应于收-视记录空间中的节目样本;D.根据确定的节目样本,提取代表用户收视特征的隐性用户特征。 所述步骤A采用MDS算法进行所述空间变换,使收视记录空间和可度量 的欧式空间中的对应节目间两两——对应,其实现包括以下步骤
(1 )求出收视记录空间中由所述节目样本的两两差异值构成的n x n维的 差异矩阵,其中n是所述收;规记录空间中节目样本的数目;
(2 )根据所述差异矩阵得到一个在所述可度量欧式空间的n x n维的内积 矩阵B,其中n是所述收3见记录空间中节目样本的数目,其中内积矩阵B的定 义如下
&=:c/xs, ^是内积矩阵B中位于第r行、第s列的元素,xr、 jc,分別表示 可度量欧式空l可中与收视记录空间中第r、 s个节目样本对应的样本点;
(3) 求出所述内积矩阵B的n个特征值M,...,入n,及其对应的归一特 征向量Vi,…,vn;
(4) 确定可度量欧式空间的维数p,使其满足如下误差要求
tvE(^iA>0)<7%,其中^是给定的一个误差阈值;
,=1 A
(5 )求出收视记录空间中各节目样本对应在可度量欧式空间各个样本点 的坐标^-;ijv,, (r=l,...,n),其中以r表示第r个特征值及其对应的特征向量。
所述步骤A之前包括通过问巻调查等形式,定义隐性特征各属性间的 两两差异表,所述隐性用户特征差异表包括
频道差异表T(c),
主类别差异表T(m),
子类别差异表T(s);
查找上述差异表,求出节目在各个特征分量上的差异值,包括
频道差异5 re|c,
主类别差异5
rs!m,
子类别差异5—;
时间差异由两节目纟番;改时间点所在时针位置之间的夹角6计算 时间差异5一= sir^;计算两两节目的差异
5 rs = wc 5 re|c +Wm 5 rs|m+Ws 5 rs|s+wt 5 rs|t,其中wc、 wm、 ws、 wt分另'J代表频
道差异、主类别差异、子类别差异、时间差异的^l重。
本发明还提供了一种电视节目推荐方法,包括 依据每一节目的节目特征求得该节目与隐性用户特征间的差异值; 对可选节目按照差异值从小到大进行排序; 发送排序靠前的可选节曰的名称。
所述各个待播节目与隐性用户特征的差异值由该节目的节目特征和隐性 用户特征求得,其过程包括
分别求出该节目的播出时段、所在频道、所在大类和所在小类与隐性用户 特征对应的喜好时段、喜好频道、喜好大类和喜好小类的间的差异值
频道差异5c,
主类别差异5m,
子类别差异5s,
时间差异5t;
计算该节目与隐性用户特征间的差异
5 = wc5c +Wm5m+Ws5 S+Wt&t,其中Wc、 Wm、 Ws、 Wt分别代表频道差异、
主类对差异、子类别差异、时间差异的4又重。
实施本发明的技术方案,具有以下有益效果从采集用户收视记录到依据 收视记录提取用户特征再到依据用户特征向用户推荐电视节目,整个过程均自 动完成,无需人工干预,大大节省人力;依据用户收视记录来提取用户特征, 可使用户特征能够随收视记录定期更新,且收视记录详实客观,可确保提取的 结果细致准确;通过从多个角度来综合比较节目特征与用户特征的相似度,可 以使推荐的电视节目更符合用户的实际需要。
下面将结合附图及实施例对本发明作进一步说明,附图中
图1是依据本发明一较佳实施例的隐性用户特征提取方法的流程图;图2是依据本发明一较佳实施例的采用MDS算法从收^L记录空间到一个 可度量欧式空间的空间变换方法的流程图3是依据本发明一较佳实施例的计算两节目间差异值的流程图; 图4是依照本发明一较佳实施例的电视节目推荐方法的流程图。
具体实施例方式
本发明提供了 一种电视节目推荐解决方案,可从用户收视记录中提取用户 特征,并从多个角度来综合考量节目是否适合推荐,比较节目特征与用户特征 的相似度,下面就结合附图和具体实施例对本发明的技术方案进行描述。
在执行本发明的所有步骤之前,必须在用户调查的基础上定义各个节目特 征间的差异表,包括频道差异表T(c)、主类别差异表T(m)、子类别差异表 T(s)。
图1是依据本发明一较佳实施例的隐性用户特征提取方法的流程图。如图 1所示,方法100开始于步骤102。随后,在步骤104中,读取用户的历史收看记录,得到收视记录空间中各 节目样本。
随后,在步骤106中,利用MDS算法,将收-见记录空间中各节曰样本变 换到一个可用距离度量的欧式空间中的相应样本点。所述MDS算法进行的空 间变换过程可以用上述方法200来实现。
随后,在步骤108中,利用K均值聚类算法,将可度量欧式空间的样本 点聚类得到若千个聚类簇。
随后,在步骤110中,找到每簇的聚类中心,并在其周围找到最近邻点。
随后,将在可度量欧式空间中找到的最近邻点反向映射回收视记录空间中 对应的节目样本。所述节目样本的节目属性就代表了用户的隐性用户特征,包 括播出时间、所在频道、所在主类、所在子类。
最后,方法100结束与步骤116。
图2是依据本发明一较佳实施例的采用MDS算法从收—见记录空间到一个 可度量欧式空间的空间变换方法的流程图。所述方法开始前,首先定义以下变n,收-见记录空间中节目样本的条数;
xr,可度量欧式空间中对应于收视记录空间中第r条节目的样本点,r取 值范围{1,...,11};
drs,两样本点Xr和Xs的距离,可以表示为<formula>formula see original document page 10</formula>
X,可度量欧式空间中对应于收视记录空间中所有节目样本的样本点组成 的矩阵,表示为
<formula>formula see original document page 10</formula>
如图2所示,方法200开始于步骤202。
随后,在下一步骤204中,通过采集用户的历史收^L记录,确定在收视记 录空间两两节目的nxn维差异矩阵5。所述差异矩阵5中位于第r行、第s 列的元素5rs定义为记录中第r条节目和第s条节目之间的差异。则元素5rs 的计算方式如上述方法300所述。
随后,在下一步骤206中,定义一个在可度量欧式空间的nxn维的内积 矩阵B:
<formula>formula see original document page 10</formula>
其中,^是内积矩阵B中位于第r行、第s列的元素,;、a分別表示可
度量欧式空间中与收视记录空间中第r、 s个节目样本对应的样本点;其中n
是所述收一见记录空间中节目样本的数目。 设置空间变换条件
lX=0 (1-4) 由式(1-1 )可以得到以下三个式子<formula>formula see original document page 10</formula>4tt《2JS" (1-7) 将上述三式代入式(1-1)可以推出
于是,4艮据步骤204中的差异矩阵5可以确定所述内积矩阵B。 注意收视记录空间和可度量欧式空间中对应节目之间的距离保持一致, 在本实施例中,相应距离值M目等,即《=&。 由于存以下的数学关系 将内积矩阵B=XXT进行奇异值分解,得到
JT二r八5 5 = FAFr (1-9) 、=A
其中A是由B的特征值组成的对角阵,V是对应的特征向量组成的矩阵。 显然, 义=^八会, (1-10)
也即, xr=A)vr。 (1-11)
很清楚,根据以上数学关系,可以用式(1-11)确定收视记录空间第r条 节目样本在所述可度量欧式空间中的对应样本点xr。
于是,在随后步骤208中,求出内积矩阵B的n个特征值M,...,入n,及 其对应的归一特征向量Vb...,Vn,满足v/v尸l。
随后,在步骤210中,确定可度量欧式空间的维数p,使其满足以下误差 要求
tvS"l义,>0)<7% (1-12)
其中W是给定的一个误差阈值。
随后,在步骤212中,根据式(1-11)确定在p维的可度量欧式空间中各
个样本点JC,的坐标。
最后,方法200结束于步骤214。
图3是依据本发明一较佳实施例的计算两个节目间差异值的方法的流程图。如图3所示,方法300开始于步骤302,读取两个节目的节目特征。
随后,在下一步骤304中,根据所述两个节目的播放开始时间时针所在位 置之间的夹角6 ,计算所述两节目的时间差异值
5 rS|t = sin昏 (1-13 )
随后,在下一步骤306中,查找频道差异表T(c),确定上述两个节目间的 频道差异值5 rs|c。
随后,在下一步骤308中,查找主类别差异表T(m),确定上述两个节目
间的主类别差异值5^m。
随后,在下一步骤310中,查找子类别差异表T(s),确定上述两个节目间 的子类别差异值5蜂。
随后,才艮据上述节目在各个特征分量上的差异,计算两个节目的差异 5 re = wc 5 rs|c +wm 5 rs|m+ws 5 re|s+wt 5丰
其中we、 wm、 ws、 Wt分别代表频道差异、主类别差异、子类别差异、时 间差异的权重。
最后,方法300结束于步骤314。
图4是依照本发明一较佳实施例的电视节目推荐方法的流程图。如图所 示,方法400开始于步骤402。
随后,在步骤404中,读取待播节目。
随后,在步骤406中,计算每一待播节目特征与隐性用户特征的差异值。 所述差异值的计算步骤可以用方法300来实现。
随后,在步骤408中,按照步骤406得到的差异值,从小到大对节目进行 排序。
随后,在步骤410中,把排序靠前的节目发送给用户。
权利要求
1、一种隐性用户特征提取方法,其特征在于,所述方法包括以下步骤A.采集用户的历史收视记录,并将收视记录空间的节目样本变换到一种可用距离度量的欧式空间中的样本点;B.采用聚类算法将可度量欧式空间中的样本点分成若干聚类簇,确定每簇的聚类中心;C确定可度量欧式空间中离聚类中心最近的样本点,并找到所述样本点对应于收视记录空间中的节目样本;D.根据确定的节目样本,提取代表用户收视特征的隐性用户特征。
2、 根据权利要求1所述的方法,其特征在于,所述步骤A采用MDS算 法进行所述空间变换,使收3见记录空间和可度量的欧式空间中的对应节目间两 两——对应,其实现包括以下步骤求出收一见记录空间中由所述节目样本的两两差异值构成的n x n维的差异 矩阵,其中n是所述收一见记录空间中节目样本的数目;根据所述差异矩阵得到一个在所述可度量欧式空间的n x n维的内积矩阵 B,其中n是所述收视记录空间中节目样本的数目,其中内积矩阵B的定义如 下&=x/;cs, ^是内积矩阵B中位于第r行、第s列的元素,cr、 a分別表示 可度量欧式空间中与收-见记录空间中第r、 s个节目样本对应的样本点;求所述内积矩阵B的n个特征值M,...,入n,及其对应的归一特征向量 vi,…,vn;确定可度量欧式空间的维数p,使其满足如下误差要求(4 K > 0卜7%其中7%是给定的 一个误差阈值;求出收视记录空间中各节目样本对应在可度量欧式空间各个样本点的坐 标x, =;ii、 (r=l,...,n),其中以r表示第r个特征值及其对应的特征向量。
3、 根据权利要求1所述的方法,其特征在于,所述步骤A之前包括通过问巻调查等形式,定义隐性特征各属性间的两两差异表,包括 频道差异表T(ch), 主类别差异表T(m), 子类别差异表T(s);查找上述差异表,求出节目两两之间的差异值,包括 频道差异5rs|c,主类别差异5rs|m,子类别差异5—;时间差异由两节目播放时间点所在时针位置之间的夹角e计算 时间差异5呻=sin|;计算两两节目的差异<formula>formula see original document page 0</formula>,其中wc、 wm、 ws、 wt分別4戈表频 道差异、主类别差异、子类别差异、时间差异的权重。
4、 一种电视节目推荐方法,其特征在于,包括依据每一节目的节目特征求得该节目与隐性用户特征间的差异值; 对待播节目按照差异值从小到大进行排序; 发送排序靠前的可选节目的名称。
5、 根据权利要求4所述的电视节目推荐方法,其特征在于,所述各个待 播节目与隐性用户特征的差异值由该节目的节目特征和隐性用户特征求得,其 过程包括分别求出该节目的播出时段、所在频道、所在大类和所在小类与隐性用户 特征对应的喜好时段、喜好频道、喜好大类和喜好小类的间的差异值 频道差异5 c, 主类别差异5m, 子类别差异5s, 时间差异5t;计算该节目与隐性用户特征间的差异 <formula>formula see original document page 0</formula>,其中Wc、 Wm、 Ws、 Wt分另'H^4表频道差异、主类別差异、子类别差异、时间差异的4又重
全文摘要
本发明涉及电视节目推荐技术,针对现有技术通过问卷调查方式获取用户特征时存在的调查结果不够准确且容易过期的缺陷,提供一种隐性用户特征提取方法和电视节目推荐方法。隐性用户特征提取方法包括采集用户的历史收视记录,并将收视记录空间的节目样本变换到一种可用距离度量的欧式空间中的样本点;采用聚类算法将可度量欧式空间中的样本点分成若干聚类簇,确定每簇的聚类中心;确定可度量欧式空间中离聚类中心最近的样本点,并找到所述样本点对应于收视记录空间中的节目样本;根据确定的节目样本,提取代表用户收视特征的隐性用户特征。本发明还提供了一种电视节目推荐方法。本发明可解决现有技术调查结果不够准确且容易过期的问题。
文档编号H04N7/16GK101408944SQ20081021736
公开日2009年4月15日 申请日期2008年11月17日 优先权日2008年11月17日
发明者徐江山, 疆 陶 申请人:深圳市天威视讯股份有限公司