本发明涉及网络信息处理技术,特别涉及一种基于海量跨屏收视行为数据的直播推荐方法。
背景技术:
:
随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、VOD点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。
与此同时,内容信息量也出现爆发式增长,面对纷繁芜杂的各类节目信息,如何让用户从大量的节目信息中便捷的获取想要的直播节目内容,成为了运营商丞待解决的问题。
另一方面,现有的直播推荐技术,主要是通过建设媒资库,将需要推荐的节目信息导入到媒资库,由后台编辑人员依据营销事件或时间点等进行人工推荐,将节目信息推荐到机顶盒终端的推荐位上,供用户使用。
这种方式,由于采用千篇一律的推荐方式,每个用户看到的推荐内容都是一样的,并不能满足用户的个性化潜在需求,往往造成用户对推荐的内容不感兴趣,不信任,造成业务使用率无法提高,并且维护媒资库需要大量的人力支撑,造成广电网络运营商运营成本增加。
技术实现要素:
:
有鉴于此,本发明提供了一种基于海量跨屏收视行为数据的直播推荐方法。该方法主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量行为数据,将采集到的用户行为数据进行HDFS分布式存储,经过ETL模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合推荐算法模块、策略处理模块,将海量的用户行为数据进行高效的数据预处理,形成线下推荐结果和线上推荐结果,并最终形成一系列的内容-特征推荐结果数据,再通过不同的WEB应用程序调用相关的内容-特征推荐数据集,以实现对用户“千人千面”的偏好洞察,为运营商提供个性化、自动化的直播推荐。
本发明的具体技术方案如下:
基于海量跨屏收视行为数据的直播推荐方法,包括以下步骤:
(1)设置终端数据采集模块、HDFS分布式存储模块、ETL模块、推荐模块、WEB应用模块;
(2)终端数据采集模块用于采集用户在多媒体信息播放终端的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;
(3)HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据;
(4)ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为推荐模块提供基础元素数据;
(5)推荐模块包括策略处理模块、算法处理模块、线下推荐结果、线上推荐结果、内容-特征推荐结果数据;
(6)WEB应用模块为终端内嵌的web应用程序,用于推荐请求和推荐内容的展示。
上述方案中,所述多媒体信息播放终端包括DVB STB(数字电视机顶盒)、OTT(互联网机顶盒)、智能电视、手机、平板电脑。
上述方案中,所述其他第三方系统异构数据为PV、UV这些页面浏览数据。
上述方案中,所述推荐模块中的策略处理模块用于为算法处理模块提供基础数据,由用户标签、内容标签、用户画像三部分组成;内容标签定义了用户所收看节目的节目类型、所属地区、节目状态、情感类型等属性;用户标签定义了用户的个人属性、社会属性、消费行为属性、爱好偏向属性、收视行为属性等;用户画像通过内容标签和用户标签的数据整合,标记了用户的标签模型视图,由此勾勒用户的整体轮廓和兴趣偏好。
上述方案中,所述推荐模块中的算法处理模块所采用的推荐算法主要使用协同过滤(item_base,user_base)、用户相似度计算、节目相似度计算、聚类算法、关联规则、统计等,在自然语言处理上,使用分词、索引、关键词和舆情相关的算法、基于时间序列的预测,GBDT+LR的排序算法框架等,实现基于用户画像的个性化推荐。
上述方案中,所述推荐模块中的线下推荐结果是将用户特征属性、内容特征属性和业务规则相结合,融合推荐算法形成的线下推荐结果集。
上述方案中,所述推荐模块中的线上推荐结果是基于用户实时的收视行为数据和页面浏览行为数据,结合用户应用场景、条件规则,形成的实时线上推荐结果集。
上述方案中,所述推荐模块中的内容-特征推荐结果数据是融合线下推荐结果和线上推荐结果,经过预处理、去重、过滤、排名等步骤后形成的最终推荐结果集。
通过上述本发明所述方法可使广电网络运营商利用现有的双向网络通道获取到的海量用户行为数据,快速有效的得到真实的、准确的用户收视偏好、用户画像,实时地为运营商提供运营决策依据,有效的提高用户业务使用率。同时在资源利用率上,较现有的海量数据分析技术可节省大量的硬件设备资源及人员成本。
附图说明:
以下结合附图和具体实施方式来进一步说明本发明。
图1为本发明所述基于海量用户行为数据的直播推荐方法的步骤框图。
具体实施方式:
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
如图1所示,本发明所述的基于海量跨屏收视行为数据的直播推荐方法,首先是设置终端数据采集模块、HDFS分布式存储模块、ETL模块、推荐模块、WEB应用模块;其次,终端数据采集模块用于采集用户在多媒体信息播放终端(包括DVB STB(数字电视机顶盒)、OTT(互联网机顶盒)、智能电视、手机、平板电脑等)的收视行为数据,并将所采集的数据转发给HDFS分布式存储模块负责存储;HDFS分布式存储模块除了负责存储用户收视行为数据,还负责存储其他第三方系统异构数据(PV、UV这些页面浏览数据);ETL模块负责从HDFS分布式存储模块对所存储的用户收视行为数据进行提取、转换和加载,并为推荐模块提供基础元素数据;推荐模块包括策略处理模块、算法处理模块、线下推荐结果、线上推荐结果、内容-特征推荐结果数据;WEB应用模块为终端内嵌的web应用程序,用于推荐请求和推荐内容的展示。
需要指出的是推荐模块中的策略处理模块用于为算法处理模块提供基础数据,由用户标签、内容标签、用户画像三部分组成;内容标签定义了用户所收看节目的节目类型、所属地区、节目状态、情感类型等属性;用户标签定义了用户的个人属性、社会属性、消费行为属性、爱好偏向属性、收视行为属性等;用户画像通过内容标签和用户标签的数据整合,标记了用户的标签模型视图,由此勾勒用户的整体轮廓和兴趣偏好。
推荐模块中的算法处理模块所采用的推荐算法主要使用协同过滤(item_base,user_base)、用户相似度计算、节目相似度计算、聚类算法、关联规则、统计等,在自然语言处理上,使用分词、索引、关键词和舆情相关的算法、基于时间序列的预测,GBDT+LR的排序算法框架等,实现基于用户画像的个性化推荐。
推荐模块中的线下推荐结果是将用户特征属性、内容特征属性和业务规则相结合,融合推荐算法形成的线下推荐结果集。
推荐模块中的线上推荐结果是基于用户实时的收视行为数据和页面浏览行为数据,结合用户应用场景、条件规则,形成的实时线上推荐结果集。
推荐模块中的内容-特征推荐结果数据是融合线下推荐结果和线上推荐结果,经过预处理、去重、过滤、排名等步骤后形成的最终推荐结果集。
由于上述方法中采用了优化组合的算法包及数据模型进行海量的数据预处理操作,每次的用户的推荐请求,只需要从经过数据预处理的内容-特征推荐结果数据中提取相关数据参与实时运算,不需要从完整的原始海量行为数据中进行查询和运算,分析运算效率由现有技术所需的几个小时,十几个小时的漫长等待时间,提升为秒级,甚至毫秒级的实时响应,大大提高了推荐运算效率,同时整个推荐运算过程完全采用机器自学习算法,只需要普通的PC服务器资源即可完成,大大节省了人力资源投入和硬件服务器资源的投入。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。