云环境下基于数据语义的信息推荐方法
【技术领域】
[0001]本发明涉及一种云环境下的数据处理方法,尤其是涉及一种云环境下基于数据语义的信息推荐方法。
【背景技术】
[0002]互联网和物联网技术的迅速发展使得海量信息同时呈现在我们面前,例如,当当网上有近百万本图书、Netflix在线上有数百万部电影、eBay网每天都有数百万的新刊登物品,而del.1c1.us社区网络上面有超过15亿的网页收藏,信息过载呈爆发趋势,其结果导致了终端用户无法准确和高效地发现自己感兴趣的对象。因此,对于企业而言,信息过载问题将严重降低其自身的经济效益和市场竞争力。目前,信息推荐系统是解决信息超载问题最有效的工具之一。在日趋激烈的竞争环境下,信息推荐系统已经不仅仅是一种商业的营销手段,更重要的是可以增进用户的黏着性
[0003]近年来,研究人员把信息推荐系统的研究重心放在推荐方法的设计上,这主要是因为推荐方法是信息推荐系统的核心部分,它决定着系统性能的优劣。目前,主流的推荐方法有3类,即基于内容的推荐方法、协同过滤推荐方法和混合推荐方法。
[0004]基于内容的推荐方法(Content-based Recommendat1n)主要采用人工智能、数据挖掘和概率统计等技术,通过相关特征的属性来定义对象,同时系统基于用户评价对象的特征来学习用户的兴趣,依据用户资料与待预测对象的匹配程度进行推荐,努力向客户推荐与其以前喜欢的产品相似的产品。目前,这方面比较典型的推荐方法有SKCBR方法、ADL方法、SNP方法和YSNLG方法。基于内容推荐方法的最大缺陷是:它必须分析产品的内容信息,因此对音乐、图像、视频等内容无能为力,无法分析其信息的质量。因此,这类方法在现实应用中存在很大的局限性。
[0005]协同过滤推荐方法(CollaborativeFiltering Recommendat1n)跟踪并使用用户的历史信息来计算用户间的相似性,然后,利用与目标用户相似性较高的邻居对其他产品的评价来预测目标用户对特定产品的喜好程度,最后,系统根据这一喜好程度来对目标用户进行推荐。目前,协同过滤推荐方法有两种不同的类型:基于记忆(Memory-based)的方法和基于模型的(Model-based)的方法。基于记忆的方法根据系统中所有被打过分的产品信息进行预测,而基于模型的方法利用收集到的打分数据来进行学习并推荐用户行为模型,进而对某个产品进行预测打分。协同过滤推荐方法最大的缺陷是:随着产品和用户数量的增多,方法的时间复杂度将呈指数级增长,从而导致系统无法实时或快速推荐适合的产品给用户。此外,这类方法对于新注册的用户和新上线的产品的推荐效果较差。
[0006]为了弥补基于内容的推荐方法和协同过滤推荐方法各自的缺陷,研究人员提出了混合推荐方法(Hybrid Recommendat1n)。针对不同的应用场景和需求,混合推荐方法主要分为3类:(1)后集成:使用基于内容的推荐方法和协同过滤推荐方法分别得到推荐列表,集成列表的结果决定最后推荐的对象。Claypool M等人使用了评分结果的线性组合,而Pazzani M等人]使用了投票机制来组合这些推荐结果。(2)中集成:以一种推荐方法为框架,集成另一种推荐方法。Soboroff I等人使用LSI (Latent Semantic Indexing)索引机制在基于内容的框架中使用精化的用户特征向量。而Good N等人把用户当作对象,通过基于内容的特征提取方法把用户本身的特征使用到相似度计算中,而不是仅仅依赖用户的点击行为。(3)前集成:直接将基于内容和协同过滤的方法整合到一个统一的框架模型下。Basu C等人把用户的年龄和电影的类型放到一个统一的分类器中训练学习。而AnsariA等人使用了贝叶斯混合效果回归模型,并通过马尔可夫蒙特卡洛方法得到这个模犁的参数。
[0007]然而,我们发现,随着海量数据的出现以及Web 2.0技术的成熟,现有的信息推荐技术至少面临三个严重问题:(I)网站上大量的用户和产品的信息是动态改变的,这导致了现有推荐方法需要花费巨大的计算量来重新建模,从而严重影响了推荐结果的实时性;
(2)Web 2.0网络开放性使得网站经常受到恶意用户的攻击,以及用户流量压力导致软件模块的异常,而现有的信息推荐方法的鲁棒性较弱,这致使系统易于瘫痪;(3)现有的信息推荐方法通常只对用户的当前偏好进行建模,而不关心偏好的演变过程,这在很大程度上将影响推荐的质量和个性化自适应效果。
【发明内容】
[0008]本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种云环境下基于数据语义的信息推荐方法。
[0009]本发明的目的可以通过以下技术方案来实现:
[0010]一种云环境下基于数据语义的信息推荐方法,该方法通过基础数据和用户偏好信息的语义化模块、云环境下海量语义信息索引模块以及基于语义计算的信息推荐模块实现信息推荐,其中
[0011]所述的基础数据和用户偏好信息的语义化模块,通过云平台获取基础数据和用户偏好信息,并对基础数据和用户偏好信息进行语义化描述,构件基础数据和用户偏好信息的本体库;
[0012]所述的云环境下海量语义信息索引模块,对语义化的信息构造索引结构,并在索引节点过载时,进行索引的分裂和重组;
[0013]所述的基于语义计算的信息推荐模块,对基础数据和用户偏好信息的本体进行语义计算,获取信息推荐结果。
[0014]所述的基础数据和用户偏好信息的语义化模块,对基础数据的语义进行形式化表示,并由此构建基础数据本体库;同时对用户偏好信息进行显性语义抽取和隐性语义发现,并由显性语义和隐性语义构建用户偏好信息本体库。
[0015]基础数据的本体采用五元组0=(C,R,P,I,A)来表示,其中C表示基础数据中概念术语的集合,R是在CXC到R上的多元映射,即概念之间的关系集合,P是说明概念特征的属性集合,I是概念的实例集合,A是规则集合。
[0016]用户偏好信息的显性语义抽取利用潜在语义索引和支持向量机技术来选择出文档片段中的概念,从而完成显性语义抽取;用户偏好信息的显性语义发现则从选择的语义概念出发,利用已经产生的基础数据本体分析出与选择出来的语义概念相关的其他概念、关系、属性和实例,完成隐形语义的发现。
[0017]所述的索引结构为基于CAN和CHORD混合路由协议的两级分布式索引结构,其中全局索引分布于云平台中的若干个服务器上,同时对于每个服务器维护的全局索引片断,依据基于CAN和CHORD混合路由协议指定的特定服务器集群来存储与其对应的局部索引。
[0018]所述的基于语义计算的信息推荐模块采用两种方法进行信息推荐:
[0019]I)以基础数据本体和用户偏好信息本体为输入,以基础数据本体和用户偏好信息本体进行基于本体代数的语义计算,保留用户偏好信息本体相似度高于阈值的基础数据本体,进行信息推荐;
[0020]2)首先将该用户偏好信息本体和从社区网络中获取的关联用户偏好信息本体进行语义计算,保留与用户偏好信息本体相似度高于阈值的关联用户偏好信息本体,作为关联偏好本体;再将得到的关联偏好本体和基础数据本体进行基于本体代数的语义计算,保留与关联偏好本体相似度高于阈值的基础数据本体,进行信息推荐。
[0021]所述的基于语义计算的信息推荐模块还包括用户偏好演化链,该用户偏好演化链由不同时间节点的用户偏好信息本体组成,记录和跟踪不同时期用户的偏好变化情况。
[0022]与现有技术相比,本发明具有以下优点:
[0023]1、当网站上的用户和产品的信息出现动态改变时,不需要耗费巨大的计算量来重新建模,从而提高了推荐结果的实时性。
[0024]2、基于该方法的信息推荐系统鲁棒性较强,不易瘫痪。
[0025]3、本发明包含用户偏好演化链,能够提高信息推荐的质量和个性化自适应效果。
【附图说明】
[0026]图1为本发明的示意图。
【具体实施方式】
[0027]下面结合附图和具体实施例对本发明进行详细说明。
[0028]实施例
[0029]如图1所示,一种云环境下基于数据语义的信息推荐方法,该方法通过基础数据和用户偏好信息的语义化模块、云环境下海量语义信息索引模块以及基于语义计算的信息推荐模块实现信息推荐,其中
[0030]基础数据和用户偏好信息的语义化模块通过云平台获取基础数据和用户偏好信息,并对基础数据和用户偏好信息进行语义化描述,构件基础数据和用户偏好信息的本体库。
[0031]基础数据本体用五元组0= (C,R,P,Ι,Α)来表示,其中C表示基础数据中概念术语的集合:R是在CXC到R上的多元映射,即概念之间的关系集合;P是说明概念特征的属性集合:1是概念的实例集合;A是规则集合。基于基础数据本体的表示模型,为了提高智能