专利名称:一种结合差异特征分布与链接特征的网页排序方法
技术领域:
本发明涉及一种结合差异特征分布与链接特征的网页排序方法,属于互联网信息检索领域。
背景技术:
搜索引擎是用户查找有用信息的主要途径之一,根据2009年的一项调查显不[CNNIC(China Internet Network Information Center)[R]. the 23rd report indevelopment of Internet in China, 2009 :1-3], 68 的人经常使用搜索引擎,84. 5的人把搜索引擎作为获取新信息的主要方法。据研究表明[SILVERSTEIN C,MARAIS H,HENZINGER M, MORICZ M. Analysis of a very large Web search engine query log[C].Proceedings of the 22nd Annual International ACM SIGIR Conference on Researchand Development in Information Retrieval, ACM Press, California,1999,33(1) 6-12],在搜索引擎返回结果中,多数用户只查看前三页,因此排序越靠前的网页点击量越高,带来的利润越大。为了在搜索引擎结果中获得更高排序,网站管理者会努力提高网页质量。而在商业利益的驱使下,有些网站采用作弊手段欺骗搜索引擎,提高垃圾网页排序,严重干扰了用户获取有用信息,检测垃圾网页是搜索引擎面临重大挑战之一 [HENZINGER MR, MOTffANI R, SILVERSTEIN C. Challenges in web search engines[C]. Proceedings ofACM Special Interest Group on Information Retrieval (SIGIR) Forum,2002,36 (2)11-22]。目前,搜索引擎主要依靠内容相关度和网页重要程度确定网页排序。内容相关度可以由 TF/IDF算法[BAEZA-YATES,RIBEIR0-NET0B B. Modern information retrieval [M].Addison Wesley Longman 1999]等信息检索方法计算,而网页重要程度由HIST[KLEINBERGJ M.Authoritative sources in a hyperlinked environment [J]. Journal of theACM, 1999, 46 (5) :604-632]、PageRank 算法[BIANCHINI M,GORI M, SCARSELLI F. InsidePageRank[J]. Journal of the ACM, 2005, 5 (I) :92-128]和 TrustRank 算法[GY0NGYI Z,GARCIA-MOLINA H,PEDERSEN J. Combating web spam with TrustRank[C]. Proceedings ofthe 30th VLDB Conference, ACM Press, 2004 :576-587]等基于链接分析的算法得出。PageRank算法利用网页链接特征对网页进行排序,网页重要程度越高,得分越高,排序越靠前。PageRank算法中,网页p的得分定义为Hp) = a- X 宇^ + (卜a).士⑴
qtq.p)e,,o(g)N其中a为衰减系数,o(q)为网页q的出链接数量,即网页q内有多少个超链接指向其他网页。q:(q,P) G e表示指向网页P的任意一个网页,(q,P) G e表示网页q有出链接指向网页P,£表示所有指向网页P的出链接集合,N表示网页个数。网页p的得分由两部分组成一部分来源于那些指向网页P的网页,另一部分是全部网页对P所做的贡献。所有网页的PageRank值计算为
权利要求
1.一种结合差异特征分布与链接特征的网页排序方法,其特征是,首先通过TrustRank算法计算网页信任值;分析已标记为正常与垃圾网页的特征分布,选择正常网页与垃圾网页特征分布有明显差异的特征,称为差异特征;然后根据差异特征分布,计算网页差异特征信任贡献值;结合网页信任值与网页内容特征值计算网页信任度;根据网页信任度对网页排序。
2.如权利要求I所述的结合差异特征分布与链接特征的网页排序方法,其特征是,具体步骤如下 步骤I.利用TrustRank算法计算web图中每个网页的信任值; 步骤2.统计web图中已经标记为正常及垃圾的网页内容特征,根据统计信息分析正常网页特征分布与垃圾网页特征分布的不同,确定正常网页与垃圾网页特征分布有明显差异的特征,称为差异特征,同时确定正常页面各差异特征的近似分布函数; 步骤3.根据差异特征分布计算网页p差异特征的信任贡献值; 步骤4.利用步骤I得到的网页p信任值与步骤3得到的网页p的差异特征信任贡献值,计算web图中网页p的信任度; 步骤5.根据步骤4得到的网页信任度对web图中的网页进行排序,信任度大的排序靠前,信任度小的排序靠后;网页信任度越高表示网页是正常网页的概率越大,网页信任度越小,表示网页是垃圾网页的概率越大。
3.权利要求2所述的结合差异特征分布与链接特征的网页排序方法,其特征是,所述步骤2中的差异特征选择为网页字数、网页标题字数、网页锚文本字数占网页内容的比例、网页可视内容占网页内容的比例、网页内容的压缩率。正常页面上述5种特征基本服从正态分布,而垃圾网页上述5种特征的分布没有较为明显的分布规律。所述步骤2中,正常页面各差异特征的近似分布函数以正态分布函数近似,统计己标记的正常页面各差异特征的均值及方差,得到各差异特征对应的正态分布函数。
4.权利要求2所述的结合差异特征分布与链接特征的网页排序方法,其特征是,所述步骤3中,网页p的内容特征信任贡献值计算公式为
5.权利要求2所述的结合差异特征分布与链接特征的网页排序方法,其特征是,所述步骤4,网页p的信任度计算为
全文摘要
本发明涉及一种结合差异特征分布与链接特征的网页排序方法。首先通过TrustRank算法计算网页信任值;分析已标记为正常与垃圾网页的差异特征分布,选择正常网页与垃圾网页差异特征分布有明显差异的特征,称为差异特征;根据网页差异特征分布,计算网页差异特征的信任贡献值;结合网页信任值与网页差异特征的信任贡献值计算网页信任度;根据网页信任度对网页排序。本发明利用正常网页与垃圾网页在分布上存在差异的内容特征,结合网页链接特征,更好地提高好网页的排序,降低垃圾网页的排序。
文档编号G06F17/30GK102750380SQ201210215860
公开日2012年10月24日 申请日期2012年6月27日 优先权日2012年6月27日
发明者刘阳, 张化祥, 张悦童 申请人:山东师范大学