面的预读取方法,其特征在于,包括: 获取多个用户中的每一个用户在一个时间段内对多个网页的访问信息; 确定该多个用户中两两用户之间的相似度; 按相似度的大小确定1个或多个最相似用户; 在用户浏览当前网页的过程中,按一定的预测策略分析出所述最相似用户从当前网页 将要点击浏览的目标网页,并预读取出所分析出的目标网页。2. 根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在获取多个用 户中的每一个用户在一个时间段内对多个网页页面的访问信息的过程中对每个页面的数 据进行数据清洗的预处理的步骤。3. 根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在确定该多个 用户中两两用户之间的相似度的步骤中,使用余弦相似度的方法来确定相似度。4. 根据权利要求3所述的网页页面的预读取方法,其特征在于,还包括:在确定两两用 户之间的相似度的过程中,先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。5. 根据权利要求3所述的网页页面的预读取方法,其特征在于,还包括:以多个用户访 问的相同网页作为共同特征,建立倒排表,然后使用余弦相似度的方法来确定倒排表中两 两用户之间的相似度。6. 根据权利要求5所述的网页页面的预读取方法,其特征在于,还包括:当倒排表中的 用户数量超过用户阈值时,筛选掉该倒排表。7. 根据权利要求3所述的网页页面的预读取方法,其特征在于,还包括:利用威尔逊区 间公式对网页的访问量做置信区间计算,取区间下限作为网页的访问量的最终值。8. 根据权利要求1所述的网页页面的预读取方法,其特征在于,还包括:在按相似度 的大小确定1个或多个最相似用户的步骤中,通过筛选掉相似度低于相似度阈值的相似用 户,来确定1个或多个最相似用户。9. 一种网页页面的预读取方法,其特征在于,包括: 获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息; 确定该多个用户中两两用户之间的相似度; 按相似度的大小确定1个或多个最相似用户; 利用最相似用户计算点击路径的推荐概率并且生成预读取列表; 从预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的目标 网页数据。10. 根据权利要求9所述的网页页面的预读取方法,其特征在于,还包括:在获取多个 用户中的每一个用户在一个时间段内对多个网页页面的访问信息的过程中对每个页面的 数据进行数据清洗的预处理的步骤。11. 根据权利要求9所述的网页页面的预读取方法,其特征在于,还包括:在确定该多 个用户中两两用户之间的相似度的步骤中,使用余弦相似度的方法来确定相似度。12. 根据权利要求9所述的网页页面的预读取方法,其特征在于,还包括:在确定两两 用户之间的相似度的过程中,先筛选掉访问不同网页的页面数低于页面数访问阈值的用 户。13. 根据权利要求9所述的网页页面的预读取方法,其特征在于,还包括:以多个用户 访问的相同网页作为共同特征,建立倒排表,然后使用余弦相似度的方法来确定倒排表中 两两用户之间的相似度。14. 根据权利要求13所述的网页页面的预读取方法,其特征在于,还包括:当倒排表中 的用户数量超过用户阈值时,筛选掉该倒排表。15. 根据权利要求11所述的网页页面的预读取方法,其特征在于,还包括:利用威尔逊 区间公式对网页的访问量做置信区间计算,取区间下限作为网页的访问量的最终值。16. 根据权利要求9所述的网页页面的预读取方法,其特征在于,还包括:在按相似度 的大小确定1个或多个最相似用户的步骤中,通过筛选掉相似度低于相似度阈值的相似用 户,来确定1个或多个最相似用户。17. 根据权利要求9所述的网页页面的预读取方法,其特征在于,还包括:在利用最相 似用户计算点击路径的推荐概率的步骤中,统计1个最相似用户在所述时间段内从第一网 页点击进入第二网页的次数,并用该统计出的次数与该最相似用户的相似度的乘积作为该 最相似用户从第一网页点击进入第二网页的点击路径的推荐概率;在有多个最相似用户 时,以此方式计算其他多个最相似用户从第一网页点击进入第二网页的点击路径的推荐概 率;然后将计算出的多个最相似用户的推荐概率相加求和,从而得到从第一网页点击进入 第二网页的点击路径的最终推荐概率;以此方式,计算出1个或多个最相似用户在所述时 间段内访问的多条点击路径的推荐概率。18. 根据权利要求17所述的网页页面的预读取方法,其特征在于,还包括:在利用最 相似用户计算点击路径的推荐概率的过程中,筛选掉点击次数低于点击次数阈值的点击路 径。19. 根据权利要求17所述的网页页面的预读取方法,其特征在于,还包括:在利用最相 似用户计算点击路径的推荐概率的过程中,利用威尔逊区间公式对网页的访问次数做置信 区间计算,取区间下限作为网页的访问次数的最终值。20. 根据权利要求9所述的网页页面的预读取方法,其特征在于,还包括:在生成预读 取列表的过程中,多条点击路径在预读取列表中以推荐概率的大小进行排序。21. 根据权利要求9所述的网页页面的预读取方法,其特征在于,还包括:在生成所述 预读取列表之前或过程中,先筛选掉推荐概率低于推荐概率阈值的点击路径。22. 根据权利要求9所述的网页页面的预读取方法,其特征在于,还包括:在从预读取 列表中查询当前浏览的网页页面的点击路径从而预读取相应待浏览的目标网页数据的步 骤中,选择最大推荐概率的点击路径来预读取相应待浏览的目标网页数据,或者按推荐概 率的降序方式预读取多个相应待浏览的目标网页数据。23. -种网页页面预读取装置,其特征在于,包括: 获取模块、确定模块、分析模块、和第一预读取模块,其中: 所述获取模块用于获取多个用户中的每一个用户在一个时间段内对多个网页页面的 访问信息; 所述确定模块用于确定该多个用户中两两用户之间的相似度以及按相似度的大小确 定1个或多个最相似用户; 所述分析模块用于在用户浏览当前网页的过程中,按一定的预测策略分析出所述最相 似用户从当前网页将要点击浏览的目标网页; 所述第一预读取模块用于预读取出所分析出的目标网页。24. 根据权利要求23所述的网页页面预读取装置,其特征在于,所述获取模块包括预 处理模块,用于对网页数据进行数据清洗。25. 根据权利要求23所述的网页页面预读取装置,其特征在于,所述确定模块包括相 似度计算模块,用于通过计算余弦相似度来确定相似度。26. 根据权利要求23所述的网页页面预读取装置,其特征在于,所述确定模块包括筛 选模块,用于先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。27. 根据权利要求23所述的网页页面预读取装置,其特征在于,所述确定模块包括倒 排表建立模块,用于以多个用户访问的相同网页作为共同特征,建立倒排表。28. 根据权利要求23所述的网页页面预读取装置,其特征在于,所述确定模块包括最 相似用户确定模块,用于通过筛选掉相似度低于相似度阈值的相似用户来确定1个或多个 最相似用户。29. -种网页页面预读取装置,其特征在于,包括: 获取模块、确定模块、计算和生成模块、和第二预读取模块,其中: 所述获取模块用于获取多个用户中的每一个用户在一个时间段内对多个网页页面的 访问信息; 所述确定模块用于确定该多个用户中两两用户之间的相似度以及按相似度的大小确 定1个或多个最相似用户; 所述计算和生成模块用于利用最相似用户计算点击路径的推荐概率并且生成预读取 列表; 所述第二预读取模块用于从预读取列表中查询当前浏览的网页页面的点击路径,从而 预读取相应待浏览的目标网页数据。30. 根据权利要求29所述的网页页面预读取装置,其特征在于,所述获取模块包括预 处理模块,用于对网页数据进行数据清洗。31. 根据权利要求29所述的网页页面预读取装置,其特征在于,所述确定模块包括相 似度计算模块,用于通过计算余弦相似度来确定相似度。32. 根据权利要求29所述的网页页面预读取装置,其特征在于,所述确定模块包括筛 选模块,用于先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。33. 根据权利要求29所述的网页页面预读取装置,其特征在于,所述确定模块包括倒 排表建立模块,用于以多个用户访问的相同网页作为共同特征,建立倒排表。34. 根据权利要求29所述的网页页面预读取装置,其特征在于,所述确定模块包括最 相似用户确定模块,用于通过筛选掉相似度低于相似度阈值的相似用户来确定1个或多个 最相似用户。35. 根据权利要求29所述的网页页面预读取装置,其特征在于,所述计算和生成模块 包括推荐概率计算模块,用于计算每条点击路径的推荐概率。36. 根据权利要求29所述的网页页面预读取装置,其特征在于,所述计算和生成模块 包括生成模块,用于生成预读取列表。37. -种智能终端设备,其特征在于,包括如权利要求23-36之一所述的网页页面预读 取装置。
【专利摘要】本发明提供了一种网页页面的预读取方法、装置及智能终端设备。该预读取方法包括:获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息;确定该多个用户中两两用户之间的相似度;按相似度的大小确定1个或多个最相似用户;在用户浏览当前网页的过程中,按一定的预测策略分析出所述最相似用户从当前网页将要点击浏览的目标网页,并预读取出所分析出的目标网页。本发明提供的技术方案的有益效果是:能够提前给用户预读取出概率较高的网页数据,并保存到本地缓存,提高了用户打开网页页面的速度,提升了用户体验。
【IPC分类】G06F17/30
【公开号】CN105589914
【申请号】CN201510426888
【发明人】梁捷, 蒋喻新, 姚文清, 吴伙成, 许延伟
【申请人】广州市动景计算机科技有限公司
【公开日】2016年5月18日
【申请日】2015年7月20日