一种网页页面的预读取方法、装置及智能终端设备的制造方法

文档序号:9826311阅读:533来源:国知局
一种网页页面的预读取方法、装置及智能终端设备的制造方法
【技术领域】
[0001] 本发明涉及网页浏览技术领域,具体而言,涉及一种网页页面的预读取方法、装置 及智能终端设备。
【背景技术】
[0002] 随着互联网的普及、计算机作为家庭以及工作的必备产品之一,人们使用计算机 上的浏览器访问互联网日趋频繁;尤其随着例如智能手机和平板电脑的智能终端产品的 迅速普及,用户使用终端浏览器访问互联网成为日常行为。在用户使用浏览器打开网页的 过程中,如果当前的网络环境受限,或者终端设备的运行速度受限,就会影响网页的打开速 度,造成用户等待,用户上网的体验感很差。影响网页打开速度的主要原因是下载网页内容 的时间过长。
[0003] 目前,一般采用对可能需要的网页进行预读取的方法来满足用户快速打开网页的 需要。该方法主要是在用户浏览当前网页页面的过程中,服务器端获取用户下一步可能需 要的网页,在用户未浏览这些网页之前先将这些网页的网址及其资源加载到本地缓存中; 当用户访问其中某个网页时直接从本地缓存中读取相关数据来展示给用户阅览,避免了等 待下载网页的过程,缩短用户进行网页访问操作后的网页响应时间。
[0004] 现有的网页预读取方法常见以下两种:
[0005] 第一、在用户浏览连续内容的某一个网页时预读取该网页上包含的链接到相邻网 页的一个或多个关键字,例如"下一页"、"next page"等,然后依次取链接的网页内容并放 入本地缓存中。
[0006] 第二、从服务器端获取网页列表,然后依次读取该网页列表中各网页内容并放入 本地缓存中。
[0007] 由上可知,现有的第一种网页预读取方法只能适用于特定网页,即只对一个较长 的内容被拆分成用超链接链起来的多个网页有效,而对于大量不存在页码顺序的其它网 页,如新闻网页等,这种方法将无法预读取到用户后续可能访问的网页,因此并不能加快浏 览器网页页面的显示。现有的第二种网页预读取方法则需要预读取大量的数据并载入本地 缓存,严重占用缓存空间,甚至造成缓存空间不足的情况发生。
[0008] 另外,人们也提出一些新的预读取方法来试图改善用户体验。
[0009] 例如,提出了基于网页上的热点链接来"猜测"用户可能访问的网页的思路,然后 对这些网页进行有针对性的预读取,以提高预读取的有效性。例如,2012年9月12日公 开的申请号为201210074771. 6的中国专利文献,名称为"一种网页预加载方法及系统", 该方法为:确定源网页内包含的热点链接,对热点链接对应的目标网页进行预加载;但是, 该专利文献中公开的确定热点链接的方式还是本领域技术人员容易想到的方法,例如根据 源网页A中某链接被点击的总次数来确定是否为热点链接;以用户对各个链接的点击顺 序来确定是否为热点链接。这种方法确定热点链接的准确率偏低。例如,所述申请号为 201210074771.6的专利文献的第0099段中就自述了"在实际应用中,可能存在虽然用户点 击了某链接,但是用户可能并不喜欢或者不是特别喜欢这个链接的情况,在这种情况下,如 果单纯地通过点击次数来区分一个链接是否为热点链接,可能会使得结果不够准确"。同 样,以用户对各个链接的点击顺序来确定热点链接的准确率也是偏低的。例如,还存在用户 对源网页上包含的多个热点链接都感兴趣的情况,其不一定每天都是按照同一顺序点击, 当某个热点链接出现热点信息时,用户也许先点击该热点链接。例如足球世界杯期间,用户 会先点击世界杯比赛新闻;在世界杯期间,某款非常著名品牌召开新品发布会,用户会先点 击关于该新品的热点链接。因此,即便将这两种方式组合,用该组合方式确定热点链接的准 确率也将偏低;还可能存在用户点击一个新的没有记录过的网站时,无法进行预读取。
[0010] 另外,所述申请号为201210074771. 6的专利文献没有考虑热点链接还存在热度 随着时间衰减的问题。例如,美国篮球NBA总比赛结束后的一段时间,用户关注NBA栏目的 热度会显著降低。还例如,热点新闻或热点头条每天都在出现,今天的热点新闻或热点头条 到明天也许热度就降低了,一星期之后也许就没人关注了。
[0011] 再例如,还提出了一种基于用户的浏览习惯来"猜测"用户可能访问的网页的思 路,然后对这些网页进行有针对性的预读取,以提高预读取的有效性。例如,2012年10月 17日公开的申请号为201110086435. 9的中国专利文献,名称为"一种网页预读取的方法、 装置及一种浏览器",该方法为:读取用户的浏览习惯信息;在用户浏览当前网页的过程中, 根据所述用户的浏览习惯信息分析出将要预读取的网页链接,从服务器端预读取所述网页 链接对应的网页数据并保存到本地缓存。但是,其公开的预读取策略为:将用户常常点击网 页上的那部分内容的位置区域的一条或多条网页链接预读取出来,或者记录在用户点击某 网页A上的关键词,当下次再打开该网页A时,将匹配关键词的前几条或大部分网页链接进 行预读取。这种网页预读取方法的缺点是显而易见的,其预读取一条网页链接或者匹配关 键词的前几条网页链接,则给用户预读取出网页数据的命中率很低,如果预读取多条网页 链接或者匹配关键词的大部分网页链接,则需要预读取大量的数据并载入本地缓存,严重 占用缓存空间,甚至造成缓存空间不足的情况发生;还可能存在用户点击一个新的没有记 录过的网站时,无法进行预读取。
[0012] 因此,目前需要一种新的网页页面的预读取方法。

【发明内容】

[0013] 本发明的目的在于提供一种网页页面的预读取方法、装置及智能终端设备,以改 善上述的问题。
[0014] 在本发明的实施例中提供了一种网页页面的预读取方法,其特征在于,包括:
[0015] 获取多个用户中的每一个用户在一个时间段内对多个网页的访问信息;
[0016] 确定该多个用户中两两用户之间的相似度;
[0017] 按相似度的大小确定1个或多个最相似用户;
[0018] 在用户浏览当前网页的过程中,按一定的预测策略分析出所述最相似用户从当前 网页将要点击浏览的目标网页,并预读取出所分析出的目标网页。
[0019] 优选的,在获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问 信息的过程中对每个页面的数据进行数据清洗的预处理的步骤。
[0020] 优选的,在确定该多个用户中两两用户之间的相似度的步骤中,使用余弦相似度 的方法来确定相似度。
[0021] 优选的,在确定两两用户之间的相似度的过程中,先筛选掉访问不同网页的页面 数低于页面数访问阈值的用户。
[0022] 优选的,以多个用户访问的相同网页作为共同特征,建立倒排表,然后使用余弦相 似度的方法来确定倒排表中两两用户之间的相似度。
[0023] 优选的,当倒排表中的用户数量超过用户阈值时,筛选掉该倒排表。
[0024] 优选的,利用威尔逊区间公式对网页的访问量做置信区间计算,取区间下限作为 网页的访问量的最终值。
[0025] 优选的,在按相似度的大小确定1个或多个最相似用户的步骤中,通过筛选掉相 似度低于相似度阈值的相似用户,来确定1个或多个最相似用户。
[0026] 本发明实施例还提供了一种网页页面的预读取方法,其特征在于,包括:
[0027] 获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息;
[0028] 确定该多个用户中两两用户之间的相似度;
[0029] 按相似度的大小确定1个或多个最相似用户;
[0030] 利用最相似用户计算点击路径的推荐概率并且生成预读取列表;
[0031] 从预读取列表中查询当前浏览的网页页面的点击路径,从而预读取相应待浏览的 目标网页数据。
[0032] 优选的,在获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问 信息的过程中对每个页面的数据进行数据清洗的预处理的步骤。
[0033] 优选的,在确定该多个用户中两两用户之间的相似度的步骤中,使用余弦相似度 的方法来确定相似度。
[0034] 优选的,在确定两两用户之间的相似度的过程中,先筛选掉访问不同网页的页面 数低于页面数访问阈值的用户。
[0035] 优选的,以多个用户访问的相同网页作为共同特征,建立倒排表,然后使用余弦相 似度的方法来确定倒排表中两两用户之间的相似度。
[0036] 优选的,当倒排表中的用户数量超过用户阈值时,筛选掉该倒排表。
[0037] 优选的,利用威尔逊区间公式对网页的访问量做置信区间计算,取区间下限作为 网页的访问量的最终值。
[0038] 优选的,在按相似度的大小确定1个或多个最相似用户的步骤中,通过筛选掉相 似度低于相似度阈值的相似用户,来确定1个或多个最相似用户。
[0039] 优选的,在利用最相似用户计算点击路径的推荐概率的步骤中,统计1个最相似 用户在所述时间段内从第一网页点击进入第二网页的次数,并用该统计出的次数与该最相 似用户的相似度的乘积作为该最相似用户从第一网页点击进入第二网页的点击路径的推 荐概率;在有多个最相似用户时,以此方式计算其他多个最相似用户从第一网页点击进入 第二网页的点击路径的推荐概率;然后将计算出的多个最相似用户的推荐概率相加求和, 从而得到从第一网页点击进入第二网页的点击路径的最终推荐概率;以此方式,计算出1 个或多个最相似用户在所述时间段内访问的多条点击路径的推荐概率。
[0040] 优选的,
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1