自的需要。
[0059]图1是根据本发明的一个实施例的处理网站地图的方法的示意性流程图。
[0060]如图1所示,包括:
[0061]步骤101、根据预设信息获取网站的网站地图。
[0062]该步骤中,可以根据与网站协商一致后,根据网站提供的设置信息,获取网站的网站地图。
[0063]步骤102、获取网站地图中页面的链接并进行访问。
[0064]该步骤中,获取网站地图中的各URL (Uniform Resource Locator,统一资源定位符)链接,并对URL链接分别进行访问以进行验证。
[0065]步骤103、根据访问结果删除网站地图中影响搜索收录的链接。
[0066]该步骤中,根据访问结果删除网站地图中影响搜索收录的链接包括:
[0067]在访问结果是出现无法访问的HTTP 404错误时,删除对应的链接;或,
[0068]在访问结果是页面响应时间大于或等于设定阈值时,删除对应的链接;或,
[0069]在访问结果是页面的标题、关键词和描述不完整时,删除对应的链接;或,
[0070]在访问结果是页面的正文内容与页面的标题、关键词和描述不匹配时,删除对应的链接。
[0071]步骤104、生成新网站地图。
[0072]该步骤中,在删除了网站地图中影响搜索收录的各链接后,重新整理生成新网站地图。
[0073]可以发现,本发明实施例的技术方案,通过获取网站地图中页面的链接后先进行访问,根据访问结果发现有影响搜索收录的链接后,就删除网站地图中影响搜索收录的链接,再生成新网站地图,这样就可以实现对网站的原先的网站地图进行优化处理,尽量避免网站地图中出现各种内容不好或容易出错的链接,从而可以提升网站地图质量,也可以增加被搜索引擎收录的可能性,满足网站和搜索引擎的需求。
[0074]以下进一步更具体介绍本发明的技术方案。
[0075]图2是根据本发明的一个实施例的处理网站地图的方法的另一示意性流程图。
[0076]如图2所示,包括:
[0077]步骤201、根据预设信息获取网站的网站地图。
[0078]该步骤参见上述步骤101的描述。
[0079]步骤202、获取网站地图中页面的链接并进行访问。
[0080]该步骤参见上述步骤102的描述。
[0081]步骤203、根据访问结果删除网站地图中影响搜索收录的链接。
[0082]该步骤参见上述步骤103的描述。
[0083]步骤204、对访问的页面提取关键词和正文特征值。
[0084]该步骤中,可利用现有的不同算法对页面的内容进行关键词提取,并对正文内容提取正文特征值,本发明不加以限定。
[0085]步骤205、根据提取的关键词和正文特征值与预存的关键词和正文特征值的比较结果,删除网站地图中影响搜索收录的链接。
[0086]该步骤中,是根据提取的关键词和正文特征值与预存的关键词和正文特征值的比较结果是一致,判断为内容重复提交,删除对应的链接。
[0087]步骤206、生成新网站地图。
[0088]步骤207、将生成的新网站地图提供给搜索引擎访问。
[0089]该步骤中,可以将生成的新网站地图替换网站原有的网站地图,供搜索引擎到网站访问新网站地图,也可以由网站进行设置,由搜索引擎直接到服务平台访问新网站地图,本发明不加以限定,只要能让搜索引擎访问新网站地图即可。
[0090]需说明的是,上述步骤202、203的处理与步骤204、205的处理没有必然的顺序关系,上述步骤安排仅为描述的方便。
[0091]需说明的是,上述步骤207之后还可以包括:记录所述搜索引擎访问新网站地图后进行搜索并收录的收录数据。
[0092]可以发现,本发明实施例的技术方案,可以分别根据访问结果删除网站地图中影响搜索收录的链接和根据提取的关键词和正文特征值与预存的关键词和正文特征值的比较结果,删除网站地图中影响搜索收录的链接,提供优化效果。另外,还可以记录所述搜索引擎访问新网站地图后进行搜索并收录的收录数据,从而为后续的网站地图修改提供参考或供网站进行分析。
[0093]图3是根据本发明的一个实施例的处理网站地图的方法的另一示意性流程图。
[0094]如图3所示,包括:
[0095]步骤301、sitemap服务平台根据网站的设置信息对网站的sitemap进行数据提取。
[0096]该步骤中,网站与sitemap服务平台(下文简称服务平台)预先协商一致,由网站设置sitemap与服务平台的映射关系,允许服务平台根据网站提供的设置信息例如地址信息对sitemap进行处理。网站设置映射关系可通过XML实现。服务平台根据网站提供的设置信息,可以对sitemap进行数据提取,获取其中的各链接的URL信息。
[0097]步骤302、服务平台将提取的sitemap中的URL分别进行检查,判断访问URL是否出现无法访问的HTTP 404错误,如果是,进入步骤311,从sitemap中删除该URL并记录原因,如果否,进入步骤303。
[0098]HTTP 404错误意味着链接指向的网页不存在,即原始网页的URL失效,这种情况经常会发生,例如:网页URL生成规则改变、网页文件更名或移动位置、导入链接拼写错误等,导致原来的URL地址无法访问;当网页服务器接到类似请求时,会返回一个404状态码,告诉浏览器要请求的资源并不存在。因此,当出现URL无法访问的HTTP 404错误时,表示该URL已经失效,此时从sitemap中删除该URL并记录原因。
[0099]步骤303、服务平台判断访问URL的页面响应速度是否异常,如果是,进入步骤311,从sitemap中删除该URL并记录原因,如果否,进入步骤304。
[0100]当URL可以正常访问时,检测页面的响应速度,响应速度可以通过响应时间进行衡量。如果响应时间大于或等于设定阈值,认为响应速度异常,如果小于设定阈值,认为响应速度正常。设定阈值,可以根据经验取值,例如设置为500毫秒或1秒,本发明不加以限定。
[0101]需说明的时,也可以根据页面历史访问响应速度与当前访问响应速度进行对比,判断响应速度是否异常。如果当前响应时间比历史响应时间大很多,超过某个阈值,可认为响应速度异常。
[0102]因此,当页面响应速度异常时,表示该URL对应的页面可能有问题或URL对应的网络连接可能有问题,这些都会影响用户的浏览体验,此时从sitemap中删除该URL并记录原因。
[0103]步骤304、服务平台判断页面的TKD是否不完整,如果是,进入步骤311,从sitemap中删除该URL并记录原因,如果否,进入步骤305。
[0104]TKD是标题title、关键词keywords、描述descript1n的缩写。TKD的格式内容可以如下所示:
[0105]〈title〉这里是标题内容〈/title〉
[0106]〈meta name = ^keywords^content = 〃这里是关键词内容"/>
[0107]〈meta name = "descript1n"content = 〃这里是描述内容"/>
[0108]关键词keywords,是一个网站管理者给网站某个页面设定的以便用户通过搜