本发明涉及seo自动优化技术领域,具体涉及一种利用网络爬虫进行seo自动优化的方法及装置。
背景技术:
现有seo优化(searchengineoptimization,搜索引擎优化)有以下两种方案:
方案一:传统纯人工方式,通过搜索引擎提供的seo优化平台进行官方优化(如百度,必应等),给出seo方案,人工进行优化。
百度官方seo营销平台(http://e.baidu.com/),即百度推广,是向企业提供的按效果付费的网络营销服务,借助百度超过80%中国搜索引擎市场份额和60万家联盟网站,打造了链接亿万网民和企业的供需平台,让有需求的人最便捷地找到适合自己的产品和服务,也让企业用少量投入就可以获得大量潜在客户、有效提升企业品牌影响力。
必应搜索引擎官方seo分析工具(https://www.bing.com/toolbox/seo-analyzer),帮助客户检查页面是否遵循seo最佳方法。获取按需报告,报告中会突出显示客户页面源的问题,并提供修复这些问题的建议。只需登录或注册必应网站管理员工具即可开始使用。除了seo分析程序之外,必应网站管理员工具还能为网站管理员、网站所有者和seo提供更有用的资源,包括:标记验证程序,查看在页面上找到的模式和标记;关键字研究工具,查看查询量并针对客户的内容生成关键字建议。
百度和必应提供的seo优化平台,通过人工方式,按照官方提供的seo建议进行设置和优化,从而达到seo营销优化的目的,属于传统的人工优化方案。
方案二:熟悉各搜索引擎的具体排名算法并进行优化。
https://blog.csdn.net/junecauzhang/article/details/7686575
以上举例为百度和google的关于搜索引擎区的文章,阐述了双方排名算法的差异,需要通过分析得出具体搜索引擎的排名规则,并将其中部分可抽象化的重复类设置工作提取出来,但是不能实现seo自动优化。
现有技术方案存在的问题如下:
1)当前大多数seo方案和方式都是依靠经验或人工完成,并未通过自动化和规范化的方式完成。
2)大多数seo优化及发布都是单独系统独立进行,未有将爬虫+seo分析+cms(contentmanagementsystem,内容管理系统)结合后一体式的优化方案。
技术实现要素:
作为公司官网或某些长效活动网址,需要保障其在搜索引擎中的排名位置保证一定的排名,根据搜索引擎的排名规则,进行seo优化。本发明提出了一种利用网络爬虫进行seo自动优化的方法及装置,会定时获取排名下滑通知,并自行进行seo的优化工作,从而将运营人员从繁琐的seo常规优化工作中进行释放。
本发明采用的技术方案具体如下:
一种利用网络爬虫进行seo自动优化的方法,所述方法包括以下步骤:
数据采集与分析:通过网络爬虫进行数据采集,并对数据采集进行规则分析;
seo优化:基于数据采集与分析结果进行seo优化,得到seo优化意见,对于通用化的seo优化意见直接通过cms系统对需要优化的页面进行更改,自动完成页面编辑和发布,对于非通用化的seo优化意见或者未设置规则的seo优化意见通过人工进行操作。
进一步地,所述数据采集与分析具体包括以下步骤:
通过网络爬虫对关键字在搜索引擎下的排名情况进行爬取和监听,同时将爬取到的内容记录保存;
根据网络爬虫爬取到的内容,对爬取文件和网站排名进行分析,当排名低于预设排名规则时,由文件分析系统依照制定规则进行分析,同时触发通知通告管理员。
进一步地,所述爬取到的内容包括以下任意一种及以上:页面内容、访问地址和外链关联。
进一步地,对爬取到的内容按照日期进行分类。
进一步地,将排名高于预设排名规则的网站设定为高排名网站,进行单独归类和日期标注。
进一步地,对于高排名网站爬取页面进行文本分析工作,并将根据分析结果给出seo优化意见。
进一步地,所述通用化的seo优化意见包括keywords优化或者meta属性分析优化。
进一步地,cms系统对需要优化的页面进行更改,包括keyword数值的增/减,meta数据值的变更和增加。
本发明还提供了一种利用网络爬虫进行seo自动优化的装置,所述装置包括:
数据采集与分析单元,用于通过网络爬虫进行数据采集,并对数据采集进行规则分析;
seo优化单元,用于基于数据采集与分析结果进行seo优化,得到seo优化意见,对于通用化的seo优化意见直接通过cms系统对需要优化的页面进行更改,自动完成页面编辑和发布,对于非通用化的seo优化意见或者未设置规则的seo优化意见通过人工进行操作。
进一步地,所述数据采集与分析单元通过网络爬虫对关键字在搜索引擎下的排名情况进行爬取和监听,同时将爬取到的内容记录保存;根据网络爬虫爬取到的内容,对爬取文件和网站排名进行分析,当排名低于预设排名规则时,由文件分析系统依照制定规则进行分析,同时触发通知通告管理员。
本发明还提供了一种存储器,所述存储器存储有计算机程序,所述计算机程序执行如下步骤:
数据采集与分析:通过网络爬虫进行数据采集,并对数据采集进行规则分析;
seo优化:基于数据采集与分析结果进行seo优化,得到seo优化意见,对于通用化的seo优化意见直接通过cms系统对需要优化的页面进行更改,自动完成页面编辑和发布,对于非通用化的seo优化意见或者未设置规则的seo优化意见通过人工进行操作。
本发明的有益效果如下:
1)通过爬虫抓取排名信息,进行定期监控排名信息,通过将seo的规则进行整理和沉淀,便于形成规范化和标准化的常规优化方案。
2)将优化结果通过与cms系统结合,可以快速进行响应和发布,从而提高seo优化效率和优化的自动化水平。
附图说明
图1为本发明seo自动优化总体流程图;
图2为本发明seo优化阶段详细流程图。
具体实施方式
本发明采用技术定时获取网站的搜索引擎排名信息,分析高排名网站的title、mate等的keyword相关信息自行进行优化。采用爬虫技术爬取排名,通过网络爬虫技术定时对某些关键字的搜索引擎结果进行爬取并存储,以便为后续的分析系统进行数据分析。通过对爬虫爬取的网页进行分析,获取到高排名站点的seo优化内容,作为自主seo的优化依据,同时可以通过人工介入规则的方式加入seo规则,优化完成内容通过cms系统直接发布到网页中进行上线,供搜索引擎的网络蜘蛛爬取。
下文中,结合附图和实施例对本发明作进一步阐述。
实施例一:
本发明提供了一种利用网络爬虫进行seo自动优化的方法,如图1所示,总体分为两个步骤:步骤一:数据采集分析,步骤二:seo自动优化,其中数据采集分析步骤又可分为利用爬虫技术完成数据采集和对数据采集进行规则分析两部分。seo优化步骤则是根据步骤一完成后输出的分析结果,进行seo优化意见和通知,其中针对通用优化部分则可以直接通过cms系统对需优化页面进行更改后,自动完成页面编辑&发布工作,无法通用或未设置规则的seo优化意见&规则则需要通知管理员进行人工介入操作。
步骤一:数据采集和分析。
本步骤是进行seo优化的前置阶段,主要是利用爬虫技术对相关关键字在各大搜索引擎下的排名情况进行爬取和监听,同时将爬取到的页面内容、访问地址、外链关联等爬取logs记录保存,作为后续分析操作的依据。爬虫抓取内容保存落库后,对抓取文件和本网站所在排名进行分析,当低于预设排名规则时,由文件分析系统依照制定规则进行分析动作,例如keywords排序,设置eate属性值抽取分析,例如<metaname=″revisit-after″content=″7days″>(通知搜索引擎多少天访问一次)等,同时触发通知通告管理员。本步骤具体包括以下步骤:
步骤1:制定爬虫爬取规则,主要是针对某些关键字进行爬取及爬取范围&边界,针对不同的搜索引擎,爬取规则会略有不同,同时将爬取的文件和爬取时的相关信息,如ip地址,访问域名,请求返回状态等关键信息进行同步保存,并按日期进行分类。
步骤2:对爬取的文件和爬取日志进行排名分析并整理出具体排名情况,依照设定规则如本站网页低于设定排名,如前3名,则将高排名的网站信息进行单独归类和日期标注,供分析引擎进行分析拆解。
步骤3:针对预警规则对整理的排名信息进行检查,如发现本站网页排名低于阈值,则需要启动后续的网址分析工作并通知相关管理员。否则则不予处理。
步骤一的工作重点在于爬虫爬取、数据收集和分析预警通知三部分,主要是完成数据采集及积累的工作。
步骤二:seo优化。
seo优化由于其本身特性决定了其优化内容的繁琐性与多样性以及不确定性,因此步骤二的优化工作具体包括以下两部分:
部分一:
对于高排名的网站爬取页面进行文本分析工作,并将根据分析结果给出具体的优化意见,其中较为通用化的优化工作由程序完成的,例如keywords优化,meta属性分析优化等,通过cms系统直接更新推送至线上网站,其中cms系统作为本发明不可或缺的一大重要组成部分,负责seo通用优化部分的承接,cms系统需要提供具体接口,根据提供的访问地址找到页面源文件,并根据seo提供的优化方案,对本页面内容进行相应修改,如keyword数值的增/减,meta数据值的变更和增加等,待修改完成后进行保存并进行线上推送,从而完成生产环境页面源码更新的动作,待下次搜索引擎爬虫爬取后进行网址排名。
部分二:
需要通知相关优化责任人,进行人工介入为第一部分的程序优化进行审核和管控,如某些敏感词过滤等,同时完成程序暂无法完成的优化工作,如外链宣传等,这些优化方案需要提供给seo的优化管理员,管理员根据具体方案执行,同时针对优化后的效果进行评估,对于没有给出的优化意见需要添加后优化系统的优化规则库中,并标明具体适用场景,供后续优化意见的完善性和合理性。详细流程图如图2所示。
实施例二:
本发明还提供了一种利用网络爬虫进行seo自动优化的装置,采用爬虫技术对排名内容进行定时自定抓取并作为后续seo优化依据进行分析,采用结合cms系统的设计完成功能自动化的架构设计。所述装置包括:
数据采集与分析单元,用于通过网络爬虫进行数据采集,并对数据采集进行规则分析;
seo优化单元,用于基于数据采集与分析结果进行seo优化,得到seo优化意见,对于通用化的seo优化意见直接通过cms系统对需要优化的页面进行更改,自动完成页面编辑和发布,对于非通用化的seo优化意见或者未设置规则的seo优化意见通过人工进行操作。
较佳地,所述数据采集与分析单元通过网络爬虫对关键字在搜索引擎下的排名情况进行爬取和监听,同时将爬取到的内容记录保存;根据网络爬虫爬取到的内容,对爬取文件和网站排名进行分析,当排名低于预设排名规则时,由文件分析系统依照制定规则进行分析,同时触发通知通告管理员。
实施例三:
本发明还提供了一种存储器,所述存储器存储有计算机程序,所述计算机程序执行如下步骤:
数据采集与分析:通过网络爬虫进行数据采集,并对数据采集进行规则分析;
seo优化:基于数据采集与分析结果进行seo优化,得到seo优化意见,对于通用化的seo优化意见直接通过cms系统对需要优化的页面进行更改,自动完成页面编辑和发布,对于非通用化的seo优化意见或者未设置规则的seo优化意见通过人工进行操作。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。