基于翻译模板的互联网网页建构移动页面的方法与系统的制作方法
【技术领域】
[0001]本发明涉及移动网站建站技术,更具体地说,涉及一种基于翻译模板的互联网网页自动化同步建构移动页面的方法与系统。
【背景技术】
[0002]随着智能手机、平板电脑等移动设备的普及,移动互联网成为了一大流量入口。传统企业不仅考虑PC站的网站,同时也急需移动站点。未移动化的PC企业网站对移动终端设备用户浏览体验造成了极大的影响,简单的优化与调整并不能完美展现企业的品牌文化和产品特色。
[0003]企业的传统移动站点制作一般采取2种方式:1)寻找专门的网络公司定制开发,该方式制作成本高,周期长,需要专门公司维护;2)通过移动建站的平台开通账号,自助录入站点信息。该方式,需要重新再次录入已有的站点的数据,操作繁琐,数据维护困难,往往会导致数据不同步。
[0004]现有的互联网网页转为为移动页面,大都只考虑单页的内容,来实现自动转换,没有考虑网站整体结构布局。采取整站分析技术,不论在信息完整性、转换性能、提取准确率、页面渲染等都有绝对的优势。
【发明内容】
[0005]本发明的目的在于克服现有技术的不足,提供一种将企业的传统的互联网站点自动转换为企业的移动站点,并实现数据的实时的同步更新的基于翻译模板的互联网网页自动化同步建构移动页面的方法与系统。
[0006]本发明的技术方案如下:
一种基于翻译模板的互联网网页自动化同步建构移动页面的方法,将适合PC显示的互联网网页转换为适用移动设备显示的移动页面,包括翻译模板后台学习步骤、移动内容转换步骤;
翻译模板后台学习步骤:对原始的互联网网页重建成为适用设备显示的移动页面的结构,并保存于翻译模板中;
移动内容转换步骤:通过移动设备访问翻译模板后台学习步骤中已生成翻译模板的互联网网页,获取翻译模板,并对互联网网页的内容进行转换,填入翻译模板对应的位置,生成移动页面。
[0007]作为优选,翻译模板后台学习步骤如下:
1.1)互联网网页结构分析:根据HTML源代码,分析互联网网页的各个模块与网页布局;
1.2)链接分析:对互联网网页包含的所有链接进行分类归组;
1.3)创建翻译模板:根据步骤1.1)与步骤1.2)的分析结果,重建互联网网页的结构信息,保存于对应的翻译模板中。
[0008]作为优选,移动内容转换步骤中,通过移动设备进行如下操作中的一种或多种:对互联网网页的内容进行转义、剔除不适用于翻译模板的文本内容、存储图片至本地。
[0009]作为优选,翻译模板后台学习步骤的结果或移动内容转换步骤的结果允许进行人工修改。
[0010]作为优选,翻译模板中保存从互联网网页提取的URL的正则表达集合,以及Xpath
ο
[0011]作为优选,步骤1.1)具体为:
1.1.1)根据用户提交企业网站网址,获取目标网站入口页的HTML源代码;
1.1.2)根据HTML源代码,提取菜单模块,并划分菜单链接类型:
1.1.2.1)预定义导航栏的菜单关键词字典;
1.1.2.2)对导航栏的每个栏目中超链接都提取候选节点:选择一个导航栏的一个栏目,将目标网站入口页的HTML源代码转换为DOM节点树,首先提取全部超链接,并循环遍历每个超链接,取得每个超链接的文本及URL,如果当前URL或文本存在于菜单关键词字典中,根据DOM节点树,对当前URL或文本对应的超链接进行自下而上的递归操作,取得父节点,判断当前父节点下面的全部子链接在菜单关键词字典命中的个数,如果大于预设的命中阀值,则提取当前父节点为候选节点,作为候选菜单模块保存;
1.1.2.3)取得导航栏的所有菜单的全部候选节点后,将命中次数最多的一个父节点,作为最终判定的菜单模块;
1.1.2.4)根据导航栏的菜单模块,提取出全部超链接,分别归类为列表风格页面、单页风格页面。
[0012]作为优选,步骤1.2)对步骤1.1)划分的列表风格页面、单页风格页面进行链接分析,具体为:
对于列表风格页面:首先,按预设的规则划分成若干一级模块,并对一级模块中的超链接根据相同的Xpath层级结构划分若干二级模块;遍历二级模块并提取出当前二级模块对应的超链接集合,以及超链接集合对应的分类模块、列表数据模块;
然后,提取列表数据模块中的列表详细页面:提取正文,定位URL的正文的节点,取得该节点的Xpath ;根据列表数据模块包含的标题,定位包含文本及标题的节点的Xpath ;如果有图片地址,则根据图片地址遍历图片节点,提取对应的图片节点的Xpath作为图片的Xpath ;
对于单页风格页面:提取包含正文的节点的Xpath ;
列表风格页面与单页风格页面都提取分类模块:遍历超链接集合中的每个超链接,如果每个超链接能提取出来正则模式的数量与超链接集合的占比大于预设的分类占比阀值,则成功提取到分类模块;否则判断每个超链接对应的Xpath的层级结构,如果属于同一标签层级,则成功提取到分类模块。
[0013]作为优选,步骤1.3)中,根据步骤1.1)、步骤1.2)的结果,对每个超链接包含的各个模块的内容表达为与内容无关的HTML的Xpath标记语言,然后通过keyvalue形式储存到翻译模板中。
[0014]作为优选,移动内容转换步骤具体为:根据URL取得对应域名,取得已学习好的翻译模板;通过http,请求输入URL的HTML内容;根据翻译模板,通过正则匹配模式取得当前URL对应的各自模块的Xpath路径,将提取的当前页面所需要的内容信息显示在移动页面上的对应位置。
[0015]作为优选,对于单页风格页面、列表风格页面的列表数据模块的正文,根据提取出来的HTML内容,进行内容自动修正,包括:链接地址转换为绝对地址,并转换到对应的中转服务的URL ;图片地址转换为绝对地址并自动压缩转换;根据预设的规则过滤信息。
[0016]—种基于翻译模板的互联网网页自动化同步建构移动页面的系统,包括翻译模板后台学习子系统、移动内容转换子系统;
翻译模板后台学习子系统包括:
数据采集储存模块:根据URL采集互联网网页的内容并储存;
网站风格分析模块:根据互联网网页的HTML源代码,分析网站的各个模块,网页布局; 网站链接分析模块:为各个超链接进行分类归组;
网站结构建模模块:根据网站的各个模块,网页布局,以及链接的分类归组结果,重建互联网网页的结构信息,并对全部超链接地址采取转义方式,提取URL的正则表达式集合,以及Xpath标记,保存到对应的翻译模板中;
移动内容转换子系统包括:
移动内容转换模块:对互联网网页的内容进行转义、剔除不适用于翻译模板的文本内容、存储图片至本地;
前台实时渲染访问模块:用户输入网址后,直接调用翻译模板来解析对应网址内容。
[0017]作为优选,还包括人工修正模块:翻译模板后台学习子系统与移动内容转换子系统进行的自动匹配提取结果、以及各个模块,通过人工修正模块允许进行人工修正。
[0018]本发明的有益效果如下:
本发明所述的方法与系统,在实施后,只需提供企业网址即可通过翻译模板访问实时更新的互联网网页。本发明所述的方法与系统直接分析网站的URL,实现数据的实时更新,将不存在数据延时问题。而且采取整站分析技术,在生成移动站点的同时分析出了网站URL类型,比如:联系方式,招聘信息,企业介绍等,在处理海量数据中的企业结构化信息的提取当中非常重要。
[0019]本发明的实施,能够解决传统企业网站的移动站点制作问题,极大降低了企业移动站点制作成本,使用时,只需提供企业网址即可。
【附图说明】
[0020]图1是本发明的原理示意图。
【具体实施方式】
[0021]以下结合附图及实施例对本发明进行进一步的详细说明。
[0022]本发明提供一种基于翻译模板的互联网网页自动化同步建构移动页面的方法,如图1所示。本发明用于将适合PC显示的互联网网页转换为适用移动设备显示的移动页面,包括翻译模板后台学习步骤、移动内容转换步骤。本发明所述的翻译模板定义为WTM模板,以下称为WTM模板,即Website Translate Mobile模板,从而本发明为一种基于WTM模板的互联网网页自动化同步建构移动页面的方法,同时提供了一种WTM技术。
[0023]所述的WTM模板后台学习步骤:对原始的互联网网页重建成为适用设备显示的移动页面的结构,并保存于WTM模板中。进一步具体化,WTM模板后台学习步骤如下:
1.1)互联网网页结构分析:根据HTML源代码,分析互联网网页的各个模块与网页布局;
1.1.1)根据用户提交企业网站网址,获取目标网站入口页的HTML源代码;
1.1.2)根据HTML源代码,提取菜单模块,并划分菜单链接类型:
1.1.2.1)预定义导航栏的菜单关键词字典;
1.1.2.2)对导航栏的每个栏目中超链接都提