网页信息处理方法及装置的制造方法
【技术领域】
[0001]本公开涉及网络技术领域,尤其涉及一种网页信息处理方法及装置。
【背景技术】
[0002]目前随着智能终端,例如手机或平板电脑,的普及,用户在向终端输入信息时,不再全部依赖手动输入,而是可以通过语音输入、图像识别输入等多种方式,例如:用户可以通过智能终端上的摄像头扫描二维码图片或银行卡卡号等方式向终端输入对应的信息,这些不依赖手动输入的方式,操作简单、快捷,用户使用非常方便。
[0003]为此,网络上许多网页中都加入了二维码图片来代替普通的文字超链接,从而让用户使用手机扫描二维码就可以得到网址并访问。但对于传统网页爬虫系统,在对网页中的信息进行抓取和分析时,一旦碰到网页中包含有图片,通常都不会再做进一步处理,从而无法对采用二维码图片代表的链接进行爬取和分析,导致对于这些加入二维码图片的网页的信息进行抓取和分析时,会出网页信息遗漏、不完整的问题。
【发明内容】
[0004]为克服相关技术中存在的问题,本公开提供一种网页信息处理方法及装置。
[0005]根据本公开实施例的第一方面,提供一种网页信息处理方法,包括:
[0006]检测待检测网页的网页内容中是否包含有图片信息;
[0007]当所述网页内容中包含有图片信息时,获取与所述图片信息对应的图片;
[0008]对所述图片进行识别,得到所述图片内包含的内容信息;
[0009]判断所述内容信息是否为链接地址;
[0010]当所述内容信息不为链接地址时,将所述内容信息作为所述待检测网页的文本内容进行存储;
[0011]当所述内容信息为链接地址时,将与所述内容信息对应的链接地址存储到预设地址库中。
[0012]结合第一方面,在第一方面第一种可能的实现方式中,所述方法还包括:
[0013]判断所述图片是否为预设图片类型;
[0014]当所述图片为预设图片类型时,确定与所述预设图片类型对应的识别方式,并将所述识别方式作为对所述图片进行识别所采用的识别方式。
[0015]结合第一方面第一种可能的实现方式,在第一方面第二种可能的实现方式中,所述判断所述图片是否为预设图片类型,包括:
[0016]判断所述图片内是否包含有预设图片特征;当所述图片内包含有预设图片特征时,确定所述图片为预设图片类型;
[0017]或者,
[0018]判断所述图片的名称中是否包含预设字符特征;当所述图片的名称中包含有预设字符特征时,确定所述图片为预设图片类型。
[0019]结合第一方面第一种可能的实现方式,在第一方面第三种可能的实现方式中,所述对所述图片进行识别,得到所述图片内包含的内容信息,包括:
[0020]调用与所述预设识别方式对应的识别程序;
[0021]利用所述识别程序对所述图片进行识别,得到所述图片内包含的内容信息。
[0022]结合第一方面,在第一方面第四种可能的实现方式中,所述检测待检测网页的网页内容中是否包含有图片信息,包括:
[0023]从预设地址库获取待检测网页的链接地址;
[0024]利用所述链接地址,获取所述待检测网页所有的网页内容;
[0025]判断所述网页内容中是否包含有图片链接地址;
[0026]当所述网页内容中包含有图片链接地址时,确定所述网页内容中包含有图片信肩、O
[0027]根据本公开实施例的第二方面,提供一种网页信息处理装置,包括:
[0028]图片信息检测模块,用于检测待检测网页的网页内容中是否包含有图片信息;
[0029]图片获取模块,用于当所述网页内容中包含有图片信息时,获取与所述图片信息对应的图片;
[0030]图片识别模块,用于对所述图片进行识别,得到所述图片内包含的内容信息;
[0031]内容信息判断模块,用于判断所述内容信息是否为链接地址;
[0032]第一存储模块,用于当所述内容信息不为链接地址时,将所述内容信息作为所述待检测网页的文本内容进行存储;
[0033]第二存储模块,用于当所述内容信息为链接地址时,将与所述内容信息对应的链接地址存储到预设地址库中。
[0034]结合第二方面,在第二方面第一种可能的实现方式中,所述装置还包括:
[0035]图片类型判断模块,用于判断所述图片是否为预设图片类型;
[0036]识别方式确定模块,用于当所述图片为预设图片类型时,确定与所述预设图片类型对应的识别方式,并将所述识别方式作为对所述图片进行识别所采用的识别方式。
[0037]结合第二方面第一种可能的实现方式,在第二方面第二种可能的实现方式中,所述图片类型判断模块,包括:
[0038]图片特征判断子模块,用于判断所述图片内是否包含有预设图片特征;第一确定子模块,用于当所述图片内包含有预设图片特征时,确定所述图片为预设图片类型;
[0039]或者,
[0040]字符特征判断子模块,用于判断所述图片的名称中是否包含预设字符特征;第二确定子模块,用于当所述图片的名称中包含有预设字符特征时,确定所述图片为预设图片类型。
[0041]结合第二方面第一种可能的实现方式,在第二方面第三种可能的实现方式中,所述图片识别模块,包括:
[0042]调用子模块,用于调用与所述预设识别方式对应的识别程序;
[0043]识别子模块,用于利用所述识别程序对所述图片进行识别,得到所述图片内包含的内容信息。
[0044]结合第二方面,在第二方面第四种可能的实现方式中,所述图片信息检测模块,包括:
[0045]链接地址获取子模块,用于从预设地址库获取待检测网页的链接地址;
[0046]网页内容获取子模块,用于利用所述链接地址,获取所述待检测网页所有的网页内容;
[0047]链接地址判断子模块,用于判断所述网页内容中是否包含有图片链接地址;
[0048]图片信息确定子模块,用于当所述网页内容中包含有图片链接地址时,确定所述网页内容中包含有图片信息。
[0049]根据本公开实施例的第三方面,提供一种终端,包括:
[0050]处理器;
[0051]用于存储处理器可执行指令的存储器;
[0052]其中,所述处理器被配置为:
[0053]检测待检测网页的网页内容中是否包含有图片信息;
[0054]当所述网页内容中包含有图片信息时,获取与所述图片信息对应的图片;
[0055]对所述图片进行识别,得到所述图片内包含的内容信息;
[0056]判断所述内容信息是否为链接地址;
[0057]当所述内容信息不为链接地址时,将所述内容信息作为所述待检测网页的文本内容进行存储;
[0058]当所述内容信息为链接地址时,将与所述内容信息对应的链接地址存储到预设地址库中。
[0059]根据本公开实施例的第四方面,提供一种服务器,包括:
[0060]处理器;
[0061]用于存储处理器可执行指令的存储器;
[0062]其中,所述处理器被配置为:
[0063]检测待检测网页的网页内容中是否包含有图片信息;
[0064]当所述网页内容中包含有图片信息时,获取与所述图片信息对应的图片;
[0065]对所述图片进行识别,得到所述图片内包含的内容信息;
[0066]判断所述内容信息是否为链接地址;
[0067]当所述内容信息不为链接地址时,将所述内容信息作为所述待检测网页的文本内容进行存储;
[0068]当所述内容信息为链接地址时,将与所述内容信息对应的链接地址存储到预设地址库中。
[0069]本公开的实施例提供的技术方案可以包括以下有益效果:
[0070]该网页信息处理方法,在对网页进行抓取和分析时,不再局限于网页中包含的字符内容,而是可以对网页中包含的图片中携带的信息进行分析,当网页内包含的图片中携带有链接地址时,可以提取该链接地址,以便后续可以对该链接地址对应的网页进行进一步的抓取和分析。
[0071]与相关技术相比,该方法不仅可以得到抓取和分析到网页内容中表面的字符内容,而且可以对网页内容中图片中携带的信息进行进一步的分析,所以在对网页进行抓取和分析时,可以获取到待检测网页更加全面和完整的网页信息,提高对网页进行抓取和分析的效果。
[0072]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0073]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0074]图1是根据一示例性实施例示出的一种网页信息处理方法的流程图。
[0075]图2是图1中步骤SlOl的流程示意图。
[0076]图3为本公开实施例提供的一种场景示意图。
[0077]图4为本公开实施例提供的一种网页实例图。
[0078]图5是根据一示例性实施例示出的一种网页信息处理方法的流程图。
[0079]图6是根据一示例性实施例示出的一种网页信息处理装置框图。
[0080]图7是根据一示例性实