图片识别方法和装置的制造方法
【技术领域】
[0001]本发明涉及互联网领域,具体而言,涉及一种图片识别方法和装置。
【背景技术】
[0002]互联网的信息传播速度非常快,一旦出现色情广告等非法图片,如果不能采用有效的方法遏制其传播,可能造成非法图片的泛滥,极大地损害互联网服务的体验。互联网中传播的非法图片通常相近,甚至来源于固定的种子图片,通过这些种子图片能够查找互联网中传播的相同或相似非法图片,并对其删除。现有技术主要依靠人工巡检去发现这些种子图片,并收集这些种子图片以进行互联网中非法图片的删除。收集种子图片的过程需要投入大量的人力,并且由于互联网信息量庞大,通过人工巡检的方法收集非法图片的速度较慢,无法有效遏制互联网中非法图片的传播。
[0003]针对上述的收集非法图片的种子图片的效率比较低的问题,目前尚未提出有效的解决方案。
【发明内容】
[0004]本发明实施例提供了一种图片识别方法和装置,以至少解决收集非法图片的种子图片的效率比较低的技术问题。
[0005]根据本发明实施例的一个方面,提供了一种图片识别方法,包括:接收客户端指示的待识别图片和标识;判断所述标识是否指示对所述待识别图片进行识别;若判断出所述标识指示对所述待识别图片进行识别,则将所述待识别图片与图片库中记录的需要删除的图片的种子图片进行比较;如果所述图片库中存在与所述待识别图片相同的所述种子图片,则丢弃所述待识别图片;如果所述图片库中不存在与所述待识别图片相同的所述种子图片、但存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片,则将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库中。
[0006]根据本发明实施例的另一方面,还提供了一种图片识别装置,包括:接收单元,用于接收客户端发送的待识别图片和标识;第一判断单元,用于判断所述标识是否指示对所述待识别图片进行识别;比较单元,用于在判断出所述标识指示对所述待识别图片进行识别时,将所述待识别图片与图片库中记录的需要删除的图片的种子图片进行比较;丢弃单元,用于在所述图片库中存在与所述待识别图片相同的所述种子图片时,丢弃所述待识别图片;第一存储单元,用于在所述图片库中不存在与所述待识别图片相同的所述种子图片、但存在与所述待识别图片的相似度大于第一预定阈值的所述种子图片时,将所述待识别图片作为需要删除的图片的种子图片存储在所述图片库中。
[0007]在本发明实施例中,通过接收客户端指示的待识别图片,并根据待识别图片与图片库中存储的种子图片进行比较,当待识别图片与种子图片的相似度大于第一预定阈值时,将待识别图片存储在图片库中。由于待识别图片由客户端发送,客户端又分布在互联网的各个地方,因此通过接收客户端的待识别图片来收集种子图片的速度远远大于人工巡检发现种子图片的速度,提高了收集种子图片的效率。另外,在将待识别图片存储在图片库中之前先进行去重处理,避免了在图片库中重复存储图片,从而解决了收集非法图片的种子图片的效率比较低的技术问题,进而达到了提高收集种子图片的效率的技术效果。
【附图说明】
[0008]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0009]图1是根据本发明实施例的硬件结构图;
[0010]图2是根据本发明实施例的图片识别方法的流程图;
[0011]图3是根据本发明实施例的举报图片a的界面图;
[0012]图4是根据本发明实施例的将待识别图片与图片库中记录的需要删除图片的种子图片进行比较的流程图;
[0013]图5是根据本发明实施例的系统架构模块图:
[0014]图6是根据本发明实施例的图片识别装置的示意图;
[0015]图7是根据本发明实施例的执行单元的示意图;以及
[0016]图8是根据本发明实施例的服务器的结构图。
【具体实施方式】
[0017]为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0018]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0019]名词解释:
[0020]非法图片包括网络传播的色情广告、诈骗广告等有损互联网环境的不合法的图片。
[0021]种子图片包括互联网中传播的非法图片通常相近,能够表征与其他一个或者多个图片为相同或者相似的图片。
[0022]实施例1
[0023]根据本发明实施例,提供了一种可以通过本申请装置实施例执行的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组可执行指令的服务器中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0024]根据本发明实施例,提供了一种图片的识别方法。
[0025]可选地,在本实施例中,上述图片的识别方法可以应用于如图1所示的终端101和服务器102构成的硬件环境中。如图1所示,终端101通过网络与服务器102进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端101可以是手机、PC、笔记本或者平板电脑等,在终端101上安装的浏览器、即时通讯工具、微博等应用程序可以作为本实施例中的客户端。
[0026]图2是根据本发明实施例的图片的识别方法的流程图。如图所示,该图片的识别方法包括如下步骤:
[0027]步骤S202,接收客户端指示的待识别图片和标识;
[0028]步骤S204,判断标识是否指示对待识别图片进行识别;
[0029]步骤S206,若判断出标识指示对待识别图片进行识别,则将待识别图片与图片库中记录的需要删除的图片的种子图片进行比较;
[0030]步骤S208,如果图片库中存在与待识别图片相同的种子图片,则丢弃待识别图片;
[0031]步骤S210,如果图片库中不存在与待识别图片相同的种子图片、但存在与待识别图片的相似度大于第一预定阈值的种子图片,则将待识别图片作为需要删除的图片的种子图片存储在图片库中。
[0032]在本实施例中,通过接收客户端指示的待识别图片,并根据待识别图片与图片库中存储的种子图片进行比较,当待识别图片与种子图片的相似度大于第一预定阈值时,将待识别图片存储在图片库中。由于待识别图片由客户端发送,客户端又分布在互联网的各个地方,因此通过接收客户端的待识别图片来收集种子图片的速度远远大于人工巡检发现种子图片的速度,提高了收集种子图片的效率。另外,在将待识别图片存储在图片库中之前先进行去重处理,也就是先判断图片库中是否已经存储由该待识别图片,如果图片库中已经存在与该待识别图片相同的种子图片,则不再将该待识别图片存储在图片库中,如果图片库中没有,并且该待识别图片与图片库中的种子图片的相似度大于第一预定阈值,则将该待识别图片存储在图片库中,避免了在图片库中重复存储相同的图片作为种子图片。
[0033]具体地,接收客户端发送的待识别图片和标识包括:接收安装在PC上的浏览器客户端、安装在PC上的应用客户端、安装在移动终端上的浏览器客户端、安装在移动终端上的应用客户端中的一个发送的待识别图片的网址和标识;按照网址从服务器中获取待识别图片。
[0034]通过网络在客户端中传播的图片都会具有一个对应到服务器的网址,将该网址发送给服务器后,服务器会根据网址查找待识别图片,客户端向服务器传输网址而不是图片本身能够节省网络资源,另外,由于待识别图片就存储在服务器中,服务器按照网址查找即可,避免接收客户端发送的图片再存储在服务器中,造成同一图片的重复存储,从而避免服务器的缓存空间被过多占用。
[0035]具体地,图片库可以存储在服务器102中,客户端可以提供发送待识别图片的入口,通过该入口客户端将待识别图片发送给服务器102,以便于服务器判断是否将该待识别图片存储在图片库中。该入口可以发送多种图片,并不是所有的图片都需要存储在图片库中,通过标识可以判断是否需要对该待识别图片进行识别,并进一步判断是否将该待识别图片存储在图片库中。如果图片库中不存在于该待识别图片相同的种子图片,但是存在与该待识别图片的相似度大于第一预定阈值的种子图片,说明该待识别图片为可以存储在图片库中的图片,则将该待识别图片存储在图片库中。在计算待识别图片与种子图片的相似度时,可以通过对比两张图片的像素来进行相似度的判断,当然,本实施例还可以采用其他方式进行相似度的判断,本实施例并不限于上述相似度判断的方式。
[0036]客户端在展示图片时,通常具有举报、点赞、评论等功能作为发送图片的入口,客户端可以将举报、点赞、评论等信息都发送给服务器,为了使得服务器从这些信息中区分哪些是可以被识别并存储在图片库中的图片。对客户端发送给服务器的信息设置标识,如被举报的信息的标识为R,被评论的信息的标识为C,被点赞的信息的标识为P。当服务器102接收到图片和标识“R”之后,即确定该接收到的图片为被举报的图片,也即接收到了对接收到的图片进行识别的指示。
[0037]例如,图片库中存储了色情暴力图片的种子图片,客户端展示的图片为图片a,该图片a被客户端举报给服务器102,服务器102从接收到的信息中接收到图片a和标识“R”,服务器102将图片a与图片库中的种子图片进行比较。如果图片库中有一张图片与图片a相同,为了不重复存储相同的图片,将图片a丢弃;如果图片库中没有与图片a相同的图片,但是图片a与图片库中的一张种子图片的相似度大于90%,则确定该图片a为色情暴力图片,并将图片a存储在图片库中作为色情暴力图片的种子图片。需要说明的是,如果服务器具有删除图片a的权限,当确定图片a与图片库中的一张图片相同时,可以将图片a删除,使图片a不再通过网络传播。
[0038]具体地,客户端向服务器举报图片a时可以显示如图3所示的界面,在该界面上展示有被举报的图片a的图片类型,如色情暴力、骚扰谩骂、广告欺诈