一种过滤即时通讯垃圾信息的方法和系统的制作方法

文档序号:7972481阅读:180来源:国知局
专利名称:一种过滤即时通讯垃圾信息的方法和系统的制作方法
技术领域
本发明涉及即时通讯信息过滤技术,特别是涉及一种过滤即时通讯垃圾信 息的方法和系统。
背景技术
即时通讯(IM,Instant Messaging)是一种使人们能在网上识别在线用户并与 他们实时交换信息的技术,由于其所拥有的实时性、低成本、高效率等诸多优 势,目前已成为人们工作和生活中一种非常重要的通讯方式。典型的IM是这 样工作的当好友列表(buddy list)中的某人登录上线并试图通过你的计算机 联系你时,IM系统会发一个消息提醒给你,然后你能与他建立一个聊天会话 并键入消息文字或通过语音、视频等进行交流。
虽然目前被应用的IM各种各样,采用的通信协议也不尽相同,如TCP、 UDP等,但是不管IM产品和功能如何丰富,却都遵循着同样的基本结构和原 理。
下面参考图1来介绍IM的通信原理
首先,用户A输入自己的用户标识和密码登录IM服务器,IM服务器通 过读取用户数据库来验证用户身份,如果用户标识、密码都正确,就登记用户 A的IP地址、IM客户端使用的TCP/UDP端口号,然后返回用户A登录成功 的标志,此时用户A在IM系统中的状态为在线(Online Presence )。
其次,根据用户A存储在IM服务器上的好友列表,服务器将用户A在 线的相关信息发送到也同时在线的IM好友的客户端,这些信息包括在线状态、 IP地址、IM客户端使用的TCP端口 (Port)号等,IM好友使用的IM客户端 收到此信息后弹出 一个消息予以提示。
到他使用的IM客户端,这些信息包括在线状态、IP地址、IM客户端使用的 TCP端口 (Port)号等信息,用户A使用的IM客户端收到后将显示这些好友 列表及其在线状态。
接下来,如果用户A想给他的在线好友用户B发送信息,他将即时信息 先发送到IM服务器,再由服务器转发给用户B。另外,用户A也可直接通过
服务器发送过来的用户B的IP地址、TCP端口号等信息,直接向用户B的IM 客户端发送信息,用户B的IM客户端收到后显示在屏幕上,然后用户B再直 接回复到用户A的客户端,这样双方的即时信息就不通过IM服务器中转,而 是通过网络进行点对点的直接通讯,这称为对等通讯方式(Peer To Peer )。
虽然,基于上述通讯原理的即时通讯工具得到了广泛的应用,但是,垃圾 信息的泛滥却给人们正常使用这种通讯工具带来了很大的困扰,不仅浪费了网 络的带宽和存储空间,同时也浪费了用户的时间和精力。
目前,即时通讯中对垃圾信息进行过滤由IM服务器完成。首先,定义过 滤内容并存储在IM服务器中;当IM服务器收到用户A发送给用户B的消息 时,根据定义的过滤内容验证其是否为垃圾信息,若符合条件则不再将该信息 转发给用户B。但是采用这种过滤方式却存在着很大的不足。由于验证即时消 息是否为垃圾信息需要进行大量的计算,当IM服务器响应的通讯请求增加时, 势必会加剧IM服务器的计算量,导致IM服务器负荷的增加,并进一步影响 其性能甚至引发通讯故障。另外,若用户A与用户B通过点对点的方式直接 通讯,上述过滤方法就无能为力了。

发明内容
本发明所要解决的技术问题是提供一种过滤即时通讯垃圾信息的方法和 系统,以解决现有技术中过滤垃圾信息对即时通讯服务器造成的负荷,以及无 法在点对点的通讯方式中过滤垃圾信息的问题。
为解决上述问题,本发明公开了一种过滤即时通讯垃圾信息的方法,该方 法包括以下步骤
即时通讯客户端中存储预先定义的关键字库;
即时通讯客户端根据所述关键字库验证收到的即时信息是否为垃圾信息, 若是,将所述即时信息标记为垃圾信息。
其中,所述根据关键字库验证收到的即时信息是否为垃圾信息是查询该即 时信息中是否存在与所述关键字库相匹配的内容,若存在,则认为该即时信息 为垃圾信息。
优选的,该方法还包括在与所述即时通讯客户端相应的即时通讯服务器 中设置所述关键字库,所述关键字库定期更新;
即时通讯客户端从该即时通讯服务器中获取相应的关键字库。
优选的,该方法还包括即时通讯客户端登录所述即时通讯服务器;即时 通讯客户端将存储的关4定字库版本标识发送至该即时通讯服务器;即时通讯服 务器验证所述关键字库版本标识与本地存储的版本标识是否一致,并将比较结 果发送至该即时通讯客户端;即时通讯客户端判断上述比较结果,若不一致, 向所述即时通讯服务器发送关键字库下载请求以获取相应的关键字库。
优选的,该方法还包括即时通讯服务器将关键字库发送至即时通讯客户 端之前,使用加密算法对该关键字库进行加密;即时通讯客户端获取到所述关 键字后,使用与所述加密算法相应的解密算法对该关键字库进行解密。
优选的,该方法还包括通过即时通讯客户端设置并生成关键字库。
本发明还公开了 一种过滤即时通讯垃圾信息的系统,包括
存储单元,用于存储预置的关键字库;
验证单元,用于根据存储单元中的关键字库验证即时信息是否为垃圾信 息,若是,则将该信息标记为垃圾信息。
其中,所述验证单元验证即时信息是否为垃圾信息是查询该即时信息中是 否存在与存储单元中关键字库相匹配的内容,若存在,则将该即时信息标记为 垃圾信息。
优选的,该系统还包括即时通讯服务器,所述即时通讯服务器包括 第一设置单元,用于设置和更新关键字库; 服务器存储单元,用于存储关键字库;
发送单元,用于根据关键字库下载请求发送服务器存储单元所存储的关键
字库;
所述即时通讯客户端还包括
获取单元,用于从所述即时通讯服务器获取相应的关键字库。
其中,所述获取单元还用于向即时通讯服务器发送存储单元中关键字库的
版本标识;所述即时通讯服务器还包括
对比单元,用于比较所述即时通讯客户端获取单元发送的关键字库版本标
识与服务器存储单元中关键字库的版本标识,并将比较结果发送至即时通讯客
户端; 所述即时通讯客户端中的获取单元判断即时通讯服务器返回的比较结果 是否一致,若不一致,向即时通讯服务器发送关键字库下载请求以获取相应的 关键字库。
优选的,所述即时通讯服务器还包括
加密单元,用于使用预置算法对关键字库进行加密;
所述即时通讯客户端还包括
解密单元,用于使用预置算法对获取到的关键字库进行解密。 优选的,所述即时通讯客户端还包括第二设置单元,用于在即时通讯客 户端设置关键字库。
与现有技术相比,本发明具有以下优点
首先,本发明通过在IM客户端存储关键字库,当收到一条即时信息时, IM客户端根据所述关键字库验证该信息是否为垃圾信息。由于通常情况下, IM服务器需要响应和处理的即时信息数量非常庞大,因此,通过应用本发明, 避免了 IM服务器因逐个验证即时信息而耗费的宝贵的服务器资源,有效降低 了服务器的负荷和发生故障的可能性,同时大大地提高了整个IM系统运行的 可靠性。
其次,由于本发明使得IM客户端具有了垃圾信息过滤的能力,因此很好 的解决了现有技术中,对在即时通讯中占有很大比例的点对点通讯方式无法进 行信息过滤的问题。这样以来,使用户尽可能的免除了垃圾信息的烦扰,同时, 有效阻止了恶意第三方通过即时通讯发起的攻击,避免了用户因接收超链接、 木马或病毒文件等恶意信息而对系统造成的损害。
另外,本发明通过在IM客户端设置关键字库,使用户可根据自己的需要 设置过滤内容,如此以来,不同的用户在使用IM客户端进行通讯时,其过滤 的内容也会不同,在通讯时可以针对该用户自己认为不需要的信息进行过滤, 从而改善了用户的使用感受,也使IM这种通讯方式得到了进一步的应用。


图l是即时通讯技术基本原理图2是基于本发明所述过滤即时通讯垃圾信息的方法的实施例的步骤流 程图3是基于本发明所述的过滤即时通讯垃圾信息的系统的结构框图。
具体实施例方式
为使本发明的上迷目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
本发明所述的过滤IM垃圾信息的方法包括IM客户端中存储预先定义 的关键字库;IM客户端根据所述关键字库验证收到的即时信息是否为垃圾信 息,若是,则将该即时信息标记为垃圾信息。
参照图1,示出了根据本发明一个优选实施例的过滤IM垃圾信息的方法 的数据流程图。下面参考图1对本发明的一个实施例作详细描述。
步骤101:在IM服务器中设置关键字库。
在实际应用中,IM服务器通常由专门的运营商进行维护。运营商收集垃 圾信息,例如将认为可能严重影响用户使用感受,或者含有不良内容的信息定 义为垃圾信息并根据该信息建立关键字库。优选的,关键字库包含但不限于以 下内容
关键字库的版本标识,关键字库每次更新后会产生一个新的版本标识; 过滤关键字,根据收集的垃圾信息定义; 过滤类型,包括完全匹配和模糊匹配。
步骤102: IM客户端登录IM服务器,将存储的关键字库版本标识发送至 IM服务器。
步骤103: IM服务器将上述关键字库版本标识与本地存储的关键字库版
本标识进行比较,并将比较结果返回至IM客户端。
步骤104: IM客户端判断比较结果,若不一致,执行下面的步骤,否则,
直接执行步骤108。
步骤105: IM客户端向IM服务器发送关键字库下载请求。
步骤106: IM服务器将当前的关键字库加密后返回至所述IM客户端。
本发明优选的采用DES(Data Encryption Standard)算法对关键字库进行加密。
DES加密体制的安全性不依赖于算法的保密,其安全性仅以加密密钥的 保密为1^出。DES算法的入口参数有三个Key、 Data、 Mode。其中Key为8
个字节共64位,是DES算法的工作密钥;Data也为8个字节64位,是要被 加密或被解密的数据;Mode为DES的工作方式,有两种加密或解密。
DES算法是这样工作的如Mode为加密,则用Key去把数据Data进行 加密,生成Data的密码形式(64位)作为DES的输出结果;如Mode为解密, 则用Key去把密码形式的数据Data解密,还原为Data的明码形式(64位) 作为DES的输出结果。在通信网络的两端,双方约定一致的Key,在通信的 源点用Key对核心凄t据进4亍DES加密,然后以密码形式在7>共通信网(如互 联网)中传输到通信网络的终点,数据到达目的地后,用同样的Key对密码 数据进行解密,便再现了明码形式的核心数据。这样以来,保证了核心数据在 通信网中传输的安全性和可靠性。
本发明中,关键字库每次更新后会产生一个新的版本标识,本发明根据所 述版本标识,使用约定的算法计算生成key,然后使用这个key对关键字库进 行加密。这样,由于每次加密使用新的key,因此可以进一步提高数据的保密 性。
由IM客户端向IM服务器发送关键字库版本标识,并根据返回的比较结 果决定是否从IM服务器获取关键字库是本发明优选的方法,这样做的目的是 为了尽可能的降低IM服务器的负荷。当然,本领域的技术人员也可使用其它 的方法获取最新的关键字库,例如,当IM服务器得出比较结果后,若不一致, 可直接将关键字库发送至IM客户端;或者,当IM服务器中的关键字库更新 后,以广播的方式将关键字库发送给相应的IM客户端。
步骤107: IM客户端对收到的关键字库进行解密。
优选的,关键字库中的版本标识以明文传输。IM客户端使用约定的算法 对所述版本标识进行计算生成key,然后使用DES算法对所述关键字库进行解密。
步骤108: IM客户端根据关键字库验证收到的即时信息是否为垃圾信息。 首先,IM客户端将关键字库解析后放入内存。对于接收到的每一条即时 信息,查询关键字库中的过滤关键字在该信息中是否存在。查询时,根据过滤 关键字对应的查询类型采用不同的查询方式若所述过滤关键字的过滤类型为 完全匹配,那么只有该即时信息与该过滤关键字完全相同时,该即时信息才被
认为是垃圾信息;若过滤类型为模糊匹配,只要该即时信息包含与过滤关键字 相同的内容就被认为是垃圾信息而被过滤。
需要说明的是,使用定义的关键字验证即时信息是否为垃圾信息是本发明 优选的方法,本领域的普通技术人员当然可以知道,IM客户端也可以采用其 他方法来验证即时信息是否为垃圾信息,本发明对此并不作限制,例如,可基 于贝叶斯算法验证和过滤垃圾信息首先,IM服务器收集大量的垃圾信息和 非垃圾信息;然后对这些信息进行分词分析以取得关键字并计算出该关键字为 垃圾信息的概率值;根据这些关键字和相应的概率值建立关键字库;IM客户 端获取所述关键字库;当收到一条即时信息后对该信息分词取得关键字,然后 根据关键字库同时根据复合概率公式计算出该信息为垃圾信息的概率值;将所 得概率值与预置的阀值进行比较,若超出,则认为该即时信息为垃圾信息。
采用上述方法可以提高验证垃圾信息的准确率,但是由于需要进行大量的 计算,其效率相对于关键字匹配的方法有所降低,并且会对IM客户端的性能 造成一定影响。有鉴于此,IM客户端采用何种方法验证和过滤垃圾信息,本 领域的技术人员可根据需要选择使用。
在本发明另一个优选的实施例中,IM客户端的用户可自行定义过滤关键 字的内容,下面对该实施例作详细描述。
参照实施例一,IM客户端从相应的IM服务器获取关键字库,然后根据 该关键字库验证即时信息是否是垃圾信息。基于安全性的考虑,关键字库定义 的过滤内容对于IM客户端的用户是不透明的,在通讯过程中,相应的垃圾信 息过滤也是强制性的。但是,这样的过滤方式往往还不能满足用户的要求,因 此,本发明优选的,可在IM客户端对关键字库进行设置。这样,用户可根据 自己的需要设置过滤内容,例如过滤含有超链接的信息、过滤某一种类型的文 件,如.exe或.jpg,也可进一步设置过滤关^:字等。
本发明优选的,IM客户端在过滤垃圾信息时,首先按照从IM服务器获 取的关键字库进行过滤,然后按照用户自行设置的关键字库进行过滤,以提高 过滤的完整性。
当然,在IM客户端由用户自行设置关键字库过滤垃圾信息只是本发明优 选的方法,本领域的技术人员也可以使用其他方式实现垃圾信息的过滤。例如,
可基于上述贝叶斯算法在IM客户端建立关键字库并进行垃圾信息过滤。当收 到一条垃圾信息时,该信息被过滤的同时会被加入关键字库。关键字库中存储 有根椐该信息分词取得的关键字以及计算得出的该关键字为垃圾信息的概率 值。这样,新的关键字库会被作为验证下一条信息是否为垃圾信息的基础。随 着收集的垃圾信息越来越多,IM客户端验证和过滤垃圾信息的准确性也随之 提高。
以上,结合具体实施例描述了本发明的 一种过滤即时通讯垃圾信息的方
法。参照以上有关本发明的介绍,如图2所示,是本发明所述的一种过滤IM 垃圾信息的系统,包括IM客户端200和IM服务器300,其中,
所述IM客户端200包括存储单元201,用于存储预置的关键字库;验 证单元202,用于根据存储单元中的关键字库验证即时信息是否为垃圾信息, 若是,则将该信息标记为垃圾信息。
优选的,图2所示的系统中IM服务器包括第一设置单元301,用于设 置和更新关键字库;服务器存储单元302,用于存储关键字库;发送单元303, 用于根据关键字库下载请求发送服务器存储单元所存储的关键字库。IM客户 端还可以包括获取单元203,用于从所述即时通讯服务器获取相应的关键字 库。
优选的,所述即时通讯服务器还包括对比单元304,用于比较所述获取 单元发送的关键字库版本标识与服务器存储单元中关键字库的版本标识,并将 比较结果发送至即时通讯客户端;所述即时通讯客户端中的获取单元判断IM 服务器返回的比较结果是否一致,若不一致,向IM服务器发送关键字库下载 请求。
优选的,所述即时通讯服务器还包括加密单元305,用于使用预置算法 对关键字库进行加密;所述即时通讯客户端还包括解密单元204,用于使用 预置算法对获取到的关键字库进行解密。
优选的,所述即时通讯客户端还包括第二设置单元205,用于在即时通 讯客户端设置关键字库。
首先,IM服务器的第一设置单元301收集垃圾信息设置关键字库;IM客 户端登录IM服务器后,获取单元203从存储单元201中取得关键字库版本标
识发送给IM服务器;IM服务器的对比单元304从服务器存储单元201中取 得关键字库的版本标识与收到的关键字库版本标识进行比较,并将比较结果返 回至IM客户端;所述即时通讯客户端中的获取单元203判断IM服务器返回 的比较结果是否一致,若不一致,向IM服务器发送关键字库下载请求;IM 服务器的发送单元303根据收到的关键字库下栽请求从服务器存储单元302 中取得存储的关键字库,用加密单元305加密后发送给IM客户端;IM客户 端的解密单元204对获取单元203所获取到的关键字库进行解密并存储在存储 单元201中;当IM客户端收到一条即时信息后,验证单元202根据存储单元 201所存储的关键字库验证该信息是否是垃圾信息,若是,则过滤该信息。另 外,可通过IM客户端的第二设置单元205设置关键字库,并将该关键字库存 储在存储单元201中,当IM客户端收到即时信息后,验证单元202首先按照 从服务器获取的关键字库进行验证,然后按照第二设置单元205设置的关键字 库进行验证,以提高过滤得可靠性。
上述关于本发明所述系统的描述中未详尽之处,可以参见本说明书前 述相关部分。
以上对本发明所提供的一种过滤即时通讯垃圾信息的方法和系统,进行了
上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本 领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会 有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1、一种过滤即时通讯垃圾信息的方法,其特征在于,包括以下步骤即时通讯客户端中存储预先定义的关键字库;即时通讯客户端根据所述关键字库验证收到的即时信息是否为垃圾信息,若是,将所述即时信息标记为垃圾信息。
2、 根据权利要求1所述的方法,其特征在于,所述根据关键字库验证收到的即时信息是否为垃圾信息是查询该即时信息中是否存在与所述关键字库 相匹配的内容,若存在,则认为该即时信息为垃圾信息。
3、 根据权利要求2所述的方法,其特征在于,还包括 在与所述即时通讯客户端相应的即时通讯服务器中设置所述关键字库,所述关键字库定期更新;即时通讯客户端从该即时通讯服务器中获取相应的关键字库。
4、 根据权利要求3所述的方法,其特征在于,还包括 即时通讯客户端登录所述即时通讯服务器;即时通讯客户端将存储的关键字库版本标识发送至该即时通讯服务器; 即时通讯服务器验证所述关4建字库版本标识与本地存储的版本标识是否一致,并将比较结果发送至该即时通讯客户端;即时通讯客户端判断上述比较结果,若不一致,向所述即时通讯服务器发送关键字库下载请求以获取相应的关键字库。
5、 根据权利要求4所述的方法,其特征在于,还包括 即时通讯服务器将关键字库发送至即时通讯客户端之前,使用加密算法对该关键字库进行加密;即时通讯客户端获取到所述关键字后,使用与所述加密算法相应的解密算 法对该关键字库进行解密。
6、 根据权利要求1或3所述的方法,其特征在于,还包括通过即时通讯客户端i殳置并生成关键字库。
7、 一种过滤即时通讯垃;及信息的系统,其特征在于,包括即时通讯客户 端;所述即时通讯客户端包括存储单元,用于存储预置的关键字库;验证单元,用于根据存储单元中的关键字库验证即时信息是否为垃圾信 息,若是,则将该信息标记为垃圾信息。
8、 根据权利要求7所述的系统,其特征在于,所述验证单元验证即时信息是否为垃圾信息是查询该即时信息中是否存在与存储单元中关键字库相匹 配的内容,若存在,则将该即时信息标记为垃圾信息。
9、 根据权利要求8所述的系统,其特征在于,还包括即时通讯服务器, 所述即时通讯服务器包括第一设置单元,用于设置和更新关键字库; 服务器存储单元,用于存储关键字库;发送单元,用于根据关键字库下载请求发送服务器存储单元所存储的关键 字库;所述即时通讯客户端还包括获取单元,用于从所述即时通讯服务器获取相应的关键字库。
10、 根据权利要求9所述的系统,其特征在于,所述获取单元还用于向即 时通讯服务器发送存储单元中关键字库的版本标识;所述即时通讯服务器还包 括对比单元,用于比较所述即时通讯客户端获取单元发送的关键字库版本标 识与服务器存储单元中关键字库的版本标识,并将比较结果发送至即时通讯客 户端;是否一致,若不一致,向即时通讯服务器发送关键字库下载请求以获取相应的 关键字库。
11、 根据权利要求9所述的系统,其特征在于,所述即时通讯服务器还包括加密单元,用于使用预置算法对关键字库进行加密; 所述即时通讯客户端还包括解密单元,用于使用预置算法对获取到的关键字库进行解密。
12、 根据权利要求8所述的系统,其特征在于,所述即时通讯客户端还包 括第二设置单元,用于在即时通讯客户端设置关键字库。
全文摘要
本发明公开了一种过滤即时通讯垃圾信息的方法和系统,包括以下步骤即时通讯客户端中存储预先定义的关键字库;即时通讯客户端根据所述关键字库验证收到的即时信息是否为垃圾信息,若是,将所述即时信息标记为垃圾信息。这样以来,避免了通过即时通讯服务器过滤垃圾信息,减少了该服务器的负荷,以保证其稳定运行。同时,应用本发明,即使在点对点的通讯方式下,也可对即时通讯的垃圾信息进行过滤。
文档编号H04L12/58GK101166160SQ200610152828
公开日2008年4月23日 申请日期2006年10月20日 优先权日2006年10月20日
发明者策 吴 申请人:阿里巴巴公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1