专利名称:一种用于社区网络中检测垃圾帖子的方法与设备的制作方法
技术领域:
本发明涉及计算机网络技术领域,具体来说,涉及一种基于计算机网络的社区网络中检测垃圾帖子的方法及设备
背景技术:
社区网络服务是由网络服务提供商建立在线社区,其通常是基于互联网,为一群拥有相同兴趣与活动的用户提供各种基于网络的交互式服务,包括但不限于电子邮件、即时通信聊天、影音、文件的动态信息分享、博客、微博、贴吧、讨论组群等。用户可在社区网络中进行交互,例如一名用户在与某一主题有关的特定板块发帖子展示给访问该特定板块的其他用户,其他用户可在访问该社区网络特定板块时浏览该帖子,并在该帖子下以跟帖方式发表看法或评论。由于访问社区网络的用户类型混杂,其所发帖子可能包含违法、不道德内容,或者用作推销、广告之用影响他人浏览正常帖子,现有技术中,社区网络网站一般通过人工或机器方式对于用户所发帖子的内容进行审核,其主要通过检查其所含内容中是否包含特定词汇,例如违法或不道德词汇、明显广告内容。但这种审核方式对于一些不明显包含上述特定词汇的帖子较难奏效,以下简称 “隐蔽性垃圾帖子”例如,该帖子中不包含明显广告内容,仅以软文方式介绍某一产品;或者,该帖子中不包含违法或不道德词汇,但在社区网络的不同板块中大量重复,影响用户的正常浏览,甚至占用网站服务器的处理容量。因此,需要提供一种技术方案来识别该类隐蔽性垃圾帖子。
发明内容
本发明的目的是为克服现有技术的上述缺陷,提供一种社区网络中检测垃圾帖子的方法及设备。根据本发明的第一方面,提供了一种用于检测社区网络中垃圾帖子的方法,其中, 包括a.根据发帖用户的发帖行为特征来判断其所发帖子是否为垃圾帖子。在一个优选实施例中,所述步骤a包括al.获取该帖子的发帖用户的发帖行为特征;a2.基于第一预定规则根据所述发帖用户的发帖行为特征判断该帖子是否为垃圾帖子。在另一个优选实施例中,所述步骤a包括al’ .获取所述帖子中的内容关键信息;a2'.根据所述内容关键信息来获取该发帖用户与该帖子有关的发帖行为特征;a3'.根据发帖用户与该帖子有关的发帖行为特征来判断所述帖子是否为垃圾帖子。
根据本发明的第二方面,提供了一种用于检测社区网络中垃圾帖子的设备,其中, 包括帖子检测装置,用于根据发帖用户的发帖行为特征来判断其所发帖子是否为垃圾帖子。在另一个优选实施例中,所述帖子检测装置包括第一获取装置,用于获取该帖子的发帖用户的发帖行为特征;判断装置,用于基于第一预定规则根据所述发帖用户的发帖行为特征判断该帖子是否为垃圾帖子。在另一个优选实施例中,所述帖子检测装置包括提取装置,用于获取所述帖子中的内容关键信息;第一获取装置,用于根据所述内容关键信息来获取该发帖用户与该帖子有关的发帖行为特征;判断装置,用于根据发帖用户与该帖子有关的发帖行为特征来判断所述帖子是否为垃圾帖子。与现有技术相比,本发明通过对在社区网络中发帖子的用户的发帖行为特征进行检测,并优选地结合帖子的外部特征和语义分析可以更准确地判断垃圾帖子。
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显图1为根据本发明的社区网络的网络拓扑图;图2为根据本发明一个方面的在社区网络中检测垃圾帖子的方法流程图;图3为根据本发明一个优选实施例的在社区网络中检测垃圾帖子的方法流程图;图4为根据本发明一个方面的在社区网络中检测垃圾帖子的设备框图;图5为根据本发明一个优选实施例的在社区网络中检测垃圾帖子的设备框图。附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1示出一个根据本发明的社区网络的拓扑图,其中包含一个网络设备和多名用户a_f,每名用户通过各自的用户终端经由网络访问一个社区网络服务网站(SNS),其包含一个或多个网络设备,用于提供该社区网络服务,该网络设备包括但不限于,网络服务器、 网络主机或者、云计算模式下的其他用户设备等。用户终端包括但不限于,计算机、智能手机、PDA、游戏机或IPTV等任何具有上网浏览功能的设备。而根据本发明的用于检测垃圾帖子的设备可以是与网络设备通过网络进行通信连接的独立的设备,包括但不限于普通计算机、服务器、主机等;也可以是与网络设备成一体,为简明起见,以下统称网络设备。
此外,用户终端与网络设备之间的通信可以是基于诸如TCP/IP协议、UDP协议等的分组数据传输。而网络设备2与用于检测帖子的设备之间的通信可以是基于上述TCP/IP 协议、UDP协议等的分组数据传输,也可是在网络设备内部基于各种计算机总线协议的信号传输。但本领域技术人员应理解本发明不限于上述通信传输协议,任何已有或今后可能出现的外部通信协议或内部计算机总线协议均适用于本发明,从而被引用而包含于此。当其中一名用户,例如用户a在访问社区网络时,通过其用户终端1发出交互请求,例如在该社区网络特定板块进行发帖,网络设备2对该用户a所发帖子审核通过后,将其保存并提供给访问该社区网络特定板块的用户进行展示。本领域技术人员应理解,本发明的社区网络不限上述形式,可以包括诸如基于P2P 形式的用户终端之间直接连接进行交互的其他形式。下面参照图2-5来对根据本发明的识别垃圾帖子的技术方案进行详细描述。图2为根据本发明一个方面的在社区网络中检测垃圾帖子的方法流程图。为简明起见,图2中仅示出一名候选用户及其用户终端。如图2所示,在步骤Si,用户a经由用户终端1访问社区网络网站并登陆其特定板块(以下简称“贴吧)时,例如“军事论坛”贴吧,通过人机交互的方式,利用用户终端1 向网络设备发送帖子。在此虽然以“网络设备”为例来阐述本发明,但本领域技术人员应理解本发明还可适用于基于P2P模式或云计算方式的用户终端直接互连社区网络模式,其中,每一或特定的一些用户终端可起到网络设备的功能,对用户所发帖子进行检测,也应包含在本发明的保护范围以内。具体地,用户a可通过诸如IE、Firefox等浏览器访问社区网络网页,也可通过安装于用户终端1中的客户端软件,诸如QQ等进入该社区网络的“军事论坛”贴吧网页。在前一情形中,用户a可以在该社区网络的“军事论坛”贴吧网页上的帖子输入栏中输入相应的贴子内容,然后点击该网页上的特定功能按钮,使得用户终端1发送帖子;在后一情形中,用户a可在客户端的软件用户界面中输入帖子内容并通过点击该客户端软件界面中特定功能按钮使得用户终端1发送该帖子。本领域技术人员应理解,本发明应不限于上述方式,任何可适用于本发明的访问社区网络以及发帖的方式均应在本发明的保护范围以内, 并以引用方式包含于此。随后,在步骤S2,网络设备2基于发帖用户的发帖行为特征对其所发帖子进行检测,判断该帖子是否为垃圾帖子。具体地,本发明认识到对于许多隐性垃圾帖子,虽然其并未包含明显违法或不道德或广告特征的垃圾内容,但其发帖人出于其不正当的发帖目的,会在社区网络的一个或多个板块(例如多个贴吧,为统一起见,以下简称“贴吧”)中大量发放帖子,甚至采用机器发贴方式。因此,利用发帖人的发帖频率或其所发贴吧数目等发帖行为特征可以准确地检测出此类隐性垃圾帖子。具体地,在步骤S21中,网络设备2在接收到发帖的用户(以下简称“发帖人”)所发帖子后,将提取发帖人的诸如登录社区网络的ID或其IP地址等标识信息,随后基于发帖人的标识信息查询该发帖用户的与该帖子相关的发帖行为特征,该发帖行为特征包括但不限于,该发帖人的发帖频率、发帖所在贴吧的个数。 在步骤S21中,网络设备2可以通过各种方式来获取发帖人的发帖行为特征,包括但不限于以下方式1)网络设备2向发帖人的用户终端发送请求获取其cookie信息的请求消息,并根据该用户终端相应请求消息提供的cookie信息来获得该发帖人近期的发帖历史记录,从而获取其发帖行为特征;2)网络设备2根据该发帖人的标识信息在整个社区网络中,或在本社区网络以及其他社区网络中,查询该发帖人的发帖行为特征;3)更优选地,网络设备可建立并管理一个包含大量发帖人的发帖行为特征的发帖行为特征库中查询该发帖人的发帖行为特征,并根据其此次发帖行为来为其在该发帖新闻表征库中建立或更新发帖行为特征,其中该发帖行为特征库包括各种类型的数据库,其在硬件上可以包含在网络设备中,也可是独立于网络设备并通过网络链路与之建立通信连接。本领域技术人员应理解本发明并不限于上述几种发帖行为特征获取方式,其他的任何可适用于本发明的发帖行为特征获取方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。
随后,在步骤S22中,网络设备2将基于第一预定规则来对所获取的用户的发帖行为特征进行判断,该第一预定规则包括但不限于1)将发帖人的发帖频率与第一预定阈值进行比较,当发帖人的发帖频率高于第一预定阈值,和/或;2)将发帖人发帖所在贴吧个数与第二预定阈值进行比较,当其发帖所在贴吧个数超出第二预定阈值,则可判断其所发帖子为垃圾帖子。事实上,但发帖人的发帖频率明显高于人工发帖频率,例如15-20次/分钟, 则可判断为机器发贴,则该发帖人所发帖子可判断为垃圾帖子。本领域技术人员应理解,本发明不限上述几种发帖行为特征,其他可适用于本发明的用于判断发帖人异常发帖行为的发帖行为特征,也均应一并包含在本发明的保护范围中。最后,在步骤S3,网络设备2将根据步骤S22中的判断结果来对该帖子进行处理。 具体地,当判断该帖子并非垃圾帖子时,可直接放行以在相应贴吧上进行展示;而当判断该帖子为垃圾帖子或疑似垃圾帖子时,处理方式包括但不限于1)通知网站管理人员对疑似垃圾帖子进行人工审核和人工处理;2)为垃圾帖子对应的发帖行为特征设置较高阈值,但判断发帖人的发帖行为特征超出该阈值,则直接删帖;2)更优选地,为垃圾帖子设置多个垃圾等级以及与各个垃圾等级对应的多级阈值,以三个垃圾等级为例,当判断发帖人的发帖行为特征超出第一级阈值,向其发送警告通知消息;当判断发帖人的发帖行为特征超出第二级阈值,直接进行删帖;当判断发帖人的发帖行为特征超出第三级阈值,则不仅删帖还对发帖用户查封其ID或IP地址。本领域技术人员应理解本发明并不限于上述几种帖子处理方式,其他的任何可适用于本发明的帖子处理方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。优选地,在步骤S4 (未示出)中,网络设备2还根据发帖人的本次发帖行为来建立或更新其在该发帖行为特征库中的发帖行为特征。优选地,在步骤S5(未示出)中,网络设备2还根据步骤S2中的判断结果以及社区网站管理员的反馈来调整上述阈值,包括但不限于1)当出现判断装置判断为垃圾帖子但社区网站管理员审核后确认非垃圾帖子的情形超出预定数目,则按预定增幅调高相应的阈值;2)当出现判断装置判断为非垃圾帖子但社区网站管理员审核后确认为垃圾帖子的情形超出预定数目,则按预定增幅调低相应的阈值。需要说明的是,图2仅仅简要的示出了一个用户通过用户终端向社区网络发帖子的情形,而实际上,社区网络中可能同时存在多个用户向向社区网络发帖子的情况,网络设备针对每一用户所发帖子的检测和处理原理都是一样的。图3示出根据本发明一个优选实施例的在社区网络中检测垃圾帖子的方法流程图,其中步骤Si,与图2中的相应步骤Sl相同,为简明起见,以引用方式包含在此,而不做赘述。
如图3所示,在步骤S21’中,网络设备2在接收到所发帖子后对提取其内容的关键信息和发帖人的诸如登录社区网络的ID或其IP地址等标识信息,并随后根据该内容的关键信息来查询发帖人与该帖子有关的发帖行为特征,也即,利用所提取的内容关键信息来查询该发帖人所发放的帖子中与帖子具有相同或相似关键信息的其他帖子(以下简称 “相似帖子”),随后获得该发帖人发放相似帖子的发帖行为特征,从而可以更准确地判断该帖子是否为垃圾帖子,该发帖行为特征包括但不限于,发放相似帖子的发帖频率、发放相似帖子的贴吧数目具体地,网络设备2可以通过各种方式来获取发帖人的发帖行为特征,包括但不限于以下方式1)网络设备2向发帖人的用户终端发送请求获取其cookie信息的请求消息,并根据该用户终端相应请求消息提供的cookie信息来获得该发帖人近期的发帖历史记录,从而获取其发放相似帖子的发帖行为特征;2)网络设备2根据该帖子的内容关键信息以及发帖人的标识信息在整个社区网络中,或在本社区网络以及其他社区网络中,查询该发帖人与该帖子有关的的发帖行为特征;3)更优选地,网络设备可建立并管理一个包含大量发帖人的发帖行为特征的发帖行为特征库中查询该发帖人与该帖子有关的发帖行为特征,并根据其此次发帖行为来为其在该发帖新闻表征库中建立或更新其与该帖子有关的发帖行为特征,其中该发帖行为特征库包括各种类型的数据库,其在硬件上可以包含在网络设备中,也可是独立于网络设备并通过网络链路与之建立通信连接。本领域技术人员应理解本发明并不限于上述几种发帖行为特征获取方式,其他的任何可适用于本发明的发帖行为特征获取方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。随后,在步骤S22’中,网络设备2将根据第一预定规则对所获取的发帖人的与该帖子有关的发帖行为特征进行判断。具体地,该第一预定规则包括但不限于1)将发帖人与该帖子有关的发帖频率与第一预定阈值进行比较,当高于第一预定阈值;和/或2)将发帖人将该帖子发放的贴吧个数与第二预定阈值进行比较,当超出第二预定阈值,则可判断其所发帖子为垃圾帖子。事实上,当发帖人发放该帖子的发帖频率明显高于人工发帖频率, 例如15-20次/分钟,则可判断为机器发贴,则该帖子可判断为垃圾帖子。本领域技术人员应理解,本发明的第一预定规则不限上述几种方式,其他可适用于本发明的用于判断发帖人异常发帖行为的判断规则,也均应一并包含在本发明的保护范围中。最后,在步骤S3’,网络设备2将根据步骤S22’中的判断结果来对该帖子进行处理。具体地,当判断该帖子并非垃圾帖子时,可直接放行以在相应贴吧上进行展示;而当判断该帖子为垃圾帖子或疑似垃圾帖子时,处理方式包括但不限于1)通知网站管理人员对疑似垃圾帖子进行人工审核和人工处理;2)为垃圾帖子对应的发帖行为特征设置较高阈值,但判断发帖人与该帖子有关的发帖行为特征超出该较高阈值,则直接删帖;3)优选地, 为垃圾帖子设置多个垃圾等级以及与各个垃圾等级对应的多级阈值,以三个垃圾等级为例,当判断发帖人与该帖子有关的发帖行为特征超出第一等级阈值,向其发送警告通知消息;当判断发帖人与该帖子有关的发帖行为特征超出第二级阈值,直接进行删帖;当判断发帖人与该帖子有关的发帖行为特征超出第三级阈值,则不仅删帖还对发帖用户查封其ID 或IP地址。本领域技术人员应理解本发明并不限于上述几种帖子处理方式,其他的任何可适用于本发明的帖子处理方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。
在实际中,一些垃圾帖子或隐性垃圾帖子可能由一群用户而非单个用户发放,因此为更准确地检测垃圾帖子,还有必要结合该帖子的外部特征来进行综合判断。 具体地,在另一优选实施例中,在步骤S23’中,网络设备2在接收到一个帖子后, 不仅基于发帖人的发帖行为特征或与该帖子有关的发帖行为特征,还进一步基于所获取的帖子的内容关键信息去查询该帖子的外部特征。该外部特征包括但不限于以下各项中的任一项1)该帖子中的内容重复度,或该帖子与其他相似帖子的内容重复度;2)与所述帖子具有相同或相似内容的其他帖子所在社区网络的数目。随后,网络设备可基于第二预定规则根据该外部特征,并结合上述发帖人的发帖行为特征来判断该帖子是否为垃圾帖子。具体地,该第二预定规则包括但不限于1)当该帖子本身的内容重复度或该帖子与其他相似帖子的内容重复度是否超出第三预定阈值;和/或2)与该帖子具有相同或相似内容的其他帖子(以下简称“相似帖子”)所在社区网络的数目是否超出第四预定阈值;和 /或3)其他相似帖子的发帖频率是否超出第五预定阈值。本领域技术人员应理解,本发明的第二预定规则不限上述几种方式,其他可适用于本发明的用于判断该帖子的外部特征异常的判断规则,也均应一并包含在本发明的保护范围中。另外,本发明可采用多种基于帖子外部特征与发帖人发帖行为特征来更准确地综合判断垃圾帖子的综合判断方式,其包括但不限于1)将帖子外部特征的判断结果与上述参照图2或3所述的对发帖人发帖行为特征的判断结果进行逻辑与运算,也即仅当根据帖子外部特征判断和根据发帖人发帖行为特征判断均为垃圾帖子,才最终判断为垃圾帖子; 2)可将帖子外部特征进行归一化,并将此归一化值作为权重因子与对发帖人发帖行为特征进行相乘,再基于加权后的发帖人的发帖行为特征来判断该帖子是否为垃圾帖子。本领域技术人员应理解,本发明的基于帖子外部特征的与发帖人发帖行为特征进行综合判断的方式不限上述几种方式,其他可适用于本发明的用于基于帖子外部特征与发帖人的发帖行为特征的综合判断方式,也均应一并包含在本发明的保护范围中。另外,本发明还可适用于一些包含较明显但不严重的违法或不道德或广告特征的垃圾内容或疑似垃圾内容的垃圾帖子的检测,通过结合对发帖用户的发帖行为特征的检测,也可更准确将其进行归类,例如,具有少量色情内容描写的帖子可能属于正常的文学创作,但当网络设备检测出其发帖用户的发帖行为特征异常时,则可判断其为垃圾帖子。具体地,在另一个优选实施例中,在步骤S24’(未示出),网络设备2在接收到一个帖子后,基于预定语义规则来判断该帖子内容中是否包含垃圾内容或疑似垃圾内容。其中, 该预定语义规则包括但不限于以下至少任一项1)所述帖子内容是否满足语法规则;2)所述帖子内容中是否含有垃圾词汇;3)所述帖子内容中是否含有地址信息,其中,地址信息包括网页地址链接、电话号码、或QQ号码等。随后,当检测出该帖子中包含垃圾内容或疑似垃圾内容时,基于该垃圾内容或疑似垃圾内容和发帖人的标识信息来在整个社区网络,或在本社区网络以及其他社区网络中,在步骤S21’中,查询该发帖人与该垃圾内容或疑似垃圾内容有关的发帖行为特征,并基于上述参照图3所述的第一预定规则对该发帖人与该垃圾内容或疑似垃圾内容有关的发帖行为特征进行判断,以最终判断该帖子是否为垃圾帖子。其中,同样地,在该另一个优选实施例中,网络设备2还可进一步结合该帖子的外部特征来对该帖子进行综合判断。具体地,网络设备2在接收到一个帖子后,不仅基于预定语义规则来判断该帖子是否包含垃圾内容或疑似垃圾内容,并当检测出该帖子中包含垃圾内容或疑似垃圾内容时,基于该垃圾内容或疑似垃圾内容和发帖人的标识信息来检测发帖人与该垃圾内容或疑似垃圾内容有关的发帖行为特征。网络设备还进一步基于所获取的帖子中的垃圾内容或疑似垃圾内容去查询该帖子的外部特征。该外部特征包括但不限于以下各项中的任一项1)所述帖子中的垃圾内容或疑似垃圾内容的重复度,该帖子或在整个社区网络和/或多个社区网络中其他相似帖子的垃圾内容或疑似垃圾内容的重复度;2)与所述帖子具有相同或相似垃圾内容或疑似垃圾内容的其他帖子所在社区网络的数目。随后,网络设备可基于上述基于预定语义规则和发帖人标识信息的垃圾帖子判断过程并结合上述参照图3所述的第二预定规则来对该帖子外部特征进行判断的方式来更准确地判断该帖子是否为垃圾帖子,为简明起见,具体内容以引用方式包含于此,不做赘述。 同样地,本发明可采用将多种上述基于预定语义规则和发帖人标识信息的垃圾帖子判断过程与基于帖子外部特征的判断过程相结合的综合判断方式,其包括但不限于1) 将帖子外部特征的判断结果与上述基于预定语义规则和发帖人标识信息的判断结果进行逻辑与运算,也即仅当根据帖子外部特征判断,和根据预定语义规则判断帖子是否有垃圾内容或疑似垃圾内容并结合发帖人的与垃圾内容或疑似垃圾内容有关的发帖行为特征判断均为垃圾帖子,才最终判断为垃圾帖子;2)可将帖子外部特征进行归一化,并将此归一化值作为权重因子与上述所述发帖人的与垃圾内容或疑似垃圾内容有关的发帖行为特征进行相乘,再基于加权后的发帖人的发帖行为特征来判断该帖子是否为垃圾帖子。本领域技术人员应理解,本发明的基于预定语义规则和发帖人标识信息的垃圾帖子判断过程与基于帖子外部特征的判断过程相结合的综合判断方式不限上述几种方式,其他可适用于本发明的用于基于预定语义规则和发帖人标识信息和基于帖子外部特征的综合判断方式,也均应一并包含在本发明的保护范围中。优选地,在步骤S4,(未示出)中,网络设备2还根据发帖人的本次发帖行为来建立或更新其在该发帖行为特征库中的与该帖子有关的发帖行为特征。优选地,在步骤S5’ (未示出)中,网络设备2还根据步骤S22’中的判断结果以及社区网站管理员的反馈来调整上述阈值,包括但不限于1)当出现判断装置判断为垃圾帖子但社区网站管理员审核后确认非垃圾帖子的情形超出预定数目,则按预定增幅调高相应的阈值;2)当出现判断装置判断为非垃圾帖子但社区网站管理员审核后确认为垃圾帖子的情形超出预定数目,则按预定增幅调低相应的阈值。图4示出根据本发明一个方面的在社区网络中检测垃圾帖子的系统示意图。为简明起见,图4中仅示出一名候选用户及其用户终端1、以及网络设备2。该网络设备2包括但不限于,网络服务器、网络主机或者、云计算模式下的其他用户设备等。用户终端包括但不限于,计算机、智能手机、PDA、游戏机或IPTV等任何具有上网浏览功能的设备。如图4所示,网络设备2包括一个用于检测垃圾帖子的帖子检测装置20,但本领域技术人员应理解, 该帖子检测装置20也可是与网络设备通过网络进行通信连接的独立设备,包括但不限于普通计算机、服务器、主机等。其中,用户终端与网络设备之间的通信可以是基于诸如TCP/IP协议、UDP协议等的分组数据传输。而帖子检测装置为独立设备时,其与网络设备2之间的通信也可是基于上述TCP/IP协议、UDP协议等的分组数据传输;当帖子检测装置20包含于网络设备2中时,其与网络设备其他模块的通信是 基于各种计算机总线协议的信号传输。但本领域技术人员应理解本发明不限于上述通信传输协议,任何已有或今后可能出现的外部通信协议或内部计算机总线协议均适用于本发明,从而被弓I用而包含于此。以下,仅以帖子检测装置20包含于网络设备2中为例对本发明进行详细描述。如图4所示,用户a经由用户终端1访问社区网络网站并登陆其特定板块(以下简称“贴吧)时,例如“军事论坛”贴吧,通过人机交互的方式,利用用户终端1向网络设备 2发送帖子。在此虽然以“网络设备”为例来阐述本发明,但本领域技术人员应理解本发明还可适用于基于P2P模式或云计算方式的用户终端直接互连社区网络模式,其中,每一或特定的一些用户终端可起到网络设备的功能,对用户所发帖子进行检测,也应包含在本发明的保护范围以内。具体地,用户a可通过诸如IE、Firefox等浏览器访问社区网络网页,也可通过安装于用户终端1中的客户端软件,诸如QQ等进入该社区网络的“军事论坛”贴吧网页。在前一情形中,用户a可以在该社区网络的“军事论坛”贴吧网页上的帖子输入栏中输入相应的贴子内容,然后点击该网页上的特定功能按钮,使得用户终端1发送帖子;在后一情形中, 用户a可在客户端的软件用户界面中输入帖子内容并通过点击该客户端软件界面中特定功能按钮使得用户终端1发送该帖子。本领域技术人员应理解,本发明应不限于上述方式, 任何可适用于本发明的访问社区网络以及发帖的方式均应在本发明的保护范围以内,并以引用方式包含于此。随后,网络设备2中的帖子检测装置20基于发帖用户的发帖行为特征对其所发帖子进行检测,判断该帖子是否为垃圾帖子。具体地,本发明认识到对于许多隐性垃圾帖子,虽然其并未包含明显违法或不道德或广告特征的垃圾内容,但其发帖人出于其不正当的发帖目的,会在社区网络的一个或多个板块(例如多个贴吧,为统一起见,以下简称“贴吧”)中大量发放帖子,甚至采用机器发贴方式。因此,利用发帖人的发帖频率或其所发贴吧数目等发帖行为特征可以很准确地检测出此类隐性垃圾帖子。具体地,网络设备2在接收到发帖的用户(以下简称“发帖人”)所发帖子后,第一获取装置21将提取发帖人的诸如登录社区网络的ID或其IP地址等标识信息,随后基于发帖人的标识信息查询该发帖用户的与该帖子相关的发帖行为特征,该发帖行为特征包括但不限于,该发帖人的发帖频率、发帖所在贴吧的个数。第一获取装置21可以通过各种方式来获取发帖人的发帖行为特征,包括但不限于以下方式1)向发帖人的用户终端发送请求获取其cookie信息的请求消息,并根据该用户终端相应请求消息提供的cookie信息来获得该发帖人近期的发帖历史记录,从而获取其发帖行为特征;2)根据该发帖人的标识信息在整个社区网络中,或在本社区网络以及其他社区网络中,查询该发帖人的发帖行为特征;3)更优选地,网络设备2可建立并管理一个包含大量发帖人的发帖行为特征的发帖行为特征库,第一获取装置21可在该发帖行为特征库中查询该发帖人的发帖行为特征,其中该发帖行为特征库包括各种类型的数据库,其在硬件上可以包含在网络设备中,也可是独立于网络设备并通过网络链路与之建立通信连接。本领域技术人员应理解本发明并不限于上述几种发帖行为特征获取方式,其他的任何可适用于本发明的发帖行为特征获取方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。随后,判断装置22 将基于第一预定规则来对所获取的用户的发帖行为特征进行判断,该第一预定规则包括但不限于1)将发帖人的发帖频率与第一预定阈值进行比较, 当发帖人的发帖频率高于第一预定阈值,和/或;2)将发帖人发帖所在贴吧个数与第二预定阈值进行比较,当其发帖所在贴吧个数超出第二预定阈值,则可判断其所发帖子为垃圾帖子。事实上,但发帖人的发帖频率明显高于人工发帖频率,例如15-20次/分钟,则可判断为机器发贴,则该发帖人所发帖子可判断为垃圾帖子。本领域技术人员应理解,本发明不限上述几种发帖行为特征,其他可适用于本发明的用于判断发帖人异常发帖行为的发帖行为特征,也均应一并包含在本发明的保护范围中。最后,帖子处理装置23将根据判断装置22的判断结果来对该帖子进行处理。具体地,当判断装置22判断该帖子并非垃圾帖子时,可直接放行以在相应贴吧上进行展示; 而当判断该帖子为垃圾帖子或疑似垃圾帖子时,处理方式包括但不限于1)通知网站管理人员对疑似垃圾帖子进行人工审核和人工处理;2)为垃圾帖子对应的发帖行为特征设置较高阈值,但判断发帖人的发帖行为特征超出该阈值,则直接删帖;2)更优选地,为垃圾帖子设置多个垃圾等级以及与各个垃圾等级对应的多级阈值,以三个垃圾等级为例,当判断发帖人的发帖行为特征超出第一级阈值,向其发送警告通知消息;当判断发帖人的发帖行为特征超出第二级阈值,直接进行删帖;当判断发帖人的发帖行为特征超出第三级阈值,则不仅删帖还对发帖用户查封其ID或IP地址。本领域技术人员应理解本发明并不限于上述几种帖子处理方式,其他的任何可适用于本发明的帖子处理方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。优选地,网络设备2还包括调整装置(未示出),用于根据上述判断结果以及社区网站管理员的反馈来调整上述阈值,包括但不限于1)当出现判断装置判断为垃圾帖子但社区网站管理员审核后确认非垃圾帖子的情形超出预定数目,则按预定增幅调高相应的阈值;2)当出现判断装置判断为非垃圾帖子但社区网站管理员审核后确认为垃圾帖子的情形超出预定数目,则按预定增幅调低相应的阈值。优选地,网络设备2还包括更新装置(未示出),用于根据发帖人的本次发帖行为来建立或更新其在该发帖行为特征库中的发帖行为特征。需要说明的是,图4仅仅简要示出了一个用户通过用户终端向社区网络发帖子的情形,而实际上,社区网络中可能同时存在多个用户向向社区网络发帖子的情况,网络设备针对每一用户所发帖子的检测和处理原理都是一样的。图5示出根据本发明一个优选实施例的在社区网络中检测垃圾帖子的系统示意图,其中用户发帖的过程与上面参照图4所描述的发帖过程相同,为简明起见,以引用方式包含在此,而不做赘述。如图5所示,网络设备2接收到所发帖子后,第一获取装置21’对提取其内容的关键信息和发帖人的诸如登录社区网络的ID或其IP地址等标识信息,并随后根据该内容的关键信息来查询发帖人与该帖子有关的发帖行为特征,也即,利用所提取的内容关键信息来查询该发帖人所发放的帖子中与帖子具有相同或相似关键信息的其他帖子(以下简称 “相似帖子”),随后获得该发帖人发放相似帖子的发帖行为特征,从而可以更准确地判断该帖子是否为垃圾帖子,该发帖行为特征包括但不限于,发放相似帖子的发帖频率、发放相似帖子的贴吧数目。具体地,第一获取装置21’可以通过各种方式来获取发帖人的发帖行为特征,包括但不限于以下方式1)向发帖人的用户终端发送请求获取其cookie信息的请求消息,并根据该用户终端相应请求消息提供的cookie信息来获得该发帖人近期的发帖历史记录, 从而获取其发放相似帖子的发帖行为特征;2)根据该帖子的内容关键信息以及发帖人的标识信息在整个社区网络中,或在本社区网络以及其他社区网络中,查询该发帖人与该帖子有关的的发帖行为特征;3)更优选地,网络设备可建立并管理一个包含大量发帖人的发帖行为特征的发帖行为特征库,第一获取装置21’可在发帖行为特征库中查询该发帖人与该帖子有关的发帖行为特征,并根据其此次发帖行为来为其在该发帖新闻表征库中建立或更新其与该帖子有关的发帖行为特征,其中该发帖行为特征库包括各种类型的数据库,其在硬件上可以包含在网络设备中,也可是独立于网络设备并通过网络链路与之建立通信连接。本领域技术人员应理解本发明并不限于上述几种发帖行为特征获取方式,其他的任何可适用于本发明的发帖行为特征获取方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。随后,判断装置22’将根据第一预定规则对所获取的发帖人的与该帖子有关的发帖行为特征进行判断。具体地,该第一预定规则包括但不限于1)将发帖人与该帖子有关的发帖频率与第一预定阈值进行比较,当高于第一预定阈值;和/或2)将发帖人将该帖子发放的贴吧个数与第二预定阈值进行比较,当超出第二预定阈值,则可判断其所发帖子为垃圾帖子。事实上,当发帖人发放该帖子的发帖频率明显高于人工发帖频率,例如15-20次 /分钟,则可判断为机器发贴,则该帖子可判断为垃圾帖子。本领域技术人员应理解,本发明的第一预定规则不限上述几种方式,其他可适用于本发明的用于判断发帖人异常发帖行为的判断规则,也均应一并包含在本发明的保护范围中。最后,帖子处理装置23’将根据判断装置22’的判断结果来对该帖子进行处理。具体地,当判断该帖子并非垃圾帖子时,可直接放行以在相应贴吧上进行展示;而当判断该帖子为垃圾帖子或疑似垃圾帖子时,处理方式包括但不限于1)通知网站管理人员对疑似垃圾帖子进行人工审核和人工处理;2)为垃圾帖子对应的发帖行为特征设置较高阈值,但判断发帖人与该帖子有关的发帖行为特征超出该较高阈值,则直接删帖;3)优选地,为垃圾帖子设置多个垃圾等级以及与各个垃圾等级对应的多级阈值,以三个垃圾等级为例,当判断发帖人与该帖子有关的发帖行为特征超出第一等级阈值,向其发送警告通知消息;当判断发帖人与该帖子有关的发帖行为特征超出第二级阈值,直接进行删帖;当判断发帖人与该帖子有关的发帖行为特征超出第三级阈值,则不仅删帖还对发帖用户查封其ID或IP地址。本领域技术人员应理解本发明并不限于上述几种帖子处理方式,其他的任何可适用于本发明的帖子处理方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。在实际中,一些垃圾帖子或隐性垃圾帖子可能由一群用户而非单个用户发放,因此为更准确地检测垃圾帖子,还有必要结合该帖子的外部特征来进行综合判断。具体地,在另一优选实施例中,网络设备2在接收到一个帖子后,第二获取装置 24’不仅基于发帖人的发帖行为特征或与该帖子有关的发帖行为特征,还进一步基于所获取的帖子的内容关键信息去查询该帖子的外部特征。该外部特征包括但不限于以下各项中的任一项1)该帖子中的内容重复度,或该帖子与其他相似帖子的内容重复度;2)与所述帖子具有相同或相似内容的其他帖子所在社区网络的数目。随后,判断装置22’可基于第二预定规则根据该外部特征,并结合上述发帖人的发帖行为特征来判断该帖子是否为垃圾帖子。具体地,该第二预定规则包括但不限于1)当该帖子本身的内容重复度或该帖子与其他相似帖子的内容重复度是否超出第三预定阈值;和/或幻与该帖子具有相同或相似内容的其他帖子(以下简称“相似帖子”)所在社区网络的数目是否超出第四预定阈值;和 /或幻其他相似帖子的发帖频率是否超出第五预定阈值。本领域技术人员应理解,本发明的第二预定规则不限上述几种方式,其他可适用于本发明的用于判断该帖子的外部特征异常的判断规则,也均应一并包含在本发明的保护范围中。另外,本发明中判断装置22’可采用多种基于帖子外部特征与发帖人发帖行为特征来更准确地综合判断垃圾帖子的综合判断方式,其包括但不限于1)将帖子外部特征的判断结果与上述参照图2或3所述的对发帖人发帖行为特征的判断结果进行逻辑与运算, 也即仅当根据帖子外部特征判断和根据发帖人发帖行为特征判断均为垃圾帖子,才最终判断为垃圾帖子;2)可将帖子外部特征进行归一化,并将此归一化值作为权重因子与对发帖人发帖行为特征进行相乘,再基于加权后的发帖人的发帖行为特征来判断该帖子是否为垃圾帖子。本领域技术人员应理解,本发明的基于帖子外部特征的与发帖人发帖行为特征进行综合判断的方式不限上述几种方式,其他可适用于本发明的用于基于帖子外部特征与发帖人的发帖行为特征的综合判断方式,也均应一并包含在本发明的保护范围中。另外,本发明还可适用于一些包含较明显但不严重的违法或不道德或广告特征的垃圾内容或疑似垃圾内容的垃圾帖子的检测,通过结合对发帖用户的发帖行为特征的检测,也可更准确将其进行归类,例如,具有少量色情内容描写的帖子可能属于正常的文学创作,但当网络设备检测出其发帖用户的发帖行为特征异常时,则可判断其为垃圾帖子。具体地,在另一个优选实施例中,网络设备22在接收到一个帖子后,判断装置22’ 基于预定语义规则来判断该帖子内容中是否包含垃圾内容或疑似垃圾内容。其中,该预定语义规则包括但不限于以下至少任一项1)所述帖子内容是否满足语法规则;2)所述帖子内容中是否含有垃圾词汇;3)所述帖子内容中是否含有地址信息,其中,地址信息包括网页地址链接、电话号码、或QQ号码等。随后,当语义检测装置(未示出)检测出该帖子中包含垃圾内容或疑似垃圾内容时,第一获取装置21’基于该垃圾内容或疑似垃圾内容和发帖人的标识信息来在整个社区网络,或在本社区网络以及其他社区网络中,查询该发帖人与该垃圾内容或疑似垃圾内容有关的发帖行为特征。随后,判断装置22’基于上述参照图3所述的第一预定规则对该发帖人与该垃圾内容或疑似垃圾内容有关的发帖行为特征进行判断,以最终判断该帖子是否为垃圾帖子。 其中,同样地,在该另一个优选实施例中,网络设备2还可进一步结合该帖子的外部特征来对该帖子进行综合判断。具体地,网络设备2在接收到一个帖子后,语义检测装置(未示出)基于预定语义规则来检测该帖子是否包含垃圾内容或疑似垃圾内容,并当检测出该帖子中包含垃圾内容或疑似垃圾内容时,第一获取装置21’基于该垃圾内容或疑似垃圾内容和发帖人的标识信息来检测发帖人与该垃圾内容或疑似垃圾内容有关的发帖行为特征;
15而第二获取装置对’根据所获取的帖子中的垃圾内容或疑似垃圾内容去查询该帖子的外部特征。该外部特征包括但不限于以下各项中的任一项1)所述帖子中的垃圾内容或疑似垃圾内容的重复度,该帖子或在整个社区网络和/或多个社区网络中其他相似帖子的垃圾内容或疑似垃圾内容的重复度;2)与所述帖子具有相同或相似垃圾内容或疑似垃圾内容的其他帖子所在社区网络的数目。随后,判断装置22’可基于上述基于预定语义规则和发帖人标识信息的垃圾帖子判断过程并结合上述参照图4所述的第二预定规则来对该帖子外部特征进行判断的方式来更准确地判断该帖子是否为垃圾帖子,为简明起见,其具体内容以引用方式包含于此,不做赘述。同样地,本发明中判断装置22’可采用将多种上述基于预定语义规则和发帖人标识信息的垃圾帖子判断过程与基于帖子外部特征的判断过程相结合的综合判断方式,其包括但不限于1)将帖子外部特征的判断结果与上述基于预定语义规则和发帖人标识信息的判断结果进行逻辑与运算,也即仅当根据帖子外部特征判断,和根据预定语义规则判断帖子是否有垃圾内容或疑似垃圾内容并结合发帖人的与垃圾内容或疑似垃圾内容有关的发帖行为特征判断均为垃圾帖子,才最终判断为垃圾帖子;幻可将帖子外部特征进行归一化,并将此归一化值作为权重因子与上述所述发帖人的与垃圾内容或疑似垃圾内容有关的发帖行为特征进行相乘,再基于加权后的发帖人的发帖行为特征来判断该帖子是否为垃圾帖子。本领域技术人员应理解,本发明的基于预定语义规则和发帖人标识信息的垃圾帖子判断过程与基于帖子外部特征的判断过程相结合的综合判断方式不限上述几种方式,其他可适用于本发明的用于基于预定语义规则和发帖人标识信息和基于帖子外部特征的综合判断方式,也均应一并包含在本发明的保护范围中。优选地,网络设备2还包括调整装置(未示出),用于根据上述判断结果以及社区网站管理员的反馈来调整上述阈值,包括但不限于1)当出现判断装置判断为垃圾帖子但社区网站管理员审核后确认非垃圾帖子的情形超出预定数目,则按预定增幅调高相应的阈值;2)当出现判断装置判断为非垃圾帖子但社区网站管理员审核后确认为垃圾帖子的情形超出预定数目,则按预定增幅调低相应的阈值。优选地,网络设备2还包括更新装置(未示出),用于根据发帖人的本次发帖行为来建立或更新其在该发帖行为特征库中的发帖行为特征。以上参照图2-4对本发明的多个具体实施例详细描述。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,上述实施例仅为示范性的,而非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此应将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。 系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
权利要求
1.一种用于检测社区网络中垃圾帖子的方法,其中,包括a.根据发帖用户的发帖行为特征来判断其所发帖子是否为垃圾帖子。
2.根据权利要求1所述的方法,其中,所述步骤a包括 al.获取该帖子的发帖用户的发帖行为特征;a2.基于第一预定规则根据所述发帖用户的发帖行为特征判断该帖子是否为垃圾帖子。
3.根据权利要求1所述的方法,其中,所述步骤a还包括 al’ .获取所述帖子中的内容关键信息;a2'.根据所述内容关键信息来获取该发帖用户与该帖子有关的发帖行为特征; a3’ .根据发帖用户与该帖子有关的发帖行为特征来判断所述帖子是否为垃圾帖子。
4.根据权利要求2或3所述的方法,其中,所述发帖用户的发帖行为特征包括以下至少任一项-发帖人的发帖频率;-发帖人发帖所在贴吧的信息;其中,所述第一预定规则相应地包括以下任一项-发帖人的发帖频率超出第一预定阈值;-发帖人发帖所在社区网络的数目超出第二预定阈值。
5.根据权利要求4所述的方法,其中,还包括-根据所述判断结果,并通过该社区网络管理员的反馈来相应调整所述第一预定阈值或第二预定阈值。
6.根据权利要求3至5中任一项所述的方法,其中,所述获取发帖用户的发帖行为特征的步骤还包括-根据所述发帖用户的标识信息在发帖行为特征库中查询,以获取该发帖用户的所述发帖行为特征。
7.根据权利要求6所述的方法,其中,还包括-根据判断结果来更新所述发帖行为特征库中该发帖用户的所述发帖行为特征。
8.根据权利要求2至7中任一项所述的方法,其中还包括 c获取该帖子的外部特征;其中,所述步骤a还包括-基于第二预定规则对帖子的外部特征进行判断并结合用户的发帖行为特征来判断所述帖子是否为垃圾帖子。
9.根据权利要求8所述的方法,其中,所述外部特征包括以下至少任一项 -所述帖子的内容重复度;-与所述帖子具有相同或相似内容的其他相似帖子所在社区网络的数目;-与所述帖子具有相同或相似内容的其他相似帖子的发放频率;其中,所述第二预定规则相应地包括以下至少任一项-所述帖子的内容重复度是否超出第三预定阈值;-所述其他相似帖子所在社区网络的数目是否超出第四预定阈值;-所述其他相似帖子的发放频率是否超出第五预定阈值。
10.根据权利要求2至9中任一项所述的方法,其中,所述步骤a还还包括-基于预定语义规则对该帖子的内容进行判断并结合用户的发帖行为特征来判断所述帖子是否为垃圾帖子;其中,所述预定语义规则包括 -所述帖子内容是否满足语法规则; -所述帖子内容中是否含有垃圾词汇; -所述帖子内容中是否含有地址信息。
11.根据权利要求10所述的方法,其中,所述地址信息包括网页地址链接、电话号码、 或QQ号码。
12.根据权利要求1至11中任一项所述的方法,其中,所述方法还包括 当判断所述帖子为垃圾帖子,则根据预定处理规则对其进行处理。
13.一种用于检测社区网络中垃圾帖子的设备,其中,包括帖子检测装置,用于根据发帖用户的发帖行为特征来判断其所发帖子是否为垃圾帖子。
14.根据权利要求13所述的设备,其中,所述帖子检测装置包括 第一获取装置,用于获取该帖子的发帖用户的发帖行为特征;判断装置,用于基于第一预定规则根据所述发帖用户的发帖行为特征判断该帖子是否为垃圾帖子。
15.根据权利要求13所述的设备,其中,所述帖子检测装置包括 提取装置,用于获取所述帖子中的内容关键信息;第一获取装置,用于根据所述内容关键信息来获取该发帖用户与该帖子有关的发帖行为特征;判断装置,用于根据发帖用户与该帖子有关的发帖行为特征来判断所述帖子是否为垃圾帖子。
16.根据权利要求14或15所述的设备,其中,所述发帖用户的发帖行为特征包括以下至少任一项发帖人的发帖频率;发帖人发帖所在贴吧的信息;其中,所述第一预定规则相应地包括以下任一项-发帖人的发帖频率超出第一预定阈值;-发帖人发帖所在社区网络的数目超出第二预定阈值。
17.根据权利要求16所述的设备,其中,还包括调整装置,用于根据所述判断结果,并根据该社区网络管理员的反馈来相应调整所述第一预定阈值或第二预定阈值。
18.根据权利要求15至17中任一项所述的设备,其中,所述第一获取装置还用于根据所述发帖用户的标识信息在发帖行为特征库中查询,以获取该发帖用户的所述发帖行为特征。
19.根据权利要求18所述的设备,其中,还包括更新装置,用于根据判断结果来更新所述发帖行为特征库中该发帖用户的所述发帖行为特征。
20.根据权利要求14至19中任一项所述的设备,其中还包括 第二获取装置,用于获取该帖子的外部特征;其中,所述判断装置还用于基于第二预定规则对帖子的外部特征进行判断并结合用户的发帖行为特征来判断所述帖子是否为垃圾帖子。
21.根据权利要求20所述的设备,其中,所述外部特征包括以下至少任一项 -所述帖子的内容重复度;-与所述帖子具有相同或相似内容的其他相似帖子所在社区网络的数目;-与所述帖子具有相同或相似内容的其他相似帖子的发放频率;其中,所述第二预定规则相应地包括以下至少任一项-所述帖子的内容重复度是否超出第三预定阈值;-所述其他相似帖子所在社区网络的数目是否超出第四预定阈值;-所述其他相似帖子的发放频率是否超出第五预定阈值。
22.根据权利要求14至21中任一项所述的设备,其中,所述判断装置还用于基于预定语义规则对该帖子的内容进行判断并结合用户的发帖行为特征来判断所述帖子是否为垃圾帖子;其中,所述预定语义规则包括 -所述帖子内容是否满足语法规则; -所述帖子内容中是否含有垃圾词汇; -所述帖子内容中是否含有地址信息。
23.根据权利要求22所述的设备,其中,所述地址信息包括网页地址链接、电话号码、 或QQ号码。
24.根据权利要求13至23中任一项所述的设备,其中,还包括帖子处理装置,用于当判断所述帖子为垃圾帖子,则根据预定处理规则对其进行处理。
全文摘要
本发明提供了一种用于检测社区网络中垃圾帖子的方法与设备,其根据发帖用户的发帖行为特征来判断其所发帖子是否为垃圾帖子。在一个优选实施例中,本发明首先获取该帖子的发帖用户的发帖行为特征;随后基于预定规则根据所述发帖用户的发帖行为特征判断该帖子是否为垃圾帖子。在另一优选实施例中,本发明首先获取该帖子中的内容关键信息;然后再根据该内容关键信息来获取发帖用户与该帖子有关的发帖行为特征;随后根据发帖用户与该帖子有关的发帖行为特征来判断该帖子是否为垃圾帖子。与现有技术相比,本发明通过对在社区网络中发帖子的用户的发帖行为特征进行检测,并优选地结合帖子的外部特征和语义分析,从而可更准确地判断垃圾帖子。
文档编号G06F17/30GK102315952SQ20101021418
公开日2012年1月11日 申请日期2010年6月29日 优先权日2010年6月29日
发明者尹佳, 帅帅, 方勇, 舒迅, 袁聃 申请人:百度在线网络技术(北京)有限公司