专利名称:一种过滤微博信息的方法及装置的制作方法
技术领域:
本发明涉及信息安全过滤技术,特别涉及一种过滤微博信息的方法及装置。
背景技术:
随着计算机网络及通信技术的发展,通过互联网络获取相关信息已成为用户日常生活以及工作必不可少的一部分,例如,通过点对点的技术来实现互联网上的即时沟通的即时通信(IM,Instant Messaging)工具,互联网络极大地增进了用户彼此之间的信息交流,也有效促进了信息的共享、推广及应用。微型博客,即微博(MicroBlog)作为IM工具应用的一部分,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过网页(WEB)、无线应用协议(WAP,Wireless Application Protocol)以及各种客户端组建个人社区,由于具有准入技术低,可以即时通过140个字左右的一句话来表达自己情感,与关注自己的微博用户分享,因而,信息传递的效率较高,其应用也越来越广泛。但互联网技术,尤其是微博技术在带给人们极大方便的同时,互联网络的垃圾信息、黄色信息及反政治敏感信息等问题也日益突出地显现出来,为了维护微博的稳定发展, 在微博服务器侧,需要采取一定的措施对接收的微博信息进行安全性过滤,例如,对垃圾信息、黄色信息及政治敏感词等进行过滤屏蔽,只有经过安全性过滤的微博信息才能发送至对应的微博用户以供用户微博浏览、共享并再次发布。现有技术中,一般采用人工监控的方式或用户投诉的方式对微博信息进行安全性过滤,对于人工监控方式,也就是说,提供中间传输的微博服务器侧的技术人员通过调用函数获取微博服务器接收的微博信息,并进行浏览,对携带垃圾信息、黄色信息及政治敏感词等的微博信息进行过滤屏蔽,这样,其他微博用户得到的是经过微博服务器过滤屏蔽的微博信息;对于用户投诉,相关技术人员接收到用户投诉后,将用户投诉对应的微博信息进行过滤屏蔽。由上述可见,现有过滤微博信息的方法,对于人工监控,由于需要对微博服务器接收的每条微博信息进行人工审核,需要耗费大量的人力资源、且可能由于人工疏忽,使得过滤的可靠性和准确性较低,另一方面,由于审核所需时间较长,大量的可用微博信息在互联网上得不到有效的更新、发布,使得微博用户不能及时获取并浏览到该信息,用户体验较低;对于用户投诉,技术人员根据用户投诉进行过滤屏蔽处理,一方面,由于垃圾信息、黄色信息及政治敏感信息在过滤屏蔽处理前已在互联网上传播,造成了较坏的影响,另一方面, 需要用户进行投诉才能处理,不能主动进行,过滤的可靠性和准确性更低,例如,可能漏掉一些可能发生的事件,导致微博服务器公司审核不利的责任,有损微博服务器公司的产品公关形象,进而影响微博产品的推广应用。
发明内容
有鉴于此,本发明的主要目的在于提出一种过滤微博信息的方法,减少过滤微博信息所需的时间、提高用户体验。本发明的另一目的在于提出一种过滤微博信息的装置,减少过滤微博信息所需的时间、提高用户体验。为达到上述目的,本发明提供了一种过滤微博信息的方法,该方法包括获取预先设置的上一时间周期各微博用户对应的上一收听关系网络信息,以及当前时间周期各微博用户对应的当前收听关系网络信息;根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值;根据微博用户的当前敏感分数值与上一次敏感分数值获取残差值;获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽。所述根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值具体包括判断所述上一时间周期是否为时间周期计时起始点,如果是,获取预先设置的上一收听关系网络信息中包含的各微博用户敏感初始分数值,否则,根据上一收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值;根据当前收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值。所述敏感分数计算公式为
权利要求
1.一种过滤微博信息的方法,其特征在于,该方法包括获取预先设置的上ー时间周期各微博用户对应的上一收听关系网络信息,以及当前时间周期各微博用户对应的当前收听关系网络信息;根据上ー收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值;根据微博用户的当前敏感分数值与上一次敏感分数值获取残差值; 获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽。
2.如权利要求1所述的方法,其特征在干,所述根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值具体包括判断所述上ー时间周期是否为时间周期计时起始点,如果是,获取预先设置的上ー收听关系网络信息中包含的各微博用户敏感初始分数值,否则,根据上ー收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值;根据当前收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值。
3.如权利要求2所述的方法,其特征在干,所述敏感分数计算公式为
4.如权利要求3所述的方法,其特征在于,将收听关系网络信息中包含的微博用户的当前敏感分数值与上一次敏感分数值进行相减得到的绝对值的和作为所述残差值。
5.如权利要求3所述的方法,其特征在于,将收听关系网络信息中包含的微博用户的当前敏感分数值与上一次敏感分数值进行相减得到的绝对值的平方和的平方根值作为所述残差值。
6.如权利要求1所述的方法,其特征在干,所述获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽具体包括获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,对获取的敏感分数值按照分数高低进行排序;选取前M个敏感分数值,获取其对应的微博用户,对前M个敏感分数值对应的微博用户的微博信息进行过滤屏蔽,其中,M为预先设定的值。
7.如权利要求1所述的方法,其特征在于,所述获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽具体包括预先设置敏感分数阈值;如果残差值不大于预先设定残差阈值的微博用户敏感分数值大于设置的敏感分数阈值,对该敏感分数值对应的微博用户的微博信息进行过滤屏蔽。
8.如权利要求1至7任一项所述的方法,其特征在于,进一步包括如果残差值大于预先设定的残差阈值,在下一时间周期到时,返回执行所述获取当前时间周期各微博用户对应的当前收听关系网络信息的步骤。
9.如权利要求8所述的方法,其特征在于,所述收听关系网络信息包括收听人微博用户信息以及听众微博用户信息。
10.一种过滤微博信息的装置,其特征在于,该装置包括第一微博数据库、第二微博数据库、第一敏感分数计算模块、第二敏感分数计算模块、残差值获取模块、判断模块、微博信息存储模块以及微博信息过滤模块,其中,第一微博数据库,用于获取并存储预先设置的上一时间周期各微博用户对应的上一收听关系网络信息;第二微博数据库,用于获取并存储预先设置的当前时间周期各微博用户对应的当前收听关系网络信息;第一敏感分数计算模块,用于在上一时间周期时,根据从第一微博数据库读取的上一收听关系网络信息获取相应各微博用户的敏感分数值并输出至残差值获取模块;第二敏感分数计算模块,用于在当前时间周期时,根据从第二微博数据库读取的当前收听关系网络信息获取相应各微博用户的敏感分数值并输出至残差值获取模块;残差值获取模块,用于根据第一敏感分数计算模块及第二敏感分数计算模块的输出, 按照预先设置的残差值计算公式获取残差值,输出至判断模块;判断模块,用于在判断残差值不大于预先设定的残差阈值时,触发残差值获取模块将第一敏感分数计算模块或第二敏感分数计算模块的输出传输至微博信息过滤模块;微博信息存储模块,用于存储接收的微博信息;微博信息过滤模块,用于从接收的各微博用户敏感分数值中,选择满足预先设置策略的敏感分数值对应的微博用户,从微博信息存储模块读取对应的微博信息,进行过滤屏蔽。
11.如权利要求10所述的装置,其特征在于,所述判断模块进一步用于在判断残差值大于预先设定的残差阈值时,在设置的下一时间周期到时,触发第一微博数据库或第二微博数据库获取并存储残差值对应的微博用户的收听关系网络信息。
12.如权利要求10或11所述的装置,其特征在于,所述第一敏感分数计算模块包括 判断单元、敏感初始分数值存储单元以及敏感分数计算单元,其中,判断单元,用于在上一时间周期时,如果该上一时间周期为时间周期计时起始点,触发敏感初始分数值存储单元将预先存储的第一微博数据库上一收听关系网络信息中包含的各微博用户敏感初始分数值输出至残差值获取模块,否则,从第一微博数据库读取上一收听关系网络信息,输出至敏感分数计算单元;敏感分数计算单元,用于根据接收的上一收听关系网络信息以及预先设置的敏感分数计算公式,分别计算各微博用户的敏感分数值并输出至残差值获取模块。
全文摘要
本发明公开了一种过滤微博信息的方法及装置。包括获取预先设置的上一时间周期各微博用户对应的上一收听关系网络信息,以及当前时间周期各微博用户对应的当前收听关系网络信息;根据上一收听关系网络信息以及当前收听关系网络信息,分别获取各微博用户的敏感分数值;根据微博用户的当前敏感分数值与上一次敏感分数值获取残差值;获取残差值不大于预先设定残差阈值的各微博用户敏感分数值,获取满足预先设置策略的敏感分数值对应的微博用户,进行过滤屏蔽。应用本发明,可以减少过滤微博信息所需的时间、提高用户体验。
文档编号G06F17/30GK102567340SQ20101059181
公开日2012年7月11日 申请日期2010年12月9日 优先权日2010年12月9日
发明者刘致远 申请人:腾讯科技(深圳)有限公司