本公开涉及互联网领域,特别涉及一种识别社交群从事业务的方法及装置。
背景技术:
目前,网络上存在大量的社交群从事着黑色业务,黑色业务是指,非法或者法律边界模糊的业务,例如,赌博、“赚客”、网络涉毒、洗征信等业务。
目前对从事黑色业务的人群进行识别的手段主要有:
1)通过搜集各大企业的行业报告,然后根据行业报告对黑色业务进行大致评估。
2)利用行业特点在特定论坛、小型社区对从事黑色业务的人群进行识别。
但是,上述方法均无法对这些社交群从事的黑色业务进行准确识别。
技术实现要素:
为了解决相关技术中存在的无法对社交群从事的黑色业务进行准确识别的问题,本公开提供了一种识别社交群从事业务的方法及装置。
一种识别社交群从事业务的方法,包括如下步骤:
获取从事业务待识别社交群集合中社交群的公共内容;
从所述公共内容中提取关键词;
将所述关键词与业务关键词库中的业务关键词进行匹配,得到与所述关键词匹配成功的匹配业务关键词;其中,所述业务关键词库与业务相对应;
获取所述匹配业务关键词所在业务关键词库对应的业务,得到所述社交群从事的业务。
在一个实施例中,
所述业务关键词具有对应的专业等级;
将所述关键词与业务关键词库中的业务关键词进行匹配,得到与所述关键词匹配成功的匹配业务关键词之后,所述方法还包括如下步骤:
获取所述关键词与所述匹配业务关键词匹配成功的次数;
为所述社交群生成与匹配业务关键词的专业等级、以及所述次数正相关的社交群专业等级;
判断所述社交群的社交群专业等级是否大于社交群专业等级阈值,若是,则获取所述社交群中群员所属的新社交群;其中,所述新社交群是指所述社交群以外的社交群;
将所述新社交群加入所述从事业务待识别社交群集合中。
在一个实施例中,
获取所述匹配业务关键词所在业务关键词库对应的业务,得到所述社交群从事的业务之后,所述方法还包括如下步骤:
为所述社交群的群员生成与社交群数量正相关的群员专业等级;其中,所述社交群数量是指,所述群员所在的从事所述业务社交群数量;
判断所述群员的群员专业等级是否大于群员专业等级阈值,若是,则获取所述群员所属的新社交群;其中,所述新社交群是指所述社交群以外的社交群;
将所述新社交群加入所述从事业务待识别社交群集合中。
在一个实施例中,
所述业务关键词具有对应的专业等级;
将所述关键词与业务关键词库中的业务关键词进行匹配,得到与所述关键词匹配成功的匹配业务关键词之后,所述方法还包括如下步骤:
获取所述关键词与所述匹配业务关键词匹配成功的次数;
为所述社交群的群员生成与社交群数量正相关的群员专业等级的步骤为:
为所述社交群的群员生成与社交群数量、匹配业务关键词的专业等级,以及与所述次数正相关的社交群专业等级。
在一个实施例中,
为所述社交群的群员生成与社交群数量、匹配业务关键词的专业等级、以及与所述次数正相关的社交群专业等级的步骤为:
为所述社交群的群员生成与社交群数量、所述匹配业务关键词的专业等级、所述群员在所述社交群的活跃度、所述群员在所述社交群的权限、以及所述次数正相关的群员专业等级。
在一个实施例中,
在获取所述匹配业务关键词所在匹配业务关键词库对应的业务之后,所述方法还包括如下步骤:
从所述关键词中提取具体业务关键词;其中,所述具体业务关键词是指,所述业务中的具体业务的关键词;
获取所述具体业务的关键词的数量,得到所述具体业务的数量。
在一个实施例中,
获取所述匹配业务关键词所在业务关键词库对应的业务,得到所述社交群从事的业务的步骤为:
判断所述关键词与所述匹配业务关键词匹配成功的次数是否大于次数阈值,若是,则获取所述匹配业务关键词所在业务关键词库对应的业务,得到所述社交群从事的业务。
本发明还提供了一种识别社交群从事业务的装置,包括:
第一获取单元,被配置为执行:获取从事业务待识别社交群集合中社交群的公共内容;
第一提取单元,被配置为执行:从所述公共内容中提取关键词;
匹配单元,被配置为执行:将所述关键词与业务关键词库中的业务关键词进行匹配,得到与所述关键词匹配成功的匹配业务关键词;其中,所述业务关键词库与业务相对应;
第二获取单元,被配置为执行:获取所述匹配业务关键词所在业务关键词库对应的业务,得到所述社交群从事的业务。
在一个实施例中,
所述业务关键词具有对应的专业等级;
所述装置还包括:
第三获取单元,被配置为执行:在将所述关键词与业务关键词库中的业务关键词进行匹配,得到与所述关键词匹配成功的匹配业务关键词之后,获取所述关键词与所述匹配业务关键词匹配成功的次数;
第一生成单元,被配置为执行:为所述社交群生成与匹配业务关键词的专业等级、以及所述次数正相关的社交群专业等级;
第一判断单元,被配置为执行:判断所述社交群的社交群专业等级是否大于社交群专业等级阈值,若是,则获取所述社交群中群员所属的新社交群;其中,所述新社交群是指所述社交群以外的社交群;
第一加入单元,被配置为执行:将所述新社交群加入所述从事业务待识别社交群集合中。
在一个实施例中,
第二生成单元,被配置为执行:在获取所述匹配业务关键词所在业务关键词库对应的业务,得到所述社交群从事的业务之后,为所述社交群的群员生成与社交群数量正相关的群员专业等级;其中,所述社交群数量是指,所述群员所在的从事所述业务社交群数量;
第二判断单元,被配置为执行:判断所述群员的群员专业等级是否大于群员专业等级阈值,若是,则获取所述群员所属的新社交群;其中,所述新社交群是指所述社交群以外的社交群;
第二加入单元,被配置为执行:将所述新社交群加入所述从事业务待识别社交群集合中。
在一个实施例中,
所述业务关键词具有对应的专业等级;
所述装置还包括:
第四获取单元,被配置为执行:在将所述关键词与业务关键词库中的业务关键词进行匹配,得到与所述关键词匹配成功的匹配业务关键词之后,获取所述关键词与所述匹配业务关键词匹配成功的次数;
所述第二生成单元被配置为执行:为所述社交群的群员生成与社交群数量、匹配业务关键词的专业等级、以及与所述次数正相关的社交群专业等级。
在一个实施例中,
所述第二生成单元被配置为执行:
为所述社交群的群员生成:与社交群数量、所述匹配业务关键词的专业等级、所述群员在所述社交群的活跃度、所述群员在所述社交群的权限、以及所述次数正相关的群员专业等级。
在一个实施例中,
第二提取单元,被配置为执行:在获取所述匹配业务关键词所在匹配业务关键词库对应的业务之后,从所述关键词中提取具体业务关键词;其中,所述具体业务关键词是指,所述业务中的具体业务的关键词;
第五获取单元,被配置为执行:获取所述具体业务的关键词的数量,得到所述具体业务的数量。
在一个实施例中,
所述第二获取单元被配置为执行:
判断所述关键词与所述匹配业务关键词匹配成功的次数是否大于次数阈值,若是,则获取所述匹配业务关键词所在业务关键词库对应的业务,得到所述社交群从事的业务。
本公开的实施例提供的技术方案可以包括以下有益效果:
建立与业务对应的业务关键词库,从社交群的公共内容中提取关键词,将关键词与匹配业务关键词库中的业务关键词进行匹配,获取匹配成功的匹配业务关键词,从而获取匹配业务关键词对应的业务,作为该社交群从事的业务,能够在大范围、大数量的社交群中,准确获取社交群从事的业务。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是本发明一种实施例的识别社交群从事业务的方法流程图;
图2是本发明一种实施例的业务与业务关键词库对应关系的示意图;
图3是本发明另一种实施例的识别社交群从事业务的方法流程图;
图4是本发明另一种实施例的识别社交群从事业务的方法流程图;
图5是本发明一种实施例的识别社交群从事业务的装置框图;
图6是本发明一种实施例的识别社交群从事业务的装置框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如图1所示,一种识别社交群从事业务的方法,包括如下步骤。
s100、获取从事业务待识别社交群集合中社交群的公共内容。
社交群是指,在网络上基于某种社交关系而聚集的人群。例如,qq群、微信群、飞信群等。具体而言,qq群中又有:游戏群、电影讨论群、赚客活动群、盗刷银行卡群等等。其中,赚客活动群是指,搜集各类网络商家或银行、p2p(点对点)金融公司的优惠信息,批量恶意注册并获取优惠的人群。
从事业务待识别社交群集合,可以是选定的某些社交群的集合,也可以是满足设定条件的社交群的集合。
网络上有些人往往通过结成社交群来从事某种业务,某种业务进一步包括某些具体业务。例如赌博业务,而赌博业务又包含一些赌博具体业务,例如二八杠、时时彩、刷红包等。再如赚客群从事赚客业务,赚客业务包括:赚某些商家优惠的赚客具体业务。
每个社交群具有自身的公共内容,公共内容反映了社交群所有群员的某些共同特征,公共内容有别于每个群员的个人内容,例如每个群员在社交群中的名称、签名等。公共内容可以是社交群的名称、公告、加群通知(新群员加入群后的通知消息)等。
具体而言,社交群的名称反映了所有群员的共同特征;群公告规定了所有群员应当共同遵守的规则,或者向所有群员公告了某些事项,因此也能反映所有群员的共同特征;再例如,加群通知反映了新加入的群员荧光注意的事项等,亦体现所有群员的共同特征。
s200、从所述公共内容中提取关键词。
由于公共内容体现了社交群的所有群员的共同特征,因此,从公共内容中提取的关键词亦能反映该共同特征。
提取关键词的方法可以有很多种,例如,词频-反向词频(termfrequency–inversedocumentfrequency,tf-idf)算法、余弦相似性等关键词提取方法。例如,利用词频-反向词频算法从“盗刷银行卡群”中提取出“盗刷”关键词。
公共内容中可能含有多个关键词,例如从某个赌博群的公共内容中提取到多个关键词:赌博、刷红包和二八杠等。
s300、将所述关键词与业务关键词库中的业务关键词进行匹配,得到与所述关键词匹配成功的匹配业务关键词;其中,所述业务关键词库与业务相对应。
为每一种业务建立了对应的业务关键词库,也就是说,可能存在多个业务关键词库,如图2所示,业务1与业务1关键词库相对应,业务2与业务2关键词库相对应。以具体业务为例,业务“赌博”与赌博业务关键词库相对应,业务“蓐羊毛”与蓐羊毛业务关键词库相对应。每个业务关键词库中可以包含有多个反映该业务的业务关键词。业务关键词库中的业务关键词,可以是在对这一种业务进行调研之后,人工将相关的业务关键词加入到该业务关键词库中。
将关键词与业务关键词库的业务关键词进行匹配的过程中,首先需要选定一业务关键词库,然后将关键词与该业务关键词库中的业务关键词逐一进行匹配,直至得到与该关键词匹配成功的业务关键词,即匹配业务关键词;若没有得到与该关键词匹配成功的业务关键词,则将从该公共内容中提取的另一个关键词与该业务关键词库中的业务关键词逐一进行匹配,直至得到与该另一关键词匹配成功的业务关键词。若该公共内容中的任一关键词均无法与该选定的业务关键词库的业务关键词匹配成功,则可以选定另一业务关键词库,重新将该公共内容中的关键词与该另一业务关键词库的业务关键词进行匹配。
在一个实施例中,以“赚客”业务为例,其对应的业务关键词库包含了以下业务关键词:赚客、褥羊毛、羊毛党等;又如“赌博”业务,对应的业务关键词库包含了以下业务关键词:赌博、刷红包、时时彩、二八杠等。
当从公共内容中提取的关键词与某个业务关键词库中的某个或某些关键词匹配成功后,则获取这些匹配成功的匹配业务关键词。例如,从社交群的名称“赚客群”中提取到关键词“赚客”,将关键词“赚客”与对应于赚客业务的业务关键词库中的业务关键词“赚客”进行匹配,两者匹配成功,则得到了匹配业务关键词“赚客”。如果将关键词“赚客”与“赌博”业务的关业务键词库进行匹配,则无法匹配成功,需要选择下一个业务关键词库的业务关键词继续匹配。
s400、获取所述匹配业务关键词所在业务关键词库对应的业务,得到所述社交群从事的业务。
根据前面的阐述可知,由于每个业务关键词库对应了一个业务,因此,在确定了某一业务关键词库之后,即可以得到与该业务关键词库对应的业务。以步骤s300的例子为例,在获取了匹配业务关键词“赚客”之后,即可以获取与匹配业务关键词“赚客”所在关键词库对应的业务“赚客”,从而,将业务“赚客”作为该社交群从事的业务。
在本实施例中,建立与业务对应的业务关键词库,从社交群的公共内容中提取关键词,将关键词与匹配业务关键词库中的业务关键词进行匹配,获取匹配成功的匹配业务关键词,从而获取匹配业务关键词对应的业务,作为该社交群从事的业务,能够在大范围、大数量的社交群中,准确获取社交群从事的业务,以及从事该业务的社交群数量或者群员数量。在一些应用场合下,可以准确获取社交群从事的黑色业务,即非法或者法律边界模糊的业务,例如,赌博、“赚客”、网络涉毒、洗征信等业务。
如图2所示,每个业务关键词具有对应的专业等级。业务关键词的专业程度越高,对应的专业等级越高,反之,专业程度越低,对应的专业等级越低。
以“赌博”业务的业务关键词为例进行说明。业务关键词“赌博”的专业等级是1,业务关键词“时时彩”“博彩”“百家乐”“刷红包”的专业等级更高,为2;业务关键词“二八杠”“霍伊尔赌场”的专业等级更高,为3。
如图3所示,在一个实施例中,
在步骤s300之后,该方法还包括如下步骤:
s310、获取所述关键词与所述匹配业务关键词匹配成功的次数。
例如,从社交群的名称中提取出关键词“赌博”,从公告中提取出三个关键词“刷红包”,从加群通知中提取出两个关键词“时时彩”,然后分别将这些关键词分别与业务关键词库(例如,包含业务关键词赌博、时时彩和刷红包)中的业务关键词进行匹配,则这些关键词与匹配业务关键词匹配成功的次数是6。
再如,从社交群的第一次公告中提取了三个关键词“刷红包”,第二次公告中提取了三个关键词“时时彩”,则这些关键词与匹配业务关键词匹配成功的次数是6。
s311、为所述社交群生成与匹配业务关键词的专业等级、以及所述次数正相关的社交群专业等级。
在匹配业务关键词的专业等级一定的情况下,匹配成功次数越多,表明社交群从事业务更加频繁,应该为社交群生成越高的社交群专业等级;在匹配成功次数一定的情况下,匹配业务关键词的专业等级越高,表明社交群从事的业务更加专业,应该为社交群生成越高的社交群专业等级;可以理解,在匹配业务关键词的专业等级越高,且匹配成功次数越多的情况下,也应该为社交群生成越高的社交群专业等级。
例如,从社交群1的多次公告共提取出4个关键词“赌博”,而从社交群2的多次公告中共提取出10个关键词“二八杠”,则为社交群2生成的社交群专业等级大于为社交群1生成的社交群专业等级。
s312、判断所述社交群的社交群专业等级是否大于社交群专业等级阈值,若是,则获取所述社交群中的群员所属的新社交群。
s313、将所述新社交群加入所述从事业务待识别社交群集合中。
所述新社交群是指所述社交群以外的社交群。
社交群专业等级阈值用于调节该新社交群的数量。若社交群专业等级阈值越高,则经过步骤s312和步骤s313之后,越少的新社交群被加入从事业务待识别社交群集合中,反之,若社交群专业等级阈值越低,则经过步骤s312和步骤s313之后,越多的新社交群被加入从事业务待识别社交群集合中。
因此,可以根据具体情况,具体调节社交群专业等级阈值的大小。例如,在已识别社交群的数量较少的情况下,可以将社交群专业等级阈值设置为一个较小值,以便获得更多的新社交群被加入从事业务待识别社交群集合中;在已识别社交群的数量较多的情况下,可以将社交群专业等级阈值设置为一个较大值。
例如,经过步骤s311,为社交群a生成的社交群专业等级a高于社交群专业等级阈值,则对社交群a中的每个群员,分别获取每个群员所在的新社交群(社交群a以外的社交群)。
社交群专业等级大于社交群专业等级阈值的社交群,其群员也有很大可能还属于从事该业务的其他社交群。新社交群被加入到从事业务待识别社交群集合之后,该新社交群将继续被上述实施例中的步骤s100至s300执行,并最终得到新社交群从事的业务。
在本实施例中,获取社交群专业等级大于社交群专业等级阈值的社交群,并获取所述社交群中的群员所属的新社交群,从而可以从本次识别的社交群,迅速、精确地扩散到其他相关联的社交群,并加入从事业务待识别社交群集合中,可以不需要在数量巨大的社交群中选择某些社交群加入从事业务待识别社交群集合中。
在一个实施例中,如图4所示,
在步骤s310之后,所述方法还包括如下步骤:
s320、为所述社交群的群员生成与社交群数量正相关的群员专业等级;其中,所述社交群数量是指,所述群员所在的从事所述业务社交群数量。
某个群员可能属于多个从事所述业务的社交群,该社交群数量越大,表明该群员从事业务更加频繁,应该为群员生成越高的群员专业等级。
例如,社交群1中有群员a和群员b,群员a同时属于50个从事该业务的社交群,而群员b只是属于5个从事该业务的社交群,因此为群员a生成的群员专业等级大于为群员b生成的群员专业等级。
s321、判断所述群员的群员专业等级是否大于群员专业等级阈值,若是,则获取所述群员所属的新社交群;其中,所述新社交群是指所述社交群以外的社交群。
s322、将所述新社交群加入所述从事业务待识别社交群集合中。
群员专业等级阈值用于调节该新社交群的数量。若群员专业等级阈值越高,则经过步骤s321和步骤s322之后,越少的新社交群被加入从事业务待识别社交群集合中,反之,若群员专业等级阈值越低,则经过步骤s321和步骤s322之后,越多的新社交群被加入从事业务待识别社交群集合中。
因此,可以根据具体情况,具体调节群员专业等级阈值的大小。例如,在已识别社交群的数量较少的情况下,可以将群员专业等级阈值设置为一个较小值,以便获得更多的新社交群被加入从事业务待识别社交群集合中;在已识别社交群的数量较多的情况下,可以将群员专业等级阈值设置为一个较大值。
例如,属于社交群1的群员a的群员专业等级大于群员专业等级阈值,若群员a还属于社交群2(尚未对社交群2从事的业务进行识别,也未被加入到从事业务待识别社交群集合中),则将社交群2加入从事业务待识别社交群集合中,然后会根据前面实施例中步骤s100至s300对社交群2从事业务进行识别。
在本实施例中,获取群员专业等级大于群员专业等级阈值的群员,并获取所述群员所属的新社交群,可以从本次识别的社交群,迅速、精确地扩散到其他相关联的社交群,并将新社交群加入从事业务待识别社交群集合中,可以不需要在数量巨大的社交群中选择某些社交群加入从事业务待识别社交群集合中。
在一个实施例中,
在识别社交群从事业务的过程中,实时对群员的群员专业等级进行更新。例如,在对社交群1从事的业务进行识别前,社交群1的群员a的群员专业等级为at0,在对社交群1从事的业务进行识别过程中,需要对群员a在社交群1的群员专业等级at1进行计算,然后将群员专业等级at1与群员专业等级为at0之和作为群员a的群员专业等级。
对于该群员在每个社交群中的群员专业等级,可以通过如下方式确定:生成与所述匹配业务关键词的专业等级,以及所述次数正相关的群员专业等级。
匹配成功次数越多,表明社交群的群员从事业务更加频繁,应该为群员生成越高的群员专业等级;匹配业务关键词的专业等级越高,表明群员从事的业务更加专业,应该为群员生成越高的群员专业等级。
通过本实施例,可以更加准确地对从事业务的群员进行识别,进而可以更准确地获取到新社交群加入从事业务待识别社交群集合中。
在一个实施例中,群员专业等级还可以与所述群员在所述社交群的活跃度,以及所述群员在所述社交群的权限正相关。
在一个社交群中,有些群员非常活跃,例如经常在社交群中发言,有些群员则相对不活跃,例如很少在社交群中发言;有些群员的权限较高,例如群主和管理员,有些群员的权限则相对较低,例如普通的群员。
在群员所属的社交群数量、该匹配业务关键词的专业等级、群员在该社交群的权限一定的情况下,群员在该社交群越活跃,表明其从事业务更加频繁,应该为群员生成越高的群员专业等级;在群员所属的社交群数量、该匹配业务关键词的专业等级、群员在在该社交群的活跃度一定的情况下,群员在一个社交群的权限越高,则表明其在从事业务中发挥更大作用,应该为群员生成越高的群员专业等级。
通过本实施例,可以更加准确地对从事业务的群员进行识别,进而可以更准确地获取到新社交群加入从事业务待识别社交群集合中。
在一个实施例中,
在获取所述匹配业务关键词所在匹配业务关键词库对应的业务之后,所述方法还包括如下步骤:
从所述关键词中提取具体业务关键词;其中,所述具体业务关键词是指,所述业务中的具体业务的关键词。
例如,对于业务“赚客”来说,其对应的业务关键词库包括“褥羊毛”。业务“赚客”中的具体业务则可以是:对商家1褥羊毛、对商家2褥羊毛等,商家的名称“商家1”“商家2”可以作为业务“赚客”中的具体业务的关键词。
获取所述具体业务的关键词的数量,得到所述具体业务的数量。
在很多情况下,社交群会在群公告中对每次进行的具体业务进行公告,因此,从群公告中提取的具体业务的关键词的数量,即可以视为是社交群进行的具体业务的数量。
例如,在社交群2016年12月12日的公告为:今日对商家1进行褥羊毛;2016年12月13日的公告为:今日对商家1进行褥羊毛;2016年12月14日的公告为:今日对商家1进行褥羊毛。可以从社交群的公告中提取三个关键词“商家1”,因此可以得到社交群进行的具体业务的数量是三个。
在一个实施例中,
在步骤s200与步骤s300之间,所述方法还包括如下步骤:
从公共内容中提取的关键词中选择某个关键词,根据该关键词初步确定社交群从事的业务,然后根据该业务选择对应的业务关键词库,并进行步骤s400。
步骤s400为:判断所述关键词与所述匹配业务关键词匹配成功的次数是否大于次数阈值,若是,则获取所述匹配业务关键词所在业务关键词库对应的业务,得到所述社交群从事的业务。
如果关键词与匹配业务关键词匹配成功的次数不超过次数阈值,这时候需要更换业务关键词库,重新选择关键词并将重新确定社交群从事的业务,将关键词与更换后的业务关键词库的业务关键词继续匹配,或者可能需要对业务关键词库的业务关键词进行扩充,例如对社交群的公共内容的关键词进行分析,将其中的关键词补充到对应业务关键词库中作为业务关键词。
在本实施例中,次数阈值可以根据经验或者机器训练得到。
例如,选取一定数量的样本社交群,并确定样本社交群从事的业务。
从样本社交群中提取关键词,然后选择与样本社交群从事的业务对应的业务关键词库中的业务关键词进行匹配,得到关键词与业务关键词匹配成功的次数。
根据多个业务关键词匹配成功的次数确定一个次数阈值。例如,在该多个业务关键词匹配成功的次数中选择一个最小的次数作为次数阈值,或者计算多个该多个业务关键词匹配成功的次数的平均数作为次数阈值等等。
上述多个实施例的识别社交群从事业务的方法,可以由cpu、微处理器、fpga、逻辑器件或者集成芯片等具有运算功能的硬件进行执行。
如图5所示,本发明实施例提供的一种计算机的结构,该计算机用于执行识别社交群从事业务的方法。
该计算机10可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)122(例如,一个或一个以上处理器)和存储器132,一个或一个以上存储应用程序142或数据144的存储媒体130(例如一个或一个以上海量存储设备)。其中,存储器132和存储媒体130可以是短暂存储或持久存储。执行识别社交群从事业务的方法的程序存储在存储媒体130。更进一步地,中央处理器122可以设置为与存储媒体130通信,在计算机10上执行存储媒体130中的程序。计算机10还可以包括一个或一个以上电源126,一个或一个以上有线或无线网络接口150,一个或一个以上输入输出接口158,和/或,一个或一个以上操作系统141,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。
更具体的,中央处理器122从存储媒体130中读取程序运行后,开始执行步骤s100。
在步骤s100中,从事业务待识别社交群集合中社交群的公共内容存储在存储器132中,中央处理器122从该存储器132中读取该公告内容,从而获取该公共内容。
在步骤s200中,中央处理器122从公告内容中提取关键词。
在步骤s300中,中央处理器122将所述关键词与业务关键词库中的业务关键词进行匹配,得到与所述关键词匹配成功的匹配业务关键词。
在步骤s400中,存储器132存储了业务关键词库,以及业务关键词库与业务的对应关系。中央处理器122从存储器132中获取所述匹配业务关键词所在业务关键词库对应的业务,从而得到所述社交群从事的业务。
如图6所示,在一个实施例中,一种识别社交群从事业务的装置,包括:
第一获取单元100,被配置为执行:获取从事业务待识别社交群集合中社交群的公共内容。
社交群是指,在网络上基于某种社交关系而聚集的人群。例如,qq群、微信群、飞信群等。具体而言,qq群中又有:游戏群、电影讨论群、赚客活动群、盗刷银行卡群等等。其中,赚客活动群是指,搜集各类网络商家或银行、p2p(点对点)金融公司的优惠信息,批量恶意注册并获取优惠的人群。
从事业务待识别社交群集合,可以是选定的某些社交群的集合,也可以是满足设定条件的社交群的集合。
网络上有些人往往通过结成社交群来从事某种业务,某种业务进一步包括某些具体业务。例如赌博业务,而赌博业务又包含一些赌博具体业务,例如二八杠、时时彩、刷红包等。再如赚客群从事赚客业务,赚客业务包括:赚某些商家优惠的赚客具体业务。
每个社交群具有自身的公共内容,公共内容反映了社交群所有群员的某些共同特征,公共内容有别于每个群员的个人内容,例如每个群员在社交群中的名称、签名等。公共内容可以是社交群的名称、公告、加群通知(新群员加入群后的通知消息)等。
具体而言,社交群的名称反映了所有群员的共同特征;群公告规定了所有群员应当共同遵守的规则,或者向所有群员公告了某些事项,因此也能反映所有群员的共同特征;再例如,加群通知反映了新加入的群员荧光注意的事项等,亦体现所有群员的共同特征。
第一提取单元200,被配置为执行:从所述公共内容中提取关键词。
由于公共内容体现了社交群的所有群员的共同特征,因此,从公共内容中提取的关键词亦能反映该共同特征。
提取关键词的方法可以有很多种,例如,词频-反向词频(termfrequency–inversedocumentfrequency,tf-idf)算法、余弦相似性等关键词提取方法。例如,利用词频-反向词频算法从“盗刷银行卡群”中提取出“盗刷”关键词。
公共内容中可能含有多个关键词,例如从某个赌博群的公共内容中提取到多个关键词:赌博、刷红包和二八杠等。
匹配单元300,被配置为执行:将所述关键词与业务关键词库中的业务关键词进行匹配,得到与所述关键词匹配成功的匹配业务关键词;其中,所述业务关键词库与业务相对应。
为每一种业务建立了对应的业务关键词库,也就是说,可能存在多个业务关键词库,如图2所示,业务1与业务1关键词库相对应,业务2与业务2关键词库相对应。以具体业务为例,业务“赌博”与赌博业务关键词库相对应,业务“蓐羊毛”与蓐羊毛业务关键词库相对应。每个业务关键词库中可以包含有多个反映该业务的业务关键词。业务关键词库中的业务关键词,可以是在对这一种业务进行调研之后,人工将相关的业务关键词加入到该业务关键词库中。
将关键词与业务关键词库的业务关键词进行匹配的过程中,首先需要选定一业务关键词库,然后将关键词与该业务关键词库中的业务关键词逐一进行匹配,直至得到与该关键词匹配成功的业务关键词,即匹配业务关键词;若没有得到与该关键词匹配成功的业务关键词,则将从该公共内容中提取的另一个关键词与该业务关键词库中的业务关键词逐一进行匹配,直至得到与该另一关键词匹配成功的业务关键词。若该公共内容中的任一关键词均无法与该选定的业务关键词库的业务关键词匹配成功,则可以选定另一业务关键词库,重新将该公共内容中的关键词与该另一业务关键词库的业务关键词进行匹配。
在一个实施例中,以“赚客”业务为例,其对应的业务关键词库包含了以下业务关键词:赚客、褥羊毛、羊毛党等;又如“赌博”业务,对应的业务关键词库包含了以下业务关键词:赌博、刷红包、时时彩、二八杠等。
当从公共内容中提取的关键词与某个业务关键词库中的某个或某些关键词匹配成功后,则获取这些匹配成功的匹配业务关键词。例如,从社交群的名称“赚客群”中提取到关键词“赚客”,将关键词“赚客”与对应于赚客业务的业务关键词库中的业务关键词“赚客”进行匹配,两者匹配成功,则得到了匹配业务关键词“赚客”。如果将关键词“赚客”与“赌博”业务的关业务键词库进行匹配,则无法匹配成功,需要选择下一个业务关键词库的业务关键词继续匹配。
第二获取单元400,被配置为执行:获取所述匹配业务关键词所在业务关键词库对应的业务,得到所述社交群从事的业务。
根据前面的阐述可知,由于每个业务关键词库对应了一个业务,因此,在确定了某一业务关键词库之后,即可以得到与该业务关键词库对应的业务。以步骤s300的例子为例,在获取了匹配业务关键词“赚客”之后,即可以获取与匹配业务关键词“赚客”所在关键词库对应的业务“赚客”,从而,将业务“赚客”作为该社交群从事的业务。
在本实施例中,建立与业务对应的业务关键词库,从社交群的公共内容中提取关键词,将关键词与匹配业务关键词库中的业务关键词进行匹配,获取匹配成功的匹配业务关键词,从而获取匹配业务关键词对应的业务,作为该社交群从事的业务,能够在大范围、大数量的社交群中,准确获取社交群从事的业务,以及从事该业务的社交群数量或者群员数量。在一些应用场合下,可以准确获取社交群从事的黑色业务,即非法或者法律边界模糊的业务,例如,赌博、“赚客”、网络涉毒、洗征信等业务。
如图2所示,每个业务关键词具有对应的专业等级。业务关键词的专业程度越高,对应的专业等级越高,反之,专业程度越低,对应的专业等级越低。
以“赌博”业务的业务关键词为例进行说明。业务关键词“赌博”的专业等级是1,业务关键词“时时彩”“博彩”“百家乐”“刷红包”的专业等级更高,为2;业务关键词“二八杠”“霍伊尔赌场”的专业等级更高,为3。
本实施例中的装置的具体执行方式已经在有关该识别社交群从事业务方法的实施例中执行了详细描述,此处将不做详细阐述说明。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。