
1.本发明属于数据挖掘领域,特别涉及一种社交平台上的特定地域媒体账号发现方法和系统。
背景技术:2.随着社交平台的兴起,越来越多的传统媒体开始把主要信息传播渠道从报纸、电台及电视迁移到社交平台上。信息数字化的进程也催生了一大批新生代的数字媒体,它们诞生于互联网,并将其官网、手机应用、社交平台账号作为主要信息传播渠道。同时,社交平台的发展助长了个人表达欲,越来越多的用户在社交媒体上分享自己在某些领域的知识于见解,成为自媒体。社交平台上的媒体账号是优质的信息获取渠道。通过对特定地区的媒体账号的观察,人们可以获取该地区的最新动态、最热动态、舆论态势、群众观点与偏好等高价值信息。媒体账号在社交平台上越来越具有高价值。
3.数据挖掘是常用的获取媒体账号信息的手段。数据挖掘是通过分析海量数据并从中寻找其隐含的、具有潜在价值的信息的技术,主要包括数据准备、模式挖掘和结果表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;模式挖掘是用某种方法将数据集所含的规律、模式找出来,其主流方法是统计机器学习与深度学习;结果表示是尽可能以用户可理解的方式将找出的规律和模式表示出来。
4.目前在获取媒体账号及媒体账号分析方面存在以下几种数据挖掘技术。技术一:基于大数据智能邮箱识别社交媒体账号的方法系统及设备(cn110782222 a)。该技术以邮箱地址作为社交媒体存在的凭据,通过在主流社交平台上检索邮箱实现媒体账号的识别与搜集。技术二:一种群体用户的挖掘方法及装置(cn 10850934 a)。该技术通过用户的历史轨迹数据技术四种轨迹特征并聚类,最终得到多个群体用户。技术三:一种非典型性媒体账号的身份与动机识别方法与系统(cn 112559845 a)。该技术根据各个非典型性媒体账号针对同一事件的原创发文数量及参与次数将账号分配在二维坐标系的各个象限中,识别各媒体账号的身份与动机。技术四:基于信息增益的英文社交媒体账号分类方法(cn 107463703 a)。该技术根据信息增益理论选取媒体账号的关键词并结合领域关键词设计媒体账号特征,通过支持向量机模型进行媒体账号在领域类别上的分类。技术五:一种社交媒体账号识别方法及系统(cn110688593 a)。该技术提供了社交媒体账号的识别方法及系统,即通过聚类媒体账号的话题并利用apriori算法挖掘媒体账号的兴趣特征,据此判断两个媒体账号是否为同一账号。
5.上述技术一提取邮箱特征进行媒体账号发现,但准确的种子邮箱数据获取难度较大,而且邮箱只与少部分大型媒体账号关联较紧密,不具有普遍性,。技术二提取账号历史行为轨迹进行群体用户发现,但行为轨迹数据只适用于极少部分社交平台,而且该技术并没有专门针对媒体账号的特性设计账号特征。技术三、四、五均建立在已获取媒体账号基础上,缺乏发现媒体账号的有效手段;此外在特征挖掘上,技术三提出的特征过弱,技术四提出的特征基于特定若干领域,这两种特征均无法应用于媒体账号发现。技术五提出的特征
抽取方法难以应用到社交平台海量用户库中,无法解决媒体账号发现的任务。
技术实现要素:6.本发明的目的是克服现有技术在种子媒体账号获取、特征抽取方法以及扩充账号上的不足,提供一种在社交平台上针对特定地域的媒体类型账号发现的方法,使用户可以基于很少的人工标注账号就可以从海量社交平台用户中快速发现媒体类型的账号,并有效整合媒体账号的基础信息。
7.具体来说,本发明提出一种社交平台上特定地域的媒体账号发现方法及系统,其中包括:
8.步骤1、获取社交平台上特定地域的所有账号,从所有账号中筛选出影响力大于阈值的媒体账号作为原始账号,并对各原始账号进行媒体类型标注;
9.步骤2、对原始账号进行特征提取,得到原始账号的多个特征;
10.步骤3、以原始账号及其对应的特征作为训练数据,原始账号的媒体类型作为训练目标,训练基于机器学习的分类模型,得到各媒体类型对应的分类器;
11.步骤4、将原始账号在该社交平台上主动交互的账号作为候选账号,利用该分类器对该候选账号进行媒体账号判别与地域过滤,将位于该特定地域且属于媒体账号的候选账号加入媒体账号集合;
12.步骤5、将该媒体账号集合中的账号作为新一轮的候选账号,重复执行该步骤4,直到重复此处达到阈值或媒体账号集合不加入新的账号,保存当前媒体账号集合并加入所有原始账号作为第一集合;
13.步骤6、对该社交平台上特定地域所有账号中未被标注的账号,利用该分类器将属于媒体的账号加入第二集合;
14.步骤7、合并该第一集合和该第二集合,作为该社交平台上特定地域的媒体账号发现结果。
15.所述的社交平台上特定地域的媒体账号发现方法及系统,其中步骤1中该影响力包括:粉丝数和原发消息数。
16.所述的社交平台上特定地域的媒体账号发现方法及系统,其中该步骤2 包括:
17.基于用户名中是否具有媒体类型关键词和地域名称限定词,提取用户名特征;
18.基于账号的粉丝数-关注数比率、关注数-粉丝数比率、账号简介字段是否存在外链、简介字段是否存在媒体类型关键词与账号在该社交平台的注册时长,提取用户资料特征;
19.分别计算账号的三种行为类型所占比率作为用户基础行为特征,该三种行为类型包括自发行为比率、转发行为比率以及评论行为比率;
20.融合该用户基础行为特征、该用户资料特征和该用户名特征作为账号的特征信息。
21.所述的社交平台上特定地域的媒体账号发现方法及系统,其中该步骤7 包括:
22.将合并该第一集合和该第二集合后的账号集合中,去除重复账号,去除预测置信度最低的多个账号。
23.本发明还提出了一种社交平台上特定地域的媒体账号发现系统,其中包括:
24.模块1,用于获取社交平台上特定地域的所有账号,从所有账号中筛选出影响力大于阈值的媒体账号作为原始账号,并对各原始账号进行媒体类型标注;
25.模块2,用于对原始账号进行特征提取,得到原始账号的多个特征;
26.模块3,用于以原始账号及其对应的特征作为训练数据,原始账号的媒体类型作为训练目标,训练基于机器学习的分类模型,得到各媒体类型对应的分类器;
27.模块4,用于将原始账号在该社交平台上主动交互的账号作为候选账号,利用该分类器对该候选账号进行媒体账号判别与地域过滤,将位于该特定地域且属于媒体账号的候选账号加入媒体账号集合;
28.模块5,用于将该媒体账号集合中的账号作为新一轮的候选账号,重复执行该模块4,直到重复此处达到阈值或媒体账号集合不加入新的账号,保存当前媒体账号集合并加入所有原始账号作为第一集合;
29.模块6,用于对该社交平台上特定地域所有账号中未被标注的账号,利用该分类器将属于媒体的账号加入第二集合;
30.模块7、合并该第一集合和该第二集合,作为该社交平台上特定地域的媒体账号发现结果。
31.所述的社交平台上特定地域的媒体账号发现系统,其中模块1中该影响力包括:粉丝数和原发消息数。
32.所述的社交平台上特定地域的媒体账号发现系统,其中该模块2包括:
33.基于用户名中是否具有媒体类型关键词和地域名称限定词,提取用户名特征;
34.基于账号的粉丝数-关注数比率、关注数-粉丝数比率、账号简介字段是否存在外链、简介字段是否存在媒体类型关键词与账号在该社交平台的注册时长,提取用户资料特征;
35.分别计算账号的三种行为类型所占比率作为用户基础行为特征,该三种行为类型包括自发行为比率、转发行为比率以及评论行为比率;
36.融合该用户基础行为特征、该用户资料特征和该用户名特征作为账号的特征信息。
37.所述的社交平台上特定地域的媒体账号发现系统,其中该模块7包括:
38.将合并该第一集合和该第二集合后的账号集合中,去除重复账号,去除预测置信度最低的多个账号。
39.本发明还提出了一种服务器,用于实施社交平台上特定地域的媒体账号发现方法。
40.本发明还提出了一种客户端,用于社交平台上特定地域的媒体账号发现系统,该客户端为手机应用app或电脑应用软件。
41.由以上方案可知,本发明的优点在于:
42.1.本发明将社交平台上存在的媒体类型账号细分为传统媒体、新生代数字媒体和自媒体,可以通过增强标注者对账号类型的理解来提高种子媒体账号的标注速度;同时,媒体类型细分也可以提升后续分类器的性能。此外,本发明的用户也可以根据需求从不同的细分领域快速找到相应的媒体账号。
43.2.本发明对特定地域的媒体账号设计了一系列特征。这些特征与媒体账号性质强
相关,而且具有很强的通用性,稍加修改即可适用于任意地区的媒体账号分类。
44.3.本发明将交互式扩充和地域筛选式扩充结合,可以同时发现与被扩充账号有关联和无关联的媒体账号,保证了扩充结果的数量与质量,同时拥有较高的扩充速度。
45.4.本发明在数据标注、特征抽取、账号扩充等三个主要技术点上均具有较快的速度,可以在海量数据上实施。
附图说明
46.图1为本发明流程图。
具体实施方式
47.在解决社交平台上特定地区媒体账号发现任务时,发明人发现已有方法难以快速地获取高质量的种子媒体账号信息,因此设计了一套针对种子媒体账号快速标注的方法,包括候选账号的确定与账号分类。
48.其次,发明人发现已有方法的特征设计存在特征较弱、无法体现媒体账号特性、难以大规模实施等问题,因此设计了针对媒体账号特性的特征抽取方法。该方法速度快、抽取的特征强。
49.最后,发明人发现已有方法难以高效、高质量地从种子账号扩充到更多的媒体账号。因此在解决了种子账号标注与特征抽取方法的基础上,设计了两种互为补充的扩充方法以获取高质量、高数量的媒体账号。
50.具体来说本发明提出的方法包括:
51.s1种子媒体账号标注:针对特定地域的粉丝数较高、原发消息数较高的少量账号进行人工标注,判断是否为媒体类型账号,并进一步判断账号的细分媒体类型。
52.s2媒体账号特征提取:针对步骤s1人工标注的媒体账号提取高质量的特征,得到媒体账号具有代表性的若干特征。
53.s3媒体账号分类模型构建:基于步骤s1人工标注的媒体账号及基于步骤s2提取出的特征构建训练样本集,并使用机器学习技术训练分类器,得到区分不同细分媒体类型的分类器。
54.s4交互式扩充媒体账号:筛选出步骤s1人工标注的媒体账号在社交平台上主动交互的账号作为候选,利用步骤s3的分类器在候选账号集合实施媒体账号判别与地域过滤;把符合的候选账号加入媒体账号集合,并将这些账号作为新一轮的候选账号重复本步骤的操作,最后实现“滚雪球”式扩充直到不再有新账号被发现。该步骤最终得到一个媒体账号集合。
55.s5地域筛选式扩充媒体账号:该步骤与步骤s4并行。针对特定地域未被人工标注的账号,利用步骤s3得到的分类器判断是否属于媒体类型账号。该步骤最终得到一个媒体账号集合。
56.s6媒体账号扩充结果合并:将步骤s4与s5得到的媒体账号集合进行整合、去重、去低置信后得到最终的特定地域媒体账号集合。
57.进一步地,所述步骤s1的具体实现方法为:
58.数据准备:在数据库中存储通过爬虫采集来的社交平台个人账号信息,包括但不
限于用户id,用户名、地域、简介、粉丝数、关注数、账号创建时间、自发消息数、获赞数等等。其中自发消息区别于转发消息、评论消息,属于账号自主产生的内容消息。
59.人工标注:对媒体类型账号划分三种细分类型:传统媒体、新生代数字媒体和自媒体。使用人工标注的手段对人工标注候选账号进行是否为媒体类型的判断,以及细分媒体类型的标注。
60.进一步地,所属步骤s2具体实现方法为:
61.提取用户名特征:通过判断预设定的媒体类型关键词和地域名称限定词是否在用户名中存在可提取出用户名特征。此外,用户id的长度体现了账号在社交平台注册时间长短,可以作为用户名特征之一。
62.提取其他用户资料特征:提取账号的粉丝数-关注数比率、关注数-粉丝数比率、账号简介字段是否存在外链、简介字段是否存在媒体类型关键词与地域名称限定词、账号注册时长等特征。
63.提取用户行为特征:分别计算账号的三种行为类型所占比率作为基础行为特征:自发行为比率、转发行为比率以及评论行为比率。此外,计算账号的每小时活跃度并聚合为四个时间段活跃度:上午活跃度、下午活跃度、晚间活跃度、凌晨活跃度。最后,计算账号产生的所有消息的评论数的最大值、平均值。一般地,评论数越大,代表消息传播范围越广,影响力越大。
64.特征融合:将以上所述三种特征整合为每个账号的特征信息。
65.进一步地,所属步骤s3的实现方法为:
66.数据预处理:包括数值型特征归一化,类别型特征独热编码,特征筛选等。特征归一化指将每个数值型特征在不同账号中的数值进行最小-最大归一化,通过该手段将所有数值型特征缩放到[0,1]区间,使特征间可比较。类别型特征编码指将每个类别型特征独热编码。特征筛选指通过比较特征方差、皮尔逊相关系数等将方差最小、相关系数最低的若干特征删除。
[0067]
训练分类器:考虑到不同媒体细分类型在特征层面存在差异性,训练统一的分类器可能效果较差,所以针对三种细分媒体类型:传统媒体、新生代数字媒体以及自媒体分别训练各自的分类器。每种细分类型的分类器由三个标准基分类器集成:随机森林分类器、梯度提升分类器和逻辑斯蒂回归分类器,使用三个基分类器的结果进行多数投票表决得到最终的分类器结果。每个基分类器如果需要进行超参数调整,则采用网格搜索的方法得到使其性能最好的超参数。
[0068]
进一步地,所述步骤s4具体实现方法为:
[0069]
交互式扩充方法通过类似“滚雪球”的方法扩充特定地域媒体类型账号,需首先指定迭代次数、收敛判定条件并将所有人工标注的媒体账号作为迭代备选;每次迭代时,从存储社交平台消息的数据库中查询出所有迭代备选账号主动评论、转发的消息所属的账号,通过步骤s2所述的方法提取特征。将这些账号与特征送入步骤s3得到的三个细分类型分类器,得到预测为媒体类型的账号并进行地域过滤,得到本轮迭代符合要求的扩充账号。这些账号一方面用来执行下一轮迭代,一方面与人工标注的媒体账号整合。满足收敛判定条件时停止迭代,得到整合后的媒体账号集合。
[0070]
进一步地,所述步骤s5具体实现方法为:
[0071]
在存储社交平台个人账号信息的数据库中,通过指定地域字段为特定地域并设定粉丝数下限阈值的方法筛选出备选账号集合,并依据步骤s2所述方法提取账号特征;之后在该集合上分别使用步骤s3得到的三个细分类型分类器得到预测为媒体类型的账号集合。
[0072]
进一步地,所述步骤s6具体实现方法为:
[0073]
账号整合:将步骤s4、s5得到的两个账号集合合并。
[0074]
账号清洗:在合并后的账号集合中,去除重复账号,去除预测置信度最低的若干账号。最终的账号集合即为发现的特定地域媒体账号集合。
[0075]
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
[0076]
如图1所示,s1种子媒体账号标注:
[0077]
数据准备:在数据库中存储通过爬虫采集来的社交平台个人账号信息,包括但不限于用户id,用户名、地域、简介、粉丝数、关注数、账号创建时间、原发消息数、获赞数等等。其中原发消息区别于转发消息、评论消息,属于账号自主产生的内容消息。在本案例中,指定社交平台为社交媒体a,指定特定地域为xx地区。
[0078]
种子账号候选:媒体账号需要具备三个基础性质:影响力高、内容产出频繁和内容产出不过时;具备这些性质的媒体可以更有效地传播自己的观点,同时又具备典型的媒体特征,可提高人工标注速度。所以首先对xx地区的粉丝数较高、原发消息数较高的少量账号进行人工标注。在地区筛选时,需要判断个人资料的地域字段是否属于xx地区限定词,如xx地区的各种别称同义词。粉丝数的下限阈值设置为500,原发消息数设置为最近一年内不少于50条(平均一条/周)。对筛选出的账号取粉丝数排名前200的账号进行人工标注。
[0079]
种子账号标注:在标注过程中,首先判断账号是否为媒体类型,再进一步判断账号的细分媒体类型:传统媒体、新生代数字媒体或自媒体。传统媒体指曾经历过纸质媒体时代,电台媒体时代或者电视媒体时代,并在互联网开设官网、社交媒体账号等的媒体类型。新生代数字媒体指未经历过纸质媒体、电台和电视时代,只在互联网开设官网、社交媒体账号等的媒体类型。例如在社交媒体a开设的数字媒体账号。
[0080]
前两种媒体类型较正式,账号所属的实体通常是机构或公司,并且大多在时事新闻领域保持活跃。自媒体账号所属的实体往往是个人,而且账号拥有一定粉丝数,持续在某些领域产生内容、传播观点、影响受众。划分出不同的细分媒体类型有助于提升后续分类器的性能,如果将这些细分类型笼统地看成一种媒体类型很容易造成分类器性能下降。
[0081]
s2媒体账号特征提取:
[0082]
提取用户名特征:通过判断预设定的媒体类型关键词和地域名称限定词是否在用户名中存在可提取出用户名特征。此外,用户id的长度体现了账号在社交平台注册时间长短,可以作为用户名特征之一。
[0083]
提取其他用户资料特征:提取账号的粉丝数-关注数比率、关注数-粉丝数比率、账号简介字段是否存在外链、简介字段是否存在媒体类型关键词与地域名称限定词、账号注册时长等特征。
[0084]
提取用户行为特征:分别计算账号的三种行为类型所占比率作为基础行为特征:原发行为比率、转发行为比率以及评论行为比率。此外,计算账号的每小时活跃度并聚合为四个时间段活跃度:上午活跃度、下午活跃度、晚间活跃度、凌晨活跃度。最后,计算账号产
生的所有消息的评论数的最大值、平均值。一般地,评论数越大,代表消息传播范围越广,影响力越大。用户的贴文内容是否存在媒体类型关键词与地域名称限定词也作为行为特征之一。
[0085]
特征融合:将以上所述三种特征形成的向量拼接为每个账号的特征向量。
[0086]
一方面,特定地域媒体账号在用户名上呈现两个典型倾向:带有媒体类型关键词以及带有地域名称限定词。媒体类型关键词包括:新闻、传媒,news, media,新聞等。所以用户的文本类型信息,包括用户名、个人简介、消息内容等都可以实施关键词存在与否的判定。另外,根据媒体账号高影响力、持续产出内容和内容不过时等性质,从账号资料和账号行为设计包括粉丝数-关注数比率、平均/最大转发数,账号注册时间、时段活跃度等特征。
[0087]
不同细分领域的媒体账号在用户资料与用户行为等层面均存在差异。例如,传统媒体和新生代数字媒体的用户名往往更有规律,它们倾向于在名字中包含地域限定词(如:hk、hk)和媒体类型限定词(如:xx新闻,xx news);自媒体的粉丝数-关注数比率往往更低,因为以个人为主体的账号拥有更高的自由度,倾向于关注更多社交媒体a用户。
[0088]
s3媒体账号分类模型构建:
[0089]
基于步骤s1人工标注的媒体账号及其步骤s2提取的特征构建训练样本集。首先进行数据预处理,包括数值型特征归一化,类别型特征独热编码,特征筛选等。数值型特征指值为连续数值的特征,类别型特征指值为离散类别的特征。特征归一化指对每个数值型特征在所有账号中的值进行最小-最大缩放到[0,1] 区间,使各特征间可比较。即:给定一个特征集合feature={x,y},其中x 为数值型特征,y为类别型特征。给定样本集合sample={s1,s2,
…
,sn},则特征x在所有样本上的取值为{x1,x2,
…
,xn}。经过最小-最大缩放后,每个取值xi被放缩为xi’:xi^\prime=\frac{xi-min{{x1,x2,\ldots xn}}}{max{{x1,x2,\ldots,xn}}-xi}\\in\ [0,1]。
[0090]
类别型特征独热编码指,对一个包含m个类别的特征扩展为由独热编码所表示的m维特征。例如,特征集合feature中的特征y包含两个类别:是和否,则经过独热编码后y被扩展为二维特征[y_是,y_否]。相应地,值[1,0]表示是,[0,1]表示否。经过独热编码的类别型特征可以和数值型特征共同作为样本特征。否则,用来表示类别编号的数值不具备表征数值大小的属性,不能直接用作特征输入分类器。
[0091]
特征筛选指通过计算每个特征的方差和皮尔逊相关系数,剔除方差最小、皮尔逊相关系数最低的若干特征。特征的方差小说明该特征在不同类别上不具备区分度,相关系数低说明该特征与类别的关联很弱。由于步骤s2提取出的特征维度不高,所以选择性剔除0~2个特征就能达到较好效果。
[0092]
预处理后,对每种细分媒体类型训练三种基分类器并集成:随机森林分类器、梯度提升分类器和逻辑斯蒂回归分类器。训练时将某个细分媒体类型视为正样本,非媒体类型视为负样本,并对正样本上采样以保持正负样本数相近。为了最大程度减少数据噪声对预测结果的影响,本发明采用基分类器集成的方式,最终预测结果通过多数投票表决得到。
[0093]
s4交互式扩充媒体账号:
[0094]
该方法的依据是:一般地,媒体类型账号主动转发、评论的消息具有较高价值,这些所属的账号与普通受众存在较大差别,它们有较大可能也属于媒体类型。此外,媒体账号之间也倾向于通过转发、评论的方式合作,以加强彼此的影响力,所以本发明利用这种主动
交互关系通过类似“滚雪球”的方法扩充特定地域媒体类型账号。
[0095]
迭代前需要指定迭代次数、收敛判定条件。一般地,迭代次数设置在 50~100之间,收敛判定条件为达到最大迭代次数或迭代不产生新的媒体类型账号。首先将所有人工标注的媒体账号作为迭代备选;每次迭代时,从存储社交平台消息的数据库中查询出所有迭代备选账号主动评论、转发的消息所属的账号,通过步骤s2所述的方法提取特征。将这些账号与特征送入步骤s3得到的三个细分类型分类器,得到预测为媒体类型的账号并进行基于xx地区限定词的地域过滤,得到本轮迭代符合要求的扩充账号。这些账号一方面用来执行下一轮迭代,一方面与人工标注的媒体账号整合。满足收敛判定条件时停止迭代,得到整合后的媒体账号集合。
[0096]
s5地域筛选式扩充媒体账号:
[0097]
该步骤与步骤s4提到的扩充方法并行,可以节省大量计算时间。首先筛选出xx地区未被人工标注的账号,利用步骤s3得到的三个细分类别分类器判断是否属于细分媒体类型,最终将所有细分类型的预测结果整合得到扩充出的媒体账号集合。
[0098]
s6媒体账号扩充结果合并:
[0099]
将步骤s4和s5得到的两个媒体账号集合合并、去除重复账号、去除预测时具有低置信的若干账号。最终得到社交媒体a上xx地区的媒体账号集合。每个扩充出的媒体账号均带有细分媒体类型(传统媒体、新生代数字媒体、自媒体)的标识字段。
[0100]
交互式扩充与地域筛选式扩充相互补充。一方面,交互式扩充可以找到与被扩充的账号关系紧密的媒体类型用户,因为该方法侧重于通过用户交互执行扩充;另一方面,由于数据库存储的只是社交平台全部消息的一个有限子集,并且不同领域、不同类型的媒体之间也很难产生交互行为,所以需要使用地域筛选式方法进行扩充,增强发现媒体的数量与质量。
[0101]
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
[0102]
本发明还提出了一种社交平台上特定地域的媒体账号发现系统,其中包括:
[0103]
模块1,用于获取社交平台上特定地域的所有账号,从所有账号中筛选出影响力大于阈值的媒体账号作为原始账号,并对各原始账号进行媒体类型标注;
[0104]
模块2,用于对原始账号进行特征提取,得到原始账号的多个特征;
[0105]
模块3,用于以原始账号及其对应的特征作为训练数据,原始账号的媒体类型作为训练目标,训练基于机器学习的分类模型,得到各媒体类型对应的分类器;
[0106]
模块4,用于将原始账号在该社交平台上主动交互的账号作为候选账号,利用该分类器对该候选账号进行媒体账号判别与地域过滤,将位于该特定地域且属于媒体账号的候选账号加入媒体账号集合;
[0107]
模块5,用于将该媒体账号集合中的账号作为新一轮的候选账号,重复执行该模块4,直到重复此处达到阈值或媒体账号集合不加入新的账号,保存当前媒体账号集合并加入所有原始账号作为第一集合;
[0108]
模块6,用于对该社交平台上特定地域所有账号中未被标注的账号,利用该分类器将属于媒体的账号加入第二集合;
[0109]
模块7、合并该第一集合和该第二集合,作为该社交平台上特定地域的媒体账号发现结果。
[0110]
所述的社交平台上特定地域的媒体账号发现系统,其中模块1中该影响力包括:粉丝数和原发消息数。
[0111]
所述的社交平台上特定地域的媒体账号发现系统,其中该模块2包括:
[0112]
基于用户名中是否具有媒体类型关键词和地域名称限定词,提取用户名特征;
[0113]
基于账号的粉丝数-关注数比率、关注数-粉丝数比率、账号简介字段是否存在外链、简介字段是否存在媒体类型关键词与账号在该社交平台的注册时长,提取用户资料特征;
[0114]
分别计算账号的三种行为类型所占比率作为用户基础行为特征,该三种行为类型包括自发行为比率、转发行为比率以及评论行为比率;
[0115]
融合该用户基础行为特征、该用户资料特征和该用户名特征作为账号的特征信息。
[0116]
所述的社交平台上特定地域的媒体账号发现系统,其中该模块7包括:
[0117]
将合并该第一集合和该第二集合后的账号集合中,去除重复账号,去除预测置信度最低的多个账号。
[0118]
本发明还提出了一种服务器,用于实施社交平台上特定地域的媒体账号发现方法。
[0119]
本发明还提出了一种客户端,用于社交平台上特定地域的媒体账号发现系统,该客户端为手机应用app或电脑应用软件。