异常账号识别方法及装置、存储介质、电子设备与流程

文档序号:26786308发布日期:2021-09-28 20:20阅读:82来源:国知局
异常账号识别方法及装置、存储介质、电子设备与流程

1.本发明实施例涉及机器学习技术领域,具体而言,涉及一种异常账号识别方法、异常账号识别装置、计算机可读存储介质以及电子设备。


背景技术:

2.随着机器学习和深度学习技术的发展,算法在电商领域的应用也越来越广泛。用户对商品的评论内容已然是电商领域十分重要的数据,同时评论在很大程度上会影响消费者的购买倾向和选择,于是很多黑色产业链盯上了评论这部分的商业价值,一些用户可能更多地是黑色产业链在商品评论区引入公众号、qq群、导流链接等违规引流内容,极大影响商品购买的正常流程同时影响用户的判断和购买行为。因此,如何去识别和屏蔽这些违规引流文本和打击黑色产业链及其相关账号,保证用户评论内容干净、有效是每个公司都十分关心的问题。
3.在现有的解决上述问题的方案中,是通过利用简单规则进行违规引流识别,即线下准备一批用户评论样本,评论中包含违规引流内容,总结违规引流文本特点制定相关规则进行违规引流内容识别,当线上出现一条新评论时,可以通过完成的识别规则来识别和屏蔽该评论文本。
4.但是,上述方案存在如下缺陷:一方面,由于制定的规则具有局限性,因此只能对已发现的违规引流文本特点进行规则制定,当新型违规引流文本出现时当前规则无法进行识别,进而导致引流实体的识别结果的准确率较低;另一方面,目前的识别情况只是对违规引流文本进行识别,并未在黑色产业链上的风险账号的各个维度进行画像,进而导致风险账号的识别结果的准确率较低;再一方面,很多评论内容在暴露引流链接的同时,加入了很多特殊字符和规则,因此会使得引流实体的识别结果的准确率较低。
5.需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

6.本发明的目的在于提供一种异常账号识别方法、异常账号识别装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的引流实体的识别结果的准确率较低以及风险账号的识别结果的准确率较低的问题。
7.根据本公开的一个方面,提供一种异常账号识别方法,包括:
8.对待识别评论数据进行预处理得到待识别文本数据,并对所述待识别文本数据进行引流文本实体识别,得到引流实体;
9.根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果,并根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像;
10.根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识
别。
11.在本公开的一种示例性实施例中,对待识别评论数据进行预处理得到待识别文本数据包括:
12.对所述待识别评论数据中包括的特殊符号和/或表情符号进行清洗,得到所述待识别文本数据。
13.在本公开的一种示例性实施例中,对所述待识别文本数据进行引流文本实体识别,得到引流实体包括:
14.对所述待识别文本数据进行切分得到多个切分词,并将各所述切分词输入至违规引流模型中得到所述引流实体;
15.其中,所述引流实体包括开始字节、中间字节以及其他实体。
16.在本公开的一种示例性实施例中,所述违规引流模型包括双向长短期记忆网络层、全连接层以及条件随机场层;
17.其中,将各所述切分词输入至违规引流模型中得到所述引流实体包括:
18.将各所述切分词输入至所述双向长短期记忆网络中,得到正向上下文信息以及反向上下文信息;
19.通过所述全连接层对所述正向上下文信息以及反向上下文信息进行特征拼接,得到拼接上下文信息;
20.通过所述条件随机场对所述拼接上下文信息进行识别,得到所述引流实体。
21.在本公开的一种示例性实施例中,所述异常账号识别方法还包括:
22.获取历史评论数据并对所述历史评论数据进行预处理得到标准输入数据;
23.利用所述标准输入数据对包括双向长短期记忆网络层、全连接层以及条件随机场层的初始网络模型进行训练,得到所述违规引流模型。
24.在本公开的一种示例性实施例中,根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果包括:
25.利用预设的得分模型对所述待识别评论数据进行评分,得到所述评论分数;
26.根据所述评论分数所属的预设分数区间,对所述待识别文本数据的质量进行评估得到质量评估结果;其中,所述质量评估结果包括恶意评论、低质量评论、一般质量评论以及高质量评论。
27.在本公开的一种示例性实施例中,根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像包括:
28.获取与所述对待识别评论数据对应的用户账号的所有评论数据,并将所述所有评论数据输入至所述违规引流模型中得到与所述所有评论数据对应的引流实体;
29.根据与所述所有评论数据对应的引流实体将所述所有评论数据划分为具有违规引流评论的第一集合以及不具有违规引流评论的第二集合;
30.如果所述第一集合中所包括的具有违规引流评论的数量在所述所有评论数据的总量中所占的比例大于第一预设阈值且所述质量评估结果为恶意评论,则所述用户账号的账号画像为疑似黑色产业链账号。
31.在本公开的一种示例性实施例中,所述异常账号识别方法还包括:
32.如果所述第一集合中所包括的具有违规引流评论的数量在所述所有评论数据的
总量中所占的比例不大于第一预设阈值,则判断所述第二集合中所包括的不具有违规引流评论的数量在所述所有评论数据的总量中所占的比例是否大于第二预设阈值;
33.如果所述第二集合中所包括的不具有违规引流评论的数量在所述所有评论数据的总量中所占的比例大于第二预设阈值,则计算所述第二集合中所述低质量评论对应的不具有违规引流评论的数量;
34.如果所述低质量评论对应的不具有违规引流评论的数量在所述第二集合中的不具有违规引流评论的数量中所占的比例大于第三预设阈值,且所述质量评估结果为恶意评论,则所述用户账号的账号画像为疑似黑色产业链账号。
35.在本公开的一种示例性实施例中,根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识别包括:
36.如果所述引流实体为违规引流实体,且所述账号画像为疑似黑色产业链账号,则所述用户账号属于异常账号。
37.根据本公开的一个方面,提供一种异常账号识别装置,包括:
38.实体识别模块,用于对待识别评论数据进行预处理得到待识别文本数据,并对所述待识别文本数据进行引流文本实体识别,得到引流实体;
39.质量评估模块,用于根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果,并根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像;
40.账号识别模块,用于根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识别。
41.根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的异常账号识别方法。
42.根据本公开的一个方面,提供一种电子设备,包括:
43.处理器;以及
44.存储器,用于存储所述处理器的可执行指令;
45.其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的异常账号识别方法。
46.本发明实施例提供的一种异常账号识别方法及装置,一方面,通过对待识别评论数据进行预处理得到待识别文本数据,并对待识别文本数据进行引流文本实体识别,得到引流实体;然后根据待识别评论数据的评论分数对待识别文本数据的质量进行评估得到质量评估结果,并根据评估结果得到与对待识别评论数据对应的用户账号的账号画像;最后根据引流实体以及账号画像对用户账号是否属于异常账号进行识别,解决了现有技术中由于目前的识别情况只是对违规引流文本进行识别,并未在黑色产业链上的风险账号的各个维度进行画像,进而导致风险账号的识别结果的准确率较低的问题,提高了异常账号的识别结果的准确率;另一方面,解决了现有技术中由于制定的规则具有局限性,因此只能对已发现的违规引流文本特点进行规则制定,当新型违规引流文本出现时当前规则无法进行识别,进而导致引流实体的识别结果的准确率较低的问题,提高了引流实体的识别结果的准确率;再一方面,解决了现有技术中由于很多评论内容在暴露引流链接的同时,加入了很多特殊字符和规则,因此会使得引流实体的识别结果的准确率较低的问题,进一步的提高了
引流实体的识别结果的准确率。
47.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
48.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
49.图1示意性示出根据本发明示例实施例的一种异常账号识别方法的流程图。
50.图2示意性示出根据本发明示例实施例的一种将各所述切分词输入至违规引流模型中得到所述引流实体的方法流程图。
51.图3示意性示出根据本发明示例实施例的一种违规引流模型的结构示例图。
52.图4示意性示出根据本发明示例实施例的一种违规引流模型应用场景示例图。
53.图5示意性示出根据本发明示例实施例的一种根据评估结果得到与所述对待识别评论数据对应的用户账号的账号画像的方法流程图。
54.图6示意性示出根据本发明示例实施例的另一种异常账号识别方法的流程图。
55.图7示意性示出根据本发明示例实施例的另一种异常账号识别方法的流程图。
56.图8示意性示出根据本发明示例实施例的一种异常账号识别装置的框图。
57.图9示意性示出根据本发明示例实施例的一种用于实现上述异常账号识别方法的电子设备。
具体实施方式
58.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。
59.此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
60.本示例实施方式中首先提供了一种异常账号识别方法,该方法可以运行于服务器、服务器集群或云服务器等,也可以运行于终端设备;当然,本领域技术人员也可以根据需求在其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。参考图1所示,
该异常账号识别方法可以包括以下步骤:
61.步骤s110.对待识别评论数据进行预处理得到待识别文本数据,并对所述待识别文本数据进行引流文本实体识别,得到引流实体。
62.步骤s120.根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果,并根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像。
63.步骤s130.根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识别。
64.上述异常账号识别方法中,一方面,通过对待识别评论数据进行预处理得到待识别文本数据,并对待识别文本数据进行引流文本实体识别,得到引流实体;然后根据待识别评论数据的评论分数对待识别文本数据的质量进行评估得到质量评估结果,并根据评估结果得到与对待识别评论数据对应的用户账号的账号画像;最后根据引流实体以及账号画像对用户账号是否属于异常账号进行识别,解决了现有技术中由于目前的识别情况只是对违规引流文本进行识别,并未在黑色产业链上的风险账号的各个维度进行画像,进而导致风险账号的识别结果的准确率较低的问题,提高了异常账号的识别结果的准确率;另一方面,解决了现有技术中由于制定的规则具有局限性,因此只能对已发现的违规引流文本特点进行规则制定,当新型违规引流文本出现时当前规则无法进行识别,进而导致引流实体的识别结果的准确率较低的问题,提高了引流实体的识别结果的准确率;再一方面,解决了现有技术中由于很多评论内容在暴露引流链接的同时,加入了很多特殊字符和规则,因此会使得引流实体的识别结果的准确率较低的问题,进一步的提高了引流实体的识别结果的准确率。
65.以下,结合附图对本发明示例实施例异常账号识别方法中涉及的各步骤进行详细的解释以及说明。
66.首先,对本发明示例实施例的发明目的以及所涉及到的专业名词进行解释。
67.机器学习:机器学习是指用某些算法指导计算机利用已知数据得出适当的模型,并利用此模型对新的情境给出判断的过程。
68.违规引流:评论区引入公众号、qq群、导流链接等违规引流内容。
69.bi-lstm(双向长短期记忆网络):是由两个lstm构成,其中一个lstm是从正向获取序列信息,另一个lstm是从反向获取序列信息,这样可以综合整个序列的完整信息,以及序列中每个位置的顺序。
70.crf(条件随机场):是一种判别式模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
71.进一步的,本发明示例实施例针对黑色产业链上风险账号发布的违规引流评论文本进行识别,并对这些风险账号进行各个维度画像,考虑可以利用推荐权重对相关账号识别和惩罚。该方案是应用于实际环境的,首先需要获取线上的评论数据,分析违规引流文本特点制定初步规则进行清洗,针对不同类型的违规文本进行人工标注用于模型训练;利用违规引流识别模型,并借助评论文本京豆分逻辑对不同账户发布的评论文本质量进行评估,进行黑色产业链账号的识别;
72.在步骤s110中,对待识别评论数据进行预处理得到待识别文本数据,并对所述待
识别文本数据进行引流文本实体识别,得到引流实体。
73.在本示例实施例中,首先,对所述待识别评论数据中包括的特殊符号和/或表情符号进行清洗,得到所述待识别文本数据。具体的,可以从线上获取大量用户评论样本,利用预设规则和ascii码区间范围过滤和去除评论中多余符号包括特殊符号,表情符号等,得到比较干净的评论序列数据集,并且,由于评论中的违规引流类型文本有很多种,因此需要根据评论样本的真实分布情况尽可能覆盖到各类违规引流足够的评论样本集。此处需要补充说明的是,上述预设规则例如可以是设置一个特殊符号以及表情符号的数据库,当识别到符号后,可以判断该符号是否存在于该数据库中,如果存在,则直接过滤;另外,也可以直接通过各特殊符号或者表情符号对应的ascii码区间对其进行过滤,本示例对此不做特殊限制。
74.其次,当得到上述待识别文本数据以后,可以对该待识别文本数据进行引流文本实体识别,得到引流实体。具体的可以包括,对所述待识别文本数据进行切分得到多个切分词,并将各所述切分词输入至违规引流模型中得到所述引流实体;其中,所述引流实体包括开始字节、中间字节以及其他实体。
75.参考图2所示,将各所述切分词输入至违规引流模型中得到所述引流实体可以包括步骤s210-步骤s230,以下进行详细说明。
76.在步骤s210中,将各所述切分词输入至所述双向长短期记忆网络中,得到正向上下文信息以及反向上下文信息。
77.在步骤s220中,通过所述全连接层对所述正向上下文信息以及反向上下文信息进行特征拼接,得到拼接上下文信息。
78.在步骤s230中,通过所述条件随机场对所述拼接上下文信息进行识别,得到所述引流实体。
79.以下,结合图3以及图4对步骤s210-步骤s230进行解释以及说明。
80.首先,为了可以得到引流实体,首先需要对初始网络模型进行训练,得到违规引流模型。具体的可以包括,首先,获取历史评论数据并对所述历史评论数据进行预处理得到标准输入数据;其次,利用所述标准输入数据对包括双向长短期记忆网络层、全连接层以及条件随机场层的初始网络模型进行训练,得到所述违规引流模型。
81.参考图3所示,该初始网络模型可以包括bi-lstm(双向长短期记忆网络)301、full-connected(全连接层)302以及crf(条件随机场)303。其中,bi-lstm包含了前向和后向的lstm,可以得到完整序列的正序和反序的上下文信息;从而更加准确的确定违规引流文本相关的公众号、微信号等信息的位置。全连接层可以用于对完整序列的正序和反序的上下文信息进行特征拼接。crf可以用于实现对违规引流文本的识别,因为通过训练bi-lstm网络模型将文本中的评论文本序列映射到指定的样本标记空间向量,该向量包含了完整序列的上下文信息,将向量输入到crf中,来识别文本中违规引流文本公众号等信息的位置。
82.进一步的,可以抽取的包含违规引流文本的评论数据集(历史数据集),然后对该评论数据集进行预处理,并制定标注规则,对预处理后的评论数据集进行违规引流文本的序列标注,例如:“京享家”、“京选小助手”、“京大人”等违规引流的公众号进行序列标注,利用标注结果进行lstm+crf模型训练,然后将训练后的模型作为上述违规引流模型。
83.进一步的,参考图4所示,当得到违规引流模型以后,首先,将各切分词输入至所述双向长短期记忆网络中,得到正向上下文信息以及反向上下文信息;例如,将切分后的公众号京享家购买享半价输入到该双向长短期记忆网络中,得到正向上下文值为:公众号京享家购买享半价;反向上下文值为:享半价购买京享家公众号;然后,通过所述全连接层对正向上下文信息以及反向上下文信息进行特征拼接,得到拼接上下文信息,最后通过条件随机场对拼接上下文信息进行识别,得到引流实体,其中,该引流实体可以包括开始的字节(b)、中间的字节(i)以及其他实体(o)。具体的,公众号、优惠券(coupon)、qq群等违规引流实体的标识可以为b-pub、i-pub、b-coupon、i-coupon、b-qq、i-qq、o等等。例如,现有这样一条评论:“搜索公众号京享家半价买你懂得哦,这个宫宗皓半价”,可以看出该评论属于公众号引流,其中引流实体是“京享家”,现用评论文本序列输入到的bi-lstm网络中得出空间向量a,经过全连接层得到向量b,最后将向量b输入到crf中实现对“京享家”实体的公众号违规引流识别。
84.在步骤s120中,根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果,并根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像。
85.在本示例实施例中,首先,根据待识别评论数据的评论分数对待识别文本数据的质量进行评估得到质量评估结果,具体的可以包括:首先,利用预设的得分模型对所述待识别评论数据进行评分,得到所述评论分数;其次,根据所述评论分数所属的预设分数区间,对所述待识别文本数据的质量进行评估得到质量评估结果;其中,所述质量评估结果包括恶意评论、低质量评论、一般质量评论以及高质量评论。譬如,可以利用预设的得分模型根据各待识别评论数据的评论内容、字符数以及评论维度(例如从产品的实用性、质量、服务态度等等)为该待识别评论数据配置对应的评论京豆,然后根据评论京豆的多少,得到上述评论分数;然后根据该评论分数所属的预设分数区间,得到上述质量评估结果。例如,0-30分对应的为恶意评论,30-60分为低质量评论,60-80为一般质量评论,80-100为高质量评论等等。
86.其次,根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像。具体的,参考图5所示,根据评估结果得到与所述对待识别评论数据对应的用户账号的账号画像可以包括步骤s510-步骤s530,以下进行详细说明。
87.在步骤s510中,获取与所述对待识别评论数据对应的用户账号的所有评论数据,并将所述所有评论数据输入至所述违规引流模型中得到与所述所有评论数据对应的引流实体。
88.在步骤s520中,根据与所述所有评论数据对应的引流实体将所述所有评论数据划分为具有违规引流评论的第一集合以及不具有违规引流评论的第二集合。
89.在步骤s530中,如果所述第一集合中所包括的具有违规引流评论的数量在所述所有评论数据的总量中所占的比例大于第一预设阈值且所述质量评估结果为恶意评论,则所述用户账号的账号画像为疑似黑色产业链账号。
90.进一步的,参考图6所示,该异常账号识别方法还可以包括步骤s610-步骤s630,以下进行详细说明。
91.在步骤s610中,如果所述第一集合中所包括的具有违规引流评论的数量在所述所
有评论数据的总量中所占的比例不大于第一预设阈值,则判断所述第二集合中所包括的不具有违规引流评论的数量在所述所有评论数据的总量中所占的比例是否大于第二预设阈值。
92.在步骤s620中,如果所述第二集合中所包括的不具有违规引流评论的数量在所述所有评论数据的总量中所占的比例大于第二预设阈值,则计算所述第二集合中所述低质量评论对应的不具有违规引流评论的数量。
93.在步骤s630中,如果所述低质量评论对应的不具有违规引流评论的数量在所述第二集合中的不具有违规引流评论的数量中所占的比例大于第三预设阈值,且所述质量评估结果为恶意评论,则所述用户账号的账号画像为疑似黑色产业链账号。
94.以下,将结合图7对图5以及图6中所涉及到的步骤进行解释以及说明。具体的:
95.在步骤s710中,获取单一用户的所有评论,并将该单一用户的所有评论输入至违规引流模型中得到与各评论对应的引流实体;
96.在步骤s720中,判断各引流实体是否为违规引流实体,如果是,跳转至步骤s730,如果否,跳转至步骤s740;
97.在步骤s730中,根据违规引流实体对应的评论构建第一集合a,并计算第一集合a中的违规评论的数量;
98.在步骤s740中,根据非违规引流实体对应的评论构建第二集合b,并计算第二集合b中的非违规评论的数量;
99.在步骤s750中,判断第一集合a中的违规评论的数量在所有评论的数量中所占的比例是否大于第一预设阈值α;如果是,且上述质量评估结果为恶意评论,则该用户账号的账号画像为疑似黑色产业链账号;如果否,则跳转至步骤s760;
100.在步骤s760中,判断第二集合b中的非违规评论的数量在所有评论的数量中所占的比例是否大于第二预设阈值θ;如果是,则跳转至步骤s770,如果否,则该用户账号的账号画像为正常账号;
101.步骤s770,利用京豆得分模型计算第二集合b中的低质量评论对应的不具有违规引流评论的数量;
102.步骤s780,判断低质量评论对应的不具有违规引流评论的数量在第二集合b中的不具有违规引流评论的数量中所占的比例是否大于第三预设阈值p;如果是,且上述质量评估结果为恶意评论,则该用户账号的账号画像为疑似黑色产业链账号;如果否,则该用户账号的账号画像为正常账号。
103.通过该方法,可以抽取不同账号下发布的评论文本,利用训练好的违规引流识别模型进行违规引流文本识别,并借助评论文本的评论京豆,分维度进行用户评论文本质量评估,并根据各个维度的评估结果进行用户账号画像,利用画像筛选和识别黑色产业链下的账号;提高了异常账号的识别结果的准确率。
104.在步骤s130中,根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识别。
105.在本公开的一种示例性实施例中,如果所述引流实体为违规引流实体,且所述账号画像为疑似黑色产业链账号,则所述用户账号属于异常账号。通过该方法,可以进一步的提高异常账号的识别结果的准确率,避免了由于对正常账号是被错误,进而导致的用户体
验差的问题。
106.本发明示例实施例还提供了一种异常账号识别装置。参考图8所示,该异常账号识别装置可以包括实体识别模块810、质量评估模块820以及账号识别模块830。其中:
107.实体识别模块810可以,用于对待识别评论数据进行预处理得到待识别文本数据,并对所述待识别文本数据进行引流文本实体识别,得到引流实体。
108.质量评估模块820可以用于根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果,并根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像。
109.账号识别模块830可以用于根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识别。
110.在本公开的一种示例实施例中,对待识别评论数据进行预处理得到待识别文本数据包括:
111.对所述待识别评论数据中包括的特殊符号和/或表情符号进行清洗,得到所述待识别文本数据。
112.在本公开的一种示例实施例中,对所述待识别文本数据进行引流文本实体识别,得到引流实体包括:
113.对所述待识别文本数据进行切分得到多个切分词,并将各所述切分词输入至违规引流模型中得到所述引流实体;
114.其中,所述引流实体包括开始字节、中间字节以及其他实体。
115.在本公开的一种示例实施例中,所述违规引流模型包括双向长短期记忆网络层、全连接层以及条件随机场层;
116.其中,将各所述切分词输入至违规引流模型中得到所述引流实体包括:
117.将各所述切分词输入至所述双向长短期记忆网络中,得到正向上下文信息以及反向上下文信息;
118.通过所述全连接层对所述正向上下文信息以及反向上下文信息进行特征拼接,得到拼接上下文信息;
119.通过所述条件随机场对所述拼接上下文信息进行识别,得到所述引流实体。
120.在本公开的一种示例实施例中,所述异常账号识别方法还包括:
121.获取历史评论数据并对所述历史评论数据进行预处理得到标准输入数据;
122.利用所述标准输入数据对包括双向长短期记忆网络层、全连接层以及条件随机场层的初始网络模型进行训练,得到所述违规引流模型。
123.在本公开的一种示例实施例中,根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果包括:
124.利用预设的得分模型对所述待识别评论数据进行评分,得到所述评论分数;
125.根据所述评论分数所属的预设分数区间,对所述待识别文本数据的质量进行评估得到质量评估结果;其中,所述质量评估结果包括恶意评论、低质量评论、一般质量评论以及高质量评论。
126.在本公开的一种示例实施例中,根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像包括:
127.获取与所述对待识别评论数据对应的用户账号的所有评论数据,并将所述所有评论数据输入至所述违规引流模型中得到与所述所有评论数据对应的引流实体;
128.根据与所述所有评论数据对应的引流实体将所述所有评论数据划分为具有违规引流评论的第一集合以及不具有违规引流评论的第二集合;
129.如果所述第一集合中所包括的具有违规引流评论的数量在所述所有评论数据的总量中所占的比例大于第一预设阈值且所述质量评估结果为恶意评论,则所述用户账号的账号画像为疑似黑色产业链账号。
130.在本公开的一种示例实施例中,所述异常账号识别装置还包括:
131.第一判断模块,可以用于如果所述第一集合中所包括的具有违规引流评论的数量在所述所有评论数据的总量中所占的比例不大于第一预设阈值,则判断所述第二集合中所包括的不具有违规引流评论的数量在所述所有评论数据的总量中所占的比例是否大于第二预设阈值。
132.评论数量计算模块,可以用于如果所述第二集合中所包括的不具有违规引流评论的数量在所述所有评论数据的总量中所占的比例大于第二预设阈值,则计算所述第二集合中所述低质量评论对应的不具有违规引流评论的数量。
133.疑似黑色产业链账号确定模块,可以用于如果所述低质量评论对应的不具有违规引流评论的数量在所述第二集合中的不具有违规引流评论的数量中所占的比例大于第三预设阈值,且所述质量评估结果为恶意评论,则所述用户账号的账号画像为疑似黑色产业链账号。
134.在本公开的一种示例实施例中,根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识别包括:
135.如果所述引流实体为违规引流实体,且所述账号画像为疑似黑色产业链账号,则所述用户账号属于异常账号。
136.上述异常账号识别装置中各模块的具体细节已经在对应的异常账号识别方法中进行了详细的描述,因此此处不再赘述。
137.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
138.此外,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
139.在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
140.所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
141.下面参照图9来描述根据本发明的这种实施方式的电子设备900。图9显示的电子
设备900仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
142.如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930以及显示单元940。
143.其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元910执行,使得所述处理单元910执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元910可以执行如图1中所示的步骤s110:对待识别评论数据进行预处理得到待识别文本数据,并对所述待识别文本数据进行引流文本实体识别,得到引流实体;s120:根据所述待识别评论数据的评论分数对所述待识别文本数据的质量进行评估得到质量评估结果,并根据所述评估结果得到与所述对待识别评论数据对应的用户账号的账号画像;步骤s130:根据所述引流实体以及所述账号画像对所述用户账号是否属于异常账号进行识别。
144.存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(rom)9203。
145.存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
146.总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
147.电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
148.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。
149.在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发
明各种示例性实施方式的步骤。
150.根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
151.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
152.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
153.可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
154.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
155.此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
156.本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其他实施例。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1