本发明涉及人工智能,具体涉及一种水军识别方法、装置、电子设备及存储介质。
背景技术:
1、论坛属于开放言论的社区平台,除了产品的真实评论、体验分享之外,也充斥了不少的水军内容。如果不针对无关的灌水内容进行识别将导致分析用户言论时,极易被网络水军用户所迷惑,从而对用户的真实需求产生认知偏差,影响产品研发升级方向和品牌口碑。
2、目前,针对网络水军识别的研究通常基于用户静态特征、评论内容特征和用户关系特征进行分析,在上述特征的基础上建立统计学习、机器学习算法来实现网络水军用户的识别。
3、上述网络水军识别方案在实际应用场景中,存在以下不足之处:
4、在实际应用场景中,舆情文本数以亿计,标注训练模型所需的数据将消耗大量人力、物力和时间成本,且不同标注人员对水军用户的定义存在理解偏差,容易导致标注尺度混乱进而影响模型的学习效果,从而造成水军识别不准确的缺陷。
技术实现思路
1、本发明旨在至少解决相关技术中存在的技术问题之一。为此,本发明提出一种水军识别方法,能够保证水军识别的准确性,并降低水军识别的成本。
2、本发明还提出一种水军识别装置。
3、本发明还提出一种电子设备、非暂态计算机可读存储介质以及计算机程序产品。
4、根据本发明第一方面实施例的水军识别方法,包括:
5、将待识别用户的第一评论特征输入至水军识别模型,得到所述水军识别模型输出的所述待识别用户是否为水军的第一识别结果;
6、其中,所述水军识别模型是以第一样本用户的第一评论特征为样本,第一样本用户是否为水军作为标签,对初始识别模型进行训练得到的;
7、所述第一样本用户及其标签是通过如下方式获取的:
8、将第二样本用户的第二评论特征输入至水军筛选模型,得到所述水军筛选模型输出的所述第二样本用户是否为水军的第二识别结果;
9、基于所述第二识别结果对所述第二样本用户进行筛选,得到所述第一样本用户及其标签。
10、本发明实施例提供的水军识别方法,通过采用水军筛选模型确定样本用户是否为水军的标签,不仅可以避免人工标注水军用户带来的高成本问题,还能显著提高标签确定的准确程度。进一步地,准确的标签有助于提高水军识别模型对水军用户的学习效果,从而保证了对水军用户识别的准确性。
11、根据本发明的一个实施例,所述第二评论特征包括评论相似度、评论平均情感值、相似评论占比中的至少一项。
12、本发明实施例提供的水军识别方法,通过引入评论相似度、评论平均情感值、相似评论占比等可以明显表达水军用户特点的特征用于水军筛选模型对水军用户进行筛选,可以使得筛选出水军用户的准确率有效提高,从而为水军识别模型提供准确的标签来提高学习效果,进而保证了对水军用户识别的准确性。
13、根据本发明的一个实施例,所述将第二样本用户的第二评论特征输入至水军筛选模型,包括:
14、对所述第二评论特征中的各项进行最大最小归一化处理,并将归一化处理后的第二评论特征输入至所述水军筛选模型。
15、根据本发明的一个实施例,所述基于所述第二识别结果对所述第二样本用户进行筛选,得到所述第一样本用户及其标签,包括:
16、基于所述第二识别结果,按照预定比例对所述第二样本用户进行随机采样,得到所述第一样本用户及其标签;
17、其中,所述预定比例为水军用户与非水军用户的比例。
18、根据本发明的一个实施例,所述得到所述水军筛选模型输出的所述第二样本用户是否为水军的第二识别结果之后,所述方法还包括:
19、将目标样本用户的第二识别结果从水军修改为非水军;
20、所述目标样本用户为第二识别结果为水军,并且所述相似评论占比低于相似评论占比阈值的第二样本用户。
21、根据本发明的一个实施例,所述第一评论特征包括评论相似度、评论平均情感值、相似评论占、评论商品系列数、评论主贴占比、疑问句占比、单日最大评论量占比、评论长度方差、评论长度中位数中的至少一项。
22、本发明实施例提供的水军识别方法,通过引入评论相似度、评论平均情感值、相似评论占、评论商品系列数、评论主贴占比、疑问句占比、单日最大评论量占比、评论长度方差、评论长度中位数等各种可以明显表达水军用户特点的特征,来对水军用户进行识别,可以更准确刻画水军用户与正常用户评论规律的差异,从而提高水军用户进行识别的准确性。
23、根据本发明的一个实施例,所述水军识别模型包括分类模型,所述水军筛选模型包括异常检测模型。
24、根据本发明第二方面实施例的水军识别装置,包括:
25、水军识别模块,用于将待识别用户的第一评论特征输入至水军识别模型,得到所述水军识别模型输出的所述待识别用户是否为水军的第一识别结果;
26、其中,所述水军识别模型是以第一样本用户的第一评论特征为样本,第一样本用户是否为水军作为标签,对初始识别模型进行训练得到的;
27、所述第一样本用户及其标签是通过如下方式获取的:
28、将第二样本用户的第二评论特征输入至水军筛选模型,得到所述水军筛选模型输出的所述第二样本用户是否为水军的第二识别结果;
29、基于所述第二识别结果对所述第二样本用户进行筛选,得到所述第一样本用户及其标签。
30、本发明实施例提供的水军识别装置,通过采用水军筛选模型确定样本用户是否为水军的标签,不仅可以避免人工标注水军用户带来的高成本问题,还能显著提高标签确定的准确程度。进一步地,准确的标签有助于提高水军识别模型对水军用户的学习效果,从而保证了对水军用户识别的准确性。
31、根据本发明第三方面实施例的电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面实施例的水军识别方法。
32、根据本发明第四方面实施例的非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面实施例的水军识别方法。
33、本发明实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
34、通过采用水军筛选模型确定样本用户是否为水军的标签,不仅可以避免人工标注水军用户带来的高成本问题,还能显著提高标签确定的准确程度。进一步地,准确的标签有助于提高水军识别模型对水军用户的学习效果,从而保证了对水军用户识别的准确性。
35、通过引入评论相似度、评论平均情感值、相似评论占比等可以明显表达水军用户特点的特征用于水军筛选模型对水军用户进行筛选,可以使得筛选出水军用户的准确率有效提高。
36、通过引入评论相似度、评论平均情感值、相似评论占、评论商品系列数、评论主贴占比、疑问句占比、单日最大评论量占比、评论长度方差、评论长度中位数等各种可以明显表达水军用户特点的特征,来对水军用户进行识别,可以更准确刻画水军用户与正常用户评论规律的差异。
37、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。