本发明涉及信息处理,尤其涉及一种基于时间序列和观点挖掘的异常言论分析方法、装置、设备、存储介质。
背景技术:
1、近年来,随着互联网的蓬勃发展,社交媒体在人们的生活中发挥着越来越重要的作用,越来越多的人习惯使用facebook、twitter、instagram等社交网站分享自己的生活,发表自己对某个社会现象、事件或问题的观点。
2、每个人发表的言论当中都会包含自身个体的观点。观点挖掘又称为情感分析、倾向性分析等,简而言之就是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。情感是人类的主观意识中所蕴含的感受、态度或评价,是人脑对某一种客观存在的主观反映。社交媒体平台每天都会产生大量有价值的发文、评论信息,这些信息表达了人们对事件、问题的观点态度,如喜、怒、哀、乐和批评、赞扬等。基于此,通过对文本进行观点挖掘可以评估人物对诸如社会热点事件的态度。
3、大多数对文本观点挖掘的研究,都只着重于带有明显情感观点的词汇评估,而忽略了言论整体所呈现出的人物态度,导致观点挖掘不准确。再者当前社交媒体平台众多,人物为扩大影响和传播,大多不止在单独一个平台宣传自己的观点,如何将同一人物在不同平台的言论关联融合再分析,突出观点和人物群体、热点事件之间的关系,亦是一个问题。再者社交媒体平台发文数据规模大、数据结构非线性、传播快速、数据关系复杂等,使得针对某一人物进行言论分析存在诸多困难。
技术实现思路
1、本发明提供一种基于时间序列和观点挖掘的异常言论分析方法、装置、设备、存储介质,旨在挖掘人物言论中的异常言论,为建立人物观点倾向分析模型提供事实依据。
2、为此,本发明的第一个目的是提出一种基于时间序列和观点挖掘的异常言论分析方法,包括:
3、获取目标人物对象的言论数据;其中,言论数据至少包括:人物基本信息、发文、评论、点赞;
4、对言论数据进行多源数据融合,以对言论数据中的重复数据进行剔除;
5、构建情感维度分类模型,将剔除重复数据的言论数据输入情感维度分类模型,进行言论观点挖掘;
6、根据情感维度分类模型的得到的情感值,对某目标人物对象在指定时间段内的言论数据进行异常言论分析。
7、其中,在获取目标人物对象的言论数据的步骤中,包括:
8、定时从目标人物对象的社交网络平台增量采集获取相关数据;
9、对相关数据进行数据筛选,获取对应于目标人物对象的人物基本信息、发文、评论、点赞,作为目标人物对象的言论数据。
10、其中,在获取目标人物对象的言论数据的步骤之后,还包括数据清洗的步骤;包括:
11、同平台重复数据删除:对于发文内容、发文时间一致或者评论内容、评论时间一致,亦或同一用户多次给同一发文或评论点赞的言论数据,都可以认为是重复数据,直接剔除重复数据;
12、数据缺失剔除:针对用户信息、发文、评论信息数据存在字段缺失的问题,将缺失所需字段的记录进行删除操作;
13、过短文本剔除:单个文字或特殊符号,一般意义上不具有感情色彩,将此类记录进行删除操作;
14、语言统一:将其他语言转换为中文,繁体转换为简体,便于算法统一处理。
15、其中,在对言论数据进行多源数据融合的步骤中,对目标人物对象的言论数据形成的词集合中的每个单词进行情感词向量的计算,根据词向量比较搜寻人物在相近时段内的高度相似发言,而后对重复数据进行剔除,排除重复数据对异常言论分析的影响。
16、其中,情感维度分类模型采用bert模型,利用自监督学习方法在无标注语料上进行预训练,从而捕捉文本中的丰富语义信息;根据任务类型对bert预训练模型参数进行微调,以取得更好的任务效果。
17、其中,将对应目标人物对象的言论数据输入情感维度分类模型后,输出结果为积极情感值和消极情感值。
18、其中,在对某目标人物对象在指定时间段内的言论数据进行异常言论分析的步骤中,包括:
19、取上一步骤中言论观点挖掘的结果,按照时序正序排列,得到时序言论数据列表;
20、记数据列表中的情感值为sentiment,最大值为max,最小值为min;
21、若满足max-min≤10-6,则认为言论列表中max与min相等,即列表中所有数据的sentiment都相同,此时无需进行数据归一化;否则进行数据归一化操作;
22、数据归一化,采用均值归一化方式,取数据列表中sentiment的均值为mean,对每一条言论的情感值sentiment,令
23、取归一化之后的数据列表情感值最大值,记为statisticsmax,取最小值记为statisticsmin,再取二者偏离的中值,记为v,即
24、对每一条言论归一化之后的的情感值sentiment,计算其与前一条言论的偏离值,偏离值大于v,视为异常言论,将其是否正常记为normal,则有normal=|sn-sn-1|≤v。
25、本发明的第二个目的是提出一种基于时间序列和观点挖掘的异常言论分析装置,包括:
26、数据获取模块,用于获取目标人物对象的言论数据;其中,言论数据至少包括:人物基本信息、发文、评论、点赞;
27、多源数据融合模块,用于对言论数据进行多源数据融合,以对言论数据中的重复数据进行剔除;
28、模型构建模块,用于构建情感维度分类模型,将剔除重复数据的言论数据输入情感维度分类模型,进行言论观点挖掘;
29、异常言论分析模块,用于根据情感维度分类模型的得到的情感值,对某目标人物对象在指定时间段内的言论数据进行异常言论分析。
30、本发明的第三个目的在于提出一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前述技术方案的方法中的各步骤。
31、本发明的第四个目的在于提出存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行根据前述技术方案的方法中的各步骤。
32、区别于现有技术,本发明提供的基于时间序列和观点挖掘的异常言论分析方法,获取目标人物对象的言论数据;对言论数据进行多源数据融合,以对言论数据中的重复数据进行剔除;构建情感维度分类模型,将剔除重复数据的言论数据输入情感维度分类模型,进行言论观点挖掘;根据情感维度分类模型的得到的情感值,对某目标人物对象在指定时间段内的言论数据进行异常言论分析。通过本发明,能够挖掘人物言论中的异常言论,为建立人物观点倾向分析模型提供事实依据。
1.一种基于时间序列和观点挖掘的异常言论分析方法,其特征在于,包括:
2.根据权利要求1所述的基于基于时间序列和观点挖掘的异常言论分析方法,其特征在于,在获取目标人物对象的言论数据的步骤中,包括:
3.根据权利要求1所述的基于时间序列和观点挖掘的异常言论分析方法,其特征在于,在获取目标人物对象的言论数据的步骤之后,还包括数据清洗的步骤;包括:
4.根据权利要求3所述的基于时间序列和观点挖掘的异常言论分析方法,其特征在于,在对所述言论数据进行多源数据融合的步骤中,对目标人物对象的言论数据形成的词集合中的每个单词进行情感词向量的计算,根据词向量比较搜寻人物在相近时段内的高度相似发言,而后对重复数据进行剔除,排除重复数据对异常言论分析的影响。
5.根据权利要求1所述的基于时间序列和观点挖掘的异常言论分析方法,其特征在于,所述情感维度分类模型采用bert模型,利用自监督学习方法在无标注语料上进行预训练,从而捕捉文本中的丰富语义信息;根据任务类型对bert预训练模型参数进行微调,以取得更好的任务效果。
6.根据权利要求5所述的基于时间序列和观点挖掘的异常言论分析方法,其特征在于,将对应目标人物对象的言论数据输入所述情感维度分类模型后,输出结果为积极情感值和消极情感值。
7.根据权利要求6所述的基于时间序列和观点挖掘的异常言论分析方法,其特征在于,在对某目标人物对象在指定时间段内的言论数据进行异常言论分析的步骤中,包括:
8.一种基于时间序列和观点挖掘的异常言论分析装置,其特征在于,包括:
9.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法中的各步骤。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法中的各步骤。