技术特征:
1.一种舆情分析方法,其特征在于,包括以下步骤:获取文本信息,并确定文本信息所对应的行业领域;识别出文本信息中的高频词汇,所述高频词汇是指文本信息中出现频次超过预设频次的词汇;依次判断高频词汇是否属于预设特征库中的特征词,若高频词汇属于预设特征库中的特征词,则将相应的高频词汇定义为情感词汇;反之,将相应的高频词汇定义为待定词汇;在依次判断高频词汇是否属于预设特征库中的特征词之后,根据情感词汇确定当前文本信息的情感倾向,并判断从当前文本信息中识别出的高频词汇是否存在待定词汇;若从当前文本信息中识别出的高频词汇存在待定词汇,则根据待定词汇生成相应的标签,将标签赋予当前文本信息,并将待定词汇的频次信息存储到数据库中;定期汇总数据库中的同一高频词汇的频次信息,判断同一高频词汇的频次信息的总量是否超过预设阈值;若同一高频词汇的频次信息的总量超过预设阈值,则定义对应的高频词汇为网络热词,抓取包含该网络热词且评价量高的若干文本信息,综合抓取出的所有文本信息的情感倾向以确定该网络热词的情感倾向,并将该网络热词作为新的特征词以添加到特征库中;每当新的特征词存储到特征库中,则对具有与新的特征词适配的标签的文本信息重新判断情感倾向。2.根据权利要求1所述的一种舆情分析方法,其特征在于,将待定词汇的频次信息存储到数据库中之后,还包括以下步骤:记录待定词汇的频次信息的存储时间,并建立存储时间与待定词汇的频次信息之间的对应关系;定期获取当前时间,根据当前时间和预设的存储时限计算出截止时间;删除数据库中所对应的存储时间早于截止时间的待定词汇的频次信息。3.根据权利要求1所述的一种舆情分析方法,其特征在于,还包括以下步骤:定期对特征库中的特征词依次进行情感倾向的重新确定。4.根据权利要求3所述的一种舆情分析方法,其特征在于,定期对特征库中的特征词依次进行情感倾向的重新确定,包括以下步骤:将当前需重新确定情感倾向的特征词定义为待测词汇,拉取多个包含待测词汇的实时文本信息;将实时文本信息所对应的特征词汇集到一起以形成特征集合,并从特征集合中剔除待测词汇;确定特征集合的情感倾向,并将确定出的特征集合的情感倾向更新为待测词汇的情感倾向。5.根据权利要求1所述的一种舆情分析方法,其特征在于,识别出文本信息中的高频词汇之前,包括以下步骤:获取当前文本信息和同一行业领域的历史文本信息之间的重复率,选择重复率最高的重复率作为参考值,判断参考值是否超过预设重复值,若参考值超过预设重复值,则视为已判断情感;若参考值未超过预设重复值,则识别出文本信息中的高频词汇。
6.根据权利要求5所述的一种舆情分析方法,其特征在于,判断参考值是否超过预设重复值,包括以下步骤:判断参考值所对应的历史文本信息是否为近期历史信息,若参考值所对应的历史文本信息为近期历史信息,则判断参考值是否超过第一预设值;若参考值所对应的历史文本信息不为近期历史信息,则判断参考值是否超过第二预设值。7.一种舆情分析系统,其特征在于,包括:信息获取模块(1),用于获取文本信息;信息识别模块(2),用于确定文本信息所对应的行业领域,识别出文本信息中的高频词汇;信息分析模块(3),用于依次判断高频词汇是否属于预设特征库中的特征词,若高频词汇属于预设特征库中的特征词,则将相应的高频词汇定义为情感词汇;反之,将相应的高频词汇定义为待定词汇;情感分析模块(4),用于在依次判断高频词汇是否属于预设特征库中的特征词之后,根据情感词汇确定当前文本信息的情感倾向,并判断从当前文本信息中识别出的高频词汇是否存在待定词汇;若从当前文本信息中识别出的高频词汇存在待定词汇,则根据待定词汇生成相应的标签,将标签赋予当前文本信息,并将待定词汇的频次信息存储到数据库中;以及用于每当新的特征词存储到特征库中,则对具有与新的特征词适配的标签的文本信息重新判断情感倾向;数据统计模块(5),用于定期汇总数据库中的同一高频词汇的频次信息,判断同一高频词汇的频次信息的总量是否超过预设阈值;若同一高频词汇的频次信息的总量超过预设阈值,则定义对应的高频词汇为网络热词,并控制信息获取模块(1)抓取包含该网络热词且评价量高的若干文本信息,以及控制情感分析模块(4)综合抓取出的所有文本信息的情感倾向以确定该网络热词的情感倾向,并将该网络热词作为新的特征词以添加到特征库中。8.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至6任一项所述的一种舆情分析方法的计算机程序。
技术总结
本发明公开了一种舆情分析方法、系统及存储介质,包括以下步骤:获取文本信息,识别出文本信息中的高频词汇,根据情感词汇确定当前文本信息的情感倾向,若当前文本信息中还存在待定词汇,则根据待定词汇生成相应的标签,将标签赋予当前文本信息,将待定词汇的频次信息存储到数据库;若数据库中同一高频词汇的频次信息的总量超过预设阈值,则定义对应的高频词汇为网络热词,分析网络热词的情感倾向,并重新分析含有网络热词对应标签的文本信息的情感倾向。先临时性评估出当前文本信息的情感倾向。当文本信息中的高频词汇被认定为网络热词,将重新判断包含大量该高频词汇的文本信息的情感倾向,以降低文本信息情感倾向判断的误差。差。差。
技术研发人员:周雁 黄乐 朱倩倩 任明辉 廖云丹
受保护的技术使用者:浙江浙蕨科技有限公司
技术研发日:2022.08.08
技术公布日:2022/11/2