词云生成方法及设备与流程

文档序号:35578509发布日期:2023-09-26 22:43阅读:32来源:国知局
词云生成方法及设备与流程

本公开实施例涉及计算机处理,尤其涉及一种词云生成方法及设备。


背景技术:

1、词云是一种通过视觉图形对文本进行表示的方法,词云可以是文本中的各词语组成的类似云的图形,用于展示文本的关键信息。通常情况下,词云中最明显的词也就是文本中的关键信息。

2、现有技术中,词云的生成过程可以包括:首先,将各文本按照分词算法进行分词,得到各个文本中的多个词语;然后,从这些词语中删除停用词,其中,停用词是指检索过程中的虚词以及非检索词,也可以理解为非关键词;再然后,统计每个词语在这些文本中的出现频次;最后,选取出现频次最高的若干词语生成词云。

3、然而,上述过程生成的词云不能准确的反应特定场景中的关键信息。


技术实现思路

1、本公开实施例提供一种词云生成方法及设备,可以使词云准确的反应特定场景中的关键信息。

2、第一方面,本公开实施例提供一种词云生成方法,所述方法包括:

3、通过词典中的词语对第一文本进行分词得到多个第一词语,所述词典中包括置信度大于或等于第一置信度阈值的至少一种长度的第二词语,所述第二词语是从预设时间周期内生成的第二文本中预先提取得到的,所述置信度与所述第二词语在所述第二文本中的出现频次正相关,所述置信度与所述第二词语中的各个字分别在所述第二文本中的出现频次负相关;

4、根据所述第一词语生成所述第一文本的词云,所述词云用于表示所述第一文本中的关键信息。

5、第二方面,本公开实施例提供一种词云生成装置,所述装置包括:

6、分词模块,用于通过词典中的词语对第一文本进行分词得到多个第一词语,所述词典中包括置信度大于或等于第一置信度阈值的至少一种长度的第二词语,所述第二词语是从预设时间周期内生成的第二文本中预先提取得到的,所述置信度与所述第二词语在所述第二文本中的出现频次正相关,所述置信度与所述第二词语中的各个字分别在所述第二文本中的出现频次负相关;

7、词云生成模块,用于根据所述第一词语生成所述第一文本的词云,所述词云用于表示所述第一文本中的关键信息。

8、第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;

9、所述存储器存储计算机执行指令;

10、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述电子设备实现如第一方面所述的方法。

11、第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,使计算设备实现如第一方面所述的方法。

12、第五方面,本公开实施例提供一种计算机程序,所述计算机程序用于实现如第一方面所述的方法。

13、本公开实施例提供了一种词云生成方法及设备,该方法包括:通过词典中的词语对第一文本进行分词得到多个第一词语,词典中包括置信度大于或等于第一置信度阈值的至少一种长度的第二词语,第二词语是从预设时间周期内生成的第二文本中预先提取得到的,置信度与第二词语在第二文本中的出现频次正相关,置信度与第二词语中的各个字分别在第二文本中的出现频次负相关;根据上述第一词语生成第一文本的词云,该词云用于表示第一文本中的关键信息。本公开实施例可以准确的表示更粗粒度的第二词语的置信度,这些置信度较高的第二词语是整体出现较多的词语。该更粗粒度的第二词语是指长度比词典中最小粒度的第三词语更长的词语,其可以更准确的表示关键信息。从而,将置信度较高的更粗粒度的第二词语添加到词典中,可以使生成词云所使用的词语包括这些更粗粒度的词语,这些更粗粒度的词语有助于提高词云反应关键信息的准确度。此外,由于添加到词典中的词语是置信度较高的第二词语,从而可以避免向词典中添加的词语过多,进而有助于避免词典过大而导致的分词过程较长的问题。



技术特征:

1.一种词云生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述置信度是根据所述第二词语在所述第二文本中的出现频次与目标取值的比值确定的;

3.根据权利要求1所述的方法,其特征在于,所述词典中还包括第三词语,至少两个所述第三词语构成一个所述第二词语,所述第一置信度阈值是通过以下步骤预先生成的:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一词语生成所述第一文本的词云,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述第四词语和构成所述第四词语的第一词语之外的词语,生成所述第一文本的词云,包括:

6.根据权利要求4所述的方法,其特征在于,所述根据所述第四词语和构成所述第四词语的第一词语之外的词语,生成所述第一文本的词云,包括:

7.根据权利要求4至6任一项所述的方法,其特征在于,所述第二置信度阈值是通过以下步骤预先生成的:

8.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述第一词语生成所述第一文本的词云,包括:

9.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述第一词语生成所述第一文本的词云之前,还包括:

10.根据权利要求9所述的方法,其特征在于,所述针对每个所述第一文本,根据所述第一词语在所述第一文本中的出现次数和出现所述第一词语的第一文本的数量,确定每个所述第一词语的重要性参数,包括:

11.根据权利要求10所述的方法,其特征在于,所述根据所述出现频率和所述逆文档频率确定所述第一词语的重要性参数,包括:

12.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述第一词语生成所述第一文本的词云,包括:

13.一种词云生成装置,其特征在于,所述装置包括:

14.一种电子设备,其特征在于,包括:至少一个处理器和存储器;

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,使计算设备实现如权利要求1至12任一项所述的方法。

16.一种计算机程序,其特征在于,所述计算机程序用于实现如权利要求1至12任一项所述的方法。


技术总结
本公开提供一种词云生成方法及设备,涉及计算机处理技术领域。该方法包括:通过词典中的词语对第一文本进行分词得到第一词语,词典中包括置信度大于或等于第一置信度阈值的第二词语,第二词语是从预设时间周期内生成的第二文本中预先提取得到的,置信度与第二词语在第二文本中的出现频次正相关,且与第二词语中的各个字分别在第二文本中的出现频次负相关;根据第一词语生成第一文本的词云。本公开可以将置信度较高的第二词语添加到词典中,这些第二词语是最小粒度的两个第三词语构成的,从而可以使生成词云所使用的词语包括这些更粗粒度的第二词语,由于这些更粗粒度的词语更能准确的表示关键信息,有助于提高词云反应关键信息的准确度。

技术研发人员:费志辉,陈超群,薛驰,由勇,马国俊
受保护的技术使用者:北京字跳网络技术有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1