基于人工智能的文本主题生成方法、装置、设备及介质与流程

文档序号:30091973发布日期:2022-05-18 09:22阅读:148来源:国知局
基于人工智能的文本主题生成方法、装置、设备及介质与流程

1.本技术涉及到人工智能技术领域,特别是涉及到一种基于人工智能的文本主题生成方法、装置、设备及介质。


背景技术:

2.在日常的自然语言处理任务中,文本主题模型一直以来都是工业中使用最为广泛的模型之一,通过文本主题模型可以将海量文档归类,从而便于日常筛选、管理以及运用。
3.当前工业界使用最多的文本主题模型依然是lda(latent dirichlet allocation)模型和plsa(probabilistic latent semantic analysis)模型,这两者皆以统计词频为基础。虽然lda模型和plsa模型在工业界的应用都较为广泛,但是都需要预先设置主题的数量,仅仅依赖统计的方法,捕获不到文本中所蕴含的语义信息,导致文本主题的准确性较低。


技术实现要素:

4.本技术的主要目的为提供一种基于人工智能的文本主题生成方法、装置、设备及介质,旨在解决现有技术的lda模型和plsa模型,仅仅依赖统计的方法,捕获不到文本中所蕴含的语义信息,导致文本主题的准确性较低的技术问题。
5.为了实现上述发明目的,本技术提出一种基于人工智能的文本主题生成方法,所述方法包括:
6.获取目标文本集;
7.对所述目标文本集中的每个所述目标文本进行句子向量生成;
8.采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集;
9.从指定句子向量聚类集对应的各个所述目标文本中分别进行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题,其中,所述指定句子向量聚类集是任一个所述句子向量聚类集。
10.进一步的,所述获取目标文本集的步骤,包括:
11.获取多个小说简介文本;
12.对每个所述小说简介文本进行数据清洗,得到每个所述小说简介文本对应的所述目标文本;
13.将各个所述小说简介文本各自对应的所述目标文本作为所述目标文本集。
14.进一步的,所述对所述目标文本集中的每个所述目标文本进行句子向量生成的步骤,包括:
15.将所述目标文本集中的每个所述目标文本输入预设的句子向量生成模型进行所述句子向量生成,其中,所述句子向量生成模型是基于bert模型训练得到模型。
16.进一步的,所述采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进
行聚类,得到多个句子向量聚类集的步骤,包括:
17.设置数量与所述聚类数量相同的聚类中心,并对每个所述聚类中心进行初始化;
18.计算每个所述句子向量与每个所述聚类中心之间的向量距离;
19.根据各个所述向量距离,将各个所述句子向量按照最小距离原则分配到最邻近的所述聚类中心对应的初始聚类集;
20.对每个所述初始聚类集进行向量平均值计算,得到每个所述初始聚类集对应的向量平均值;
21.将指定向量平均值作为与所述指定向量平均值对应的所述初始聚类集的所述聚类中心,其中,所述指定向量平均值是任一个所述向量平均值;
22.重复执行所述计算每个所述句子向量与每个所述聚类中心之间的向量距离的步骤,直至每个所述初始聚类集对应的所述聚类中心不再变化;
23.将每个所述初始聚类集作为一个所述句子向量聚类集。
24.进一步的,所述计算每个所述句子向量与每个所述聚类中心之间的向量距离的步骤,包括:
25.采用余弦相似度算法,计算每个所述句子向量与每个所述聚类中心之间的所述向量距离。
26.进一步的,所述采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集的步骤,还包括:
27.采用预设的降维算法,对每个所述句子向量进行降维处理;
28.采用k-means聚类算法和所述聚类数量,对降维处理后的各个所述句子向量进行聚类,得到多个所述句子向量聚类集。
29.进一步的,所述从指定句子向量聚类集对应的各个所述目标文本中分别进行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题的步骤,包括:
30.将所述指定句子向量聚类集对应的各个所述目标文本合并成一个文档,得到目标文档;
31.对所述目标文档进行分词,得到初始词语集;
32.对初始词语集进行词语去重,得到目标词语集;
33.采用tf-idf算法和所述初始词语集,对所述目标词语集中的每个词语进行tf-idf权重值计算;
34.将各个所述tf-idf权重值进行倒序排序,得到tf-idf权重值集;
35.采用从开头开始获取的方法,从所述tf-idf权重值集中获取数量与预设的词语数量相同的所述tf-idf权重值,得到tf-idf权重值集;
36.将所述tf-idf权重值集对应的各个词语,作为与所述指定句子向量聚类集对应的所述目标文本主题。
37.本技术还提出了一种基于人工智能的文本主题生成装置,所述装置包括:
38.数据获取模块,用于获取目标文本集;
39.句子向量生成模块,用于对所述目标文本集中的每个所述目标文本进行句子向量生成;
40.聚类模块,用于采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集;
41.目标文本主题生成模块,用于从指定句子向量聚类集对应的各个所述目标文本中分别进行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题,其中,所述指定句子向量聚类集是任一个所述句子向量聚类集。
42.本技术还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
43.本技术还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
44.本技术的基于人工智能的文本主题生成方法、装置、设备及介质,其中方法通过获取目标文本集;对所述目标文本集中的每个所述目标文本进行句子向量生成;采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集;从指定句子向量聚类集对应的各个所述目标文本中分别进行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题,其中,所述指定句子向量聚类集是任一个所述句子向量聚类集。通过对目标文本进行句子向量生成,以提取到目标文本中蕴含的语义信息,从而在后续的聚类中,将具有相同语义信息的句子向量聚类到同一个聚类集中,有效的提高了聚类集的语义效果;采用tf-idf算法从具有语义效果的每个聚类集对应的各个目标文本中提取出文本主题,实现了将统计的方法和基于语义信息的方法相结合,提高了泛化性,提高了确定的文本主题的准确性。
附图说明
45.图1为本技术一实施例的基于人工智能的文本主题生成方法的流程示意图;
46.图2为本技术一实施例的基于人工智能的文本主题生成装置的结构示意框图;
47.图3为本技术一实施例的计算机设备的结构示意框图。
48.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
49.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
50.参照图1,本技术实施例中提供一种基于人工智能的文本主题生成方法,所述方法包括:
51.s1:获取目标文本集;
52.s2:对所述目标文本集中的每个所述目标文本进行句子向量生成;
53.s3:采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集;
54.s4:从指定句子向量聚类集对应的各个所述目标文本中分别进行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题,其中,所述指定句子向量聚类集是任一个所述句子向量聚类集。
55.本实施例通过对目标文本进行句子向量生成,以提取到目标文本中蕴含的语义信息,从而在后续的聚类中,将具有相同语义信息的句子向量聚类到同一个聚类集中,有效的提高了聚类集的语义效果;采用tf-idf算法从具有语义效果的每个聚类集对应的各个目标文本中提取出文本主题,实现了将统计的方法和基于语义信息的方法相结合,提高了泛化性,提高了确定的文本主题的准确性。
56.对于s1,可以获取用户输入的目标文本集,也可以从数据库中获取目标文本集,还可以从第三方应用系统中获取目标文本集。
57.目标文本集中包括一个或多个目标文本。目标文本,是包含一句或多句话的文本。
58.对于s2,将所述目标文本集中的每个所述目标文本进行句子向量生成,从而使句子向量提取到了目标文本中蕴含的语义信息。
59.对于s3,采用k-means聚类算法,将各个所述句子向量聚类到数量与聚类数量相同的聚类集,将聚类得到的每个聚类集作为一个句子向量聚类集。因句子向量具有语义信息,从而将具有相同语义信息的句子向量聚类到同一个聚类集中,有效的提高了聚类集的语义效果。
60.所述聚类数量是大于1的整数。
61.k-means聚类算法,也就是k均值聚类算法。
62.对于s4,采用tf-idf算法,对指定句子向量聚类集对应的各个所述目标文本进行tf-idf权重值计算,根据各个tf-idf权重值提取出一个或多个tf-idf权重值,将提取得到个各个tf-idf权重值对应的各个词语作为与所述指定句子向量聚类集对应的目标文本主题。实现了采用tf-idf算法从具有语义效果的每个聚类集对应的各个目标文本中提取出文本主题,实现了将统计的方法和基于语义信息的方法相结合,提高了泛化性,提高了确定的文本主题的准确性。
63.tf-idf(term frequency

inverse document frequency),是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词。
64.可以理解的是,与所述指定句子向量聚类集对应的目标文本主题,是所述指定句子向量聚类集对应的各个所述目标文本的文本主题。
65.在一个实施例中,上述获取目标文本集的步骤,包括:
66.s11:获取多个小说简介文本;
67.s12:对每个所述小说简介文本进行数据清洗,得到每个所述小说简介文本对应的所述目标文本;
68.s13:将各个所述小说简介文本各自对应的所述目标文本作为所述目标文本集。
69.本实施例实现了对小说简介文本进行数据清洗后作为目标文本,从而使本技术确定的目标文本主题可以用于小说分类、小说推荐;通过数据清洗减少了噪音干扰,提高了确定的目标文本主题的准确性。
70.对于s11,可以获取用户输入的多个小说简介文本,也可以从数据库中获取多个小说简介文本,还可以从第三方应用系统中获取多个小说简介文本。
71.小说简介文本,是一篇小说的简介文本。
72.可选的,小说简介文本是大于预设字数的文本。
73.可选的,所述预设字数设为1024。
74.对于s12,小说简介文本中有大量的无用字符,比如,书名号、作为修饰的重复标点符号、空白符号、链接符号,这些无用字符会影响生成的句子向量蕴含的语义信息的准确性,因此需要对每个所述小说简介文本进行数据清洗,将数据清洗后的小说简介文本作为目标文本。
75.其中,采用预设的正则表达式,对每个所述小说简介文本进行无用字符删除处理,将无用字符删除处理后的每个所述小说简介文本作为一个所述目标文本,从而得到了没有噪音的文本。
76.对于s13,将各个所述小说简介文本对应的各个所述目标文本作为所述目标文本集,从而实现将没有噪音的各个目标文本作为所述目标文本集,基于没有噪声的目标文本集提取文本主题,提高了确定的文本主题的准确性。
77.在一个实施例中,上述对所述目标文本集中的每个所述目标文本进行句子向量生成的步骤,包括:
78.s21:将所述目标文本集中的每个所述目标文本输入预设的句子向量生成模型进行所述句子向量生成,其中,所述句子向量生成模型是基于bert模型训练得到模型。
79.本实施例实现了采用基于bert模型训练得到模型进行句子向量的生成,有利于提高提取目标文本中蕴含的语义信息,进一步提高了确定的文本主题的准确性。
80.对于s21,将所述目标文本集中的每个所述目标文本输入预设的句子向量生成模型,获取句子向量生成模型的编码层输出的所述句子向量。
81.可选的,从模型库中获取与所述目标文本集对应的文本类型的句子向量生成模型,采用获取的句子向量生成模型对所述目标文本集中的每个所述目标文本进行句子向量生成。通过采用相同文本类型的句子向量生成模型对目标文本进行句子向量生成,进一步提高了提取目标文本中蕴含的语义信息。
82.可选的,bert(bidirectional encoder representations from transformers)模型采用bert base模型。
83.在一个实施例中,上述采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集的步骤,包括:
84.s311:设置数量与所述聚类数量相同的聚类中心,并对每个所述聚类中心进行初始化;
85.s312:计算每个所述句子向量与每个所述聚类中心之间的向量距离;
86.s313:根据各个所述向量距离,将各个所述句子向量按照最小距离原则分配到最邻近的所述聚类中心对应的初始聚类集;
87.s314:对每个所述初始聚类集进行向量平均值计算,得到每个所述初始聚类集对应的向量平均值;
88.s315:将指定向量平均值作为与所述指定向量平均值对应的所述初始聚类集的所述聚类中心,其中,所述指定向量平均值是任一个所述向量平均值;
89.s316:重复执行所述计算每个所述句子向量与每个所述聚类中心之间的向量距离的步骤,直至每个所述初始聚类集对应的所述聚类中心不再变化;
90.s317:将每个所述初始聚类集作为一个所述句子向量聚类集。
91.本实施例采用k-means聚类算法和预设的聚类数量,对具有语义效果的各个所述
句子向量进行聚类,从而使聚类得到的句子向量聚类集中的各个句子向量具有相同语义信息。
92.对于s311,设置数量与所述聚类数量相同的聚类中心,也就是聚类中心的数量与聚类数量相同。
93.对每个所述聚类中心进行初始化的方法在此不做赘述。
94.对于s312,计算每个所述句子向量与每个所述聚类中心之间的向量距离,也就是说,所述句子向量的数量与所述聚类中心的数量的乘积等于向量距离的数量。
95.对于s313,将任一个所述句子向量作为待处理句子向量;将所述待处理句子向量对应的各个所述向量距离中找出值为最小的所述向量距离作为目标向量距离;将所述待处理句子向量分配到与所述目标向量距离对应的所述聚类中心对应的初始聚类集。
96.对于s314,对每个所述初始聚类集中的各个所述句子向量进行向量平均值计算。
97.对于s315,将指定向量平均值作为与所述指定向量平均值对应的所述初始聚类集的所述聚类中心,从而实现了对聚类中心的更新。
98.对于s316,重复执行所述计算每个所述句子向量与每个所述聚类中心之间的向量距离的步骤,也就是重复执行步骤s312至步骤s316,直至每个所述初始聚类集对应的所述聚类中心不再变化。当每个所述初始聚类集对应的所述聚类中心不再变化时,意味着已经实现了最优的聚类。
99.对于s317,将每个所述初始聚类集作为一个所述句子向量聚类集,从而得到了具有相同语义信息的句子向量聚类集。
100.在一个实施例中,上述计算每个所述句子向量与每个所述聚类中心之间的向量距离的步骤,包括:
101.s3121:采用余弦相似度算法,计算每个所述句子向量与每个所述聚类中心之间的所述向量距离。
102.本实施例采用余弦相似度算法作为聚类算法的向量度量指标,从而较好的度量了句子向量之间的距离,提高了聚类的准确性。
103.对于s3121,采用余弦相似度算法,计算每个所述句子向量与每个所述聚类中心之间的余弦相似度,将计算得到的余弦相似度作为向量距离。
104.在一个实施例中,上述采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集的步骤,还包括:
105.s321:采用预设的降维算法,对每个所述句子向量进行降维处理;
106.s322:采用k-means聚类算法和所述聚类数量,对降维处理后的各个所述句子向量进行聚类,得到多个所述句子向量聚类集。
107.因句子向量是高纬度的向量,高纬度的向量通常都比较稀疏,导致聚类效果较差,为了解决该问题,本实施例先对每个所述句子向量进行降维处理,然后再对降维处理后的各个所述句子向量进行聚类,从而实现通过降维降低句子向量的稀疏以提高聚类效果,进一步提高了确定的文本主题的准确性。
108.对于s321,采用预设的降维算法,对每个所述句子向量进行降维处理,以降低句子向量的稀疏性。
109.可选的,采用umap算法(降维流形学习算法),对每个所述句子向量进行降维处理。
110.比如,所述句子向量是采用基于bert模型训练得到模型生成是,所述句子向量具有768维度,通过umap算法对所述句子向量降维处理之后,所述句子向量将变成远小于768维度的向量。
111.对于s322,采用k-means聚类算法和所述聚类数量,对降维处理后的各个所述句子向量进行聚类,可以采用步骤s311至步骤s316的方法,也就是说,将步骤s311至步骤s316中的所述句子向量替换为降维处理后的所述句子向量。
112.在一个实施例中,上述从指定句子向量聚类集对应的各个所述目标文本中分别进行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题的步骤,包括:
113.s41:将所述指定句子向量聚类集对应的各个所述目标文本合并成一个文档,得到目标文档;
114.s42:对所述目标文档进行分词,得到初始词语集;
115.s43:对初始词语集进行词语去重,得到目标词语集;
116.s44:采用tf-idf算法和所述初始词语集,对所述目标词语集中的每个词语进行tf-idf权重值计算;
117.s45:将各个所述tf-idf权重值进行倒序排序,得到tf-idf权重值集;
118.s46:采用从开头开始获取的方法,从所述tf-idf权重值集中获取数量与预设的词语数量相同的所述tf-idf权重值,得到tf-idf权重值集;
119.s47:将所述tf-idf权重值集对应的各个词语,作为与所述指定句子向量聚类集对应的所述目标文本主题。
120.本实施例将所述指定句子向量聚类集对应的各个所述目标文本合并成一个文档,然后采用tf-idf算法,对该文档中的词语进行tf-idf权重值计算,最后根据计算得到的各个tf-idf权重值提取词语作为指定句子向量聚类集对应的所述目标文本主题,实现了采用tf-idf算法从具有语义效果的每个聚类集对应的各个目标文本中提取出文本主题,实现了将统计的方法和基于语义信息的方法相结合,提高了泛化性,提高了确定的文本主题的准确性。
121.对于s41,将所述指定句子向量聚类集对应的各个所述目标文本合并成一个文档,将合并得到的文档作为目标文档。
122.对于s42,对所述目标文档进行分词,将分词得到的各个词语作为初始词语集。
123.对于s43,对初始词语集进行词语去重,词语去重后的初始词语集作为目标词语集,也就是说,目标词语集中的词语具有唯一性。
124.对于s44,采用tf-idf算法和所述初始词语集,对所述目标词语集中的每个词语进行tf-idf权重值计算的方法在此不做作赘述。
125.对于s45,将各个所述tf-idf权重值进行倒序排序,将倒序排序的各个所述tf-idf权重值作为tf-idf权重值集。
126.对于s46,采用从开头开始获取的方法,也就是从所述tf-idf权重值集的开头开始提取,以实现从最高的tf-idf权重值开始提取,提取出数量与预设的词语数量相同的所述tf-idf权重值,将提取的各个所述tf-idf权重值作为tf-idf权重值集。
127.对于s47,将所述tf-idf权重值集中的各个所述tf-idf权重值各自对应的词语作
为与所述指定句子向量聚类集对应的所述目标文本主题,实现了采用tf-idf算法从具有语义效果的每个聚类集对应的各个目标文本中提取出文本主题。
128.参照图2,本技术还提出了一种基于人工智能的文本主题生成装置,所述装置包括:
129.数据获取模块100,用于获取目标文本集;
130.句子向量生成模块200,用于对所述目标文本集中的每个所述目标文本进行句子向量生成;
131.聚类模块300,用于采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集;
132.目标文本主题生成模块400,用于从指定句子向量聚类集对应的各个所述目标文本中分别进行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题,其中,所述指定句子向量聚类集是任一个所述句子向量聚类集。
133.本实施例通过对目标文本进行句子向量生成,以提取到目标文本中蕴含的语义信息,从而在后续的聚类中,将具有相同语义信息的句子向量聚类到同一个聚类集中,有效的提高了聚类集的语义效果;采用tf-idf算法从具有语义效果的每个聚类集对应的各个目标文本中提取出文本主题,实现了将统计的方法和基于语义信息的方法相结合,提高了泛化性,提高了确定的文本主题的准确性。
134.在一个实施例中,上述数据获取模块100包括:小说简介文本获取子模块、数据清洗子模块和目标文本集确定子模块;
135.所述小说简介文本获取子模块,用于获取多个小说简介文本;
136.所述数据清洗子模块,用于对每个所述小说简介文本进行数据清洗,得到每个所述小说简介文本对应的所述目标文本;
137.所述目标文本集确定子模块,用于将各个所述小说简介文本各自对应的所述目标文本作为所述目标文本集。
138.在一个实施例中,上述句子向量生成模块200包括:句子向量确定子模块;
139.所述句子向量确定子模块,用于将所述目标文本集中的每个所述目标文本输入预设的句子向量生成模型进行所述句子向量生成,其中,所述句子向量生成模型是基于bert模型训练得到模型。
140.在一个实施例中,上述聚类模块300包括:聚类中心设置子模块、向量距离计算子模块、初始聚类集生成子模块、向量平均值计算子模块、聚类中心更新子模块、循环控制子模块和句子向量聚类集确定子模块;
141.所述聚类中心设置子模块,用于设置数量与所述聚类数量相同的聚类中心,并对每个所述聚类中心进行初始化;
142.所述向量距离计算子模块,用于计算每个所述句子向量与每个所述聚类中心之间的向量距离;
143.所述初始聚类集生成子模块,用于根据各个所述向量距离,将各个所述句子向量按照最小距离原则分配到最邻近的所述聚类中心对应的初始聚类集;
144.所述向量平均值计算子模块,用于对每个所述初始聚类集进行向量平均值计算,得到每个所述初始聚类集对应的向量平均值;
145.所述聚类中心更新子模块,用于将指定向量平均值作为与所述指定向量平均值对应的所述初始聚类集的所述聚类中心,其中,所述指定向量平均值是任一个所述向量平均值;
146.所述循环控制子模块,用于重复执行所述计算每个所述句子向量与每个所述聚类中心之间的向量距离的步骤,直至每个所述初始聚类集对应的所述聚类中心不再变化;
147.所述句子向量聚类集确定子模块,用于将每个所述初始聚类集作为一个所述句子向量聚类集。
148.在一个实施例中,上述向量距离计算子模块包括:向量距离计算单元;
149.所述向量距离计算单元,用于采用余弦相似度算法,计算每个所述句子向量与每个所述聚类中心之间的所述向量距离。
150.在一个实施例中,上述聚类模块300还包括:降维处理子模块和聚类子模块;
151.所述降维处理子模块,用于采用预设的降维算法,对每个所述句子向量进行降维处理;
152.所述聚类子模块,用于采用k-means聚类算法和所述聚类数量,对降维处理后的各个所述句子向量进行聚类,得到多个所述句子向量聚类集。
153.在一个实施例中,上述目标文本主题生成模块400包括:目标文档确定子模块、初始词语集确定子模块、目标词语集确定子模块、tf-idf权重值计算子模块、倒序排序子模块、tf-idf权重值集确定子模块和目标文本主题确定子模块;
154.所述目标文档确定子模块,用于将所述指定句子向量聚类集对应的各个所述目标文本合并成一个文档,得到目标文档;
155.所述初始词语集确定子模块,用于对所述目标文档进行分词,得到初始词语集;
156.所述目标词语集确定子模块,用于对初始词语集进行词语去重,得到目标词语集;
157.所述tf-idf权重值计算子模块,用于采用tf-idf算法和所述初始词语集,对所述目标词语集中的每个词语进行tf-idf权重值计算;
158.所述倒序排序子模块,用于将各个所述tf-idf权重值进行倒序排序,得到tf-idf权重值集;
159.所述tf-idf权重值集确定子模块,用于采用从开头开始获取的方法,从所述tf-idf权重值集中获取数量与预设的词语数量相同的所述tf-idf权重值,得到tf-idf权重值集;
160.所述目标文本主题确定子模块,用于将所述tf-idf权重值集对应的各个词语,作为与所述指定句子向量聚类集对应的所述目标文本主题。
161.参照图3,本技术实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于人工智能的文本主题生成方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的文本主题生成方法。所述基于人工智能的文本主题生成方法,包括:获取目
标文本集;对所述目标文本集中的每个所述目标文本进行句子向量生成;采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集;从指定句子向量聚类集对应的各个所述目标文本中分别进行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题,其中,所述指定句子向量聚类集是任一个所述句子向量聚类集。
162.本实施例通过对目标文本进行句子向量生成,以提取到目标文本中蕴含的语义信息,从而在后续的聚类中,将具有相同语义信息的句子向量聚类到同一个聚类集中,有效的提高了聚类集的语义效果;采用tf-idf算法从具有语义效果的每个聚类集对应的各个目标文本中提取出文本主题,实现了将统计的方法和基于语义信息的方法相结合,提高了泛化性,提高了确定的文本主题的准确性。
163.在一个实施例中,上述获取目标文本集的步骤,包括:获取多个小说简介文本;对每个所述小说简介文本进行数据清洗,得到每个所述小说简介文本对应的所述目标文本;将各个所述小说简介文本各自对应的所述目标文本作为所述目标文本集。
164.在一个实施例中,上述对所述目标文本集中的每个所述目标文本进行句子向量生成的步骤,包括:将所述目标文本集中的每个所述目标文本输入预设的句子向量生成模型进行所述句子向量生成,其中,所述句子向量生成模型是基于bert模型训练得到模型。
165.在一个实施例中,上述采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集的步骤,包括:设置数量与所述聚类数量相同的聚类中心,并对每个所述聚类中心进行初始化;计算每个所述句子向量与每个所述聚类中心之间的向量距离;根据各个所述向量距离,将各个所述句子向量按照最小距离原则分配到最邻近的所述聚类中心对应的初始聚类集;对每个所述初始聚类集进行向量平均值计算,得到每个所述初始聚类集对应的向量平均值;将指定向量平均值作为与所述指定向量平均值对应的所述初始聚类集的所述聚类中心,其中,所述指定向量平均值是任一个所述向量平均值;重复执行所述计算每个所述句子向量与每个所述聚类中心之间的向量距离的步骤,直至每个所述初始聚类集对应的所述聚类中心不再变化;将每个所述初始聚类集作为一个所述句子向量聚类集。
166.在一个实施例中,上述计算每个所述句子向量与每个所述聚类中心之间的向量距离的步骤,包括:采用余弦相似度算法,计算每个所述句子向量与每个所述聚类中心之间的所述向量距离。
167.在一个实施例中,上述采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集的步骤,还包括:采用预设的降维算法,对每个所述句子向量进行降维处理;采用k-means聚类算法和所述聚类数量,对降维处理后的各个所述句子向量进行聚类,得到多个所述句子向量聚类集。
168.在一个实施例中,上述从指定句子向量聚类集对应的各个所述目标文本中分别进行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题的步骤,包括:将所述指定句子向量聚类集对应的各个所述目标文本合并成一个文档,得到目标文档;对所述目标文档进行分词,得到初始词语集;对初始词语集进行词语去重,得到目标词语集;采用tf-idf算法和所述初始词语集,对所述目标词语集中的每个词语进行tf-idf权重值计算;将各个所述tf-idf权重值进行倒序排序,得到tf-idf权重值集;采用从开
头开始获取的方法,从所述tf-idf权重值集中获取数量与预设的词语数量相同的所述tf-idf权重值,得到tf-idf权重值集;将所述tf-idf权重值集对应的各个词语,作为与所述指定句子向量聚类集对应的所述目标文本主题。
169.本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于人工智能的文本主题生成方法,包括步骤:获取目标文本集;对所述目标文本集中的每个所述目标文本进行句子向量生成;采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集;从指定句子向量聚类集对应的各个所述目标文本中分别进行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题,其中,所述指定句子向量聚类集是任一个所述句子向量聚类集。
170.上述执行的基于人工智能的文本主题生成方法,本实施例通过对目标文本进行句子向量生成,以提取到目标文本中蕴含的语义信息,从而在后续的聚类中,将具有相同语义信息的句子向量聚类到同一个聚类集中,有效的提高了聚类集的语义效果;采用tf-idf算法从具有语义效果的每个聚类集对应的各个目标文本中提取出文本主题,实现了将统计的方法和基于语义信息的方法相结合,提高了泛化性,提高了确定的文本主题的准确性。
171.在一个实施例中,上述获取目标文本集的步骤,包括:获取多个小说简介文本;对每个所述小说简介文本进行数据清洗,得到每个所述小说简介文本对应的所述目标文本;将各个所述小说简介文本各自对应的所述目标文本作为所述目标文本集。
172.在一个实施例中,上述对所述目标文本集中的每个所述目标文本进行句子向量生成的步骤,包括:将所述目标文本集中的每个所述目标文本输入预设的句子向量生成模型进行所述句子向量生成,其中,所述句子向量生成模型是基于bert模型训练得到模型。
173.在一个实施例中,上述采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集的步骤,包括:设置数量与所述聚类数量相同的聚类中心,并对每个所述聚类中心进行初始化;计算每个所述句子向量与每个所述聚类中心之间的向量距离;根据各个所述向量距离,将各个所述句子向量按照最小距离原则分配到最邻近的所述聚类中心对应的初始聚类集;对每个所述初始聚类集进行向量平均值计算,得到每个所述初始聚类集对应的向量平均值;将指定向量平均值作为与所述指定向量平均值对应的所述初始聚类集的所述聚类中心,其中,所述指定向量平均值是任一个所述向量平均值;重复执行所述计算每个所述句子向量与每个所述聚类中心之间的向量距离的步骤,直至每个所述初始聚类集对应的所述聚类中心不再变化;将每个所述初始聚类集作为一个所述句子向量聚类集。
174.在一个实施例中,上述计算每个所述句子向量与每个所述聚类中心之间的向量距离的步骤,包括:采用余弦相似度算法,计算每个所述句子向量与每个所述聚类中心之间的所述向量距离。
175.在一个实施例中,上述采用k-means聚类算法和预设的聚类数量,对各个所述句子向量进行聚类,得到多个句子向量聚类集的步骤,还包括:采用预设的降维算法,对每个所述句子向量进行降维处理;采用k-means聚类算法和所述聚类数量,对降维处理后的各个所述句子向量进行聚类,得到多个所述句子向量聚类集。
176.在一个实施例中,上述从指定句子向量聚类集对应的各个所述目标文本中分别进
行tf-idf权重值的计算及词语提取,得到与所述指定句子向量聚类集对应的目标文本主题的步骤,包括:将所述指定句子向量聚类集对应的各个所述目标文本合并成一个文档,得到目标文档;对所述目标文档进行分词,得到初始词语集;对初始词语集进行词语去重,得到目标词语集;采用tf-idf算法和所述初始词语集,对所述目标词语集中的每个词语进行tf-idf权重值计算;将各个所述tf-idf权重值进行倒序排序,得到tf-idf权重值集;采用从开头开始获取的方法,从所述tf-idf权重值集中获取数量与预设的词语数量相同的所述tf-idf权重值,得到tf-idf权重值集;将所述tf-idf权重值集对应的各个词语,作为与所述指定句子向量聚类集对应的所述目标文本主题。
177.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
178.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
179.以上所述仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1