文本主题分割方法、装置、设备及存储介质与流程

文档序号:40916169发布日期:2025-02-14 21:28阅读:5来源:国知局
文本主题分割方法、装置、设备及存储介质与流程

本发明涉及人工智能领域和金融科技领域,尤其涉及文本主题分割方法、装置、设备及存储介质。


背景技术:

1、文本主题分割的好处在于它能够将复杂或庞大的主题内容划分为多个清晰、独立且相互关联的部分。用户可以只阅读感兴趣的部分,这样极大地提升了用户的阅读体验。

2、然而,现有当前文本主题的主题内容的分割过程繁琐,不利于提高分割效率。其原因在于,现有技术主要采用人工分割的方式,来分割当前文本主题的主题内容,而人工分割的方式增加了当前文本主题的主题内容的分割时间,且容易受到人为因素的影响,因此,不利于提高主题内容的分割效率。


技术实现思路

1、本发明提供一种文本主题分割方法、装置、计算机设备及存储介质,以解决现有当前文本主题的主题内容的分割过程繁琐,不利于提高分割效率的技术问题。

2、第一方面,提供了一种文本主题分割方法,包括:

3、获取预设文本数据的预设文本主题和所述预设文本主题对应的预设文本分割点;

4、通过深度学习模型的词嵌入模型,获取所述预设文本主题的句子对应的第一向量;

5、通过所述深度学习模型的编码器,将所述第一向量分别转换成所述句子对应的第一特征向量和所述句子对应的第二特征向量;

6、根据所述句子对应的第一特征向量和所述句子对应的第二特征向量以及预定义的生成方式,生成所述预设文本主题对应的预设主题特征;

7、获取所述预设主题特征和所述预设文本分割点的特征之间的相似度分数,根据所述相似度分数以及预定义的设置方式,设置正样本对和负样本对;

8、根据所述正样本和所述负样本训练所述深度学习模型,获取训练完成的所述深度学习模型输出的当前文本分割点,通过所述当前文本分割点,分割出当前文本主题的主题内容。

9、进一步地,所述通过深度学习模型的词嵌入模型,获取所述预设文本主题的句子对应的第一向量,包括:

10、获取所述预设文本主题对应的多个句子;

11、通过深度学习模型的词嵌入模型对所述句子的语义单元进行特征提取,生成所述句子对应的第一向量。

12、进一步地,所述通过所述深度学习模型的编码器,将所述第一向量分别转换成所述句子对应的第一特征向量和所述句子对应的第二特征向量,包括:

13、将所述第一向量输入到所述深度学习模型的编码器中,获取所述编码器内置的dropout层;

14、通过使用所述dropout层的所述编码器,将所述第一向量分别转换成所述句子对应的第一特征向量和所述句子对应的第二特征向量。

15、进一步地,所述根据所述句子对应的第一特征向量和所述句子对应的第二特征向量以及预定义的生成方式,生成所述预设文本主题对应的预设主题特征,包括:

16、将所述句子对应的第一特征向量和所述句子对应的第二特征向量进行组合,得到所述句子对应的第三特征向量;

17、将多个所述句子对应的第三特征向量输入所述深度学习模型的平均池化层中,使用所述平均池化层对多个所述句子对应的第三特征向量进行平均池化,生成所述预设文本主题对应的预设主题特征。

18、进一步地,所述获取所述预设主题特征和所述预设文本分割点的特征之间的相似度分数,根据所述相似度分数以及预定义的设置方式,设置正样本对和负样本对,包括:

19、计算所述预设主题特征和所述预设文本分割点的特征之间的相似度分数;

20、将所述相似度分数大于预设分数的所述预设主题特征和所述预设文本分割点的特征设置为正样本对,将所述相似度分数不大于预设分数的所述预设主题特征和所述预设文本分割点的特征设置为负样本对。

21、进一步地,所述根据所述正样本和所述负样本训练所述深度学习模型,获取训练完成的所述深度学习模型输出的当前文本分割点,通过所述当前文本分割点,分割出当前文本主题的主题内容,包括:

22、使用对比损失函数,以最小化所述正样本对之间的距离和最大化所述负样本对之间的距离为训练目标,训练所述深度学习模型,在所述深度学习模型的训练过程中,获取所述对比损失函数的损失值的降低幅度;

23、当所述降低幅度小于预设阈值时,停止训练所述深度学习模型,保存训练完成的所述深度学习模型,获取当前文本数据的当前文本主题,获取所述当前文本主题的当前主题特征,将所述当前主题特征输入训练完成的所述深度学习模型中,获取训练完成的所述深度学习模型基于所述当前主题特征输出的当前文本分割点,通过所述当前文本分割点,在当前文本数据中分割出所述当前文本主题的主题内容。

24、进一步地,在所述根据所述正样本和所述负样本训练所述深度学习模型,获取训练完成的所述深度学习模型输出的当前文本分割点,通过所述当前文本分割点,分割出当前文本主题的主题内容之后,所述文本主题分割方法,包括:

25、连接预设的服务端,向所述服务端上传所述当前文本主题以及分割后的所述主题内容。

26、第二方面,提供了一种文本主题分割装置,包括:

27、第一获取模块,用于获取预设文本数据的预设文本主题和所述预设文本主题对应的预设文本分割点;

28、第二获取模块,用于通过深度学习模型的词嵌入模型,获取所述预设文本主题的句子对应的第一向量;

29、转换模块,用于通过所述深度学习模型的编码器,将所述第一向量分别转换成所述句子对应的第一特征向量和所述句子对应的第二特征向量;

30、生成模块,用于根据所述句子对应的第一特征向量和所述句子对应的第二特征向量以及预定义的生成方式,生成所述预设文本主题对应的预设主题特征;

31、设置模块,用于获取所述预设主题特征和所述预设文本分割点的特征之间的相似度分数,根据所述相似度分数以及预定义的设置方式,设置正样本对和负样本对;

32、分割模块,用于根据所述正样本和所述负样本训练所述深度学习模型,获取训练完成的所述深度学习模型输出的当前文本分割点,通过所述当前文本分割点,分割出当前文本主题的主题内容。

33、第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述文本主题分割方法的步骤。

34、第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述文本主题分割方法的步骤。

35、本技术提供一种文本主题分割方法、装置、计算机设备及存储介质,获取预设文本数据的预设文本主题和所述预设文本主题对应的预设文本分割点;通过深度学习模型的词嵌入模型,获取所述预设文本主题的句子对应的第一向量;通过所述深度学习模型的编码器,将所述第一向量分别转换成所述句子对应的第一特征向量和所述句子对应的第二特征向量;根据所述句子对应的第一特征向量和所述句子对应的第二特征向量以及预定义的生成方式,生成所述预设文本主题对应的预设主题特征;获取所述预设主题特征和所述预设文本分割点的特征之间的相似度分数,根据所述相似度分数以及预定义的设置方式,设置正样本对和负样本对;根据所述正样本和所述负样本训练所述深度学习模型,获取训练完成的所述深度学习模型输出的当前文本分割点,通过所述当前文本分割点,分割出当前文本主题的主题内容,有益效果在于两方面,一方面,由于无需人工分割,因此减少了当前文本主题的主题内容的分割时间,有利于提高当前文本主题的主题内容的分割效率;另一方面,由于深度学习模型,不会受到人为因素的影响,因此有利于提升分割到的所述当前文本主题的主题内容的可靠性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1