文本分类方法、装置、计算机设备及存储介质与流程

文档序号:37214375发布日期:2024-03-05 15:01阅读:16来源:国知局
文本分类方法、装置、计算机设备及存储介质与流程

本技术涉及人工智能及自然语言理解,尤其涉及一种文本分类方法、装置、计算机设备及存储介质。


背景技术:

1、在互联网飞速发展的今天,人们在各个方面对文本信息获取的要求越来越高。随着金融行业的蓬勃发展,金融行业对金融文本的分类划分提出了更高的要求,迫切要求更高效更便捷的方式来实现对金融文本的分类处理。

2、目前在对金融文本进行分类时,一般采用通用预训练模型获取金融文本的文本特征进行文本分类,但由于金融领域专有名词的更新迭代较为频繁,而且金融产品名称往往使用更具有含义的同音字替换来组成一个新词,导致现有的通用预训练模型对金融领域内新的专有名词无法准确进行文本分类。虽然现有技术还提出了通过图神经网络对文本加入图的特征,从而对词与词之间的关系及距离进行编码,进而获得一部分未知词的位置编码特征来进行分类,但是图神经网络对一些独立词的表征能力较差,同样导致金融领域内文本分类的准确性低下的问题。


技术实现思路

1、本技术提供一种文本分类方法、装置、计算机设备及存储介质,可以在文本分类时对金融文本中产生的新词及独立词的特征表征具备兼容性,从而有效提高金融文本分类的准确性。

2、第一方面,本技术提供了一种文本分类方法,包括:

3、获取待分类文本,并对所述待分类文本进行分词处理,得到所述待分类文本对应的分词结果;

4、基于预先构建的词典匹配生成所述分词结果对应的词向量集合;

5、通过注意力神经网络计算所述词向量集合对应的自注意力,得到自注意力计算结果;

6、基于所述自注意力计算结果确定所述待分类文本对应的节点特征向量;

7、通过图神经网络对所述待分类文本进行文法分析,得到所述待分类文本对应的边特征向量;

8、基于所述节点特征向量和边特征向量,对所述待分类文本进行分类,得到文本分类结果。

9、进一步地,在本技术的一些实施例中,所述词典的构建方式,包括:

10、获取金融领域内的样本数据集以及每条样本数据对应的分类标注;

11、对所述每条样本数据进行数据清洗;

12、对数据清洗后的每条样本数据进行归一化处理;

13、对归一化后的所有样本数据进行分词处理,并根据分词结果构建对应的词典。

14、进一步地,在本技术的一些实施例中,所述基于预先构建的词典匹配生成所述分词结果对应的词向量集合,包括:

15、提取所述分词结果中的每个分词;

16、在所述词典中获取所述每个分词对应的词向量,生成所述分词结果对应的词向量集合。

17、进一步地,在本技术的一些实施例中,所述通过注意力神经网络计算所述词向量集合对应的自注意力,得到自注意力计算结果,包括:

18、提取所述词向量集合中的每个词向量;

19、获取所述词向量对应的查询向量、关键字向量和值向量;

20、分别将每个词向量对应的查询向量与所有词向量对应的关键字向量进行相乘,得到每个词向量对应的第一计算结果;

21、将所述第一计算结果输入归一化函数,得到每个词向量对应的注意力权重值;

22、基于每个词向量对应的值向量和注意力权重值,计算每个词向量对应的自注意力,得到所述词向量集合对应的自注意力计算结果。

23、进一步地,在本技术的一些实施例中,所述基于所述自注意力计算结果确定所述待分类文本对应的节点特征向量,包括:

24、对所述自注意力计算结果中每个词向量对应的自注意力进行归一化处理;

25、将归一化后的多个自注意力输入至激活函数,输出得到每个分词对应的隐层词向量,并将所述隐层词向量作为所述待分类文本对应的节点特征向量。

26、进一步地,在本技术的一些实施例中,所述通过图神经网络对所述待分类文本进行文法分析,得到所述待分类文本对应的边特征向量,包括:

27、提取待分类文本中的每个分句,并获取每个分句对应的分词结果;

28、通过图神经网络对所述每个分句的句法进行依存句法分析,得到所述每个分句中的各个分词之间的依存关系;

29、基于所有分句中各个分词之间的依存关系,确定所述待分类文本对应的边特征向量。

30、进一步地,在本技术的一些实施例中,所述基于所述节点特征向量和边特征向量,对所述待分类文本进行分类,得到文本分类结果,包括:

31、将所述节点特征向量和所述边特征向量进行相加计算,得到所述待分类文本对应的融合词向量特征;

32、对所述融合词向量特征先后进行最大池化操作和均值池化操作,得到所述待分类文本对应的文本特征向量;

33、将所述文本特征向量输入至预设的多分类矩阵中,计算得到多个类别概率值;

34、通过归一化函数对所述多个类别概率值进行归一化处理后,选取概率值最高的类别作为所述待分类文本对应的文本分类结果。

35、第二方面,本技术提供了一种文本分类装置,包括:

36、分词模块,用于获取待分类文本,并对所述待分类文本进行分词处理,得到所述待分类文本对应的分词结果;

37、词向量模块,用于基于预先构建的词典匹配生成所述分词结果对应的词向量集合;

38、自注意力模块,用于通过注意力神经网络计算所述词向量集合对应的自注意力,得到自注意力计算结果;

39、节点特征向量模块,用于基于所述自注意力计算结果确定所述待分类文本对应的节点特征向量;

40、边特征向量模块,用于通过图神经网络对所述待分类文本进行文法分析,得到所述待分类文本对应的边特征向量;

41、分类模块,用于基于所述节点特征向量和边特征向量,对所述待分类文本进行分类,得到文本分类结果。

42、第三方面,本技术还提供计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述文本分类方法的步骤。

43、第四方面,本技术还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述文本分类方法的步骤。

44、如上所述,本技术提供一种文本分类方法、装置、计算机设备及存储介质,获取待分类文本,并对待分类文本进行分词处理,得到待分类文本对应的分词结果;基于预先构建的词典匹配生成分词结果对应的词向量集合;通过注意力神经网络计算词向量集合对应的自注意力,得到自注意力计算结果;基于自注意力计算结果确定待分类文本对应的节点特征向量;通过图神经网络对待分类文本进行文法分析,得到待分类文本对应的边特征向量;基于节点特征向量和边特征向量,对待分类文本进行分类,得到文本分类结果。在本技术提供的文本分类方案中,首先通过词典对分词处理后的待分类文本进行匹配,生成词向量集合,然后通过注意力神经网络计算得到词向量集合对应的自注意力计算结果,确定待分类文本的节点特征向量,接着再通过图神经网络对待分类文本进行文法分析,得到边特征向量,最后结合节点特征向量和边特征向量对待分类文本进行文本分类,得到文本分类结果,通过集成注意力神经网络和图神经网络对文本进行分类,可以在文本分类时对新词和独立词的特征表征具备兼容性,同时保证对新词和独立词的表征能力,有效提高文本分类的准确性,解决现有技术在金融文本分类时由于专用词和新词的影响导致准确性低下的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1