技术特征:
1.一种文本分类方法,其特征在于,所述方法包括:获取待分类文本数据;将所述待分类文本数据进行关键词抽取,以得到字词信息,根据字词信息进行编码,得到对应的位置信息;将所述字词信息和位置信息分别进行嵌入处理,并将经所述嵌入处理后得到的向量进行合并,得到文本矩阵;所述文本矩阵经预训练的分类模型处理,得到第一标签概率分布和第二标签概率分布,所述预训练的分类模型中包括掩码多头注意力结构;基于所述第一标签概率分布和第二标签概率分布,确定所述待分类文本数据的所属类别。2.根据权利要求1所述的文本分类方法,其特征在于,所述文本矩阵经预训练的分类模型处理包括:通过所述预训练的分类模型中的归一化层,对所述文本矩阵进行归一化处理,得到第一矩阵;所述第一矩阵通过所述预训练的分类模型中的掩码多头注意力结构进行信息提取处理,得到包含有待分类文本数据上下文信息的第二矩阵;将所述文本矩阵和所述第二矩阵进行残差连接,得到第三矩阵,再通过所述预训练的分类模型中的归一化层,对所述第三矩阵进行归一化处理,得到第四矩阵;通过所述预训练的分类模型中的前馈网络层对所述第四矩阵进行映射处理,得到第五矩阵;所述第五矩阵通过所述预训练的分类模型中的激活函数层处理,得到第六矩阵,并将所述第六矩阵与所述第四矩阵进行残差连接,得到第七矩阵,通过所述预训练的分类模型中的归一化层,对所述第七矩阵进行归一化处理,得到第八矩阵;对所述第八矩阵分别进行两次线性变换,得到第一标签矩阵和第二标签矩阵;通过所述分类模型中的softmax层,对所述第一标签矩阵和第二标签矩阵进行映射,得到所述第一标签概率分布和第二标签概率分布。3.根据权利要求2所述的文本分类方法,其特征在于,所述第一矩阵通过所述预训练的分类模型中的掩码多头注意力结构进行信息提取处理,得到包含有待分类文本数据上下文信息的第二矩阵包括:将所述第一矩阵分别与预训练后得到的多批次的参数矩阵相乘,得到多批次的q矩阵、k矩阵和v矩阵;通过将每批的所述q矩阵与所述k矩阵进行点乘,将点乘得到的第一结果再除以所述q矩阵对应维度的开方,得到第二结果,将所述第二结果与掩码矩阵相加后再经softmax计算,得到权重矩阵,所述掩码矩阵基于所述字词信息构建得到;将所述权重矩阵与对应批次的所述v矩阵相乘,得到每批次第九矩阵;通过将所有批次的第九矩阵进行拼接,并将拼接后的矩阵通过线性变换,得到所述第二矩阵。4.根据权利要求1所述的文本分类方法,其特征在于,所述基于所述第一标签概率分布和第二标签概率分布,确定所述待分类文本数据的所属类别包括:
获取所述第一标签概率分布中概率最大值对应的标签,并判断所述概率最大值是否大于等于预设数值;若所述概率最大值小于所述预设数值,则将所述第二标签概率分布中概率最大值对应的标签,作为所述待分类文本数据所属的类别,并将所述第二标签概率分布中概率最大值对应的标签保存至标签词表中;若所述概率最大值大于等于所述预设数值,则将所述第一标签概率分布中概率最大值对应的标签,作为所述待分类文本数据所属的类别。5.根据权利要求1所述的文本分类方法,其特征在于,所述将所述待分类文本数据进行关键词抽取包括:利用结巴分词对所述待分类文本数据进行分词处理,得到对应的多个字词;利用关键词抽取算法对多个所述字词进行关键词抽取,抽取预设比例的关键词,并用掩码代替所述多个字词中的所述关键词。6.根据权利要求5所述的文本分类方法,其特征在于,所述将所述待分类文本数据进行关键词抽取,以得到字词信息,根据字词信息进行编码,得到对应的位置信息包括:基于所述关键词抽取算法得到的所述关键词的权重,对所述关键词进行排序,且在每个所述关键词前设定标识符,得到关键词信息;将包含所述掩码的多个字词组成的信息与关键词信息进行合并,得到字词信息;根据所述字词信息,进行位置编码,得到对应的位置信息。7.根据权利要求6所述的文本分类方法,其特征在于,所述掩码矩阵基于所述字词信息构建得到包括:基于所述包含所述掩码的多个字词组成的信息,所述信息的各内容间相互关联,根据所述关联关系,构建第一数据;基于关键词信息中的内容接受所述字词信息中前文传递的信息,构建第二数据;将所述第一数据和第二数据进行拼接,并利用填充内容填充拼接后的空余位置,得到所述掩码矩阵。8.一种文本分类装置,其特征在于,所述装置包括:获取模块,用于获取待分类文本数据;信息提取模块,用于将所述待分类文本数据进行关键词抽取,以得到字词信息,根据字词信息进行编码,得到对应的位置信息;向量化模块,用于将所述字词信息和位置信息分别进行嵌入处理,并将经所述嵌入处理后得到的向量进行合并,得到文本矩阵;分类模块,用于所述文本矩阵经预训练的分类模型处理,得到第一标签概率分布和第二标签概率分布,所述预训练的分类模型中包括掩码多头注意力结构;输出模块,用于基于所述第一标签概率分布和第二标签概率分布,确定所述待分类文本数据的所属类别。9.一种计算机设备,其特征在于,所述计算机设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权
利要求1至7中任一所述的文本分类方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一所述的文本分类方法。
技术总结
本申请涉及人工智能技术领域,揭露了一种文本分类方法、装置、设备及存储介质,所述方法包括:获取待分类文本数据;将待分类文本数据进行关键词抽取,以得到字词信息,根据字词信息进行编码,得到对应的位置信息;将字词信息和位置信息分别进行嵌入处理,并将经嵌入处理后得到的向量进行合并,得到文本矩阵;文本矩阵经预训练的分类模型处理,得到第一标签概率分布和第二标签概率分布,预训练的分类模型中包括掩码多头注意力结构;基于第一标签概率分布和第二标签概率分布,确定待分类文本数据的所属类别。本申请还涉及区块链技术,待分类文本数据对应的类别数据存储于区块链中。本申请实现了提高分类准确率的同时,还能生成新标签。签。签。
技术研发人员:于翠翠 王伟 黄勇其 张黔
受保护的技术使用者:润联软件系统(深圳)有限公司
技术研发日:2021.09.10
技术公布日:2022/1/3