一种长文本分类方法、装置、计算机设备和可读存储介质与流程

文档序号:28101486发布日期:2021-12-22 11:33阅读:来源:国知局

技术特征:
1.一种长文本分类方法,其特征在于,包括:获取待分类文本;根据预定长度对所述待分类文本进行分割,得到所述待分类文本对应的多个短文本;将所述多个短文本依次输入至预设微调模型,得到所述多个短文本对应的多个词向量序列,其中,所述预设微调模型是预先使用训练文本对预设bert模型进行微调后得到的;生成与所述多个词向量序列对应的多个特征向量;根据所述多个特征向量获取所述待分类文本对应的分类结果。2.如权利要求1所述的长文本分类方法,其特征在于,在所述根据预定长度对所述待分类文本进行分割之前,还包括:对所述待分类文本进行预处理,所述预处理包括过滤标点符号、补齐缩写、过滤空格、过滤非法字符中的一种或者多种;所述根据预定长度对所述待分类文本进行分割具体为:根据预定长度对预处理后的待分类文本进行分割。3.如权利要求1所述的长文本分类方法,其特征在于,在将所述多个短文本依次输入至预设微调模型之前,还包括:获取所述预设微调模型。4.如权利要求3所述的长文本分类方法,其特征在于,所述获取所述预设微调模型包括:获取所述训练文本和所述训练文本对应的分类标签;根据所述预定长度对所述训练文本进行分割,得到第一个短文本;确定所述第一个短文本对应的向量编码、句子编码和位置编码;根据所述向量编码、句子编码和位置编码生成输入向量;将所述输入向量输入到所述预设bert模型中,得到所述第一个短文本对应的词向量序列;根据所述第一个短文本对应的词向量序列和所述分类标签对所述预设bert模型进行微调,得到所述预设微调模型。5.如权利要求4所述的长文本分类方法,其特征在于,根据所述向量编码、句子编码和位置编码生成输入向量,包括:对所述向量编码、句子编码和位置编码进行相加处理,获得所述输入向量。6.如权利要求1

5任一项所述的长文本分类方法,其特征在于,所述生成与所述多个词向量序列对应的多个特征向量,包括:利用预设lstm网络对所述多个词向量序列进行深度编码,得到与所述多个词向量序列对应的多个特征向量。7.一种长文本分类装置,其特征在于,包括:文本获取模块,用于获取待分类文本;分割模块,与所述文本获取模块相连,用于根据预定长度对所述待分类文本进行分割,得到所述待分类文本对应的多个短文本;序列获取模块,与所述分割模块相连,用于将所述多个短文本依次输入至预设微调模型,得到所述多个短文本对应的多个词向量序列,其中,所述预设微调模型是预先使用训练
文本对预设bert模型进行微调后得到的;生成模块,与所述序列获取模块相连,用于生成与所述多个词向量序列对应的多个特征向量;分类模块,与所述生成模块相连,用于根据所述多个特征向量获取所述待分类文本对应的分类结果。8.如权利要求7所述的长文本分类装置,其特征在于,还包括:预处理模块,分别与所述文本获取模块和所述分割模块相连,用于对所述待分类文本进行预处理,所述预处理包括过滤标点符号、补齐缩写、过滤空格、过滤非法字符中的一种或者多种;所述分割模块,具体用于根据预定长度对预处理后的待分类文本进行分割。9.如权利要求7所述的长文本分类装置,其特征在于,还包括:模型获取模块,与所述序列获取模块相连,用于获取所述预设微调模型。10.如权利要求9所述的长文本分类装置,其特征在于,所述模型获取模块包括:文本获取单元,用于获取所述训练文本和所述训练文本对应的分类标签;分割单元,与所述文本获取单元相连,用于根据所述预定长度对所述训练文本进行分割,得到第一个短文本;确定单元,与所述分割单元相连,用于确定所述第一个短文本对应的向量编码、句子编码和位置编码;向量生成单元,与所述确定单元相连,用于根据所述向量编码、句子编码和位置编码生成输入向量;序列获取单元,与所述向量生成单元相连,用于将所述输入向量输入到所述预设bert模型中,得到所述第一个短文本对应的词向量序列;训练单元,分别与所述文本获取单元和序列获取单元相连,用于根据所述第一个短文本对应的词向量序列和所述分类标签对所述预设bert模型进行微调,得到所述预设微调模型。11.如权利要求10所述的长文本分类装置,其特征在于,所述向量生成单元,具体用于:对所述向量编码、句子编码和位置编码进行相加处理,获得所述输入向量。12.如权利要求7

11任一项所述的长文本分类装置,其特征在于,所述生成模块,具体用于:利用预设lstm网络对所述多个词向量序列进行深度编码,得到与所述多个词向量序列对应的多个特征向量。13.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1

6中任一所述的长文本分类方法。14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1

6中任一所述的长文本分类方法。

技术总结
本申请提出一种长文本分类方法、装置、计算机设备和可读存储介质,涉及文本分类技术领域,其中,该方法包括:获取待分类文本;根据预定长度对待分类文本进行分割得到待分类文本对应的多个短文本;将多个短文本依次输入至预先训练的微调模型得到多个短文本对应的多个词向量序列,其中,预设微调模型是预先使用训练文本对预设BERT模型进行微调后得到的;生成与多个词向量序列对应的多个特征向量;根据多个特征向量获取待分类文本对应的分类结果。上述方案通过预先使用训练文本对预设BERT模型进行微调,微调后的预设微调模型能捕捉上下文信息,便于识别多义字词,精确提取待分类文本的特征,进而实现对待分类文本的精确分类。进而实现对待分类文本的精确分类。进而实现对待分类文本的精确分类。


技术研发人员:张盼盼 邓积杰 林星 白兴安 徐扬
受保护的技术使用者:北京微播易科技股份有限公司
技术研发日:2021.09.07
技术公布日:2021/12/21
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1