技术特征:
1.一种多标签文本分类方法,其特征在于,所述方法包括:获取多标签文本数据集,所述多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;所述预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,所述目标文本分类工具包括目标文本分类模型和目标规则引擎;基于所述目标文本分类工具处理待分类文本数据获得目标分类结果。2.根据权利要求1所述的多标签文本分类方法,其特征在于,所述获取多标签文本数据集之后,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具之前,所述方法还包括:按预设比例将所述多标签文本数据集分为训练集、验证集和测试集;所述预设文本分类模型至少包括deberta预训练语言模型模块、全连接层模块和激活函数模块;所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具包括:基于所述训练集和预设训练参数训练所述预设文本分类工具以确定所述预设文本分类模型的学习参数并基于所述验证集选择所述预设文本分类模型的超参数获得中间文本分类模型;基于所述测试集测试所述中间文本分类模型直至所述中间文本分类模型收敛平稳获得目标文本分类模型。3.根据权利要求2所述的多标签文本分类方法,其特征在于,所述获取多标签文本数据集之后,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具之前,所述方法还包括:预处理所述标注有类别标签的个人健康信息文本数据,包括:按照每行包括文本数据和类别标签的格式处理所述标注有类别标签的个人健康信息文本数据;所述类别标签至少有两个,所述类别标签之间以分隔符
‘
|’分割;编码处理所述文本数据以生成文本编码向量,并转化所述类别标签生成标签one-hot的表示。4.根据权利要求3所述的多标签文本分类方法,其特征在于,所述基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具还包括:分析所述标注有类别标签的个人健康信息文本数据获得提炼规则;将所述提炼规则逐个写入所述预设规则引擎获得所述目标规则引擎以根据不同类别处理相应规则。5.根据权利要求1所述的多标签文本分类方法,其特征在于,所述基于所述目标文本分类工具处理待分类文本数据获得目标分类结果之前,所述方法还包括:部署所述目标文本分类工具至服务器端,并设置restfulapi接口以供调用所述目标文本分类工具。6.根据权利要求5所述的多标签文本分类方法,其特征在于,所述基于所述目标文本分类工具处理待分类文本数据获得目标分类结果包括:
接收待分类文本数据;基于所述目标文本分类模型处理所述待分类文本数据获得模型输出结果,所述模型输出结果为输出类别或其他;若所述模型输出结果为输出类别,则基于所述输出类别触发所述目标规则引擎校验所述待分类文本数据;若校验通过,则输出目标分类结果为所述模型输出类别。7.根据权利要求6所述的多标签文本分类方法,其特征在于,所述方法还包括:若所述模型输出结果为其他,保存所述待分类文本数据以供优化所述目标文本分类工具。8.根据权利要求6所述的多标签文本分类方法,其特征在于,若校验不通过,则保存所述待分类文本数据并反馈所述校验结果至所述目标文本分类模型以迭代优化所述目标文本分类模型。9.一种多标签文本分类系统,其特征在于,所述系统包括:获取模块,用于获取多标签文本数据集,所述多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;训练模块,用于基于所述多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;所述预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,所述目标文本分类工具包括目标文本分类模型和目标规则引擎;处理模块,用于基于所述目标文本分类工具处理待分类文本数据获得目标分类结果。10.一种计算机设备,其特征在于,包括:一个或多个处理器;以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行根据权利要求1-8中任一所述的方法。
技术总结
本申请公开了一种多标签文本分类方法、系统及计算机设备,方法包括:获取多标签文本数据集,多标签文本数据集中包括标注有类别标签的个人健康信息文本数据;基于多标签文本数据集训练预先建立的文本分类工具获得目标文本分类工具;预先建立的文本分类工具包括预设文本分类模型和预设规则引擎,目标文本分类工具包括目标文本分类模型和目标规则引擎;基于所述目标文本分类工具处理待分类文本数据获得目标分类结果;采用文本分类模型和规则引擎结合处理多标签文本数据集获得分类结果,兼顾了分类模型中的不同类别之间的相关性,并且分类精度提升5%,有效提高了多标签文本数据分类的准确性。的准确性。的准确性。
技术研发人员:秦峰 张立波
受保护的技术使用者:上海众至科技有限公司
技术研发日:2022.05.31
技术公布日:2022/8/30