用于对文本进行分类的方法、装置、计算设备和存储介质与流程

文档序号：35855183发布日期：2023-10-26 00:07阅读：24来源：国知局

本发明的实施例总体涉及自然语言处理领域，并且更具体地涉及用于对文本进行分类的方法、装置、计算设备和存储介质。

背景技术：

1、文本分类，是指按照特定的分类体系或标准对文本进行分类以确定该文本的类别。通常，文本分类包括单标签文本分类(即，一个文本对应一个标签)和多标签文本分类(即，一个文本对应多个标签)，其中，多标签文本分类可进一步分为标准多标签文本分类(即，与文本对应的多个标签相互独立)和层次多标签文本分类(即，与文本对应的多个标签之间存在层级关系)。

2、对于层次多标签文本分类，在对文本进行分类时需要兼顾标签间的层级关系，避免针对同一文本生成的多个类别标签之间不具备层级关系，例如，针对某一文本生成的二级类别不是所生成的一级类别的子类别。传统的用于层次多标签文本分类的方法主要包括以下两种：一、基于统计学方法确定每级类别的词频模型，并根据经由该词频模型识别到的文本中的关键词与类别之间映射关系，确定文本的各级类别(诸如一级类别、二级类别、三级类别等，其中，二级类别为一级类别的子类别，三级类别为二级类别的子类别，以此类推)；二、基于深度学习针对不同层级分别训练对应的分类模型，并经由训练得到的不同层级的分类模型确定文本各级类别。

3、然而，在上述第一种方法中，无法综合考虑要进行分类的文本的上下文特征，容易造成类别误判；在上述第二种方法中，当不同类别的文本具有相似的语句结构和内容时，干扰大，容易造成类别误判。

4、综上，传统的用于层次多标签文本分类的方案的不足之处在于：无法综合考虑文本的上下文特征，且容易受到不同类别之间文本相似性的干扰，导致分类错误。

技术实现思路

1、针对上述问题，本发明提供了一种用于对文本进行分类的方法、计算设备和存储介质，使得能够提高文本分类的准确性，并且进一步地能够提高对文本进行层次多标签分类的准确性。

2、根据本发明的第一方面，提供了一种用于对文本进行分类的方法，包括：获取待分类的文本；基于文本，经由基于深度学习所构建的第一模型，生成文本与多个类别中的每个类别的相关性；基于文本，确定文本中的实体词；基于文本中的实体词，经由基于深度学习所构建的第二模型，生成实体词与每个类别的相关性；至少基于文本与每个类别的相关性、以及实体词与每个类别的相关性，确定文本的类别。

3、在一些实施例中，基于文本确定文本中的实体词包括：基于文本，经由基于深度学习所构建的实体识别模型，从文本中抽取实体词。

4、在一些实施例中，还包括：基于文本，确定文本中的修饰词；基于文本中的修饰词，经由第二模型，生成修饰词与每个类别的相关性；以及基于文本与每个类别的相关性、实体词与每个类别的相关性、以及修饰词与每个类别的相关性，确定文本的类别。

5、在一些实施例中，确定文本的类别包括：对文本与每个类别的相关性、实体词与每个类别的相关性、以及修饰词与每个类别的相关性进行加权求和，以确定文本的类别。

6、在一些实施例中，还包括：基于文本，经由基于深度学习所构建的第三模型，生成文本与多个子类别中的每个子类别的相关性，其中多个类别为一级类别，多个子类别为二级类别；基于文本中的实体词，经由基于深度学习所构建的第四模型，生成实体词与每个子类别的相关性；和基于文本与每个子类别的相关性、以及实体词与每个子类别的相关性，确定文本的子类别。

7、在一些实施例中，确定文本的子类别包括：基于文本中的修饰词，经由第四模型，生成修饰词与每个子类别的相关性；以及基于文本与每个子类别的相关性、实体词与每个子类别的相关性、以及修饰词与每个子类别的相关性，确定文本的子类别。

8、在一些实施例中，确定文本的子类别包括：对文本与每个子类别的相关性、实体词与每个子类别的相关性、以及修饰词与每个子类别的相关性进行加权求和，以确定文本的子类别。

9、根据本发明的第二方面，提供了一种用于对文本进行分类的装置，包括：文本获取模块，被配置为获取待分类的文本；文本与类别相关性生成模块，被配置为基于文本，经由基于深度学习所构建的第一模型，生成文本与多个类别中的每个类别的相关性；实体词确定模块，被配置为基于文本，确定文本中的实体词；实体词与类别相关性生成模块，被配置为基于文本中的实体词，经由基于深度学习所构建的第二模型，生成实体词与每个类别的相关性；文本类别确定模块，被配置为至少基于文本与每个类别的相关性、以及实体词与每个类别的相关性，确定文本的类别。

10、根据本发明的第三方面，提供了一种计算设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本发明的第一方面的方法。

11、根据本发明的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中计算机指令用于使计算机执行本发明的第一方面的方法。

12、应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种用于对文本进行分类的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述文本确定所述文本中的实体词包括：

3.根据权利要求1所述的方法，其特征在于，确定所述文本的类别包括：

4.根据权利要求3所述的方法，其特征在于，确定所述文本的类别包括：

5.根据权利要求1-4中任一所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，确定所述文本的子类别包括：

7.根据权利要求6所述的方法，其特征在于，确定所述文本的子类别包括：

8.一种用于对文本进行分类的装置，其特征在于，包括：

9.一种计算设备，包括：

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中所述计算机指令用于使计算机执行权利要求1-7中任一项所述的方法。

技术总结
本发明的实施例涉及一种用于对文本进行分类的方法，该方法包括：获取待分类的文本；基于文本，经由基于深度学习所构建的第一模型，生成文本与多个类别中的每个类别的相关性；基于文本，确定文本中的实体词；基于文本中的实体词，经由基于深度学习所构建的第二模型，生成实体词与每个类别的相关性；至少基于文本与每个类别的相关性、以及实体词与每个类别的相关性，确定文本的类别。本发明能够提高文本分类的准确性，并且进一步地能够提高对文本进行层次多标签分类的准确性。

技术研发人员：请求不公布姓名
受保护的技术使用者：上海壁仞智能科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：请求不公布姓名
技术所有人：上海壁仞智能科技有限公司
我是此专利的发明人

上一篇：一种分子筛装填装置的制作方法
上一篇：一种高标号E5乙醇汽油排放测试标准油及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。