一种问题分类方法及系统的制作方法

文档序号：9327010阅读：434来源：国知局

一种问题分类方法及系统的制作方法
【技术领域】
[0001] 本发明涉及自然语言处理技术领域，更具体地说，涉及一种问题分类方法及系统。
【背景技术】
[0002] 自动问答技术是自然语言处理技术领域中一个非常热门的研究方向，在自动问答技术中，问题分类是最重要的方面之一。
[0003] 问题分类是将文本分为该主题和非该主题的文本的任务，例如，将文本分为电脑类，如"我的电脑不能创建文件夹"，和非电脑类，如"梵高画过的黄房子现在还有吗";等。
[0004] 现有的问题分类方法通常是基于统计模型的方法，这类方法对领域的限定性较低，可扩展性较好。但是，现有的问题分类方法通常需要利用大量已确定其问题类型的样本进行机器学习，而确定大量样本的问题类型通常是由人工完成的，因此需要耗费大量的人力。
[0005] 综上所述，现有技术中的问题分类方法存在需要耗费大量的人力的问题。

【发明内容】

[0006] 本发明的目的是提供一种问题分类方法及系统，以解决现有技术中存在的需要耗费大量的人力的问题。
[0007] 为了实现上述目的，本发明提供如下技术方案：
[0008] 一种问题分类方法，包括：
[0009] 获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型；
[0010] 利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法确定每个所述第二训练文本的问题类型；
[0011] 确定所述第一训练文本和所述第二训练文本为训练文本，将所述训练文本进行分词处理，得到分别与每个所述训练文本对应的训练词组；
[0012] 利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器；
[0013] 利用所述最大熵分类器对待测词组进行分类，得到与所述待测词组对应的待测文本的问题类型。
[0014] 优选的，所述利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器，包括：
[0015] 按照TF-IDF向量法将所述训练词组转换成与每个所述训练文本对应的测试特征向量；
[0016] 利用每个所述训练文本的测试特征向量及每个所述训练文本的问题类型训练最大熵分类器。
[0017] 优选的，所述获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型，包括：
[0018] 获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型；所述问题类型包括电脑类和非电脑类，或者情感类和非情感类，或者运动类和非运动类，或者生活类和非生活类，或者文化类和非文化类，或者健康类和非健康类。
[0019] 优选的，所述获取第一预设量的第一训练文本和第二预设量的第二训练文本，包括：
[0020] 获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第二预设量大于所述第一预设量。
[0021] 优选的，所述获取第一预设量的第一训练文本和第二预设量的第二训练文本，包括：
[0022] 在特定的问答平台中，通过网络爬虫程序获取第一预设量的第一训练文本和第二预设量的第二训练文本。
[0023] 优选的，所述利用所述最大熵分类器对待测词组进行分类，得到与所述待测词组对应的待测文本的问题类型，包括：
[0024] 获取待测样本，将所述待测样本进行分词处理，得到待测词组；所述待测样本未提供其问题类型；
[0025] 按照TF-IDF向量法将所述待测词组转换成待测特征向量；
[0026] 将所述待测特征向量作为最大熵分类器的输入，得到与所述待测特征向量对应的测试结果；
[0027] 根据所述测试结果确定所述待测文本的问题类型。
[0028] 优选的，所述根据所述测试结果确定所述待测文本的问题类型，包括：
[0029] 确定所述待测文本对应每个问题类型的概率；
[0030] 确定所述概率中最大的概率对应的问题类型为待测文本的问题类型。
[0031] 一种问题分类系统，包括：
[0032] 获取模块，用于获取第一预设量的第一训练文本和第二预设量的第二训练文本，所述第一训练文本已提供其问题类型，所述第二训练文本未提供其问题类型；
[0033] 确定模块，用于利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法确定每个所述第二训练文本的问题类型；
[0034] 分词模块，用于确定所述第一训练文本和所述第二训练文本为训练文本，将所述训练文本进行分词处理，得到分别与每个所述训练文本对应的训练词组；
[0035] 训练模块，用于利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大熵分类器；
[0036] 分类模块，用于利用所述最大熵分类器对待测词组进行分类，得到与所述待测词组对应的待测文本的问题类型。
[0037] 本发明提供的一种问题分类方法及系统，包括：获取第一预设量的第一训练文本和第二预设量的第二训练文本，第一训练文本已提供其问题类型，第二训练文本未提供其问题类型；利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型；确定第一训练文本和第二训练文本为训练文本，将训练文本进行分词处理，得到分别与每个训练文本对应的训练词组；利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器；利用最大熵分类器对待测词组进行分类，得到与待测词组对应的待测文本的问题类型。与现有技术相比，本申请中利用已提供其问题类型的第一训练文本去获取未提供其问题类型的第二训练文本的问题类型，然后利用第一训练文本和第二训练文本训练最大熵分类器，由此，不需对大量训练文本的问题类型进行确定，而是利用少量已确定问题类型的训练文本去获取其他训练文本的问题类型，无需耗费大量人力，且实验证明，本发明实施例提供的一种问题分类方法对待测词组进行分类得到的结果准确率较高。
【附图说明】
[0038] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
[0039] 图1为本发明实施例提供的一种问题分类方法的流程图；
[0040] 图2为本发明实施例提供的一种问题分类方法中利用最大熵分类器对待测词组进行分类，得到与待测词组对应的待测文本的问题类型的流程图；
[0041] 图3为本发明实施例提供的一种问题分类系统的结构示意图。
【具体实施方式】
[0042] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0043] 请参阅图1，其示出了本发明实施例提供的一种问题分类方法的流程图，可以包括以下步骤：
[0044] Sll :获取第一预设量的第一训练文本和第二预设量的第二训练文本，第一训练文本已提供其问题类型，第二训练文本未提供其问题类型。
[0045] 其中，第一预设量和第二预设量可以根据实际需要进行确定。
[0046] S12:利用第一训练

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李寿山;张栋;周国栋;
技术所有人：苏州大学张家港工业技术研究院;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。