概率中最大的概率对应的问题类型为待测文本的问题类 型能够使得获取的测试结果更加准确。
[0090] 与上述方法实施例相对应,本发明实施例还提供了一种问题分类系统,如图3所 示,可以包括:
[0091] 获取模块31,用于获取第一预设量的第一训练文本和第二预设量的第二训练文 本,第一训练文本已提供其问题类型,第二训练文本未提供其问题类型;
[0092] 确定模块32,用于利用第一训练文本及每个第一训练文本的问题类型通过标签传 播算法确定每个第二训练文本的问题类型;
[0093] 分词模块33,用于确定第一训练文本和第二训练文本为训练文本,将训练文本进 行分词处理,得到分别与每个训练文本对应的训练词组;
[0094] 训练模块34,用于利用与每个训练文本对应的训练词组及每个训练文本的问题类 型训练最大熵分类器;
[0095] 分类模块35,用于利用最大熵分类器对待测词组进行分类,得到与待测词组对应 的待测文本的问题类型。
[0096] 通过上述问题分类系统,利用已提供其问题类型的第一训练文本去获取未提供其 问题类型的第二训练文本的问题类型,然后利用第一训练文本和第二训练文本训练最大熵 分类器,由此,不需对大量训练文本的问题类型进行确定,而是利用少量已确定问题类型的 训练文本去获取其他训练文本的问题类型,无需耗费大量人力,且实验证明,本发明实施例 提供的一种问题分类系统对待测词组进行分类得到的结果准确率较高。
[0097] 为了证明本发明实施例提供的一种问题分类方法及系统具有上述有益效果,可进 行六组实验,每组实验包括对应一个主题,可以分别是电脑类和非电脑类、情感类和非情感 类、运动类和非运动类、生活类和非生活类、文化类和非文化类,及健康类和非健康类,也可 以是其他主题。
[0098] 每组实验均获取2000训练文本,其中,可以具体为:第一训练文本为100个,第二 训练文本为1500个,待测文本为400个。
[0099] 其中,第一种方法:按照上述实施例提供的一种问题分类方法构建最大熵分类器, 并利用最大熵分类器确定待测文本的问题类型。
[0100] 第二种方法:仅仅利用第一训练文本构建最大熵分类器,并利用最大熵分类器确 定待测文本的问题类型。
[0101] 当最大熵分类器确定出的待测文本的文本类型与待测文本实际的问题类型一致 时则说明测试结果正确。由此,可以确定出第一种方法的准确率和第二种方法的准确率,如 下表所示。可以很明显的看出,第一种方法,即本申请实施例提供的一种问题分类方法的准 确率明显较高。
[0102] 第一种方法和第二种方法的准确率统计表
[0103]
[0104] 对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这 些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可 以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限 制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的 范围。
【主权项】
1. 一种问题分类方法,其特征在于,包括: 获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第一训练文本已 提供其问题类型,所述第二训练文本未提供其问题类型; 利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法确定 每个所述第二训练文本的问题类型; 确定所述第一训练文本和所述第二训练文本为训练文本,将所述训练文本进行分词处 理,得到分别与每个所述训练文本对应的训练词组; 利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练最大 熵分类器; 利用所述最大熵分类器对待测词组进行分类,得到与所述待测词组对应的待测文本的 问题类型。2. 根据权利要求1所述的方法,其特征在于,所述利用与每个所述训练文本对应的训 练词组及每个所述训练文本的问题类型训练最大熵分类器,包括: 按照TF-IDF向量法将所述训练词组转换成与每个所述训练文本对应的测试特征向 量; 利用每个所述训练文本的测试特征向量及每个所述训练文本的问题类型训练最大熵 分类器。3. 根据权利要求2所述的方法,其特征在于,所述获取第一预设量的第一训练文本和 第二预设量的第二训练文本,所述第一训练文本已提供其问题类型,所述第二训练文本未 提供其问题类型,包括: 获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第一训练文本已 提供其问题类型,所述第二训练文本未提供其问题类型;所述问题类型包括电脑类和非电 脑类,或者情感类和非情感类,或者运动类和非运动类,或者生活类和非生活类,或者文化 类和非文化类,或者健康类和非健康类。4. 根据权利要求2所述的方法,其特征在于,所述获取第一预设量的第一训练文本和 第二预设量的第二训练文本,包括: 获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第二预设量大于 所述第一预设量。5. 根据权利要求4所述的方法,其特征在于,所述获取第一预设量的第一训练文本和 第二预设量的第二训练文本,包括: 在特定的问答平台中,通过网络爬虫程序获取第一预设量的第一训练文本和第二预设 量的第二训练文本。6. 根据权利要求1至5任一项所述的方法,其特征在于,所述利用所述最大熵分类器对 待测词组进行分类,得到与所述待测词组对应的待测文本的问题类型,包括: 获取待测样本,将所述待测样本进行分词处理,得到待测词组;所述待测样本未提供其 问题类型; 将所述待测样本进行分词处理,得到待测词组; 按照TF-IDF向量法将所述待测词组转换成待测特征向量; 将所述待测特征向量作为最大熵分类器的输入,得到与所述待测特征向量对应的测试 结果; 根据所述测试结果确定所述待测文本的问题类型。7. 根据权利要求6所述的方法,其特征在于,所述根据所述测试结果确定所述待测文 本的问题类型,包括: 确定所述待测文本对应每个问题类型的概率; 确定所述概率中最大的概率对应的问题类型为待测文本的问题类型。8. -种问题分类系统,其特征在于,包括: 获取模块,用于获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述 第一训练文本已提供其问题类型,所述第二训练文本未提供其问题类型; 确定模块,用于利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签 传播算法确定每个所述第二训练文本的问题类型; 分词模块,用于确定所述第一训练文本和所述第二训练文本为训练文本,将所述训练 文本进行分词处理,得到分别与每个所述训练文本对应的训练词组; 训练模块,用于利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题 类型训练最大熵分类器; 分类模块,用于利用所述最大熵分类器对待测词组进行分类,得到与所述待测词组对 应的待测文本的问题类型。
【专利摘要】本发明公开了一种问题分类方法及系统,包括:获取第一预设量的第一训练文本和第二预设量的第二训练文本,第一训练文本已提供问题类型,第二训练文本未提供问题类型;利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个第二训练文本的问题类型;确定第一训练文本和第二训练文本为训练文本,将训练文本进行分词处理,得到分别与每个训练文本对应的训练词组;利用与每个训练文本对应的训练词组及每个训练文本的问题类型训练最大熵分类器;利用最大熵分类器对待测词组进行分类,得到与待测词组对应的待测文本的问题类型。由此,不需确定大量训练文本的问题类型,无需耗费大量人力,且对待测词组进行分类得到的结果准确率较高。
【IPC分类】G06F17/30
【公开号】CN105045924
【申请号】CN201510531001
【发明人】李寿山, 张栋, 周国栋
【申请人】苏州大学张家港工业技术研究院
【公开日】2015年11月11日
【申请日】2015年8月26日