一种问题分类方法及系统的制作方法
【技术领域】
[0001] 本发明涉及自然语言处理技术领域,更具体地说,涉及一种问题分类方法及系统。
【背景技术】
[0002] 自动问答技术是自然语言处理技术领域中一个非常热门的研究方向,在自动问答 技术中,问题分类是最重要的方面之一。
[0003] 问题分类是将文本分为该主题和非该主题的文本的任务,例如,将文本分为电脑 类,如"我的电脑不能创建文件夹",和非电脑类,如"梵高画过的黄房子现在还有吗";等。
[0004] 现有的问题分类方法通常是基于统计模型的方法,这类方法对领域的限定性较 低,可扩展性较好。但是,现有的问题分类方法通常需要利用大量已确定其问题类型的样本 进行机器学习,而确定大量样本的问题类型通常是由人工完成的,因此需要耗费大量的人 力。
[0005] 综上所述,现有技术中的问题分类方法存在需要耗费大量的人力的问题。
【发明内容】
[0006] 本发明的目的是提供一种问题分类方法及系统,以解决现有技术中存在的需要耗 费大量的人力的问题。
[0007] 为了实现上述目的,本发明提供如下技术方案:
[0008] 一种问题分类方法,包括:
[0009] 获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第一训练文 本已提供其问题类型,所述第二训练文本未提供其问题类型;
[0010] 利用所述第一训练文本及每个所述第一训练文本的问题类型通过标签传播算法 确定每个所述第二训练文本的问题类型;
[0011] 确定所述第一训练文本和所述第二训练文本为训练文本,将所述训练文本进行分 词处理,得到分别与每个所述训练文本对应的训练词组;
[0012] 利用与每个所述训练文本对应的训练词组及每个所述训练文本的问题类型训练 最大熵分类器;
[0013] 利用所述最大熵分类器对待测词组进行分类,得到与所述待测词组对应的待测文 本的问题类型。
[0014] 优选的,所述利用与每个所述训练文本对应的训练词组及每个所述训练文本的问 题类型训练最大熵分类器,包括:
[0015] 按照TF-IDF向量法将所述训练词组转换成与每个所述训练文本对应的测试特征 向量;
[0016] 利用每个所述训练文本的测试特征向量及每个所述训练文本的问题类型训练最 大熵分类器。
[0017] 优选的,所述获取第一预设量的第一训练文本和第二预设量的第二训练文本,所 述第一训练文本已提供其问题类型,所述第二训练文本未提供其问题类型,包括:
[0018] 获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第一训练文 本已提供其问题类型,所述第二训练文本未提供其问题类型;所述问题类型包括电脑类和 非电脑类,或者情感类和非情感类,或者运动类和非运动类,或者生活类和非生活类,或者 文化类和非文化类,或者健康类和非健康类。
[0019] 优选的,所述获取第一预设量的第一训练文本和第二预设量的第二训练文本,包 括:
[0020] 获取第一预设量的第一训练文本和第二预设量的第二训练文本,所述第二预设量 大于所述第一预设量。
[0021] 优选的,所述获取第一预设量的第一训练文本和第二预设量的第二训练文本,包 括:
[0022] 在特定的问答平台中,通过网络爬虫程序获取第一预设量的第一训练文本和第二 预设量的第二训练文本。
[0023] 优选的,所述利用所述最大熵分类器对待测词组进行分类,得到与所述待测词组 对应的待测文本的问题类型,包括:
[0024] 获取待测样本,将所述待测样本进行分词处理,得到待测词组;所述待测样本未提 供其问题类型;
[0025] 按照TF-IDF向量法将所述待测词组转换成待测特征向量;
[0026] 将所述待测特征向量作为最大熵分类器的输入,得到与所述待测特征向量对应的 测试结果;
[0027] 根据所述测试结果确定所述待测文本的问题类型。
[0028] 优选的,所述根据所述测试结果确定所述待测文本的问题类型,包括:
[0029] 确定所述待测文本对应每个问题类型的概率;
[0030] 确定所述概率中最大的概率对应的问题类型为待测文本的问题类型。
[0031] 一种问题分类系统,包括:
[0032] 获取模块,用于获取第一预设量的第一训练文本和第二预设量的第二训练文本, 所述第一训练文本已提供其问题类型,所述第二训练文本未提供其问题类型;
[0033] 确定模块,用于利用所述第一训练文本及每个所述第一训练文本的问题类型通过 标签传播算法确定每个所述第二训练文本的问题类型;
[0034] 分词模块,用于确定所述第一训练文本和所述第二训练文本为训练文本,将所述 训练文本进行分词处理,得到分别与每个所述训练文本对应的训练词组;
[0035] 训练模块,用于利用与每个所述训练文本对应的训练词组及每个所述训练文本的 问题类型训练最大熵分类器;
[0036] 分类模块,用于利用所述最大熵分类器对待测词组进行分类,得到与所述待测词 组对应的待测文本的问题类型。
[0037] 本发明提供的一种问题分类方法及系统,包括:获取第一预设量的第一训练文本 和第二预设量的第二训练文本,第一训练文本已提供其问题类型,第二训练文本未提供其 问题类型;利用第一训练文本及每个第一训练文本的问题类型通过标签传播算法确定每个 第二训练文本的问题类型;确定第一训练文本和第二训练文本为训练文本,将训练文本进 行分词处理,得到分别与每个训练文本对应的训练词组;利用与每个训练文本对应的训练 词组及每个训练文本的问题类型训练最大熵分类器;利用最大熵分类器对待测词组进行分 类,得到与待测词组对应的待测文本的问题类型。与现有技术相比,本申请中利用已提供其 问题类型的第一训练文本去获取未提供其问题类型的第二训练文本的问题类型,然后利用 第一训练文本和第二训练文本训练最大熵分类器,由此,不需对大量训练文本的问题类型 进行确定,而是利用少量已确定问题类型的训练文本去获取其他训练文本的问题类型,无 需耗费大量人力,且实验证明,本发明实施例提供的一种问题分类方法对待测词组进行分 类得到的结果准确率较高。
【附图说明】
[0038] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。
[0039] 图1为本发明实施例提供的一种问题分类方法的流程图;
[0040] 图2为本发明实施例提供的一种问题分类方法中利用最大熵分类器对待测词组 进行分类,得到与待测词组对应的待测文本的问题类型的流程图;
[0041] 图3为本发明实施例提供的一种问题分类系统的结构示意图。
【具体实施方式】
[0042] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0043] 请参阅图1,其示出了本发明实施例提供的一种问题分类方法的流程图,可以包括 以下步骤:
[0044] Sll :获取第一预设量的第一训练文本和第二预设量的第二训练文本,第一训练文 本已提供其问题类型,第二训练文本未提供其问题类型。
[0045] 其中,第一预设量和第二预设量可以根据实际需要进行确定。
[0046] S12:利用第一训练