1.本技术涉及数据分类领域,特别是涉及一种文本大规模分类的方法和系统。
背景技术:2.目前,由于常见的文本分类模型在应对类别数目特别多的情况下,如上百条类目,分类效果相对较差,故现有的文本分类方案通常利用重采样和重加权等方法对训练数据的分布进行人工监督,一个均衡的数据集固然大大简化了对算法鲁棒性的要求,也在一定程度上保障了所得模型的可靠性。但是随着类别数目的大规模增多,数据长尾分布的问题会越来越严重,人工维持各个类别之间的均衡就带来了指数增长的采样成本。
3.目前针对相关技术中文本大规模分类的数据长尾分布问题,尚未提出有效的解决方案。
技术实现要素:4.本技术实施例提供了一种文本大规模分类的方法和系统,以至少解决相关技术中文本大规模分类的数据长尾分布问题。
5.第一方面,本技术实施例提供了一种文本大规模分类的方法,所述方法包括:获取数据库中初始已分类文本的第一simhash值,通过局部敏感哈希算法计算待分类文本的第二simhash值;将所述第一simhash值和所述第二simhash值进行比对,得到所述初始已分类文本与所述待分类文本的距离,从所述初始已分类文本的每种类别中分别选出所述距离最小的前预设数量的文本作为已分类文本;获取所述数据库中所述已分类文本的第一分词结果,根据关键词词表从所述第一分词结果中确定关键词并得到所述关键词的词向量;获取所述待分类文本的第二分词结果,根据所述第二分词结果、所述关键词词表和所述关键词的词向量,通过文本向量相似度算法计算所述已分类文本与待分类文本的相似度,将相似度最大的已分类文本的类别定为所述待分类文本的类别。
6.在其中一些实施例中,在获取数据库中初始已分类文本的第一simhash值之前,所述方法包括:对获取到的初始已分类文本进行分词并得到第一分词结果,通过局部敏感哈希算法分别计算所述初始已分类文本的第一simhash值;将所述初始已分类文本的文本标签、所述第一simhash值和所述第一分词结果存储到数据库中。
7.在其中一些实施例中,在根据关键词词表从所述第一分词结果中确定关键词并得到所述关键词的词向量之前,所述方法包括:通过tf
‑
idf算法从所述已分类文本的第一分词结果中确定关键词词表;通过word2vec算法计算所述关键词词表中关键词的词向量。
8.在其中一些实施例中,在将相似度最大的已分类文本的类别定为所述待分类文本的类别之后,所述方法还包括:通过人工核对和/或文本分类模型对分类结果进行验证,若所述分类结果通过所述验证,则利用所述待分类文本更新所述数据库。
9.在其中一些实施例中,在获取所述待分类文本的分词结果之前,所述方法还包括:对所述待分类文本进行分词得到第二分词结果。
10.第二方面,本技术实施例提供了一种文本大规模分类的系统,所述系统包括数据库模块、预处理模块、计算模块和分类模块;所述数据库模块获取初始已分类文本的第一simhash值;所述预处理模块通过局部敏感哈希算法计算待分类文本的第二simhash值,将所述第一simhash值和所述第二simhash值进行比对,得到所述初始已分类文本与所述待分类文本的距离,从初始已分类文本的每种类别中分别选出所述距离最小的前预设数量的文本作为已分类文本;所述计算模块获取所述数据库中所述已分类文本的第一分词结果,根据关键词词表从所述第一分词结果中确定关键词并得到所述关键词的词向量;所述分类模块获取所述待分类文本的第二分词结果,根据所述第二分词结果、所述关键词词表和所述关键词的词向量,通过文本向量相似度算法计算所述已分类文本与待分类文本的相似度,将相似度最大的已分类文本的类别定为所述待分类文本的类别。
11.在其中一些实施例中,在所述数据库模块获取初始已分类文本的第一simhash值之前还包括:所述预处理模块对获取到的初始已分类文本进行分词并得到第一分词结果,通过局部敏感哈希算法分别计算所述初始已分类文本的第一simhash值;所述预处理模块将所述初始已分类文本的文本标签、所述第一simhash值和所述第一分词结果存储到数据库中。
12.在其中一些实施例中,在所述计算模块根据关键词词表从所述第一分词结果中确定关键词并得到所述关键词的词向量之前还包括:所述计算模块通过tf
‑
idf算法从所述已分类文本的第一分词结果中确定关键词词表;所述计算模块通过word2vec算法计算所述关键词词表中关键词的词向量。
13.在其中一些实施例中,在所述分类模块将相似度最大的已分类文本的类别定为所述待分类文本的类别之后,所述系统还包括验证更新模块;所述验证更新模块通过人工核对和/或文本分类模型对分类结果进行验证,若所述分类结果通过所述验证,则利用所述待分类文本更新所述数据库。
14.在其中一些实施例中,在所述分类模块获取所述待分类文本的分词结果之前还包括:所述预处理模块对所述待分类文本进行分词得到第二分词结果。
15.相比于相关技术,本技术实施例提供的一种文本大规模分类的方法和系统,通过获取数据库中初始已分类文本的第一simhash值,计算出待分类文本的第二simhash值,并将两者进行比对,得到初始已分类文本与待分类文本的距离,从初始已分类文本的每种类
别中分别选出距离最小的前预设数量的文本作为已分类文本,获取已分类文本的关键词及其词向量,获取待分类文本的第二分词结果,根据第二分词结果、关键词及其词向量,通过文本向量相似度算法计算已分类文本与待分类文本的相似度,完成文本分类,解决了文本大规模分类中数据长尾分布的问题,无需对数据的分布进行人工监督均衡,降低了文本大规模分类中数据处理的成本。
附图说明
16.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:图1是根据本技术实施例的文本大规模分类方法的步骤流程图;图2是根据本技术实施例的文本大规模分类系统的结构框图;图3是进行扩展后的文本大规模分类系统的的结构框图;图4是根据本技术实施例的电子设备的内部结构示意图。
17.附图说明:21、数据库模块;22、预处理模块;23、计算模块;24、分类模块;25、验证更新模块。
具体实施方式
18.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
19.显而易见地,下面描述中的附图仅仅是本技术的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本技术应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本技术公开的内容相关的本领域的普通技术人员而言,在本技术揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本技术公开的内容不充分。
20.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本技术所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
21.除非另作定义,本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连
接,而是可以包括电气的连接,不管是直接的还是间接的。本技术所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
22.本技术实施例提供了一种文本大规模分类的方法,图1是根据本技术实施例的文本大规模分类方法的步骤流程图,如图1所示,该方法包括以下步骤:步骤s102,获取数据库中初始已分类文本的第一simhash值,通过局部敏感哈希算法计算待分类文本的第二simhash值;具体地,从数据库中获取初始已分类文本的第一simhash值;通过局部敏感哈希算法计算待分类文本的第二simhash值,详细步骤如下:局部敏感哈希(simhash)算法是用于解决亿万级别的网页去重任务算法。
23.步骤一,把待分类文本分词形成这个文章的特征单词,形成去掉噪音词的单词序列并为每个词加上权重。
24.如“美国“51区”雇员称内部有9架飞碟,曾看见灰色外星人”,分词后为“美国(4) 51区(5) 雇员(3) 称(1) 内部(2) 有(1) 9架(3) 飞碟(5) 曾(1) 看见(3) 灰色(4) 外星人(5)”,假设权重分为5个级别(1~5),括号里是代表单词在整个句子里重要程度,数字越大越重要。
25.步骤二,通过哈希算法把每个词变成hash值。
26.如
ꢀ“
美国”通过hash算法计算为100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串数字。
27.步骤三,根据词的hash值和权重得到加权序列值。
28.如“美国”的hash值为“100101”,权重为4,通过加权计算为“4
ꢀ‑4ꢀ‑
4 4
ꢀ‑
4 4”;“51区”的hash 值为“101011”,权重为5,通过加权计算为“5
ꢀ‑
5 5
ꢀ‑
5 5 5”。
29.步骤四,把各个单词算出来的加权序列值累加成累加序列值。
30.如把“美国”的“4
ꢀ‑4ꢀ‑
4 4
ꢀ‑
4 4”和“51区”的
ꢀ“ꢀ5ꢀ‑
5 5
ꢀ‑
5 5 5”, 进行累加得到“9
ꢀ‑
9 1
ꢀ‑
1 1 9”。
31.步骤五,对累加序列值进行降维,得到待分类文本的simhash签名。
32.如把步骤四中算出来的“9
ꢀ‑
9 1
ꢀ‑
1 1 9”变成 0 1 串,大于0的记为 1,小于0的记为 0,最后得到结果为“1 0 1 0 1 1”。
33.步骤s104,将第一simhash值和第二simhash值进行比对,得到初始已分类文本与待分类文本的距离,从初始已分类文本的每种类别中分别选出距离最小的前预设数量的文本作为已分类文本;具体地,初始已分类文本中包含着若干类别的文本,每类别的文本中又包含着若干数量的文本,且不同类别的文本间包含的文本数量不尽相同;根据第一simhash值和第二simhash值,计算出初始已分类文本与待分类文本的海明距离;以初始已分类文本中的类别为单位,从初始已分类文本的每种类别中分别选出海明距离最小的前n项的文本作为已分类文本,其中,可选取初始已分类文本中文本数量最少
的类别,将该类别的文本数量作为n的取值。
34.步骤s106,获取数据库中已分类文本的第一分词结果,根据关键词词表从第一分词结果中确定关键词并得到关键词的词向量;步骤s108,获取待分类文本的第二分词结果,根据第二分词结果、关键词词表和关键词的词向量,通过文本向量相似度算法计算已分类文本与待分类文本的相似度,将相似度最大的已分类文本的类别定为待分类文本的类别。
35.具体地,根据第二分词结果、关键词词表和关键词的词向量,通过wmd算法计算已分类文本与待分类文本的相似度,详细步骤如下(word mover’s distance简称wmd,是基于word2vec基础上通过计算文本间词的距离来衡量文本相似度的算法。)获得d*n的词向量矩阵x,其中,词典大小为n,词向量维度为d;利用tf
‑
idf计算获得每个词的重要程度d
i
;令d和d’分别表示已分类文本和待分类文本的归一化词袋表示,d中的每个词i都可以全部或者部分转移到d’的每个词j,得到一个m*n的稀疏转移矩阵t,t
ij
表示d中的词到d’中的词的转移距离;利用线性规划,求出d到d’的最小全局转移代价累积和,即为两个文本之间的相似度:度:,约束1:d中的第i个词的流出总和需要等于d
i
;,约束2:d’中的第j个词所有流入词总量需要等于d
j
。
36.通过本技术实施例中步骤s102至步骤s108,解决了文本大规模分类中数据长尾分布的问题,无需对数据的分布进行人工监督均衡,降低了文本大规模分类中数据处理的成本。
37.在其中一些实施例中,在步骤s102,获取数据库中初始已分类文本的第一simhash值之前还包括:对获取到的初始已分类文本进行分词并得到第一分词结果,通过局部敏感哈希算法分别计算初始已分类文本的第一simhash值;将初始已分类文本的文本标签、第一simhash值和第一分词结果存储到数据库中。
38.通过将初始已分类文本的相关数据存储到数据库中,由于不同类别的文本之间相互独立,扩展类别和增加训练数据只需要少量的参数更新和简单的扩展,更加易于模型迭代。
39.在其中一些实施例中,在步骤s106,根据关键词词表从第一分词结果中确定关键词并得到关键词的词向量之前还包括:通过tf
‑
idf算法从已分类文本的第一分词结果中确定关键词词表;通过word2vec算法计算关键词词表中关键词的词向量。
40.需要说明的是,tf
‑
idf(term frequency
–
inverse document frequency,词频
‑
逆向文件频率),一种用于信息检索和文本挖局的常用加权技术。其主要思想是如果某个单词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的区分能力。
41.word2vec是一种文本向量化方法 ,可以在大量文本语料上通过无监督训练学到词的分布式向量表示。
42.在其中一些实施例中,在步骤s108,将相似度最大的已分类文本的类别定为待分类文本的类别之后还包括:通过人工核对和/或文本分类模型对分类结果进行验证,若分类结果通过验证,则利用待分类文本更新数据库。
43.具体地,可以采用人工核对和/或其他不同于本发明的文本分类模型对分类结果进行验证,如果预测结果和本方案的分类结果一致,则可以认为这是一批具有高置信度的分类结果。
44.将已经进行分类且通过验证的待分类文本的文本标签、第一simhash值和第一分词结果更新到数据库中,从而提高整个模型的最终效果。
45.在其中一些实施例中,在获取待分类文本的分词结果之前,还包括对待分类文本进行分词得到第二分词结果。
46.需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
47.本技术实施例提供了一种文本大规模分类的系统,图2是根据本技术实施例的文本大规模分类系统的结构框图,如图2所示,该系统包括数据库模块21、预处理模块22、计算模块23和分类模块24;数据库模块21获取初始已分类文本的第一simhash值;预处理模块22通过局部敏感哈希算法计算待分类文本的第二simhash值,将第一simhash值和第二simhash值进行比对,得到初始已分类文本与待分类文本的距离,从初始已分类文本的每种类别中分别选出距离最小的前预设数量的文本作为已分类文本;计算模块23获取数据库中已分类文本的第一分词结果,根据关键词词表从第一分词结果中确定关键词并得到关键词的词向量;分类模块24获取待分类文本的第二分词结果,根据第二分词结果、关键词词表和关键词的词向量,通过文本向量相似度算法计算已分类文本与待分类文本的相似度,将相似度最大的已分类文本的类别定为待分类文本的类别。
48.通过本技术实施例中的系统,解决了文本大规模分类中数据长尾分布的问题,无需对数据的分布进行人工监督均衡,降低了文本大规模分类中数据处理的成本。
49.在其中一些实施例中,在数据库模块获取初始已分类文本的第一simhash值之前还包括:预处理模块22对获取到的初始已分类文本进行分词并得到第一分词结果,通过局部敏感哈希算法分别计算初始已分类文本的第一simhash值;预处理模块22将初始已分类文本的文本标签、第一simhash值和第一分词结果存
储到数据库中。
50.在其中一些实施例中,在计算模块23根据关键词词表从第一分词结果中确定关键词并得到关键词的词向量之前还包括:计算模块23通过tf
‑
idf算法从已分类文本的第一分词结果中确定关键词词表;计算模块23通过word2vec算法计算关键词词表中关键词的词向量。
51.在其中一些实施例中,在分类模块24将相似度最大的已分类文本的类别定为待分类文本的类别之后,图3是进行扩展后的文本大规模分类系统的的结构框图,如图3所示,该系统还包括验证更新模块25;验证更新模块25通过人工核对和/或文本分类模型对分类结果进行验证,若分类结果通过验证,则利用待分类文本更新数据库。
52.在其中一些实施例中,在分类模块24获取待分类文本的分词结果之前还包括:预处理模块22对待分类文本进行分词得到第二分词结果。
53.需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
54.本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
55.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
56.需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
57.另外,结合上述实施例中的文本大规模分类的方法,本技术实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种文本大规模分类的方法。
58.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本大规模分类的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
59.在一个实施例中,图4是根据本技术实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的
运行提供环境,计算机程序被处理器执行时以实现一种文本大规模分类的方法,数据库用于存储数据。
60.本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
61.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
62.本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
63.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。