1.本发明涉及数据处理技术领域,具体涉及一种更新分类标签的优化方法及系统。
背景技术:2.在对某一个文本条目进行分类时,工作人员会根据文本条目的实际内容将相应的文本条目进行分类,一般情况下文本条目的分类是将有明确类别的赋予相应类别,没有明确类别的归为其他类别。但是由于工作人员的主观因素的影响以及有些文本条目中涉及多个类别的关键词时,工作人员可能会将本应属于a类别的文本条目标注为其他类别,或者将a类别的文本条目标注为b类别,因此工作人员分类中会存在较多分类错误的类别,当前常规的做法是人工更正文本条目分类的错误问题,但是人工更正的方式不仅耗费人力,而且依然无法消除人为主观因素对分类的影响。
技术实现要素:3.为了解决上述技术问题,本发明的目的在于提供一种更新分类标签的优化方法及系统,所采用的技术方案具体如下:
4.第一方面,本发明一个实施例提供了一种更新分类标签的优化方法,其特征在于,该
5.优化方法包括:
6.s100,获取用户指定的l个待匹配的分类标签{d1,d2,
…
,d
l
},其中,第i个待匹配的分类标签di具有j个关键词其中i的取值范围为1到l;
7.s200,获取用户指定的第m个待更新的分类标签中的第q个文本条目获取的r个词向量集合其中r为正整数;
8.s300,计算分别与每个待匹配的分类标签中所有关键词的综合相似度分别与每个待匹配的分类标签中所有关键词的综合相似度其中,与第i个待匹配的分类标签di的综合相似度的综合相似度为中r个词向量与di中j个关键词之间的向量相似度的加权求和;第r个词向量的权重的获取步骤包括:
9.s351,获取语料库中所有a个父标签seg={seg1,seg2,
…
,sega},第a个父标签包括sum(a)个子标签sega={seg
a,1
,seg
a,2
,
…
,seg
a,sum(a)
},a的取值范围为1到a,且子标签的总数量sa满足其中,sum(a)的函数值为整数;
10.s352,获取所在的第m个待更新的分类标签seg
a,m
,根据对seg
a,m
中所有的文本条目进行分词得到的mx个词,统计对应的词在seg
a,m
中出现的次数得到
11.s353,获取在sa个子标签中包括对应的词的子标签的数量
12.s354,根据和sa计算其中分别与和sa正相关、与
负相关;
13.s400,获取中的最大值,在最大值大于相似度阈值时,将第m个类别中第q个文本条目的类别标签更新为最大值对应的类别标签。
14.第二方面,本发明另一个实施例提供了一种更新分类标签的优化系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述更新方法。
15.本发明具有如下有益效果:
16.通过提取第m个待更新的分类标签中第q个文本条目中的词向量,并通过提取待匹配的分类标签对应的关键词,计算中词向量与关键词之间的相似度,为了计算与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词分别与中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。同时在聚类时将重复的词去除,不仅能够使聚类的过程中不受重复词的影响,提高聚类的准确性,同时统计重复词出现的频率以及包括该重复词的分类标签的数量,计算权重利用调整词向量对于相似度的权重,使最终得到匹配结果更加准确。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
18.图1为本发明一个实施例所提供的一种更新分类标签的优化方法流程图。
具体实施方式
19.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种更新分类标签的优化方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
20.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
21.下面结合附图具体的说明本发明所提供的一种分类标签的更新方法,该方法包括以下步骤:
22.s100,获取用户指定的l个待匹配的分类标签{d1,d2,
…
,d
l
},其中,第i个待匹配的分类标签di具有j个关键词其中i的取值范围为1到l。
23.需要说明的是,在语料库中用户输入多个文本条目,每个文本条目具有用户指定的分类标签。其中,每个文本条目是指用户记录的一个事件的描述文字。多个文本条目为多个事件的文本描述。例如用户记录了一条报警记录,则这一条报警记录为一个文本条目。其中,分类标签为用户指定的标签,例如按照预设的分类规则将一条文本条目的标签标记为“盗窃”标签或者“抢劫”标签等。每个文本条目对应一个分类标签。
24.其中,待匹配的分类标签为用户指定的标签,用于作为标准标签来更正其他文本条目的分类标签。需要说明的是,待匹配的分类标签和待更新的分别标签均为用户预先标注的分类标签,例如,分类标签可以是“盗窃手机”、“盗窃机动车”、“抢劫”、“酒驾”、“故意伤害”等,用户将其中的“抢劫”和“故意伤害”指定为待匹配的分类标签,将其中的“盗窃手机”指定为待更新的分类标签。
25.可选的,关键词的获取方法为:将第i个待匹配的分类标签di对应的所有词向量进行聚类得到r个簇,每个簇中对应的词向量为关键词。
26.可选的,第i个待匹配的分类标签di的关键词的获取步骤包括:
27.s110,根据第i个待匹配的分类标签di索引所有的相应文本条目,得到待匹配的n个文本条目集合其中n为正整数。
28.s120,对wi进行分词得到x个词,对x个词中的常用词、数字和标点进行过滤得到m个词;将m个词转为词向量得到m个词向量集合其中m为正整数。
29.可选的,分词的模型为中文分词模型。可选的,中文分词模型为jieba分词模型。
30.获取词向量的方法为通过词向量模型获取,可选的,词向量模型为word2vec。
31.其中,在对wi中所有文本条目分别进行分词之后,利用常用词词表、数字表和标点符号表对分词结果进行过滤,过滤掉与最终提取的关键词无关的干扰项。其中,现有技术中公开的使用常用词词表、数字和标点对分词结果进行过滤的方法均在本发明的保护范围之内。
32.s130,对vi进行聚类得到y个簇,提取y个簇中的关键词,得到di的j个关键词的j个关键词
33.可选的,聚类算法为k-means聚类算法或dbscan聚类算法。
34.对聚类所得到的簇进行人工筛选,保留下来的簇内的所有词向量为关键词。人工筛选的目的是筛除明显不能代表分类标签的簇,例如地址类的名词构成的簇等;保留可以代表分类标签的名词和动词所构成的簇,例如“盗窃”或者“偷盗”等动词所构成的簇,以及盗窃的对象所在的簇,例如“手机”、“平板”或者“电脑”等名词。
35.s200,获取用户指定的第m个待更新的分类标签中的第q个文本条目获取的r个词向量集合其中r为正整数;
36.可以理解的是,s100与s200之间的先后顺序不做限定。可以先进行步骤s100之后,再执行s200;也可以先执行s200,再执行步骤s100;还可以是s100和s200同时进行。
37.其中,待更新的分类标签为用户指定的需要更新文本条目的分类标签的类别。
38.其中,获取的r个词向量集合的步骤与待匹配的分类标签中获取词向量集合的方式相同:首先,对进行分词得到mx个词,然后利用常用词、数字和标点对分词结果进行
过滤,并去除过滤后的词中的重复词,得到r个词;将r个词转为r个词向量。词向量集合中的任意两个词向量之间满足其中i和j的取值范围均为1到r且i≠j,能够进一步减少计算量,同时消除多个相同词向量对最终结果造成的影响。
39.可选的,分词的模型为中文分词模型。可选的,中文分词模型为jieba分词模型。
40.可选的,词向量的模型为word2vec模型。通过该词向量模型将每一个词都映射为一个d维的浮点数向量。
41.需要说明的是,每个待更新的分类标签中包括多个文本条目,在分词时需要对每个文本条目进行分词,每个文本条目对应多个词。
42.优选的,第m个类别中第q个文本条目中第r个词向量和第i个类别中第j个关键词均为d维向量,其中r的取值范围为1到r,j的取值范围为1到j。d为预设的向量维度,例如d的取值为200,表示和均为200维的向量。
43.s300,分别获取与每个待匹配的分类标签中所有关键词的综合相似度与每个待匹配的分类标签中所有关键词的综合相似度其中,第m个待更新的分类标签中第q个文本条目与第i个待匹配的分类标签di的综合相似度为中r个词向量与di中j个关键词之间的向量相似度的加权求和。
44.其中,综合相似度满足:
[0045][0046]
其中,为的权重,为第r个词向量与第i个待匹配的分类标签中的第j个关键词之间的向量相似度。
[0047]
可选的,的取值为1。
[0048]
可选的,向量相似度为与之间的余弦相似度、距离相似度、或者与余弦相似度和距离相似度之和。
[0049]
优选的,向量相似度其中,为第r个词向量与第i个待匹配的分类标签中的第j个关键词之间的第一向量相似度,之间的第一向量相似度,为第r个词向量与第i个待匹配的分类标签中的第j个关键词之间的第二向量相似度。与不同。
[0050]
可选的,第一向量相似度为词向量与之间的余弦相似度。
[0051]
可选的,第二向量相似度为距离相似度,所述距离相似度与和之间的欧氏距离负相关。
[0052]
优选的,第二向量相似度其中为词向量与之间的欧式距离。
[0053]
优选的,第二向量相似度
[0054]
利用两个文本向量在空间向量的方向差异以及多维空间的绝对距离来评价词向量与之间的相似度,第一向量相似度和第二向量相似度两者相互补充,能够使得到的相似度更加准确。
[0055]
s400,获取中的最大值,在最大值大于相似度阈值时,将第m个类别中第q个文本条目的类别标签更新为最大值对应的类别标签。
[0056]
如果综合相似度中的最大值高于相似度阈值,则说明第m个待更新类别中第q个文本条目与最大值对应的类别相似度最高,因此将第m个待更新类别中第q个文本条目的分别标签更新为最大值对应的分类标签。
[0057]
其中,相似度阈值为预设值。可选的,相似度阈值为0.8。
[0058]
综上所述,本发明实施例提供了一种分类标签的更新方法,通过对第m个待更新的分类标签中第q个文本条目中的文本进行分词,并将分词结果转为词向量,为了计算与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词分别与中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。
[0059]
但是由于利用聚类得到的簇内的所有词向量作为关键词参与后续与待更新的文本条目所对应的词向量一对一进行相似度的计算,不仅计算量大,而且对于簇内距离簇中心点较远的关键词来说,其计算得到的相似度相对来说与该簇的平均语义相差较大,相似度的可靠程度交底,导致的相似度准确率低,进一步标签更新的准确率也被降低。为了解决该问题,s100进一步优化为:获取用户指定的l个待匹配的分类标签,对第i个待匹配的分类标签di对应的词向量进行k-means聚类得到y个簇的簇中心点t={t1,t2,
…
,ty}。
[0060]
优选的,聚类算法为k-means算法,获取簇中心点的方法包括:
[0061]
s131,初始迭代值为k,迭代值每次迭代的步长为d,第x次迭代的迭代值为k+xd,x≥0;随机选取k+xd个词向量作为聚类中心点对vi进行聚类,得到k+xd个簇{c1,c2,
…
,c
k+xd
}。
[0062]
其中,初始迭代值为用户指定的初始的k值。可选的,初始迭代值k=1,或者k=3。优选的,k=3。
[0063]
其中,迭代的步长为在当前这次聚类完成之后,下次的迭代值与当前迭代值的差值,也即当前的迭代值加上步长即为下次的迭代值。
[0064]
则当迭代次数为0时,迭代值为k,初始聚类的簇数为k;当迭代次数为1时,迭代值为k+d,第一次聚类的簇数为k+d簇;当迭代次数为2时,迭代值为k+2d,第一次聚类的簇数为k+2d簇;以此类推。
[0065]
可选的,迭代的步长d=1。
[0066]
s132,根据每次聚类得到的簇,计算x次迭代的误差平方和的集合er={er(k),er(k+1),
…
,er(k+x)},其中第c次迭代得到的k+cd个簇的误差平方和er(k+c)满足:
[0067][0068]
式中,v
h,g
为第h个簇中第g个词向量,th为第h个簇的簇中心点,g为第h个簇中词向量的总数量,k+cd为簇的总数量,c的取值范围为0到x。
[0069]
s133,计算er中每次迭代的误差平方和的变化率得到变化率集合,在变化率集合中变化率最小的误差平方和对应的迭代值为最佳的k值,所述最佳的k值为y。
[0070]
其中,第c次迭代的误差平方和er(k+c)的变化率λ
k+c
满足:
[0071]
λ
k+c
=∣er(k+c-1)-er(k+c)∣-∣er(k+c)-er(k+c+1)∣;
[0072]
其中,er(k+c-1)为第c-1次迭代的误差平方和,er(k+c+1)为第c+1次迭代的误差平方和。
[0073]
对于x次迭代,计算每次迭代结果的误差平方和,从对第一次迭代的结果计算变化率λ
k+1
开始到对倒数第二次迭代的结果计算变化率λ
k+x-1
为止,得到x次迭代对应的变化率集合λ={λ
k+1
,λ
k+2
,
…
,λ
k+f
,
…
,λ
k+x
},在变化率集合λ中变化率最小值的误差平方和对应的迭代值为最佳的k值,该最佳k值为y,也即将vi聚为y个簇具有最佳的聚类效果,y个簇分别对应的y个簇中心点。
[0074]
且对s300做进一步的优化:获取分别与每个待匹配的分类标签中簇中心点之间的综合相似度,得到综合相似度集合
[0075]
其中,综合相似度集合中综合相似度为中r个词向量与di对应的簇中心点t之间向量相似度的加权求和,其中i的取值范围为1到l;其中满足:
[0076][0077]
其中,为第r个词向量的权重,为第r个词向量与第i个待匹配的分类标签di对应的簇中心点t中第y个簇中心点ty之间的向量相似度。
[0078]
可选的,为与ty之间的余弦相似度、与ty之间的距离相似度、或者与ty之间的余弦相似度和距离相似度之和。
[0079]
优选的,向量相似度其中,为与ty之间的第一向量相似度,为与ty之间的第二向量相似度。和不同。
[0080]
可选的,第一向量相似度为词向量和ty之间的余弦相似度。
[0081]
可选的,第二向量相似度与和ty之间的欧氏距离负相关。
[0082]
优选的,第二向量相似度其中为词向量和之间的欧式距离。
[0083]
优选的,第二向量相似度
[0084]
综上所述,该方法进一步通过提取每个簇的簇中心点的语义向量,簇中心点的语义向量能够表征相应簇的平均语义,计算中词向量与簇中心点之间的相似度,相较于计算中词向量与簇中每一个词向量之间的相似度而言,能够大幅度的降低计算量,提高了标签更新的效率。同时进一步的消除了与簇中心点距离较远的词向量导致的相似度准确率低的问题,进一步的提高了标签更新的准确率。
[0085]
在上述任意一个实施例中,由于多次出现的词向量不仅会被重复计算,增加了系统的运算量,导致标签更新的效率较低;并且由于同一个标签下的重复的词向量在聚类时
会导致聚类中心偏向重复的词向量,进而导致聚类得到的分类结果不准确,在根据分类结果计算综合相似度的准确性也会受到影响,进而导致待分类标签的更新结果不准确。为了解决该问题,对s120进行进一步的优化以及权重的获取步骤:
[0086]
进一步优化s120,对wi进行分词得到x个词,对x个词中的常用词、数字和标点进行过滤且并去除重复词得到m个词;将m个词转为词向量得到m个词向量集合过滤且并去除重复词得到m个词;将m个词转为词向量得到m个词向量集合其中m为正整数。词向量集合vi中的任意两个词向量之间满足其中h和f的取值范围均为1到m且h≠f。
[0087]
其中,去除重复词的方法为比较两个词是否相同,将相同的词视为重复的词,只保留其中任意一个词,将其他的重复词删除,也即得到的m个词中没有重复的词语。
[0088]
其中,第r个词向量的权重的获取步骤包括:
[0089]
s310,获取语料库中所有的a个父标签seg={seg1,seg2,
…
,sega},第a个父标签包括sum(a)个子标签sega={seg
a,1
,seg
a,2
,
…
,seg
a,sum(a)
},a的取值范围为1到a,且子标签的总数量sa满足其中,sum(a)的函数值为整数。
[0090]
需要说明的是,在上述实施例中的分类标签均为子标签,子标签为父标签进一步细分得到的标签,例如,父标签“盗窃”下包括子标签“盗窃手机”、“盗窃机动车”和“入室盗窃”等。子标签和父标签均为用户指定的分类标签。
[0091]
s320,获取所在的第m个待更新的子标签seg
a,m
,根据对seg
a,m
中所有的文本条目进行分词得到的mx个词,统计所对应的词在seg
a,m
中出现的次数得到
[0092]
需要说明的是,在词向量集合中词向量是唯一的,多个重复词对应的同一个词向量,在去重操作时已经将词向量做了去重处理,因此,统计时,需要在去重处理之前的词语中进行统计,也即需要利用词向量对应的词,在去重之前的词中统计该词出现的次数。
[0093]
s330,获取在sa个子标签中包括所对应的词的子标签的数量
[0094]
s340,根据和sa计算其中分别与和sa正相关、与负相关。
[0095]
优选的,满足:
[0096][0097]
可选的,log的底数为10、e或者2。
[0098]
能够反映出在第m个标签中的重要性,能够反映出对于第m个待更新的分类标签中的特有性。若为通用词,则值较小;而在第m个待更新的分类标签中出现的频率高且在所有标签中出现的频率低,那么对第m个待更新的分类标签来说重要性高,值较大。
[0099]
由于在计算相似度时利用重复词出现的频率调整重复词对应的词向量的权重,因此能够在保证重复词对于标签权重的情况下,使聚类的过程中不受重复词的影响,提
高聚类的准确性,同时利用降低第m个待更新的分类标签中通用词的权重,提高第m个待更新的分类标签中特有词的权重。将作为融合相似度的权重能够使综合相似度相对于单纯的采用一种向量相似度来评估整体相似度而言更加准确。
[0100]
基于与上述方法实施例相同的发明构思,本发明实施例还提供了一种更新分类标签的优化系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一个实施例所描述的分类标签更新方法,该分类标签更新方法在上述实施例已经详细说明,不再赘述。
[0101]
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0102]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0103]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。