1.本发明涉及数据处理技术领域,并且更具体地,涉及一种用于批量文档增量的分类系统及方法。
背景技术:2.随着现代社会文本数据的爆炸式增长,对文本的分类处理变得越来越重要,自适应的文本处理方法面向不具备专业自然语言处理理论知识的业务人员,在日常办公中方便文献的规范梳理,辅助用户使用,提升业务人员办公效率。
3.文本分类是在预定义的分类标准下,根据文本内容或属性,将给定文本与一个或多个类别相关联的过程。
4.现有的文本分类方法是利用机器学习或神经网络的方法提高文本分类的准确率,但是常见的文本分类方法需要提前明确分类个数,难以处理具有不断新增的文本类别的业务场景。
技术实现要素:5.针对上述问题,本发明提出了一种用于批量文档增量的分类系统,包括:
6.文本预处理模块、所述文本处理模块确定批量文件中的每个文件的后缀名,根据后缀名进行文本匹配,读取具有不同后缀名的文件内容,生成文本,获取文本的向量;
7.文本分类模块、所述文本分类模块,根据文本模型以文本向量作为输入数据,对文本进行分类,获取分类结果,将分类结果高于阈值的文本作为输出类别,将分类结果低于阈值的文本输入至文本聚类模块;
8.文本聚类模块、所述文本聚类模块对低于阈值的文本进行k
‑
means聚类计算,选定文本中的聚类簇,获取聚类结果;
9.文本增量训练模块,所述文本增量训练模块,通过标签抽取的方式对聚类结果的聚类簇中的标签进行抽取,选择标签将聚类结果作为分类模型的训练集并进行增量训练,增加分类模型的类别,获取增加分类的文本模型,使用文本模型对低于阈值的文本进行分类。
10.可选的,获取文本的向量,使用向量空间模型进行获取,向量空间模型如下:
11.v
doc
=[tf1*idf1,
…
,tf
n
*idf
n
]
[0012]
tf为词频,idf为逆文档频率,n为文本数量。
[0013]
可选的,k
‑
means聚类计算,利用肘部法则计算不同聚类个数时各个簇的误差平方和的总和,获得曲率变化最大的位置,作为最优聚类个数,所述计算模型如下:
[0014][0015]
ci表示第i个聚类簇,k表示聚类簇的个数。
[0016]
可选的,增量训练,包括:
[0017]
对聚类簇中的每个文本进行分词、去停用词及词性筛选的预处理,将预处理后的文本,根据词语和词语之间的关系构成graph,利用textrank算法抽取每个文本中最重要的topk个文本标签,增量训练模型如下:
[0018][0019]
m为预处理后单词的个数,d为阻尼系数,tr(vj)为单词v
j
的textrank值,α和β为分配系数,所述α和β用于分配文档内权重和文档投票权重;ω
ji
为节点v
j
和节点v
i
的连接词频,ω
jk
为节点v
j
所有出度节点的连接词频,nvi为节点vi在全部文档中出现的文档数,n为聚类簇中的文档个数。
[0020]
可选的,textrank算法根据聚类簇中单词在每个文本中的出现频率进行投票,获得整个聚类簇的标签,使得文档中共同出现的词语能更好的作为标签被取出,将聚类簇中每个文档的标签进行合并取topk作为文本类别,进行增量训练,自动更新文本分类模型。
[0021]
本发明还提出了一种用于批量文档增量的分类方法,包括:
[0022]
确定批量文件中的每个文件的后缀名,根据后缀名进行文本匹配,读取具有不同后缀名的文件内容,生成文本,获取文本的向量;
[0023]
根据文本模型以文本向量作为输入数据,对文本进行分类,获取分类结果,将分类结果高于阈值的文本作为输出类别;
[0024]
对低于阈值的文本进行k
‑
means聚类计算,选定文本中的聚类簇,获取聚类结果;
[0025]
通过标签抽取的方式对聚类结果的聚类簇中的标签进行抽取,选择标签将聚类结果作为分类模型的训练集并进行增量训练,增加分类模型的类别,获取增加分类的文本模型,使用文本模型对低于阈值的文本进行分类。
[0026]
可选的,获取文本的向量,使用向量空间模型进行获取,向量空间模型如下:
[0027]
v
doc
=[tf1*idf1,
…
,tf
n
*idf
n
]
[0028]
tf为词频,idf为逆文档频率,n为文本数量。
[0029]
可选的,k
‑
means聚类计算,利用肘部法则计算不同聚类个数时各个簇的误差平方和的总和,获得曲率变化最大的位置,作为最优聚类个数,所述计算模型如下:
[0030][0031]
ci表示第i个聚类簇,k表示聚类簇的个数。
[0032]
可选的,增量训练,包括:
[0033]
对聚类簇中的每个文本进行分词、去停用词及词性筛选的预处理,将预处理后的文本,根据词语和词语之间的关系构成graph,利用textrank算法抽取每个文本中最重要的topk个文本标签,增量训练模型如下:
[0034][0035]
m为预处理后单词的个数,d为阻尼系数,tr(vj)为单词v
j
的textrank值,α和β为分配系数,所述α和β用于分配文档内权重和文档投票权重;ω
ji
为节点v
j
和节点v
i
的连接词频,ω
jk
为节点v
j
所有出度节点的连接词频,nvi为节点vi在全部文档中出现的文档数,n为聚类簇中的文档个数。
[0036]
可选的,textrank算法根据聚类簇中单词在每个文本中的出现频率进行投票,获得整个聚类簇的标签,使得文档中共同出现的词语能更好的作为标签被取出,将聚类簇中每个文档的标签进行合并取topk作为文本类别,进行增量训练,自动更新文本分类模型。
[0037]
本发明利用文本聚类和文本分类相结合的方式,自适应的拓展更新文件类别,可以更好的获得聚类文件中的文件标签,更新训练分类模型;
[0038]
本发明与传统的文件分类方法相比,可以更好的处理对批量文件的增量输入进行归纳整理,不需要人工辅助即可获得批量文档的归纳结果,可用于企业或者政府部门日常归纳整理批量文件。
附图说明
[0039]
图1为本发明系统的结构图;
[0040]
图2为本发明方法的流程图。
具体实施方式
[0041]
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
[0042]
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
[0043]
本发明提出了一种用于批量文档增量的分类系统,如图1所示,包括:
[0044]
文本预处理模块、所述文本处理模块确定批量文件中的每个文件的后缀名,根据后缀名进行文本匹配,读取具有不同后缀名的文件内容,生成文本,获取文本的向量;
[0045]
文本分类模块、所述文本分类模块,根据文本模型以文本向量作为输入数据,对文本进行分类,获取分类结果,将分类结果高于阈值的文本作为输出类别,将分类结果低于阈值的文本输入至文本聚类模块;
[0046]
文本聚类模块、所述文本聚类模块对低于阈值的文本进行k
‑
means聚类计算,选定文本中的聚类簇,获取聚类结果;
[0047]
文本增量训练模块,所述文本增量训练模块,通过标签抽取的方式对聚类结果的
聚类簇中的标签进行抽取,选择标签将聚类结果作为分类模型的训练集并进行增量训练,增加分类模型的类别,获取增加分类的文本模型,使用文本模型对低于阈值的文本进行分类。
[0048]
其中,获取文本的向量,使用向量空间模型进行获取,向量空间模型如下:
[0049]
v
doc
=[tf1*idf1,
…
,tf
n
*idf
n
]
[0050]
tf为词频,idf为逆文档频率,n为文本数量。
[0051]
其中,k
‑
means聚类计算,利用肘部法则计算不同聚类个数时各个簇的误差平方和的总和,获得曲率变化最大的位置,作为最优聚类个数,所述计算模型如下:
[0052][0053]
ci表示第i个聚类簇,k表示聚类簇的个数。
[0054]
其中,增量训练,包括:
[0055]
对聚类簇中的每个文本进行分词、去停用词及词性筛选的预处理,将预处理后的文本,根据词语和词语之间的关系构成graph,利用textrank算法抽取每个文本中最重要的topk个文本标签,增量训练模型如下:
[0056][0057]
m为预处理后单词的个数,d为阻尼系数,tr(vj)为单词v
j
的textrank值,α和β为分配系数,所述α和β用于分配文档内权重和文档投票权重;ω
ji
为节点v
j
和节点v
i
的连接词频,ω
jk
为节点v
j
所有出度节点的连接词频,nvi为节点vi在全部文档中出现的文档数,n为聚类簇中的文档个数。
[0058]
其中,textrank算法根据聚类簇中单词在每个文本中的出现频率进行投票,获得整个聚类簇的标签,使得文档中共同出现的词语能更好的作为标签被取出,将聚类簇中每个文档的标签进行合并取topk作为文本类别,进行增量训练,自动更新文本分类模型。
[0059]
本发明还提出了一种用于批量文档增量的分类方法,如图2所示,包括:
[0060]
确定批量文件中的每个文件的后缀名,根据后缀名进行文本匹配,读取具有不同后缀名的文件内容,生成文本,获取文本的向量;
[0061]
根据文本模型以文本向量作为输入数据,对文本进行分类,获取分类结果,将分类结果高于阈值的文本作为输出类别;
[0062]
对低于阈值的文本进行k
‑
means聚类计算,选定文本中的聚类簇,获取聚类结果;
[0063]
通过标签抽取的方式对聚类结果的聚类簇中的标签进行抽取,选择标签将聚类结果作为分类模型的训练集并进行增量训练,增加分类模型的类别,获取增加分类的文本模型,使用文本模型对低于阈值的文本进行分类。
[0064]
其中,获取文本的向量,使用向量空间模型进行获取,向量空间模型如下:
[0065]
v
doc
=[tf1*idf1,
…
,tf
n
*idf
n
]
[0066]
tf为词频,idf为逆文档频率,n为文本数量。
[0067]
其中,k
‑
means聚类计算,利用肘部法则计算不同聚类个数时各个簇的误差平方和的总和,获得曲率变化最大的位置,作为最优聚类个数,所述计算模型如下:
[0068][0069]
ci表示第i个聚类簇,k表示聚类簇的个数。
[0070]
其中,增量训练,包括:
[0071]
对聚类簇中的每个文本进行分词、去停用词及词性筛选的预处理,将预处理后的文本,根据词语和词语之间的关系构成graph,利用textrank算法抽取每个文本中最重要的topk个文本标签,增量训练模型如下:
[0072][0073]
m为预处理后单词的个数,d为阻尼系数,tr(vj)为单词v
j
的textrank值,α和β为分配系数,所述α和β用于分配文档内权重和文档投票权重;ω
ji
为节点v
j
和节点v
i
的连接词频,ω
jk
为节点v
j
所有出度节点的连接词频,nvi为节点vi在全部文档中出现的文档数,n为聚类簇中的文档个数。
[0074]
其中,textrank算法根据聚类簇中单词在每个文本中的出现频率进行投票,获得整个聚类簇的标签,使得文档中共同出现的词语能更好的作为标签被取出,将聚类簇中每个文档的标签进行合并取topk作为文本类别,进行增量训练,自动更新文本分类模型。
[0075]
本发明利用文本聚类和文本分类相结合的方式,自适应的拓展更新文件类别,可以更好的获得聚类文件中的文件标签,更新训练分类模型;
[0076]
本发明与传统的文件分类方法相比,可以更好的处理对批量文件的增量输入进行归纳整理,不需要人工辅助即可获得批量文档的归纳结果,可用于企业或者政府部门日常归纳整理批量文件。
[0077]
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
[0078]
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0079]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0080]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0081]
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
[0082]
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。