粒子群算法结合CNN卷积神经网络的文本分类方法与流程

文档序号:37754839发布日期:2024-04-25 10:41阅读:14来源:国知局
粒子群算法结合CNN卷积神经网络的文本分类方法与流程

本发明涉及文本分类,特别是粒子群算法结合cnn卷积神经网络的文本分类方法。


背景技术:

1、1、目前主流的公文流转都是基于系统事先配置好的业务流程以工作流驱动电子公文进行流转;但是由于业务流程配置不灵活、流程节点办理人员经常变动、新入办公人员不熟悉公文处理流程等原因,造成公文处理后不知如何提交公文流转从而造成办公质量低和退回率高的问题。

2、2、当前大多数智能公文分类辅助系统其语料库都是基于互联网公开的语料库,这些语料库的特点主要在两方面,一方面是数据规模庞大;另一方面是数据库内的数据内容不存在领域偏差,公文智能分类中,领域内词汇对于最终效果的影响尤为明显。相比于普通文本材料,公文具有政治性突出,实效性强,格式规范等特点,因此将互联网公开的通用语料库作为政府公文训练的缺点是数据过于均衡无明显领域上的划分、训练出的词向量无法对其进行较为明确的概率定义等缺点。

3、3、在有些智能公文项目中,如大多数基于word2vec词向量的构建,通过提取公文正文特征,利用卷积神经网络进行公文信息识别分类从而进行公文智能辅助,但是此种处理办法未考虑公文的特点,即公文标题、领导签批意见等、这些标签元素对公文分类的重要程度、以及对公文流转的条件和人员的影响,只基于公文正文而进行文本分类的智能公文辅助系统往往出现分类结果不精准,无法做出正确的业务流程的推荐,用户体验感差.如现有一专利号为cn 110489749a的“智能办公自动化系统业务流程优化”申请,该申请未考虑公文标签、领导签批意见对公文文本分类的影响,基于此进行分类,达到不到其所称“智能办公自动化系统业务流程优化”的功能

4、4、公文标题应由“发文机关+事由+文种”组成,也就是说,公文标题会对整个公文事由做一个概括性叙述,利用好标签之间的相关性以提高分类效果;同时对于公文领导签批意见也直接决定了公文的流转和归档,目前主要的公文智能辅助系统未关注公文标题、签批意见对文本分类的重要性、导致公文分类准确度低,基于分类的公文智能化效果也大大降低。

5、5、文本分类的主要目标是将文档自动排列成各种已知类别。由于文本文档的性质,文本分类面临着一些挑战,如文档的词向量表示、高维和类的高倾斜度。文档的词向量表示直接决定文本分类的准确度和复杂度,目前常用的词向量表示模型有word2vec、n-gram和tf-idf等:word2vec是一种基于神经网络的词嵌入(word embedding)模型,用于将词语映射到连续的向量空间。它通过学习上下文语境中的词语关系来捕捉词语的语义信息。word2vec模型分为两种训练算法:cbow(continuous bag of words)和skip-gram。word2vec能够将词语表示为具有语义关联的向量,可以捕捉词语之间的语义相似性,可以通过向量运算来计算词语之间的关系,如找到与给定词语最相似的词语,但是其缺点是需要较大的训练数据集和计算资源,同时需要较大的训练数据集和计算资源,无法捕捉词语的顺序信息;n-gram是一种基于词语序列的表示方法,将文本分成连续的n个词语组成的片段。n-gram模型基于这些片段的出现频率来推断词语之间的语言模型,其有点在于可以捕捉到词语之间的局部联系,特别适用于短文本或语言模型任务,在处理较小的数据集时,表现良好,相对简单且易于实现;但其也有着如下缺点:无法捕捉长距离的依赖关系。对于稀有的n-gram序列,可能无法进行准确的推断。不适用于处理词语顺序变化较大的问题。


技术实现思路

1、本发明的目的为:一种基于自惯性权重自适应粒子群算法的多标签文本分类方法及其在办公系统的流程优化,其特征在于:基于bpm工作流引擎的公文系统的搭建,公文词向量库构建、词向量库优化、基于自惯性权重自适应粒子群算法的公文特征集提取、基于公文特征的用户公文画像构建、基于gcn卷积神经网络模型下的公文信息识别。基于bpm(业务流程管理)工作流引擎的智能公文系统实现了实现公文信息的传递、流转、业务监控;公文词向量库构建通过融合tf-idf及fasttext算法算法将公文历史数据映射成可计算的公文正文词向量、标题词向量,解决了公文复杂信息的表示问题;词向量优化通过注意力向量模型构建对词向量改进优化,对正文、标题词向量序列进行序列化编码,得到含有上下文语义信息的正文隐层向量序列和标题隐层向量序列,解决了单公文正文词向量模型下分类不准确的问题;基于自惯性权重自适应粒子群算法得到含有标题意识的标题-正文交互语义特征,解决了最佳特征子集选择和过早收敛问题;基于基于公文特征集和公文流程信息构建用户画像;基于gcn卷积神经网络的公文信息识别对公文标题-正文交互语义特征词向量构成的矩阵和邻接矩阵进行卷积加权分类,即可得到业务流程的推荐结果,提高了办公人员的效率以及业务流程的准确度。

2、上述中融合tf-idf及fasttext算法的词向量构建和于自惯性权重自适应粒子群算法提取向量的文本特征是本发明的主要发明点。

3、本发明可以解决基于多标签的文本分类模型下的智能公文推荐问题,具体表现为(1)针对现有技术分词采用词向量的数据库为无领域大型语料库预训练的词向量以及在公文语料库上预训练的领域内词向量,公开的词向量可能难以准确表达领域内专有和低频词汇语义,并且由于语料库大小的限制,领域内预训练词向量难以覆盖低频词汇的问题(2)基于tfidf算法的词向量优化模型中仅通过词频来衡量一个词在文章中重要程度的不足,并且能包含的语义信息相当有限;对于部分重要的词汇出现的词频不高,但是对于这类词汇无法获得较好的表示的问题;(3)word2vec在构建词向量时需要较大的训练数据集和计算资源,同时需要较大的训练数据集和计算资源,无法捕捉词语的顺序信息等问题;(4)基于神经网络cnn的文本分类模型参数量较大,需要较多的数据进行训练,否则容易过拟合,对于长文本的处理可能存在信息丢失的问题,无法充分捕捉全局关系等问题。(4)现有基于文本分类而实现公文智能分类的技术和发明都没有考虑公文标题对公文分类的重要性,只是基于公文正文进行多标签文本分类,造成分类准确度低、分类标签不完善等问题基于上述问题本发明达到的技术效果如下:一种基于自惯性权重自适应粒子群算法结合cnn卷积神经网络的文本分类方法及其在办公系统的流程优化,其特征在于:基于bpm工作流引擎的公文系统的搭建,公文词向量库构建、词向量库优化、基于自惯性权重自适应粒子群算法的公文特征集提取、基于公文特征的用户公文画像构建、基于cnn卷积神经网络模型下的公文信息识别。基于bpm(业务流程管理)工作流引擎的智能公文系统实现了实现公文信息的传递、流转、业务监控;公文词向量库构建:将公文历史数据映射成可计算的公文正文、标题词向量,解决了公文复杂信息的表示问题;词向量优化通过注意力向量模型构建对词向量改进优化,对正文、标题词向量序列进行序列化编码,得到含有上下文语义信息的正文隐层向量序列和标题隐层向量序列,解决了单公文正文词向量模型下分类不准确的问题;通过自惯性权重自适应粒子群算法得到标题意识的标题-正文交互语义特征,解决了最佳特征子集选择和过早收敛问题;基于基于公文特征集和公文流程信息构建用户画像;基于cnn卷积神经网络的公文信息识别对公文标题-正文交互语义特征词向量构成的矩阵和邻接矩阵进行卷积加权分类,即可得到业务流程的推荐结果,提高了办公人员的效率以及业务流程的准确度。

4、粒子群算法结合cnn卷积神经网络的文本分类方法,包括如下步骤:

5、s1、公文词向量构建,包含文本预处理、标签预处理、基于tf-idf及fasttext算法的公文词向量构建三个步骤;所述文本预处理包括数据采集、数据清洗、分词操作、词性标注处理过程;所述标签预处理包含提取公文标签标签、构建公文标签集、序列化数据集标签子集步骤。所述基于tf-idf及fasttext算法的公文词向量构建包括:fasttext特征提取、tf-idf特征提取、特征融合步骤;通过融合fasttext与tf-idf算法,计算每个词在文档中的频率tf和在整个文档集合中的逆文档频率idf;

6、s2、词向量优化:基于双向注意力机制,分别对正文、标题词向量序列进行序列化编码,得到含有上下文语义信息的正文隐层向量序列和标题隐层向量序列,标题-正文交互:使用协同注意力机制捕捉标题和正文之间的联系,根据词编码层提取的文章信息和标题信息进行信息匹配,通过一个全连接层降维至与原始词向量相同的维度;

7、s3、基于自惯性权重自适应粒子群算法的公文特征集提取;

8、s4、cnn模型下的公文信息识别:在公文信息识别中,采用基于卷积神经网络cnn的方法进行信息处理和分类,整个模型包括输入层、多个卷积层、池化层、全连接层和输出softmax层;每个卷积层包含多个不同的卷积核,记为ω,其中ω∈rhk,h表示卷积核的高度,k表示词向量的空间维度。卷积核以步长1向下滑动,经过一个大小为h*k的窗口对文本向量进行卷积运算,产生一个新的特征值;

9、对于长度为h+1的词语序列wi:i+h,其中wi,wi+1,...,wi+h为序列中的词语,使用卷积核矩阵ω进行卷积计算,卷积计算包括对每个窗口进行逐元素相乘,并对结果进行求和,在加上偏置项b(b∈r),最后经过激活函数f进行非线性变换。每个卷积核对文本向量处理后会得到一个特征图c=(c1,c2,...,cn-h+1),其中n为公文中词语的个数;

10、使用1-max-pooling的池化层对特征图进行处理,通过选取特征图中的最大值cm=max{c},我们得到了固定长度的特征表示;

11、将池化层的输出作为全连接层的输入,全连接层的大小为p(卷积核的种类)乘以q(每种卷积核的个数);

12、最后,通过输出层的softmax函数对不同类别进行判定,从而实现对公文信息进行分类。softmax函数可以将模型的输出转化为概率分布,用于确定最终的类别,

13、通过以上步骤的处理和建模,实现公文信息的智能识别和分类,从而为业务流程提供相应的智能推荐及用户公文画像的构建提供支持;

14、s5、基于公文特征的用户公文画像构建,用户画像是根据用户的公文流转记录、cnn模型下的公文信息识别信息等因素抽象出来的标签化的用户公文模型,在公文流转过程中每一节点的可办公人员列表均已配置好,故在本发明中采用三元素法表示用户画像:{i,n,w}其中i代表办公人员在oa中的id号,n代表办公人员的姓名+单位+职位+角色,w代表通过上文所述公文智能分类模块算法训练出的基于标签分类的关键词和权重信息,将文档关键词权重的训练结果存储在数据库文件中,选取系统中三个代表性办公人员的用户画像模型,其id、单位、姓名、职位、角色的对应关系;

15、读取办公人员的历史处理公文,通过cnn模型下的公文分类信息、通过tfidf算法处理后得到用户画像模型,算法的计算结果为一个列表,列表中的每个元素为元组,元组中的两个元素为关键词在词典中的序号和关键词权重:{(i1,w1),(i1,w1)...},采用词云来对用户画像的关键词权重信息进行可视化显示。

16、本发明的有益效果为:

17、(1)在词向量构建接单,现有技术分词采用词向量的数据库为无领域大型语料库预训练的词向量以及在公文语料库上预训练的领域内词向量,公开的词向量可能难以准确表达领域内专有和低频词汇语义,基于tf-idf及fasttext算法的公文词向量构建包括:fasttext特征提取、tf-idf特征提取、特征融合步骤。通过融合fasttext与tf-idf算法,既能够计算每个词在文档中的频率(tf)和在整个文档集合中的逆文档频率(idf),来衡量一个词对于文本的重要性,又改进了tf-idf无法捕捉到词语之间的语义关系的缺点。使用fasttext模型可以学习到词语的语义信息,但它对单词出现次数较少的情况下效果较差。因此,融合tf-idf和fasttext可以综合利用它们各自的优势,提高模型的性能。

18、(2)词向量优化层,注意力向量建模的有益效果是:本发明利用标题和正文的协作注意力来捕获标题和正文之间的关系,并获得具有标题意识的上下文编码。在不考虑标签相关性的情况下,结合上述改进提出了类模型并验证了词向量优化与特征提取改进在公文任务上的有效性。引入联合标签嵌入的有益效果是:充分考虑文档和标签之间的相关性。不同的文档对一个特定的标签有不同的影响,而同一个文档片段可能影响多个标签。考虑标签之间的关联性。公文标签的语义信息是相互关联的,引入联合标签体现了公文文本和多标签的语义关联性。。

19、(3)基于自惯性权重自适应粒子群算法(siw-apso)的公文特征集提取的有益效果是,使算法具有全局搜索能力,过粒子间的信息交流和合作,能够搜索整个特征空间,寻找最优的分类特征组合。这样可以避免陷入局部最优解,并提高文本分类的准确率和稳定性,良好的自适应性:算法能够自动调整粒子的速度和位置,根据当前的搜索状态进行动态调整,以更好地适应问题的复杂性和变化。这种自适应性使得自适应粒子群算法在不同的文本分类任务中表现出较好的鲁棒性和适应性,最佳的特征选择:自适应粒子群算法可以通过调整粒子的位置来选择最优的特征子集,从而实现特征选择和降维。通过精确的特征选择,可以减少冗余特征的干扰,提高分类器的性能和泛化能力。

20、(4)基于cnn模型下的公文信息识别的有益效果是,

21、1)基于卷积神经网络的公文信息识别,包括输入层、多个卷积层、池化层、全连接层和softmax层的信息处理。一个卷积层中由多个不同的卷积核ω,ω∈rhk,h为卷积核的高度,k为词向量的空间维度,卷积核以步长1向下滑动,每经过一个文本向量h*k的窗口时进行卷积运算,产生一个新的特征值。wi:i+h为一个长度为h+1的词语序列(wi,wi+1,…,wi+h),ω为卷积核矩阵权重参数,b为偏置项,b∈r,操作符(·)为卷积计算,f为激活函数。

22、2)一个卷积核对文本向量处理后得到一个特征图c=(c1,c2,…,cn-h+1),n为公文中词语的个数。池化层使用1-max-pooling对特征图的特征进行提取,cm=max{c},通过池化层处理后,不同长度的文本都变成了相同长度的特征。

23、3)全连接层的输入为池化层的特征输出,输入为p为卷积核的种类,q为每种卷积核的个数,输出层使用softmax函数进行类别判定,从而达到业务流程智能推荐。

24、(5)公文智能推荐有益效果,现有公文智能推荐都是基于公文文本分类进行简单推荐、未考虑政府公文之流程复杂性、公文标题中心词概括性、签批意见指导公文流转的重要性、本发明充分考虑政府公文流程复杂性、和领导签批意见的重要性,部分公文流转完全按照领导签批意见流转的特征,构建公文bpm工作流信息构建向量,将公文签批意见基于用户的排序及职位构建签批意见向量,更加符合政府公文特点,提升推荐准确度。同时本发明对用户公文画像采用用词云来对用户画像的关键词权重信息进行可视化显示、提升系统的美观性和可操作性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1