一种结合特征改进及扩展的双通道短文本分类方法及系统

文档序号:35143852发布日期:2023-08-17 22:28阅读:71来源:国知局
一种结合特征改进及扩展的双通道短文本分类方法及系统

本发明属于自然语言处理领域,具体属于一种短文本分类的方法。


背景技术:

1、文本分类技术在许多领域应用十分广泛,比如:垃圾过滤、新闻分类、自动问答和词性标注等。这些领域如果仅仅靠人为进行数据分类或者通过人为设计规则进行匹配过滤,那无疑工作量是巨大的,因此对于拥有大量数据和流量的门户网站来说,文本自动分类功能显得十分必要。然而,文本数据本身也是丰富多样的,国内产生的大量文本数据主要以中文为主,出现的数据中存在大量的中文短文本数据,短文本不如长文本的文本数据丰富词汇量少,在文本处理过程中容易出现语义模糊,信息缺失等问题,在此背景下这方面的研究应运而生。

2、在文本分类发展过程中,主要依托两种方法,第一种是根据知识工程的方法,第二种是根据机器学习的方法。文本的初始分类主要根据知识工程的方法,专家学者根据自己的经验来指定文本分类的匹配规则,根据规则来对文本的类型进行判定,这种方法费时费力并且适用范围非常狭小,不符合人们生产生活的需求。在上世纪60年代以来,机器学习的方法慢慢变成了主流,与知识工程的方法相比,它不需要的人工来指定特有的匹配规则,而是根据概率学的知识设计一套算法,根据给定的语料库训练出算法参数来让机器达到文本自动分类的效果,这样的方法不仅省去大量的人力物力,而且能够达到的匹配精确度更高,泛化性也更强。在机器学习的发展过程中,主要是从浅层学习到深度学习的模型,在2010年之前主要是浅层学习模型占据主导,浅层模型基本上只含有一层隐藏层节点,结构简单易于训练。常用的浅层的学习模型有朴素贝叶斯(nb)、支持向量机(svm)和k近邻(knn)等,这些模型不管在理论上还是应用上都取得较大的成功。

3、随着数据量的增长、算法的创新和运算性能的提升,深度学习逐渐走入了人们的视野,自从2006年hinton和他的学生提出了两篇对于深度学习算法改进的论文,尤其是使用了预训练方法缓解局部的最优解问题,进而拉开了深度学习在学术届和工业界发展的浪潮。深度学习模型结构相较于浅层模型隐层大大增加,明确了特征学习的重要性,并且可以逐层进行特征空间的转换,这可以使得分类或者预测任务变得更加容易,尤其是在大量数据的情况下。深度学习网络大致能够分为三类,即多层感知器模型、深度神经网络模型和循环神经网络模型,代表模型有深度信念网络(dbn)、卷积神经网络(cnn)和循环神经网络(rnn)。除此之外,也有一些相关的改进模型,像长短期记忆网络(lstm)以及门控循环单元网络(gru)等。根据这些深度学习模型,深度学习的方法开始应用于文本分类问题,在这之中kim等人首次使用cnn来处理文本分类问题,主要思想是借助不同窗口大小的卷积核得到文本的局部特征,然后借助池化操作突出主要信息,随后将输出数据输入全连接层做分类训练。liu等人针对文本多分类任务,提出了基于rnn的多任务训练和多任务共享分类模型,以此探索不同任务之间的共享信息,以提高分类效果。但是,在短文本的分类问题中使用单一的神经网络结构难以对短文本的特征进行更好的提取,因为短文本不如长文本的文本数据丰富词汇量少,在文本处理过程中容易出现语义模糊,信息缺失等问题。

4、在上述内容可知,当前在解决文本分类的问题上主要使用的是深度学习方面的技术,但是在短文本数据的分类问题上,常规的深度学习网络难以取得理想的效果。针对短文本分类的问题,本发明在深度学习现有的技术上使用了一种基于cnn和bigru的双通道短文本分类模型,两种模型都会对短文本的输入特征进行提取,在此之后又会在两种特征提取网络后面加上一层注意力层,基于注意力机制对两种网络提取的特征进行进一步的优化,以此来加强模型对于文本特征的表达,以此来提高短文本分类效果。

5、cn109670041a,一种基于双通道文本卷积神经网络的带噪非法短文本识别方法。包括带噪短文本的预处理、双通道文本卷积神经网络模型的构建,以及模型的训练和实时识别。带噪短文本的预处理用于噪声字符的标准化,消除噪声的影响,提高卷积神经网络模型的学习能力。双通道文本卷积神经网络模型是一个可以同时输入预处理后字符序列和拼音序列的文本卷积神经网络模型。由于增加了拼音序列的输入和建模能力,因此该模型可消除同音字符替换对分类性能影响。本发明能够处理同音字符替换、形状相似的英文字符替换、各种语义相同的数字符号替换等带来的影响,实验结果显示本发明方法对带噪声的非法短文本的识别具有较高的识别准确率和较低的误检率。

6、公开号为cn109670041a的发明利用带噪短文本的预处理用于噪声字符的标准化,消除噪声的影响,提高双通道卷积神经网络模型的学习能力。尽管都是基于双通道网络的分类方法,但是本发明和公开号为cn109670041a的发明不同于以下几点:

7、(1)特征的处理:公开号为cn109670041a的发明在特征的处理上使用了噪声数据的处理方式对文本数据进行处理,但是泛化性不强。同时,使用了拼音向量表示对文本特征进行增强,但是拼音序列所能表达的语义较弱,因为同音字过多,所得拼音向量信息薄弱。而本发明针对短文本特征稀疏和语义薄弱的特点对文本数据进行了特征改进和特征扩展操作,增强了文本语义的表达,可以提高文本的分类精度,并且泛化性较高。

8、(2)双通道训练网络:公开号为cn109670041a的发明使用的是双通道的cnn网络,网络类型比较单一,无法对文本特征进行有效的提取。

9、而本发明中使用的是基于cnn和bigru网络的双通道模型,充分结合了cnn和bigru网络的优势对文本特征进行提取,特征提取效果更好。


技术实现思路

1、本发明旨在解决以上现有技术的问题。提出了一种结合特征改进及扩展的双通道短文本分类方法。本发明的技术方案如下:

2、一种结合特征改进及扩展的双通道短文本分类方法,其包括以下步骤:

3、步骤1、对获取到的短文本数据进行预处理,预处理操作包括对文本数据的清洗、文本分词及词性标注和去停用词操作,获取最终的文本特征;

4、步骤2、对获取到的文本特征数据进行特征改进操作,即将文本中的每个文本词特征和词对应的词性特征进行结合;

5、步骤3、对改进过后的文本特征进行向量化操作,目的是将文本字符转化为计算机可以识别的数值向量;

6、步骤4、对短文本特征进行特征扩展操作,即采用集合特征挖掘算法来进行特征扩展;

7、步骤5、使用深度学习的方法构建短文本分类使用的双通道模型,两种通道模型分别为cnn和bigru模型,通过双通道并行的方式各自对输入的数据进行特征提取,最后通过全连接层输出预测类别。

8、进一步的,所述步骤1文本预处理的步骤为:

9、步骤一:使用正则表达式在内的字符串过滤和匹配技术,将文本数据中的无效列、无效表情符号、无效数字、无效英文字母、空格和标点在内的无效字符进行去除;

10、步骤二:使用中科大分词系统nlpir对文本进行分词和词性标注操作;

11、步骤三:对文本分词过后获取到的词汇进行去停用词的操作。

12、进一步的,所述步骤2对获取到的文本特征数据进行特征改进操作,即将文本中的每个文本词特征和词对应的词性特征进行结合,具体包括:

13、将文本分词获取的词特征和词特征对应的词性特征进行拼接组合,形成一个词和词性特征的融合特征对,词性特征的加入用于解决文本词特征中的一词多义问题,细化文本的粒度,提高文本特征对于文本语义表达。

14、进一步的,所述步骤3对改进过后的文本特征进行向量化操作,具体为:

15、使用词嵌入模型word2vec中的skip-gram模式进行文本改进特征的向量化训练,将预处理和特征改进过后的文本数据集输入skip-gram模型进行训练,以此获取每个对应文本改进特征的数值向量。

16、进一步的,所述步骤4、对短文本特征进行特征扩展操作,即采用集合特征挖掘算法来进行特征扩展,具体步骤为:

17、步骤一:使用改进if-idf算法抓取出文本数据改进特征集合中的类别关键特征。改进算法对主要对if词频和idf逆文档频率的计算方式做了调整,让其能对文本类别关键特征进行提取。

18、步骤二:设置文本的最大序列长度maxlen和特征扩展窗口n;

19、步骤三:对每个文本序列长度进行判断,如果文本序列长度小于maxlen,便对文本特征进行遍历操作,如果包含类别关键特征,就将类别关键特征对应的前n个余弦相似特征扩展到该关键特征之后。

20、进一步的,所述改进的if-idf算法表达式为:

21、w=if×idf=(ni,j/dj)×(log(1+pi/p'i)),其中if表示词频,idf表示逆文档序,ni,j表示在所在类别文档集合中的数量,对应的分母dj是类别文档集合的总词数,pi代表当前词在当前类别文档集合中的频率大小,p'i代表除当前类别集合之外,其它文档集合中当前词的频率大小。

22、进一步的,所述步骤5的双通道网络结构主要包含四层结构:

23、第一层是特征输入层,输入的数据为文本改进特征向量化数值替换之后所形成的向量化矩阵,矩阵特征向量的数量与最大序列长度maxlen相同;

24、第二层是双通道学习层,这一层使用深度学习的cnn和bigru模型,cnn模型主要是通过卷积操作的方式提取文本特征矩阵的信息,bigru模型通过记录时序信息来进行对特征的提取;

25、第三层是特征融合层,特征融合层会将cnn和bigru模型提取出的特征进行拼接融合操作;

26、第四层是全连接层,将第三层特征融合层中的拼接数据输入,做最后的分类训练,输出所预测的文本类别。

27、一种基于任一项所述方法的分类系统,其包括:

28、预处理模块:用于对获取到的短文本数据进行预处理,预处理操作包括对文本数据的清洗、文本分词及词性标注和去停用词操作,获取最终的文本特征;

29、特征改进模块:用于对获取到的文本特征数据进行特征改进操作,即将文本中的每个文本词特征和词对应的词性特征进行结合;

30、特征向量化模块:用于对改进过后的文本特征进行向量化操作,目的是将文本字符转化为计算机可以识别的数值向量;

31、特征扩展模块:用于对短文本特征进行特征扩展操作,即采用集合特征挖掘算法来进行特征扩展;

32、预测模块:用于使用深度学习的方法构建短文本分类使用的双通道模型,两种通道模型分别为cnn和bigru模型,通过双通道并行的方式各自对输入的数据进行特征提取,最后通过全连接层输出预测类别。

33、本发明的优点及有益效果如下:

34、本发明在特征改进方面,对文本中每个词汇加入了词性特征,用于细化粒度,增强语义表达。在特征扩展方面使用了关键特征提取算法,让这些关键特征和其余弦相似度较大的相似词汇来作为特征的扩展素材。实验证明,这两种方法不管是单独使用还是结合使用时,都让文本分类效果有所提升。在文本分类模型上,本章采取了一种双通道的特征提取方法,弥补了单通道特征提取的不足,对特征的局部信息和上下文信息都能做到很好的表达。最终的实验验证表明,这种模型能在很大程度上将分类效果最大化,在短文本分类的问题是能表现出更好的效果。

35、发明效益:现在国内互联网产生的数据中存在大量的中文短文本数据,许多的互联网公司和学者都希望在现有技术的基础上找到一种能够有效的方法来改进短文本文本分类精度低下的问题,以此来提高对人民大众的服务水平。

36、正是基于这样的互联网环境,本课题的研究与实际互联网项目接轨,对于重庆市铜梁区综合事件管理系统有着重要意义。系统中需要对区县中上报的短文本数据进行自动的分类和打标,在老的系统当中需要依靠人工对事件的类别进行分类操作和打标操作,本课题的工作致力于将工作人员从繁琐的工作中解放,并同时提高事件标注的正确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1