本发明属于文本分类领域,具体涉及一种基于大数据的app软件用户评论需求分类方法。
背景技术:
1、随着互联网的不断发展,人们逐渐习惯于将自身对产品或公司的建议、需求直接分享在互联网上。传统的电访、信访等收集用户建议、需求的方式在如今信息爆炸时代已显得效率低下,而用户评论信息分析却对公司极为重要。互联网用户评论信息是企业了解用户需求和用户反馈的重要渠道。通过分析互联网用户评论需求信息,企业可以了解用户对产品或服务的评价、对竞品的对比等信息,进而根据用户反馈进行产品服务改进。通过分析互联网用户评论需求信息,企业可以了解用户对自己品牌的评价和关注点,对于用户评价的正面反馈及时回复,对于负面评价进行处理和解决,从而提升企业品牌的口碑和声誉。通过分析互联网用户评论需求信息,可以快速地发现产品或服务可能存在的问题,及时解决问题,避免问题的扩大影响。所以,一个高效的分辨有用评论需求文本的技术就极为重要。
2、基于大数据的互联网用户评论需求分类方法可以通过自然语言处理、深度学习和传统机器学习技术,自动地从各种评论信息来源收集和处理信息,并筛选出对公司发展有帮助的需求及建议。这种方法可以大大提高公司了解自身产品优缺点的效率和准确性,并且可以准确分辨功能性需求和表现性需求的区别,是互联网需求分析的重要技术手段之一。
3、对于需求评论文本分类来说,传统的方法主要针对需求评论文本数据质量和分类模型两方面讨论。第一方面来说,互联网用户需求评论文本中经常夹杂着情绪语言及非法、暴力语言,失去了客观性和真实性,如何筛选出合理、理智的需求评论就显得极为重要,目前业界主要采用情感分析的手段来鉴定合适的需求评论文本;第二方面来说,文本分类模型主要分为传统机器学习模型及深度学习模型,如bert、textcnn、svm等。传统机器学习模型只需要少量数据就可以得到一个不错的泛化模型,但对于大规模数据却失去了进一步的成长能力,而深度学习模型极度依赖大量的高质量文本数据,却能够深度挖掘数据集潜力。
4、现有技术问题是:目前分类技术无法集成机器学习和深度学习的优点,在需求评论分类领域,机器学习拥有更高的精度,但无法排除非法语句和情绪语句的影响,深度学习拥有一定的精度,能排除非法语句和情绪语句的影响,却需要大量数据输入训练。
技术实现思路
1、为解决上述技术问题,本发明提出一种基于大数据的app软件用户评论需求分类方法,包括以下步骤:
2、s1:获取app用户评论数据,对app用户评论数据进行清洗,对清洗后的app用户评论数据根据其评论需求进行打标签处理;
3、s2:建立svteo模型和nbteo模型;
4、所述svteo模型包括:提取transformer模型中的encoder结构部分,得到trasformer-encoder-only层,在trasformer-encoder-only层后连接池化层,池化层后并行连接线性层和支持向量层,得到svteo模型;
5、所述nbteo模型包括:提取transformer模型中的encoder结构部分,得到trasformer-encoder-only层,在trasformer-encoder-only层后连接池化层,池化层后并行连接线性层和朴素贝叶斯层,得到nbteo模型;
6、所述trasformer-encoder-only层包括:embedding层以及六层encoder层;
7、s3:将带标签的app用户评论数据分别输入svteo模型和nbteo模型,将两模型的线性层分别向支持向量层和朴素贝叶斯层进行ml、dl同质化学习;
8、s4:根据将带标签的app用户评论数据分别对同质化学习后的svteo模型和nbteo模型进行异质化和参数微调处理,并将处理后的svteo模型和nbteo模型组成用户评论需求分类模型;
9、s5:将待分类的app用户评论数据输入用户评论需求分类模型进行分类打标处理,得到app用户评论数据的分类标签。
10、本发明的有益效果:
11、本发明通过对svteo模型和nbteo模型进行深度学习与传统机器,解决了从用户需求评论分辨有效信息和提取出功能性需求与表现性需求的困难点;通过svteo模型来学习到用户需求评论数据中高维信息,通过nbteo模型来拟合一个用户需求评论数据合理概率分布;对于两种模型,为避免其在用户需求评论数据中学到的信息一致性,本发明通过提出对比学习的方法来加大两模型之间的异质性。基于以上所述,本发明提出的用户评论需求分类方法有效提高了公司分析产品优缺点的效率,并能进一步反馈真实用户的功能性需求及表现性需求。
1.一种基于大数据的app软件用户评论需求分类方法,其特征在于,包括:
2.根据权利要求1所述的一种基于大数据的app软件用户评论需求分类方法,其特征在于,对app用户评论数据进行清洗,包括:
3.根据权利要求1所述的一种基于大数据的app软件用户评论需求分类方法,其特征在于,对svteo模型和nbteo模型进行ml、dl同质化学习,包括:
4.根据权利要求3所述的一种基于大数据的app软件用户评论需求分类方法,其特征在于,将embedding层与last_hidden_state层的输出取出并与权重矩阵相乘相加后,通过池化层进行池化操作,得到池化输出,包括:
5.根据权利要求3所述的一种基于大数据的app软件用户评论需求分类方法,其特征在于,对svteo模型的支持向量层的参数动态更新和平滑,包括:
6.根据权利要求3所述的一种基于大数据的app软件用户评论需求分类方法,其特征在于,对nbteo模型的朴素贝叶斯层的参数动态更新和平滑,包括:
7.根据权利要求1所述的一种基于大数据的app软件用户评论需求分类方法,其特征在于,分别对同质化学习后的svteo模型和nbteo模型进行参数微调并异质化处理,并将处理后的svteo模型和nbteo模型组成用户评论需求分类模型,包括:
8.根据权利要求7所述的一种基于大数据的app软件用户评论需求分类方法,其特征在于,所述用户评论需求分类模型的损失函数,包括:
9.根据权利要求1一种基于大数据的app软件用户评论需求分类方法,其特征在于,将待分类的app用户评论数据输入用户评论需求分类模型进行分类打标处理,得到app用户评论数据的分类标签,包括: