本申请涉及自然语言处理,尤其涉及一种基于数据图像化的网络文章与主题相关性分析方法。
背景技术:
1、目前网络文章或新闻话题分类方法有经典的余弦分类、矩阵奇异值分解等算法,和一些基于自然语言处理的方法,如循环神经网络(rnn)等。
2、传统方法中,奇异值分解方法,需要大内存或分布式计算,且分类结果粗糙,而余弦分类算法需要多次迭代,速度慢,对特征利用也不够充分,如向量各个维度之间关联性等。
3、基于ai方法主要基于循环神经网络(rnn)和图神经网络(transformer),处理流程如图1所示,网络结构如gru、lstm等。
4、现有技术的方案,为了能捕获长程依赖特,网络结构较为复杂,计算并行度低,速度相对较慢。同时现有技术的方案为兼容多种特征需要重新设计网络结构,网络兼容性低。网络结构中的全连接层计算量大,不利于网络优化。
技术实现思路
1、本申请实施例提供一种基于数据图像化的网络文章与主题相关性分析方法,先利用自然语言预处理技术抽取文章的有效特征,再进行特征图像化,最后利用卷积神经网络进行分类及计算与目标主题的相关性,实现准确、快速、低功耗数据分析。
2、本申请实施例提供一种基于数据图像化的网络文章与主题相关性分析方法,包括如下步骤:
3、获取待处理的文本数据;
4、基于预先构建的映射表,将所述待处理的文本数据转变为第一特征图;以及
5、统计各词组在所述文本数据中出现的位置,并基于各词组的出现位置构建第二特征图;
6、将所述第一特征图和所述第二特征图作为两通道数据融合,并输入训练好的图像分类模型,以利用训练好的所述图像分类模型完成相关性判断。
7、可选的,采用如下方式预先构建映射表:
8、取常用词组作为训练集,并将常用词组按行列排列;
9、计算各词组的逆文本频率指数,满足:其中d为总网页数,dij为第i行第j列词组对应的网页数;
10、按照词组的排列方式,对应生成逆文本频率指数表(idf表);
11、设置常用主题及关键词,作为文章分类目标;
12、构建所述idf表与文章分类目标之间的映射关系,即为所述映射表。
13、可选的,采用如下方式预先训练图像分类模型:
14、采用one-hot编码形式,并在编码后进行辅助修正,以为所述训练集的各词组添加标签。
15、可选的,还采用如下方式预先训练图像分类模型:
16、利用添加标签后的训练集对所述图像分类模型进行训练,并根据训练完成后的模型修正标签,重复训练。
17、可选的,基于预先构建的映射表,将所述文字向量转变为第一特征图包括:
18、计算取待处理的文本数据中的文本词频二维矩阵,满足:
19、
20、其中,mij为第i行第j列对应的词组在文本数据中的出现次数,m为文本数据的总词组数;
21、进行归一化:
22、tf.idfij=tfij*idfij
23、归一化后,获得第一特征图。
24、可选的,统计各词组在所述文本数据中出现的位置,并基于各词组的出现位置构建第二特征图包括:
25、为各词组在所述文本数据中出现的位置配置对应的标记,按照各词组在所述文本数据中出现的顺序,构建第二特征图。
26、本申请实施例还提出一种网络文章与主题相关性分析装置,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于数据图像化的网络文章与主题相关性分析方法的步骤。
27、本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的基于数据图像化的网络文章与主题相关性分析方法的步骤。
28、本申请实施例先利用自然语言预处理技术抽取文章的有效特征,再进行特征图像化,最后利用卷积神经网络进行分类及计算与目标主题的相关性,实现准确、快速、低功耗数据分析。
29、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
1.一种基于数据图像化的网络文章与主题相关性分析方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于数据图像化的网络文章与主题相关性分析方法,其特征在于,采用如下方式预先构建映射表:
3.如权利要求2所述的基于数据图像化的网络文章与主题相关性分析方法,其特征在于,采用如下方式预先训练图像分类模型:
4.如权利要求3所述的基于数据图像化的网络文章与主题相关性分析方法,其特征在于,还采用如下方式预先训练图像分类模型:
5.如权利要求1所述的基于数据图像化的网络文章与主题相关性分析方法,其特征在于,基于预先构建的映射表,将所述文字向量转变为第一特征图包括:
6.如权利要求5所述的基于数据图像化的网络文章与主题相关性分析方法,其特征在于,统计各词组在所述文本数据中出现的位置,并基于各词组的出现位置构建第二特征图包括:
7.一种网络文章与主题相关性分析装置,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于数据图像化的网络文章与主题相关性分析方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于数据图像化的网络文章与主题相关性分析方法的步骤。