融合领域知识的细分行业新闻快速分类方法与系统

文档序号:31468839发布日期:2022-09-09 22:29阅读:150来源:国知局
融合领域知识的细分行业新闻快速分类方法与系统

1.本发明涉及文本分类技术领域,具体涉及一种融合领域知识的细分行业新闻快速分类方法、系统、存储介质和电子设备。


背景技术:

2.文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。
3.目前,在对细分行业新闻文本分类时,已有的细分行业新闻分类研究仅使用通用的分类方法,存在分类效果差、速度慢的问题。


技术实现要素:

4.(一)解决的技术问题
5.针对现有技术的不足,本发明提供了一种融合领域知识的细分行业新闻快速分类方法、系统、存储介质和电子设备,解决了分类效果差、速度慢的技术问题。
6.(二)技术方案
7.为实现以上目的,本发明通过以下技术方案予以实现:
8.一种融合领域知识的细分行业新闻快速分类方法,包括:
9.s1、采集并预处理面向细分行业的新闻;
10.s2、采用命名实体识别方式获取新闻标题对应的第一命名实体集,对所述第一命名实体集中每一个实体,从预先构建的非对称实体关联网络中抽取第一实体关联集,若所述第一实体关联集为非空集,则转入s3;
11.s3、根据所述第一命名实体集和第一实体关联集,采用朴素贝叶斯算法,计算所述新闻标题对应的每个分类类别的条件概率;若条件概率大于第一阈值,获取该新闻的初步分类。
12.优选的,若所述s3中条件概率小于等于第一阈值,则转入s4~6;
13.s4、采用命名实体识别方式获取新闻正文摘要对应的第二命名实体集,对所述第二命名实体集中的每一个实体,从所述非对称实体关联网络抽取第二实体关联集;
14.s5、联合所述第一命名实体集和第二命名实体集,以及所述第一实体关联集和第二实体关联集,融合所述非对称实体关联网络中的关系强度,获取各个实体的第一联合嵌入表示;
15.s6、根据所述第一联合嵌入表示,采用注意力机制获取该新闻的第一深度分类。
16.优选的,所述s5包括:
17.第一命名实体集e=e
t
∪em,其中e
t
表示第一命名实体集,em表示第一实体关联集;第一实体关联集e

=e

t
∪e
′m,其中e

t
表示第一命名实体集,e
′m表示第一实体关联集;
18.采用实体嵌入分别对e和e

中的每一个实体进行嵌入表示得到和并融合
非对称实体关联网络中的关系强度,得到每一个实体ei的第一联合嵌入表示xi;
[0019][0020]
其中,μ∈(0,1),μ表示用于平衡和重要性的超参数。
[0021]
优选的,若s2中所述第一实体关联集为空集,则转入s3’~5’;
[0022]
s3’、采用命名实体识别方式获取新闻正文摘要对应的第二命名实体集,对所述第二命名实体集中的每一个实体,从所述非对称实体关联网络抽取第二实体关联集;
[0023]
s4’、根据所述第二命名实体集和第二实体关联集,融合所述非对称实体关联网络中的关系强度,获取各个实体的第二联合嵌入表示;
[0024]
s5’、根据所述第二联合嵌入表示,采用注意力机制获取该新闻的第二深度分类。
[0025]
优选的,所述非对称实体关联网络的构建过程包括:
[0026]
s10、定义所述面向细分行业内实体类别并识别命名实体,获取第三命名实体集;
[0027]
s20、以所述第三命名实体集的实体为节点,实体间非对称关系强度为有向边,构建所述非对称实体关联网络。
[0028]
优选的,所述s10具体包括:
[0029]
s101、实体类别定义;
[0030]
基于所述非对称实体关联网络图的实际用途,并结合该细分行业专家的指导意见,定义领域实体类别;
[0031]
s102、命名实体识别;
[0032]
首先,基于该细分行业的新闻语料库,随机抽取若干条文本数据作为标注对象,以命名实体识别的标注标准为依据,形成实验数据集;然后,采用监督学习方法识别命名实体,获取所述第三命名实体集。
[0033]
优选的,所述s20中:
[0034]
基于大规模新闻语料库,根据实体在同一篇新闻中出现的次数计算所述非对称关系强度;
[0035][0036]
其中,p(ei∪ej)表示实体ei和ej在大规模新闻语料库中同时出现的概率,p(ej)表示实体ej在大规模语料库中单独出现的概率,表示非对称实体关联网络图中实体ei对实体ej的关系强度;
[0037]
通过保留值大于第二阈值θ的关系,θ为经验值,从而构建所述的非对称实体关联网络。
[0038]
一种融合领域知识的细分行业新闻快速分类系统,包括:
[0039]
预处理模块,用于执行s1、采集并预处理面向细分行业的新闻;
[0040]
实体抽取模块,用于执行s2、采用命名实体识别方式获取新闻标题对应的第一命名实体集,对所述第一命名实体集中每一个实体,从预先构建的非对称实体关联网络中抽
取第一实体关联集,若所述第一实体关联集为非空集,则转入新闻分类模块执行s3;
[0041]
新闻分类模块,用于执行s3、根据所述第一命名实体集和第一实体关联集,采用朴素贝叶斯算法,计算所述新闻标题对应的每个分类类别的条件概率;若条件概率大于第一阈值,获取该新闻的初步分类。
[0042]
一种存储介质,其存储有用于融合领域知识的细分行业新闻快速分类的计算机程序,其中,所述计算机程序使得计算机执行如上所述的细分行业新闻快速分类方法。
[0043]
一种电子设备,包括:
[0044]
一个或多个处理器;
[0045]
存储器;以及
[0046]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的细分行业新闻快速分类方法。
[0047]
(三)有益效果
[0048]
本发明提供了一种融合领域知识的细分行业新闻快速分类方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
[0049]
本发明包括:s1、采集并预处理面向细分行业的新闻;s2、采用命名实体识别方式获取新闻标题对应的第一命名实体集,对所述第一命名实体集中每一个实体,从预先构建的非对称实体关联网络中抽取第一实体关联集,若所述第一实体关联集为非空集,则转入s3;s3、根据所述第一命名实体集和第一实体关联集,采用朴素贝叶斯算法,计算所述新闻标题对应的每个分类类别的条件概率;若条件概率大于第一阈值,获取该新闻的初步分类。所述非对称关系网络图包含了面向细分行业的大规模实体及其相互关系,仅通过新闻标题初步分类得到对应的新闻类别,在一定程度上提高了新闻分类速度。
附图说明
[0050]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0051]
图1为本发明实施例提供的第一种融合领域知识的细分行业新闻快速分类方法的流程示意图;
[0052]
图2本发明实施例提供的第二种融合领域知识的细分行业新闻快速分类方法的流程示意图;
[0053]
图3本发明实施例提供的第三种融合领域知识的细分行业新闻快速分类方法的流程示意图。
具体实施方式
[0054]
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获
得的所有其他实施例,都属于本发明保护的范围。
[0055]
本技术实施例通过提供一种融合领域知识的细分行业新闻快速分类方法、系统、存储介质和电子设备,解决了分类效果差、速度慢的技术问题。
[0056]
本技术实施例中的技术方案为解决上述技术问题,总体思路如下:
[0057]
本发明包括:s1、采集并预处理面向细分行业的新闻;s2、采用命名实体识别方式获取新闻标题对应的第一命名实体集,对所述第一命名实体集中每一个实体,从预先构建的非对称实体关联网络中抽取第一实体关联集,若所述第一实体关联集为非空集,则转入s3;s3、根据所述第一命名实体集和第一实体关联集,采用朴素贝叶斯算法,计算所述新闻标题对应的每个分类类别的条件概率;若条件概率大于第一阈值,获取该新闻的初步分类。所述非对称关系网络图包含了面向细分行业的大规模实体及其相互关系,仅通过新闻标题初步分类得到对应的新闻类别,在一定程度上提高了新闻分类速度。
[0058]
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0059]
实施例:
[0060]
如图1所示,本发明实施例提供了一种融合领域知识的细分行业新闻快速分类方法,包括:
[0061]
s1、采集并预处理面向细分行业的新闻;
[0062]
s2、采用命名实体识别方式获取新闻标题对应的第一命名实体集,对所述第一命名实体集中每一个实体,从预先构建的非对称实体关联网络中抽取第一实体关联集,若所述第一实体关联集为非空集,则转入s3;
[0063]
s3、根据所述第一命名实体集和第一实体关联集,采用朴素贝叶斯算法,计算所述新闻标题对应的每个分类类别的条件概率;若条件概率大于第一阈值,获取该新闻的初步分类。
[0064]
本发明实施例中所述非对称关系网络图包含了面向细分行业的大规模实体及其相互关系,仅通过新闻标题初步分类得到对应的新闻类别,在一定程度上提高了新闻分类速度。
[0065]
此外,若所述s3中条件概率小于等于第一阈值,则意味着无法仅通过新闻标题确定新闻分类。因此如图2所示,本发明实施例为了兼顾分类准确性和新闻分类速度,进一步提供了一种面向细分行业的两阶段(2-stage)新闻快速分类方法,并将多分类问题视为多个二分类问题,最后得到新闻分类类别。
[0066]
相应的若所述s3中条件概率小于等于第一阈值,则转入s4~6;
[0067]
s4、采用命名实体识别方式获取新闻正文摘要对应的第二命名实体集,对所述第二命名实体集中的每一个实体,从所述非对称实体关联网络抽取第二实体关联集;
[0068]
s5、联合所述第一命名实体集和第二命名实体集,以及所述第一实体关联集和第二实体关联集,融合所述非对称实体关联网络中的关系强度,获取各个实体的第一联合嵌入表示;
[0069]
s6、根据所述第一联合嵌入表示,采用注意力机制获取该新闻的第一深度分类。
[0070]
下面将结合具体内容和说明书附图详细介绍上述技术方案的各个步骤。
[0071]
在步骤s1中,采集并预处理面向细分行业的新闻。
[0072]
本步骤中获取面向细分行业的新闻并构建数据集。
[0073]
首先,使用python工具开发的爬虫算法对社交媒体网站上与目标细分行业相关的新闻进行爬取,然后,对爬取的新闻数据进行数据预处理和数据标注以获得高质量且有效的实验数据集。具体地:
[0074]
特定领域新闻数据爬取:采用基于python的轻量级爬虫框架scrapy为基础,通过xpath、css表达式进行网页数据提取解析,利用redis数据库作为分布式共享爬虫队列,mongodb数据库作为数据存储库,集成selenium自动化测试工具、同时使用随机user-agent、阿里云代理ip和自建代理ip池等中间件,并部署至云服务器,实现对多个社交媒体网站的面向细分行业相关新闻的大规模实时增量爬取。
[0075]
数据预处理:对爬取的新闻数据进行清洗。首先,去除新闻文本中的异常字符、冗余字符、html元素、括号信息、url链接、email、联系方式等。然后,对经过数据清洗的新闻数据进一步处理,主要包括文本纠错、去除停用词、繁简体转换等以标注化新闻数据。最后,通过调用百度api接口生成新闻正文摘要,有效地保留重要内容的特征并减少冗余内容的生成。
[0076]
数据标注:随机选择适当数量的新闻,通过预定义的新闻分类类别对新闻进行人工标注,以获得高质量且有效的实验数据集。
[0077]
在步骤s2中,采用命名实体识别方式获取新闻标题对应的第一命名实体集,对所述第一命名实体集中每一个实体,从预先构建的非对称实体关联网络中抽取第一实体关联集,若所述第一实体关联集为非空集,则转入s3。
[0078]
首先需要补充的是,所述非对称关系网络图包含了面向细分行业的大规模实体及其相互关系,其构建过程包括:
[0079]
s10、定义所述面向细分行业内实体类别并识别命名实体,获取第三命名实体集,包括:
[0080]
s101、实体类别定义;
[0081]
基于所述非对称实体关联网络图的实际用途,并结合该细分行业专家的指导意见,定义领域实体类别;
[0082]
s102、命名实体识别;
[0083]
首先,基于该细分行业的新闻语料库,随机抽取若干条文本,数据作为标注对象,以命名实体识别的标注标准为依据,形成实验数据集;然后,采用监督学习方法(例如采用bert-bilstm-crf工具)识别命名实体,获取所述第三命名实体集;
[0084]
s20、以所述第三命名实体集的实体为节点,实体间非对称关系强度为有向边,构建所述非对称实体关联网络。
[0085]
基于大规模新闻语料库,根据实体在同一篇新闻中出现的次数计算所述非对称关系强度;
[0086][0087]
其中,p(ei∪ej)表示实体ei和ej在大规模新闻语料库中同时出现的概率,p(ej)表示实体ej在大规模语料库中单独出现的概率,表示非对称实体关联网络图中实体ei
对实体ej的关系强度;
[0088]
通过保留值大于第二阈值θ的关系,θ为经验值,从而构建所述的非对称实体关联网络。
[0089]
在明确非对称实体关联网络的具体构建方法和相关内容后,在步骤s2给定一个新闻标题t,首先,通过命名实体识别(named entity recognition,ner)技术识别t中提到的第一命名实体集e
t
;然后,对于每一个实体ei∈e
t
,从非对称实体关联网络图中抽取与ei相关的第一实体关联集e

t

[0090]
在步骤s3中,根据所述第一命名实体集和第一实体关联集,采用朴素贝叶斯算法,计算所述新闻标题对应的每个分类类别的条件概率;若条件概率大于第一阈值,获取该新闻的初步分类。具体包括:
[0091]
本步骤采用朴素贝叶斯的机器学习分类算法,使用新闻标题t的第一实体集e
t
和第一实体关联集e

t
中的实体作为特征,输出新闻标题t对应分类类别的条件概率αk。朴素贝叶斯的具体分类模型如下:
[0092]
给定分类模型样本给定分类模型样本即有m个样本,每个样本有n个特征,特征输出有2个分类类别,定义为c0,c1。
[0093]
从样本中可以学习到朴素贝叶斯的先验概率p(y=ck)(k=0,1),条件概率分布为p(x=x|y=ck)=p(x1=x1,x2=x2,...xn=xn|y=ck),然后用贝叶斯公式计算x和y的联合分布p(x,y),公式如下:
[0094]
p(x,y=ck)=p(y=ck)p(x=x|y=ck)=p(y=ck)p(x1=x1,x2=x2,...xn=xn|y=ck)
[0095]
其中,p(y=ck)表示类别ck在训练集出现的概率,假设x的n个特征之间相互独立,因此:
[0096][0097]
于是,朴素贝叶斯分类器预测新闻标题t对应的每个分类类别的条件概率可表示为:
[0098][0099]
在条件概率αk中,α0表示不属于该新闻分类类别的条件概率,α1表示属于该新闻分类类别的条件概率。如果αk大于设定的第一阈值α(α值通过模型训练得到),此时由新闻标题t初步分类就可以得到对应的新闻类别;否则,转入s4。
[0100]
在步骤s4中,采用命名实体识别方式获取新闻正文摘要对应的第二命名实体集,对所述第二命名实体集中的每一个实体,从所述非对称实体关联网络抽取第二实体关联集;
[0101]
给定新闻正文摘要m,首先,通过命名实体识别技术识别m中提到的第二命名实体集em;然后,对于每一个实体ei∈em,从非对称实体关联网络图中抽取与ei相关的第二实体
关联集e
′m。
[0102]
在步骤s5中,联合所述第一命名实体集和第二命名实体集,以及所述第一实体关联集和第二实体关联集,融合所述非对称实体关联网络中的关系强度,获取各个实体的第一联合嵌入表示。
[0103]
本步骤中:第一命名实体集e=e
t
∪em,其中e
t
表示第一命名实体集,em表示第一实体关联集;第一实体关联集e

=e

t
∪e
′m,其中e

t
表示第一命名实体集,e
′m表示第一实体关联集;
[0104]
采用实体嵌入分别对e和e

中的每一个实体进行嵌入表示得到和并融合非对称实体关联网络中的关系强度,得到每一个实体ei的第一联合嵌入表示xi;
[0105][0106]
其中,μ∈(0,1),μ表示用于平衡和重要性的超参数。
[0107]
本发明实施例提供面向特定细分行业的非对称实体关联网络与分两阶段分类方法,通过将领域知识融入到新闻分类中,从而提高了新闻分类效果。
[0108]
在步骤s6中,根据所述第一联合嵌入表示,采用注意力机制获取该新闻的第一深度分类。
[0109]
不难理解的是,上述技术方案需要建立在步骤s2中获取的第一实体关联集为非空集(即),然而实际上,存在的情况,此时,为了保证顺利实现新闻分类目的,本发明实施例提供的细分行业新闻快速分类方法,如图3所示,自上述步骤s2后,还包括步骤s3’~5’,用于仅通过新闻正文摘要确定该新闻的分类结果。
[0110]
具体的,若s2中所述第一实体关联集为空集,则转入s3’~5’;
[0111]
s3’、采用命名实体识别方式获取新闻正文摘要对应的第二命名实体集,对所述第二命名实体集中的每一个实体,从所述非对称实体关联网络抽取第二实体关联集;
[0112]
s4’、根据所述第二命名实体集和第二实体关联集,融合所述非对称实体关联网络中的关系强度,获取各个实体的第二联合嵌入表示;
[0113]
s5’、根据所述第二联合嵌入表示,采用注意力机制获取该新闻的第二深度分类。
[0114]
由于步骤s3’~5’中涉及的相关技术手段均可以直接参考步骤s4~6,因此此处不再重复描述。
[0115]
本发明实施例提出的融合领域知识的细分行业新闻分类方法可以应用于各个细分行业,如发动机、汽车、医疗等,接下来以发动机领域为例予以论证。
[0116]
(1)获取面向发动机领域新闻并构建数据集。
[0117]
首先,使用python工具开发的爬虫算法对社交媒体网站上与发动机领域相关的新闻进行爬取,如卡车之家、工程机械网、今日头条等。然后,对爬取的新闻数据进行数据预处理和数据标注以获得高质量且有效的实验数据集。
[0118]
(2)实验结果分析。
[0119]
将步骤(1)得到的数据集按照8:1:1的比例划分成训练集、测试集和验证集。将测
试集输入到训练完成得到的新闻分类模型进行测试,并采用准确率(accuracy,acc)和精确率(precision,p)与召回率(recall,r)的f1-score值对模型性能进行评估,具体公式如下:
[0120][0121][0122][0123][0124]
其中,t
p
表示新闻分类预测结果为正类,且与事实相符,即事实为正类;tn表示新闻分类预测结果为负类,且与事实相符,即事实为负类;f
p
表示新闻预测结果为正类,但与事实不符,即事实为负类;t
p
表示新闻预测结果为负类,但与事实不符,即事实为正类。且t
p
+f
p
表示实际分类的新闻总数;t
p
+fn表示分类正确的新闻总数;f1-score值是精确率和召回率的调和平均值。
[0125]
(3)具体应用
[0126]
首先,预定义两个新闻分类类别,分别为:是否属于企业a、是否属于企业b。
[0127]
其次,以发动机相关企业实体主题,抓取相关新闻80302条,构建了面向发动机企业的非对对称实体关联网络图。
[0128]
然后,使用已构建的两阶段新闻分类方法训练了两个新闻分类模型,分别是企业a新闻分类模型和企业b新闻分类模型。(注:在这里,企业a和企业b都表示面向发动机行业的企业)。
[0129]
最后,对三条发动机企业新闻的模型分类结果进行分析:
[0130]
例1:新闻标题:“企业b一体化动力链助力企业b,天龙gx打造高端重卡价值担当!”。
[0131]
结果分析:企业b新闻分类模型中训练的α=0.87。例1在企业b新闻分类模型中得到的α0=0.03,α1=0.97。此时由两阶段新闻分类模型中的初步分类阶段,得到该新闻属于企业b。
[0132]
例2:新闻标题“假如愚公有了它,移山so easy!”。
[0133]
新闻文本摘要:企业a特车wt150矿车定义宽体矿车新境界,引领矿山设备大型化。先来感受下它的澎湃动力,满载上百吨巨石动力十足,畅行无阻,移山也不在话下,“巨无霸”不止看起来拉风,开起来超级强劲,它的动力源泉「企业awp17发动机」也是相当硬核。wp17已经批量应用于大吨位矿车、大吨位挖掘机、大型履带起重机、大型筑路机械等。搭载企业awp17发动机的新一代wt150矿车从容穿梭复杂矿区,高效可靠、动力十足。
[0134]
结果分析:企业a新闻分类模型中训练的α=0.85,例2在企业a新闻分类模型中得到的α0=0.47,α1=0.53。αk≤α,无法由标题信息得到分类结果。此时,转入新闻分类的第二阶段。
[0135]
在例2的新闻标题中,没有出现我们预定义的命名实体,因此使用新闻分类的第二阶段的仅通过正文摘要实现分类新闻目的的例外情况。此时,由结果得到该新闻属于企业
a。
[0136]
例3:新闻标题:“国六柴油发动机中的第一梯队企业a与企业b您选谁?”。
[0137]
新闻摘要:“企业a与企业b是国六柴油发动机市场的第一梯队。wp2.3n是企业a排量最小的道路用发动机,其定位是为蓝牌轻卡需求定制开发的一款高端轻卡动力。wp13发动机是企业a排量最大的道路用发动机。一经推出就凭借其高可靠性、高时效性、低油耗等性能优势赢得大马力重卡客户的信赖,wp13国六发动机发动机排量为12.54l,但1-5月国六柴油发动机的销量主要由福田企业b和东风企业b取得。”。
[0138]
结果分析:
[0139]
企业a新闻分类模型中训练的α=0.85,例2在企业a新闻分类模型中得到的α0=0.17,α1=0.83。αk≤α,无法由标题信息得到分类结果。此时,将例3转入新闻分类的第二阶段。在例3的新闻标题中,出现了我们预定义的命名实体《企业a》,因此使用新闻分类的第二阶段的情况2。此时,由结果得到该新闻属于企业a。
[0140]
企业b分类模型中训练的α=0.87,例2在企业a新闻分类模型中得到的α0=0.21,α1=0.79。αk≤α,无法由标题信息得到分类结果。此时,将例3转入新闻分类的第二阶段。在例3的新闻标题中,出现了我们预定义的命名实体《企业b》,因此使用新闻分类的第二阶段的情况2。此时,由结果得到该新闻属于企业b。
[0141]
因此,该新闻既属于企业a,又属于企业b。
[0142]
本发明实施例提供了一种融合领域知识的细分行业新闻快速分类系统,包括:
[0143]
预处理模块,用于执行s1、采集并预处理面向细分行业的新闻;
[0144]
实体抽取模块,用于执行s2、采用命名实体识别方式获取新闻标题对应的第一命名实体集,对所述第一命名实体集中每一个实体,从预先构建的非对称实体关联网络中抽取第一实体关联集,若所述第一实体关联集为非空集,则转入新闻分类模块执行s3;
[0145]
新闻分类模块,用于执行s3、根据所述第一命名实体集和第一实体关联集,采用朴素贝叶斯算法,计算所述新闻标题对应的每个分类类别的条件概率;若条件概率大于第一阈值,获取该新闻的初步分类。
[0146]
本发明实施例提供了一种存储介质,其存储有用于融合领域知识的细分行业新闻快速分类的计算机程序,其中,所述计算机程序使得计算机执行如上所述的细分行业新闻快速分类方法。
[0147]
本发明实施例提供了一种电子设备,包括:
[0148]
一个或多个处理器;
[0149]
存储器;以及
[0150]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的细分行业新闻快速分类方法。
[0151]
可理解的是,本发明实施例提供的融合领域知识的细分行业新闻快速分类系统、存储介质和电子设备与本发明实施例提供的融合领域知识的细分行业新闻快速方法相对应,其有关内容的解释、举例和有益效果等部分可以参考基于区块链的细分行业新闻快速方法中的相应部分,此处不再赘述。
[0152]
综上所述,与现有技术相比,具备以下有益效果:
[0153]
1、本发明实施例中所述非对称关系网络图包含了面向细分行业的大规模实体及其相互关系,仅通过新闻标题初步分类得到对应的新闻类别,在一定程度上提高了新闻分类速度。
[0154]
2、本发明实施例提供面向特定细分行业的非对称实体关联网络与分两阶段分类方法,通过将领域知识融入到新闻分类中,从而提高了新闻分类效果。
[0155]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0156]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1