一种文章关键词筛选类别的方法、装置、设备及存储介质与流程

文档序号:32716836发布日期:2022-12-28 02:38阅读:来源:国知局

技术特征:
1.一种文章关键词筛选类别的方法,其特征在于,所述方法包括:获取待分类文本,对所述待分类文本进行预处理,得到目标文本;识别所述目标文本的文本分类因素,查询所述文本分类因素中每个分类因素的文本数据,对所述文本数据进行分词处理,得到文本词语;提取所述文本词语的文本关键词,计算所述文本关键词在所述文本分类因素中的归属度,并计算所述文本关键词在所述目标文本中的权重;根据所述归属度和所述权重计算出所述文本关键词的支持度,选取所述支持度符合预设条件的文本关键词作为目标关键词,并识别所述目标关键词的词语类别,将所述词语类别作为所述待分类文本的文本类别。2.如权利要求1所述的文章关键词筛选类别的方法,其特征在于,所述对所述待分类文本进行预处理,得到目标文本,包括:识别所述待分类文本中的非文本内容;若所述待分类文本中无所述非文本内容,则对所述待分类文本进行转化,得到目标文本;若所述待分类文本中有所述非文本内容,则识别所述非文本内容文本区域;对所述文本区域进行字符提取,得到字符序列;将所述字符序列转换成字符文本,结合所述字符文本与所述待分类文本,得到目标文本。3.如权利要求1所述的文章关键词筛选类别的方法,其特征在于,所述对所述文本数据进行分词处理,得到文本词语,包括:对所述文本数据进行去重处理,得到去重文本;对所述去重文本进行过滤处理,得到过滤文本;按照预设的词语对照表对所述过滤文本进行标注,得到标注文本;对所述标注数据进行分词处理,得到文本词语。4.如权利要求1所述的文章关键词筛选类别的方法,其特征在于,所述提取所述文本词语的文本关键词,包括:对所述文本数据进行语义分析,得到文本语义;对所述文本词语进行语义分析,得到词语语义;计算所述文本语义与所述词语语义的匹配度;在所述匹配度大于预设值时,将所述匹配度对应的所述文本词语作为所述文本数据的文本关键词,并提取所述文本关键词。5.如权利要求1所述的文章关键词筛选类别的方法,其特征在于,所述计算所述文本关键词在所述文本分类因素中的归属度,包括:计算所述文本关键词在所述文本分类因素中的权重值;获取所述文本关键词在所述文本分类因素中出现的频次;根据所述权重值和所述频次计算所述文本关键词在所述文本分类因素中的归属度。6.如权利要求1所述的文章关键词筛选类别的方法,其特征在于,所述并计算所述文本关键词在所述目标文本中的权重,包括:计算所述文本关键词在所述目标文本中的词频;
计算所述文本关键词在所述目标文本中的逆向文件频率;根据所述频率和所述逆向文件频率计算出所述文本关键词的权重。7.如权利要求1所述的文章关键词筛选类别的方法,其特征在于,所述根据所述归属度和所述权重计算出所述文本关键词的支持度,包括:计算所述文本关键词在所述文本分类因素中的所占分值,将所述所占分值相加求和,得到所述文本关键词的匹配得分,将所述匹配得分转化成数值,将所述数值与所述归属度和所述权重分别相乘并求和,得到所述文本关键词的支持度。8.一种文章关键词筛选类别的装置,其特征在于,所述装置包括:文本处理模块,用于获取待分类文本,对所述待分类文本进行预处理,得到目标文本;文本分词模块,用于识别所述目标文本的文本分类因素,查询所述文本分类因素中每个分类因素的文本数据,对所述文本数据进行分词处理,得到文本词语;权重计算模块,用于提取所述文本词语的文本关键词,计算所述文本关键词在所述文本分类因素中的归属度,并计算所述文本关键词在所述目标文本中的权重;文本分类模块,用于根据所述归属度和所述权重计算出所述文本关键词的支持度,选取所述支持度符合预设条件的文本关键词作为目标关键词,并识别所述目标关键词的词语类别,将所述词语类别作为所述待分类文本的文本类别。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的文章关键词筛选类别的方法。10.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文章关键词筛选类别的方法。

技术总结
本发明涉及智能决策技术,揭露了一种文章关键词筛选类别的方法,包括:获取待分类文本,对所述待分类文本进行预处理,得到目标文本;识别所述目标文本的文本分类因素,查询所述文本分类因素中每个分类因素的文本数据,对所述文本数据进行分词处理,得到文本词语;提取所述文本词语的文本关键词,计算所述文本关键词在所述文本分类因素中的归属度,并计算所述文本关键词在所述目标文本中的权重;根据所述归属度和所述权重计算出所述文本关键词的支持度,选取所述支持度符合预设条件的文本关键词作为目标关键词,并识别所述目标关键词的词语类别,将所述词语类别作为所述待分类文本的文本类别。本发明在于提高文章关键词分类的准确性。性。性。


技术研发人员:刘伟光 张瑞 熊一龙
受保护的技术使用者:招商局金融科技有限公司
技术研发日:2022.09.30
技术公布日:2022/12/27
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1