一种关键词的提取方法、装置、电子设备及存储介质与流程

文档序号:27979101发布日期:2021-12-15 02:01阅读:来源:国知局

技术特征:
1.一种关键词的提取方法,其特征在于,包括:对目标文本进行关键词识别,生成所述目标文本对应的关键词图;所述关键词图具体用于确定从所述目标文本中识别得到各个候选关键词之间的关联关系;所述关联关系是根据各个所述候选关键词在所述目标文本中的相对关系确定的;所述关联关系用于确定具有词义传递关系的任意两个所述候选关键词;分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;所述加权权重用于确定所述词义传递关系的强弱程度;根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。2.根据权利要求1所述的提取方法,其特征在于,所述分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重,包括:根据在所述关键词图中第i个候选关键词对应第一关联个数,以及第j个候选关键词的第二关联个数,计算所述第i个候选关键词指向所述第j个候选关键词之间第一关联关系的第一加权因子;其中,所述i和j为不大于所述关键词图内包含的候选关键词总数的任一正整数;所述第一关联个数为具体为在所述关键词图中第i个候选关键词指向其他候选关键词的关联关系的个数;所述第二关联个数具体为在所述关键词图中其他候选关键词指向第j个候选关键词的关联关系的个数;所述第一加权因子具体为:其中,为所述第一加权因子;out(keyword
i
)为所述第一关联个数;in(keyword
j
)为所述第二关联个数;基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子;基于所述第i个候选关键词在所述目标文本中的第一出现频次以及在预设的语料库的已有文本中的第二出现频次,确定所述第一关联关系的第三加权因子;所述第三加权因子具体为:其中,weight
γ
(keyword
i
,keyword
j
)为所述第三加权因子;tf(keyword
i
)为基于第i个候选关键词的所述第一出现频次以及所述第二出现频次计算得到的词频特征值;根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重。3.根据权利要求2所述的提取方法,其特征在于,所述基于所述第i个候选关键词在所述目标文本中的出现位置,确定所述第一关联关系的第二加权因子,包括:
根据预设的位置权重转换函数,确定所述第i个候选关键词对应的出现位置的第一位置加权参量;所述位置权重转换函数为:其中,location(keyword
i
)为所述第一位置加权参量;λ为预设系数;根据预设的位置权重转换函数,分别确定与所述第i个候选关键词存在关联关系的关联关键词对应的出现位置的第二位置加权参量;根据所述第一位置加权参量以及所有所述第二位置加权参量,计算所述第二加权因子;所述第二加权因子具体为:其中,weihgt
β
(keyword
i
,keyword
j
)为所述第二加权因子。4.根据权利要求2所述的提取方法,其特征在于,在所述根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重之前,还包括:基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子;对应地,所述根据所述第一加权因子、所述第二加权因子以及所述第三加权因子,确定所述第一关联关系的加权权重具体为:根据所述第一加权因子、所述第二加权因子、所述第三加权因子以及所述第四加权因子,确定所述第一关联关系的加权权重。5.根据权利要求4所述的提取方法,其特征在于,所述基于预设的矩阵模型,计算所述第i个候选关键词的自相关系数,并基于所述自相关系数确定第四加权因子,包括:获取所述第i个候选关键词对应的嵌入向量,并将所述嵌入向量导入所述矩阵模型,确定所述第i个候选关键词对应的查询矩阵;根据所述查询矩阵与所述第i个候选关键词存在关联关系的关联关键词的关键矩阵,计算所述第i个候选关键词对应的关注特征参量;根据所述关注特征参量以及各个所述关联关键词的价值矩阵,确定所述第i个候选关键词的自相关系数;基于所述第i个候选关键词的所述自相关系数,确定所述第四加权因子;所述第四加权因子具体为:其中,为所述第四加权因子;self

att(keyword
i
)为所述第i个候选关键词的所述自相关系数。6.根据权利要求1

5任一项所述的提取方法,其特征在于,所述根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数,包括:
根据所述候选关键词之间的所述关联关系的所述加权权重,构建所述目标文本的影响力矩阵;所述影响力矩阵为:其中,weight
ij
为第i个所述候选关键词与第j个所述候选关键词之间的关联关系的加权权重;m为所述影响力矩阵;n为所述候选关键词的总数;生成所述目标文本对应的初始权重矩阵;基于所述影响力矩阵以及所述初始权重矩阵,计算各个所述关联关系对应的影响力系数;基于所述影响力系数,计算所述候选关键词的所述推荐系数;所述推荐系数具体为:其中,weight
ki
为所述第i个候选关键词与第k个候选关键词之间的关联关系的影响力系数;recommand(keyword
k
)为第k个候选关键词的影响力系数;in(keyword
i
)为存在指向第i个所述候选关键词的关联关系的候选关键词集合。7.根据权利要求1

5任一项所述的提取方法,其特征在于,所述对目标文本进行关键词识别,生成所述目标文本对应的关键词图,包括:对所述目标文本进行语句划分,得到多个文本语句;分别对各个所述文本语句进行关键词提取,确定每个所述文本语句对应的关键词序列;所述关键词序列中包含至少一个所述候选关键词;通过预设的关联窗口在各个所述关键词序列中进行滑动框取,将被所述关联窗口框取的所述候选关键词识别为存在关联关系的关键词,并基于所述关联关系生成所述关键词图。8.一种关键词的提取装置,其特征在于,包括:关键词图生成单元,用于对目标文本进行关键词识别,生成所述目标文本对应的关键词图;所述关键词图具体用于确定从所述目标文本中识别得到各个候选关键词之间的关联关系;所述关联关系是根据各个所述候选关键词在所述目标文本中的相对关系确定的;所述关联关系用于确定具有词义传递关系的任意两个所述候选关键词;加权权重确定单元,用于分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;所述加权权重用于确定所述词义传递关系的强弱程度;推荐系数确定单元,用于根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;目标关键词选取单元,用于基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

技术总结
本申请适用于人工智能技术领域,提供了一种关键词的提取方法、装置、电子设备及存储介质,方法包括:对目标文本进行关键词识别,生成所述目标文本对应的关键词图;分别确定所述关键词图中各个所述候选关键词之间的所述关联关系的加权权重;根据各个所述候选关键词之间所述关联关系的所述加权权重,确定各个所述候选关键词的推荐系数;基于各个所述候选关键词对应的所述推荐系数,从所有候选关键词中选取出目标文本对应的目标关键词。采用上述方法,能够在通过人工智能对大量文本进行自动分类以及配置文本标签时,能够提高提取的关键词对于文本内容的概括准确性,从而提高智能分类的准确率。准确率。准确率。


技术研发人员:宋威
受保护的技术使用者:平安国际智慧城市科技股份有限公司
技术研发日:2021.09.23
技术公布日:2021/12/14
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1