一种基于词频幂律分布特性的文本关键词权重计算方法与流程

文档序号:17442497发布日期:2019-04-17 04:57阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种基于词频幂律分布特性的文本关键词权重计算方法,具体步骤如下:S1:打开文本进行预处理,包括去除停用词和分词,余下的词作为候选关键词;S2:以候选关键词为节点,词频为节点权重,词共现为边,词共现频率为边权重,构建无向的关键词网络;S3:从关键词网络中抽取核心网络;S4:更新核心网络中每个节点的权重;S5:对于核心网络进行加一条边的操作并更新节点权重;S6:判断加边后的核心网络的节点权重分布是否符合幂律分布,如果不符合,转至步骤S5;如果符合,转至步骤S7;S7:输出每个候选关键词对应的权重。该方法针对单篇文本对关键词的权重进行计算,不依赖领域文本集和训练集,简便易操作,且效果更优。

技术研发人员:陈雪;郭峻材;王小飞;乐金雄;王鹏;骆祥峰;魏晓;张惠然
受保护的技术使用者:上海大学
技术研发日:2018.11.23
技术公布日:2019.04.16
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1