一种基于超图随机游走的文档关键词抽取方法

文档序号：28964132发布日期：2022-02-19 13:58阅读：来源：国知局

技术特征：
1.一种基于超图随机游走的文档关键词抽取方法，其特征在于，该方法具体如下：(1)文本数据收集和数据预处理：在各大网站上采集文本数据，然后对采集到的文本数据进行清洗、分词、词性标注、去除停用词操作；具体是：(1-1)文本数据采集，获取待分析文档：在不对获取文档的格式、主题进行限定下，通过数据挖掘技术合法获取多个来源的文本数据；(1-2)文本数据清洗：对输入的数据进行噪音去除，再将文本数据的格式进行统一并保存；首先去除文本数据中多余的空格和特殊符号，然后将所有的数字用<digit>代替；再将英文字母统一为大写字母或者小写字母，将文本数据重新编码为utf-8；最后将文本数据转换成统一的格式，进行格式化保存；(1-3)分词操作：将文本数据中连续的字序列按照规范重新组合成词序列，使用支持多语言的stanford corenlp工具包对输入的文本数据进行分词；(1-4)词性标注：在给定句子中根据含义和上下文内容判定每个词的语法范畴，确定其词性并加以标注；对中文和英文文本分别采用jieba和stanford corenlp进行词性标注，中文词性标记采用和ictclas兼容的标签体系，英文词性标记采用penn treebank词性标签体系；(1-5)去除停用词：根据停用词表删除分词结果中的停用词；(2)提取候选关键词，得到候选关键词集合：将预处理后的文本分别采用命名实体识别、名词短语块抽取、最长序列匹配，得到三个集合，然后取三个集合的并集作为候选关键词集合；具体是：(2-1)命名实体识别：提取文本数据中的所有实体，识别其中的命名实体，得到命名实体集合；(2-2)名词短语块抽取：首先将一段文本数据分割成几段小段文本数据，得到组块集，然后对每个组块集进行组块分析，得到名词短语，获得短语块集合；(2-3)最长序列匹配：使用n-gram滑动窗口取词，将文本数据中的内容按照大小为n的滑动窗口进行选词操作，形成了长度是n的文本片段序列gram，并且对提取出来的文本片段序列gram进行过滤，形成关键词集合；(3)构建加权的超图节点，构建加权的超图边，利用随机游走计算候选关键词的重要性得分；具体是：(3-1)构建加权的超图节点：在预处理后的文本数据中，选择词性为名词、形容词、动词的单词作为超图节点，每个单词只作为一个超图节点，如果重复的单词的词性不同，则保留词性出现频率高的单词；文档集合表示为d＝{d1,d2,
…
,d
n
}，其中d
n
表示文档集合中第n篇输入文档，n＝1,2,
…
,n，n为文档集合d中文档的数量，d
n
＝{v
n,1
,v
n,2
,
…
,v
n,m
}，v
n,m
为d
n
中第m个单词，m＝1,2,
…
,m，m为词袋d
n
中单词数量；d
n
′
为d
n
对应的由不同的单词v
n,k
所组成的词袋，d
n
′
＝{v
n,1
,v
n,2
,
…
,v
n,k
}，v
n,k
即为d
n
′
中第k个节点，k＝1,2,
…
,k，k为词袋d
n
′
中节点数量；对d
n
′
中节点v
n,k
计算tf-idf值和位置信息得分得到该节点的初始权重(3-2)构建加权的超图边：计算词汇超图中每个节点的转移概率，节点v
i
到达节点v
j
之
间的转移概率w
i,j
为节点v
i
和节点v
j
共同隶属的所有超边度的和减1的值，w
i
为节点v
i
能到达的所有节点共同隶属的所有超边度的和减1的值；转移概率t
i,j
即为超边权重；(3-3)节点和超边构成了词汇超图hg
n
(v
n
,e
n
)，v
n
表示词汇超图hg
n
中所有不同单词构成的节点集合，v
n
＝{v
n,1
,v
n,2
,
…
,v
n,k
}，e
n
表示词汇超图hg
n
中的超边集合，e
n
＝{e
n,1
,e
n,2
,
…
,e
n,l
}，e
n,l
为e
n
中第l个超边，l＝1,2,
…
,l，l为e
n
中超边数量；如果v
n,k
∈e
n,l
，hg
n
中的元素h
n
(v
n,k
,e
n,l
)＝1，否则h
n
(v
n,k
,e
n,l
)＝0；利用随机游走计算节点v
i
的重要性得分s(v
i
)；(4)对候选关键词集合中的关键词排序：对构成候选关键词的所有节点的重要性得分进行加和求平均，得到候选关键词的重要性得分；根据得分由高到低进行排序，选出排序前r个候选关键词作为文档d
n
最终预测的关键词。2.如权利要求1所述的一种基于超图随机游走的文档关键词抽取方法，其特征在于：所述的分词操作的方式包括：使用基于词典对语句内容进行分词、基于概率统计模型的分词方法对语句进行分词、使用基于语法和规则的分词方法对语句内容进行分词。3.如权利要求1所述的一种基于超图随机游走的文档关键词抽取方法，其特征在于：所述的词性标注的方式包括：基于规则的词性标注方法、基于统计模型的词性标注方法、基于统计方法与规则方法相结合的词性标注方法。4.如权利要求1所述的一种基于超图随机游走的文档关键词抽取方法，其特征在于：所述的命名实体识别采用基于规则和基于统计的命名实体识别的混合方法。5.如权利要求1所述的一种基于超图随机游走的文档关键词抽取方法，其特征在于，计算tf-idf值方法是：首先计算节点v
n,k
的初始tf-idf值其中，v
n,k
的词频频表示d
n
中v
n,k
出现的次数；逆向文件频率出现的次数；逆向文件频率表示d中包含单词v
n,k
的文档的数量；然后进行归一化处理，得到每个节点的最终tf-idf值：节点v
n,k
的初始位置信息得分为该节点对应的单词在d
n
中每次出现的绝对位置序号的倒数之和，归一化处理后得到每个节点的最终位置信息得分：节点v
n,k
的初始权重α和β为加权系数。6.如权利要求1所述的一种基于超图随机游走的文档关键词抽取方法，其特征在于：(3-3)利用随机游走计算节点v
i
的重要性得分s(v
i
)过程如下：选首先定起始节点v
i
，随机选择一条包含v
i
的特定超边e
i
；在e
i
中，选择节点v
i
到达其他节点的概率最大的节点，作为转移节点v
i+1
；然后迭代计算节点v
i
的重要性得分
为节点v
i
的初始权重，λ为阻尼因子，a(v
i
)为与节点v
i
隶属同一个超边的所有其他节点的集合，∑t
j
为节点v
j
的转移概率和；两次迭代误差小于设定阈值，停止迭代，得到节点v
i
最终的重要性得分。

技术总结
本发明公开了一种基于超图随机游走的文档关键词抽取方法。本发明方法对待处理文本信息进行清洗、分词、词性标注、去除停用词操作后，通过三种方法(命名实体识别、名词块抽取以及最长序列匹配)来获取候选关键词集。然后用超图的拓扑结构对文档进行结构化建模，根据TF-IDF值和位置信息值为节点和超边加权，然后通过随机游走的迭计算每个节点重要性得分，再给候选关键词排序，选取重要性靠前的关键词作为输出。本发明方法能够获取词与词之间更完整的语义关系，更好的利用全文信息，提高关键词获取的准确性，可以适用于多样的应用场景。可以适用于多样的应用场景。可以适用于多样的应用场景。

技术研发人员：张建章陈思思詹秀秀刘闯张子柯
受保护的技术使用者：杭州师范大学
技术研发日：2021.11.22
技术公布日：2022/2/18

完整全部详细技术资料下载

当前第2页1 2