用于自主工业软件文本数据的关键词抽取方法及装置

文档序号:30067367发布日期:2022-05-18 01:15阅读:197来源:国知局
用于自主工业软件文本数据的关键词抽取方法及装置

1.本技术涉及网络协同制造技术领域,特别涉及一种用于自主工业软件文本数据的关键词抽取方法及装置。


背景技术:

2.自主工业软件是支撑企业发展的核心力量,而自主工业软件文本数据中蕴含着的大量和软件相关的知识,对相关文本数据进行处理是建设自主软件知识库的重要环节。文本关键词是对所属文本的高度概括、总结,方便用户快速判断文档主题内容和进行高效的检索,对知识库建设起重要支撑作用。然而,自主工业软件文本数据大多未经标注,如何高效准确地对这些文本数据进行关键词抽取,是建设自主工业软件知识库过程中亟待解决的关键问题。
3.相关技术中,常见的文本数据关键词抽取方法包括:
4.1)tf-idf(term frequency

inverse document frequency,词频-逆文档频率)方法,该方法基于统计信息,但对于文档的主题信息利用较少。
5.2)lda(latent dirichlet allocation,线性判别分析)方法,该方法基于主题模型,但需要将主题数量设定为固定值,与实际不符。
6.3)textrank(文档排名)方法,该方法基于词图模型,但存在计算复杂度高、忽略关键词语义相关性的缺点。
7.4)lstm网络(long short-term memory,长短期记忆网络),该方法将关键词抽取转换为分类问题,但仅利用了单向语义信息,并未利用文档统计信息。
8.综上所述,相关技术对于各类文本信息的利用还不够均衡,当使用这些方法对自主工业软件文本数据进行关键词抽取时,效果并不理想,亟需改善。
9.申请内容
10.本技术提供一种用于自主工业软件文本数据的关键词抽取方法及装置,以解决相关技术中心在抽取自主工业软件文本数据的关键词时,无法高效且准确地对文本数据进行关键词抽取,抽取效果较差,无法满足使用需求等问题。
11.本技术第一方面实施例提供一种用于自主工业软件文本数据的关键词抽取方法,包括以下步骤:获取自主工业软件的待提取关键词文档;将所述待提取关键词文档输入至预先训练的关键词抽取模型,获取所述待提取关键词文档中每个词语对应的关键词概率,其中,所述关键词抽取模型由自主工业软件训练数据建立;以及由所述关键词概率大于预设概率的至少一个词语抽取得到所述待提取关键词文档的至少一个关键词,其中,所述至少一个词语的数量根据文本长度和实际关键词概率确定。
12.可选地,在本技术的一个实施例中,所述将所述待提取关键词文档输入至预先训练的关键词抽取模型,包括:基于skip-gram模型和glove模型分别获取所述待提取关键词文档的skip-gram词向量矩阵和glove词向量矩阵;基于tf-idf模型获取所述待提取关键词文档的文本向量;将所述skip-gram词向量矩阵、所述glove词向量矩阵和所述文本向量输
入至所述关键词抽取模型。
13.可选地,在本技术的一个实施例中,在将所述待提取关键词文档输入至所述预先训练的关键词抽取模型之前,还包括:由fusion_embedding层神经网络与bilstm层神经网络串联,并与tf-idf层神经网络并联,建立初始关键词抽取模型;利用所述自主工业软件训练数据集训练所述初始关键词抽取模型,得到所述预先训练的关键词抽取模型。
14.可选地,在本技术的一个实施例中,所述获取所述待提取关键词文档中每个词语对应的关键词概率,包括:利用所述fusion_embedding层神经网络融合所述skip-gram词向量矩阵和glove词向量矩阵,生成融合词向量矩阵;利用所述tf-idf层神经网络对所述文本向量进行特征降维处理,得到处理后的文本向量;由所述融合词向量矩阵和所述处理后的文本向量得到所述每个词语对应的关键词概率。
15.可选地,在本技术的一个实施例中,所述每个词语对应的关键词概率的计算公式为:
[0016][0017]
其中,x为拼接结果,vec_mask为概率分布调整向量,wi和wk(i,k=1,2,

,n)为可训练参数,概率值pk为第k个词作为关键词的概率值。
[0018]
本技术第二方面实施例提供一种用于自主工业软件文本数据的关键词抽取装置,包括:获取模块,用于获取自主工业软件的待提取关键词文档;概率计算模块,用于将所述待提取关键词文档输入至预先训练的关键词抽取模型,获取所述待提取关键词文档中每个词语对应的关键词概率,其中,所述关键词抽取模型由自主工业软件训练数据建立;以及抽取模块,用于由所述关键词概率大于预设概率的至少一个词语抽取得到所述待提取关键词文档的至少一个关键词,其中,所述至少一个词语的数量根据文本长度和实际关键词概率确定。
[0019]
可选地,在本技术的一个实施例中,所述概率提取模块,进一步用于:基于skip-gram模型和glove模型分别获取所述待提取关键词文档的skip-gram词向量矩阵和glove词向量矩阵;并基于tf-idf模型获取所述待提取关键词文档的文本向量;将所述skip-gram词向量矩阵、所述glove词向量矩阵和所述文本向量输入至所述关键词抽取模型。
[0020]
可选地,在本技术的一个实施例中,用于自主工业软件文本数据的关键词抽取装置,还包括:建模模块,用于由fusion_embedding层神经网络与bilstm层神经网络串联,并与tf-idf层神经网络并联,建立初始关键词抽取模型;训练模块,用于利用所述自主工业软件训练数据集训练所述初始关键词抽取模型,得到所述预先训练的关键词抽取模型。
[0021]
可选地,在本技术的一个实施例中,所述概率计算模块,包括:融合单元,用于利用所述fusion_embedding层神经网络融合所述skip-gram词向量矩阵和glove词向量矩阵,生成融合词向量矩阵;降维单元,用于利用所述tf-idf层神经网络对所述文本向量进行特征降维处理,得到处理后的文本向量;概率计算单元,用于由所述融合词向量矩阵和所述处理后的文本向量得到所述每个词语对应的关键词概率。
[0022]
可选地,在本技术的一个实施例中,所述每个词语对应的关键词概率的计算公式为:
[0023][0024]
其中,x为拼接结果,vec_mask为概率分布调整向量,wi和wk(i,k=1,2,

,n)为可训练参数,概率值pk为第k个词作为关键词的概率值。
[0025]
本技术第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的用于自主工业软件文本数据的关键词抽取方法。
[0026]
本技术第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的用于自主工业软件文本数据的关键词抽取方法。
[0027]
本技术实施例融合了文本数据中的多维统计信息,克服了传统方法对各类文本信息利用不够均衡的问题,实现了对自主工业软件文本数据关键词的高质量抽取,并为建设自主工业软件知识库提供了有效的工具。由此,解决了相关技术中心在抽取自主工业软件文本数据的关键词时,无法高效且准确地对文本数据进行关键词抽取,抽取效果较差,无法满足使用需求等问题。
[0028]
本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
[0029]
本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0030]
图1为根据本技术实施例提供的一种用于自主工业软件文本数据的关键词抽取方法的流程图;
[0031]
图2为根据本技术一个具体实施例提供的一种用于自主工业软件文本数据的关键词抽取方法的原理示意图;
[0032]
图3为根据本技术一个具体实施例提供的关键词抽取结果;
[0033]
图4为根据本技术实施例提供的一种用于自主工业软件文本数据的关键词抽取装置的结构示意图;
[0034]
图5为根据本技术实施例提供的电子设备的结构示意图。
具体实施方式
[0035]
下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。
[0036]
下面参考附图描述本技术实施例的用于自主工业软件文本数据的关键词抽取方法及装置。针对上述背景技术中心提到的相关技术中心在抽取自主工业软件文本数据的关键词时,无法高效且准确地对文本数据进行关键词抽取,抽取效果较差,无法满足使用需求的问题,本技术提供了一种用于自主工业软件文本数据的关键词抽取方法,在该方法中,既融合了文本数据中的多维统计信息,又克服了传统方法对各类文本信息利用不够均衡的问
题,进而实现了对自主工业软件文本数据关键词的高质量抽取,并为建设自主工业软件知识库提供了有效的工具。由此,解决了相关技术中心在抽取自主工业软件文本数据的关键词时,无法高效且准确地对文本数据进行关键词抽取,抽取效果较差,无法满足使用需求等问题。
[0037]
具体而言,图1为本技术实施例所提供的一种用于自主工业软件文本数据的关键词抽取方法的流程示意图。
[0038]
如图1所示,该用于自主工业软件文本数据的关键词抽取方法包括以下步骤:
[0039]
在步骤s101中,获取自主工业软件的待提取关键词文档。
[0040]
可以理解的是,自主工业软件文本数据中蕴含着大量和软件相关的知识,对相关文本数据进行处理是建设自主软件知识库的重要环节,文本关键词是对所属文本的高度概括、总结,方便用户快速判断文档主题内容和进行高效的检索,对知识库建设起重要支撑作用,本技术实施例通过融合文本数据中的多维统计信息,可以实现对自主工业软件文本数据关键词的高质量抽取。
[0041]
需要注意的是,获取自主工业软件的待提取关键词文档可以通过电子文档导入或纸质文档扫描等方式,可以由本领域技术人员根据实际情况进行选择,在此不做具体限制。
[0042]
在步骤s102中,将待提取关键词文档输入至预先训练的关键词抽取模型,获取待提取关键词文档中每个词语对应的关键词概率,其中,关键词抽取模型由自主工业软件训练数据建立。
[0043]
具体地,本技术实施例可以预先通过自主工业软件训练数据,建立关键词抽取模型,并将待提取关键词文档输入至预先训练的关键词抽取模型,进而获取待提取关键词文档中每个词语对应的关键词概率。其中,关键词抽取模型的建立会在后续进行详细阐述。本技术实施例通过预先训练的关键词抽取模型对待提取关键词文档中的词语进行关键词概率提取,可以为后续抽取关键词奠定基础,进而保证抽取关键词的质量。
[0044]
可选地,在本技术的一个实施例中,将待提取关键词文档输入至预先训练的关键词抽取模型,包括:基于skip-gram模型和glove模型分别获取待提取关键词文档的skip-gram词向量矩阵和glove词向量矩阵;基于tf-idf模型获取待提取关键词文档的文本向量;将skip-gram词向量矩阵、glove词向量矩阵和文本向量输入至关键词抽取模型。
[0045]
作为一种可能实现的方式,本技术实施例可以基于skip-gram模型和glove模型分别建立词向量矩阵,并分别获取待提取关键词文档的skip-gram词向量矩阵和glove词向量矩阵,同时,本技术实施例可以基于tf-idf模型建立文本向量,并获取待提取关键词文档的文本向量。进一步地,本技术实施例可以将获取的skip-gram词向量矩阵、glove词向量矩阵和文本向量输入至预先训练的关键词抽取模型。本技术实施例利用skip-gram模型和glove模型分别建立词向量矩阵,可以在完成词的相似度任务的同时,保证使用语料的统计信息,进而为后续抽取高质量关键词奠定基础。
[0046]
可选地,在本技术的一个实施例中,在将待提取关键词文档输入至预先训练的关键词抽取模型之前,还包括:由fusion_embedding层神经网络与bilstm层神经网络串联,并与tf-idf层神经网络并联,建立初始关键词抽取模型;利用自主工业软件训练数据集训练初始关键词抽取模型,得到预先训练的关键词抽取模型。
[0047]
在实际执行过程中,关键词抽取模型可以通过将fusion_embedding层神经网络与
bilstm层神经网络串联,再与tf-idf层神经网络并联建立。本技术实施例在建立关键词抽取模型后,可以利用自主工业软件数据集,对关键词抽取模型进行训练,进而得到预先训练的关键词抽取模型。
[0048]
其中,fusion_embedding层神经网络的建立过程包括如下步骤:
[0049]
1)对原始的词向量矩阵进行拼接、线性变换:
[0050]
αi=concat(matrix
i,1
,matrix
i,2
)
·
w+b,
[0051]
其中,matrix
i,1
和matrix
i,2
分别为基于skip-gram模型和glove模型建立词向量矩阵中第i个词向量,concat()为行拼接操作,w与b为可训练参数,αi为经过线性变换的临时结果;
[0052]
2)进一步计算词向量的加权值:
[0053][0054]
其中,p
i,k
表示第i个词对应的第k种词向量权重,exp()为自然指数运算;
[0055]
3)计算融合词向量:
[0056][0057]
其中,wi为文档第i个词对应的融合词向量。
[0058]
关键词抽取模型的建立包括如下步骤:
[0059]
1)利用bilstm层神经网络对fusion_embedding层神经网络的结果进行非线性运算,具体如下:
[0060]ft
=σ(wf·
[h
t-1
,x
t
]+bf),
[0061]it
=σ(wi·
[h
t-1
,x
t
]+bi),
[0062][0063][0064]ot
=σ(wo[h
t-1
,x
t
]+bo),
[0065]ht
=o
t
·
tanh(c
t
),
[0066]
其中,x
t
为当前时刻输入,h
t-1
为上一时刻隐藏态,wf、wi、wc、wo为可训练参数,f
t
为遗忘门结果,i
t
为输入门结果,为候选细胞态,c
t
为新生成细胞态,o
t
为输出门结果,h
t
为当前时刻隐藏态,在得到前向及后向最终时间步的隐藏态hf与hb之后将两者进行拼接,得到最终的文本表示hf;
[0067]
2)tf-idf层神经网络负责对输入的tf-idf文本表示通过全连接层进行降维处理,具体如下:
[0068]
emd

=emd
·
w+b,
[0069]
式中emd是原始tf-idf文本表示,emd

为降维之后的文本表示;
[0070]
3)分类层负责对两种文本表示向量的拼接结果进行最终处理,具体如下:
[0071]
x=concat(hf,emd

),
[0072][0073]
其中,x为拼接结果,vec_mask为概率分布调整向量,wi和wk(i,k=1,2,

,n)为可训练参数,概率值pk为第k个词作为关键词的概率值。
[0074]
可选地,在本技术的一个实施例中,获取待提取关键词文档中每个词语对应的关键词概率,包括:利用fusion_embedding层神经网络融合skip-gram词向量矩阵和glove词向量矩阵,生成融合词向量矩阵;利用tf-idf层神经网络对文本向量进行特征降维处理,得到处理后的文本向量;由融合词向量矩阵和处理后的文本向量得到每个词语对应的关键词概率。
[0075]
具体地,本技术实施例可以利用fusion_embedding层神经网络,对skip-gram词向量矩阵和glove词向量矩阵进行融合,并生成融合词向量矩阵;同时,可以利用tf-idf层神经网络对文本向量进行特征降维处理,进而得到处理后的文本向量;最终,由融合词向量矩阵和处理后的文本向量得到每个词语对应的关键词概率。本技术实施例利用skip-gram模型和glove模型分别建立词向量矩阵,并将skip-gram词向量矩阵和glove词向量矩阵进行融合,再经过tf-idf层神经网络的特征降维处理,使得本技术实施例可以在完成词的相似度任务的同时,保证使用语料的统计信息,进而为后续抽取高质量关键词奠定基础。
[0076]
可选地,在本技术的一个实施例中,每个词语对应的关键词概率的计算公式为:
[0077][0078]
其中,x为拼接结果,vec_mask为概率分布调整向量,wi和wk(i,k=1,2,

,n)为可训练参数,概率值pk为第k个词作为关键词的概率值。
[0079]
本领域技术人员应该理解到的是,本技术实施例通过获取关键词的概率值,使得在后续抽取关键词的过程中,可以保证抽取的关键词具有一定的质量,以实现关键词对所属文本高度概括、总结,方便用户快速判断文档主题内容和进行高效的检索的作用。
[0080]
在步骤s103中,由关键词概率大于预设概率的至少一个词语抽取得到待提取关键词文档的至少一个关键词,其中,至少一个词语的数量根据文本长度和实际关键词概率确定。
[0081]
举例而言,本技术实施例可以将关键词概率与预设的概率进行对比,当关键词概率大于一定概率时,抽取该关键词,进而可以得到用户需求的待提取关键词文档中的关键词。本技术实施例通过预先训练的关键词抽取模型,既融合了文本数据中的多维统计信息,又克服了传统方法对各类文本信息利用不够均衡的问题,进而实现了对自主工业软件文本数据关键词的高质量抽取,并为建设自主工业软件知识库提供了有效的工具。
[0082]
可以理解的是,根据待提取关键词文档的内容不同,其关键词出现的频率也不尽相同,其预设的关键词概率可以由本领域技术人员根据关键词文档的不同进行相应设置,即言根据文档中每个词语对应的关键词概率,选取概率较大的前k个词语作为文档关键词,k根据文本长度和实际概率分布情况确定,并保证k≥1。
[0083]
下面结合图2和图3,对本技术的一个具体实施例进行详细阐述。
[0084]
如图2所示,本技术一个具体实施例包括以下步骤:
[0085]
步骤s201:获取待提取关键词文档。可以理解的是,自主工业软件文本数据中蕴含着大量和软件相关的知识,对相关文本数据进行处理是建设自主软件知识库的重要环节,文本关键词是对所属文本的高度概括、总结,方便用户快速判断文档主题内容和进行高效的检索,对知识库建设起重要支撑作用,本技术实施例通过融合文本数据中的多维统计信息,可以实现对自主工业软件文本数据关键词的高质量抽取。
[0086]
步骤s202:获取词向量及文本向量。本技术实施例可以基于skip-gram模型和glove模型分别建立文本数据对应的词向量矩阵,并基于tf-idf模型建立文本数据对应的文本向量。本技术实施例利用skip-gram模型和glove模型分别建立词向量矩阵,可以在完成词的相似度任务的同时,保证使用语料的统计信息,进而为后续抽取高质量关键词奠定基础。
[0087]
s203:建立关键词抽取模型。本技术实施例首先搭建fusion_embedding层神经网络,并对原始的词向量矩阵进行拼接、线性变换:
[0088]
αi=concat(matrix
i,1
,matrix
i,2
)
·
w+b,
[0089]
其中,matrix
i,1
和matrix
i,2
分别为基于skip-gram模型和glove模型建立词向量矩阵中第i个词向量,concat()为行拼接操作,w与b为可训练参数,αi为经过线性变换的临时结果;
[0090]
进一步计算词向量的加权值:
[0091][0092]
其中,p
i,k
表示第i个词对应的第k种词向量权重,exp()为自然指数运算;
[0093]
计算融合词向量:
[0094][0095]
其中,wi为文档第i个词对应的融合词向量;
[0096]
其次,本技术实施例可以搭建tf-idf层神经网络,对步骤s202中的文本向量进行特征降维;
[0097]
再次,本技术实施例可以将fusion_embedding层神经网络与bilstm层神经网络串联,再与tf-idf层神经网络并联,进而建立关键词抽取模型,并利用bilstm层神经网络对fusion_embedding层神经网络的结果进行非线性运算,具体如下:
[0098]ft
=σ(wf·
[h
t-1
,x
t
]+bf),
[0099]it
=σ(wi·
[h
t-1
,x
t
]+bi),
[0100][0101][0102]ot
=σ(wo[h
t-1
,x
t
]+bo),
[0103]ht
=o
t
·
tanh(c
t
),
[0104]
其中,x
t
为当前时刻输入,h
t-1
为上一时刻隐藏态,wf、wi、wc、wo为可训练参数,f
t
为遗忘门结果,i
t
为输入门结果,为候选细胞态,c
t
为新生成细胞态,o
t
为输出门结果,h
t

当前时刻隐藏态,在得到前向及后向最终时间步的隐藏态hf与hb之后将两者进行拼接,得到最终的文本表示hf;
[0105]
同时,本技术实施例可以使用tf-idf层神经网络负责对输入的tf-idf文本表示通过全连接层进行降维处理,具体如下:
[0106]
emd

=emd
·
w+b,
[0107]
其中,emd是原始tf-idf文本表示,emd

为降维之后的文本表示;
[0108]
最后,本技术实施例可以分类层负责对两种文本表示向量的拼接结果进行最终处理,具体如下:
[0109]
x=concat(hf,emd

),
[0110][0111]
其中,x为拼接结果,vec_mask为概率分布调整向量,wi和wk(i,k=1,2,

,n)为可训练参数,概率值pk为第k个词作为关键词的概率值。
[0112]
s204:模型训练。本技术实施例可以利用自主工业软件数据集对关键词抽取模型进行训练。
[0113]
s205:关键词抽取。举例而言,本技术实施例可以利用训练后的模型对一段自主工业软件文本数据进行关键词进行抽取,其文本数据如下:
[0114]“三维cad服务提供直观、高效、功能强大的三维设计解决方案,客户可以在方案设计、工程设计、生产制造和支持维护部门
……
caxa 3d实体设计支持创新模式和工程模式两种设计方式。创新模式将可视化的自由设计与精确化设计结合在一起,使产品设计跨越了传统参数化造型cad软件的复杂性限制,不论是经验丰富的专业人员,还是刚进入设计领域的初学者,都能轻松开展产品创新工作;全参数化设计模式(即工程模式),符合大多数3d软件的操作习惯和设计思想,可以在数据之间建立严格的逻辑关系,便于设计修改
……
caxa 3d实体设计为了提升大型装配体的运行显示速度提供了大装配模式,使用大装配模式可以显著提高在进行大型装配设计时的运行效率和显示速度。通过使用轻量化加载技术可以只加载当前设计所需的数据,大幅减少了模型对内存的占用
……
caxa 3d实体设计支持零/部件的装配间隙检查、干涉检查、物理属性计算,装配工艺的动态仿真检查与机构运动状态的动态仿真检查,使设计者能够在数字样机中发现设计中的问题,减少用户多次试样,降低研发成本
……”
[0115]
结果如图3所示,从图3的结果中可以看到,本技术实施例通过上述步骤得到了不同词语作为关键词的概率,选取概率较大的4个词语作为该文本数据的关键词,这些关键词能够对文本数据进行有效的概括和总结。
[0116]
本技术实施例通过预先训练的关键词抽取模型,既融合了文本数据中的多维统计信息,又克服了传统方法对各类文本信息利用不够均衡的问题,进而实现了对自主工业软件文本数据关键词的高质量抽取,并为建设自主工业软件知识库提供了有效的工具。
[0117]
根据本技术实施例提出的一种用于自主工业软件文本数据的关键词抽取方法,既融合了文本数据中的多维统计信息,又克服了传统方法对各类文本信息利用不够均衡的问题,进而实现了对自主工业软件文本数据关键词的高质量抽取,并为建设自主工业软件知识库提供了有效的工具。由此,解决了相关技术中心在抽取自主工业软件文本数据的关键
词时,无法高效且准确地对文本数据进行关键词抽取,抽取效果较差,无法满足使用需求等问题。
[0118]
其次参照附图描述根据本技术实施例提出的用于自主工业软件文本数据的关键词抽取装置。
[0119]
图4是本技术实施例的用于自主工业软件文本数据的关键词抽取装置的方框示意图。
[0120]
如图4所示,该用于自主工业软件文本数据的关键词抽取装置10包括:获取模块100、概率计算模块200和抽取模块300。
[0121]
具体地,获取模块100,用于获取自主工业软件的待提取关键词文档。
[0122]
概率计算模块200,用于将待提取关键词文档输入至预先训练的关键词抽取模型,获取待提取关键词文档中每个词语对应的关键词概率,其中,关键词抽取模型由自主工业软件训练数据建立。
[0123]
抽取模块300,用于由关键词概率大于预设概率的至少一个词语抽取得到待提取关键词文档的至少一个关键词,其中,至少一个词语的数量根据文本长度和实际关键词概率确定。
[0124]
可选地,在本技术的一个实施例中,概率提取模块200进一步用于,基于skip-gram模型和glove模型分别获取待提取关键词文档的skip-gram词向量矩阵和glove词向量矩阵,并基于tf-idf模型获取待提取关键词文档的文本向量,将skip-gram词向量矩阵、glove词向量矩阵和文本向量输入至关键词抽取模型。
[0125]
可选地,在本技术的一个实施例中,用于自主工业软件文本数据的关键词抽取装置10还包括:建模模块和训练模块。
[0126]
其中,建模模块,用于由fusion_embedding层神经网络与bilstm层神经网络串联,并与tf-idf层神经网络并联,建立初始关键词抽取模型。
[0127]
训练模块,用于利用自主工业软件训练数据集训练初始关键词抽取模型,得到预先训练的关键词抽取模型。
[0128]
可选地,在本技术的一个实施例中,概率计算模块200包括:融合单元、降维单元和概率计算单元。
[0129]
其中,融合单元,用于利用fusion_embedding层神经网络融合skip-gram词向量矩阵和glove词向量矩阵,生成融合词向量矩阵。
[0130]
降维单元,用于利用tf-idf层神经网络对文本向量进行特征降维处理,得到处理后的文本向量。
[0131]
概率计算单元,用于由融合词向量矩阵和处理后的文本向量得到每个词语对应的关键词概率。
[0132]
可选地,在本技术的一个实施例中,每个词语对应的关键词概率的计算公式为:
[0133][0134]
其中,x为拼接结果,vec_mask为概率分布调整向量,wi和wk(i,k=1,2,

,n)为可训练参数,概率值pk为第k个词作为关键词的概率值。
[0135]
需要说明的是,前述对用于自主工业软件文本数据的关键词抽取方法实施例的解
释说明也适用于该实施例的用于自主工业软件文本数据的关键词抽取装置,此处不再赘述。
[0136]
根据本技术实施例提出的一种用于自主工业软件文本数据的关键词抽取装置,既融合了文本数据中的多维统计信息,又克服了传统方法对各类文本信息利用不够均衡的问题,进而实现了对自主工业软件文本数据关键词的高质量抽取,并为建设自主工业软件知识库提供了有效的工具。由此,解决了相关技术中心在抽取自主工业软件文本数据的关键词时,无法高效且准确地对文本数据进行关键词抽取,抽取效果较差,无法满足使用需求等问题。
[0137]
图5为本技术实施例提供的电子设备的结构示意图。该电子设备可以包括:
[0138]
存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。
[0139]
处理器502执行程序时实现上述实施例中提供的用于自主工业软件文本数据的关键词抽取方法。
[0140]
进一步地,电子设备还包括:
[0141]
通信接口503,用于存储器501和处理器502之间的通信。
[0142]
存储器501,用于存放可在处理器502上运行的计算机程序。
[0143]
存储器501可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0144]
如果存储器501、处理器502和通信接口503独立实现,则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture,简称为isa)总线、外部设备互连(peripheral component,简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture,简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0145]
可选的,在具体实现上,如果存储器501、处理器502及通信接口503,集成在一块芯片上实现,则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。
[0146]
处理器502可能是一个中央处理器(central processing unit,简称为cpu),或者是特定集成电路(application specific integrated circuit,简称为asic),或者是被配置成实施本技术实施例的一个或多个集成电路。
[0147]
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的用于自主工业软件文本数据的关键词抽取方法。
[0148]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0149]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性
或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“n个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0150]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
[0151]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或n个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0152]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0153]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0154]
此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0155]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1