专利技术监控中嵌套实体关键词抽取方法及系统与流程

文档序号:35865306发布日期:2023-10-26 23:11阅读:37来源:国知局
专利技术监控中嵌套实体关键词抽取方法及系统与流程

本技术涉及大数据,具体涉及一种专利技术监控中嵌套实体关键词抽取方法及系统。


背景技术:

1、专利技术监控是指监控专利相关技术主题下的专利动态信息。专利监控技术需要准确得到在某个时间段内,在某个相关技术主题下的相关专利新增数量,失效数量,授权数量等等信息。因此准确识别专利相关技术的实体关键词为专利技术监控的关键。

2、现有的识别专利相关技术的实体关键词采用的方法为构建一个关键词库,再通过ac自动机对专利技术文本进行专利关键词提取。但这种方法没有基于语义进行关键词抽取,从而导致识别得到的专利相关技术的实体关键词不准确。

3、因此,如何准确地从专利技术文本中提取与专利主题相关的实体关键词,成为亟需解决的问题。

4、因此,亟需一种专利技术监控中嵌套实体关键词抽取方法来解决当前技术存在的问题。


技术实现思路

1、本技术提供了一种专利技术监控中嵌套实体关键词抽取方法及系统,可以准确地从专利技术文本中提取与专利主题相关的实体关键词。

2、第一方面,本技术提供了一种专利技术监控中嵌套实体关键词抽取方法,所述方法包括:获取预处理后的专利技术文本;将所述预处理后的专利技术文本输入预设的关键词抽取模型,得到专利数据;所述专利数据包括标签序列;对所述标签序列进行解码,得到至少一个解码关键词;当存在单个所述解码关键词时,将所述解码关键词作为所述实体关键词;当存在多个所述解码关键词时,基于预设的筛选规则对多个所述解码关键词进行筛选,得到至少一个实体关键词。

3、通过采用上述技术方案,通过将预处理后的专利技术文本输入预设的关键词抽取模型中,基于预设的关键词抽取模型对预处理后的专利技术文本进行标签标注,得到标签序列,从而使得得到的标签序列更加精准且符合专利文本中语句的语义;通过对标签序列进行解码,从而得到多个解码关键词,从而使得解码得到的解码关键词更加符合专利文本涉及的专利技术;再当存在多个解码关键词时,基于预设的筛选规则对多个解码关键词进行筛选,从而使得提取得到的专利相关技术的实体关键词更加准确。

4、可选的,在所述将所述预处理后的专利技术文本输入预设的关键词抽取模型,得到专利数据之前,所述方法还包括构建预设的关键词抽取模型;所述构建预设的关键词抽取模型,具体包括:构建训练数据集;所述训练数据集包括预设数量的训练数据;每条所述训练数据包括多个最小文字单元对应的数值和多个最小文字单元对应的预设标签;其中,所述预设标签包括起始标签、中间标签、截止标签、第一可选标签以及第二可选标签;其中,所述第一可选标签为所述中间标签或所述截止标签,所述第二可选标签为所述起始标签或所述中间标签;将所述训练数据集输入至预设的bert-crf模型,输出得到多个最小文字单元对应的预测标签;基于所述多个最小文字单元对应的预设标签和所述多个最小文字单元对应的预测标签,得到损失函数;基于反向传播算法,计算所述损失函数对预设的bert-crf模型的参数的梯度,并更新所述预设的bert-crf模型的参数,得到预设的关键词抽取模型。

5、通过采用上述技术方案,通过构建包含预设数量的训练数据的训练数据集,并将训练数据集输入至预设的bert-crf模型,输出得到多个最小文字单元对应的预测标签,并将预测标签和预设标签进行比较,得到损失函数,并基于反向传播算法,更新预设的bert-crf模型的参数,从而使得构建得到的预设的关键词抽取模型输出的标签序列更加准确。

6、可选的,所述构建训练数据集,具体包括:获取预设数量的训练文本;将每个所述训练文本拆分为多个最小文字单元;对每个所述最小文字单元进行one-hot编码,得到多个所述最小文字单元对应的数值;对所述多个最小文字单元进行标签标注,得到多个所述最小文字单元对应的预设标签;基于多个所述最小文字单元对应的数值和多个所述最小文字单元对应的预设标签,构建得到所述训练数据集。

7、可选的,所述专利数据还包括专利文本;所述对所述专利数据中的所述标签序列进行解码,得到多个解码关键词,具体包括:获取所述标签序列和所述专利文本的映射关系;其中,所述标签序列包括至少一个起始标签、至少一个中间标签以及至少一个截止标签;对所述标签序列进行解码,得到至少一个解码序列;其中,所述解码序列包括至少一个所述起始标签和至少一个所述中间标签;基于所述解码序列和所述映射关系,得到多个解码关键词。

8、可选的,所述对所述标签序列进行解码,得到至少一个解码序列,具体包括:判断所述标签序列中是否包含第一可选标签和/或第二可选标签;所述第一可选标签为所述中间标签或所述截止标签,所述第二可选标签为所述起始标签或所述中间标签;若否,则生成至少一个所述解码序列;所述解码序列只包含至少一个所述起始标签和至少一个所述中间标签;若是,将所述第一可选标签转换为所述中间标签或所述截止标签,和/或,将所述第二可选标签转换为所述起始标签或所述中间标签,并生成至少一个所述解码序列;所述解码序列只包含至少一个所述起始标签和至少一个所述中间标签。

9、通过采用上述技术方案,通过对标签序列中的起始标签、中间标签、截止标签、第一可选标签以及第二可选标签进行解码,得到包括起始标签和中间标签的解码序列,基于解码序列和映射关系,得到解码关键词,本方案通过引入起始标签、中间标签、截止标签、第一可选标签以及第二可选标签,使得构建的标签序列更加完整,从而使得解码后的解码序列的组合更加多样化,进一步地使得最后解码得到的关键词更加全面和准确。

10、可选的,所述当存在多个所述解码关键词时,则基于预设的筛选规则对多个所述解码关键词进行筛选,得到至少一个实体关键词,具体包括:从多个所述解码关键词中选取至少两个所述解码关键词,并判断至少两个所述解码关键词是否构成完整的所述解码序列;若是,则基于至少两个所述解码关键词的先后顺序,筛选掉除顺序最后的所述解码关键词以外的所述解码关键词;将剩余的所述解码关键词作为所述实体关键词。

11、通过采用上述技术方案,通过判断选取的至少两个解码关键词是否能够构成完整的所述解码序列,从而筛选掉不完整和不符合语义的解码关键词,从而使得筛选出的实体关键词更加准确。

12、可选的,在所述获取预处理后的专利技术文本之前,所述方法还包括:接收预处理后的专利技术文本的获取请求,将原始专利文本进行分段处理,得到多个专利文本段落;去除多个所述专利文本段落中的重复段落,得到第一专利文本;去除所述第一专利文本中的停用词、非法符号以及特殊字符,得到第二专利文本;对所述第二专利文本进行清洗操作和规范化操作,得到预处理后的专利技术文本。

13、通过采用上述技术方案,通过对原始专利文本进行分段后,再去除全部专利文本段落中的重复段落,得到第一专利文本,以防止重复段落对后续文本分析操作造成干扰。再去除第一专利文本中的停用词、非法符号以及特殊字符,得到第二专利文本,以防止停用词、非法符号以及特殊字符对后续文本分析操作造成干扰。最后对文本进行清洗操作和规范化操作,使得得到的预处理后的专利技术文本有较好的文本一致性和干净度。

14、在本技术的第二方面提供了一种专利技术监控中嵌套实体关键词抽取系统,所述系统包括:获取模块、处理模块、解码模块以及筛选模块;所述获取模块,用于获取预处理后的专利技术文本;所述处理模块,用于将所述预处理后的专利技术文本输入预设的关键词抽取模型,得到专利数据;所述专利数据包括标签序列;所述解码模块,用于对所述标签序列进行解码,得到至少一个解码关键词;所述筛选模块,用于当存在单个所述解码关键词时,将所述解码关键词作为所述实体关键词;所述筛选模块,还用于当存在多个所述解码关键词时,基于预设的筛选规则对多个所述解码关键词进行筛选,得到至少一个实体关键词。

15、在本技术的第三方面提供了一种电子设备,包括处理器、存储器、用户接口及网络接口,所述存储器用于存储指令,所述用户接口和网络接口用于给其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如本技术第一方面任意一项所述的方法。

16、在本技术的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有能够被处理器加载并执行如本技术第一方面任意一项所述的方法的计算机程序。

17、综上所述,本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

18、1、通过将预处理后的专利技术文本输入预设的关键词抽取模型中,基于预设的关键词抽取模型对预处理后的专利技术文本进行标签标注,得到标签序列,从而使得得到的标签序列更加精准且符合专利文本中语句的语义;通过对标签序列进行解码,从而得到多个解码关键词,从而使得解码得到的解码关键词更加符合专利文本涉及的专利技术;再当存在多个解码关键词时,基于预设的筛选规则对多个解码关键词进行筛选,从而使得提取得到的专利相关技术的实体关键词更加准确。

19、2、通过对标签序列中的起始标签、中间标签、截止标签、第一可选标签以及第二可选标签进行解码,得到包括起始标签和中间标签的解码序列,基于解码序列和映射关系,得到解码关键词,本方案通过引入起始标签、中间标签、截止标签、第一可选标签以及第二可选标签,使得构建的标签序列更加完整,从而使得解码后的解码序列的组合更加多样化,进一步地使得最后解码得到的关键词更加全面和准确。

20、3、通过判断选取的至少两个解码关键词是否能够构成完整的所述解码序列,从而筛选掉不完整和不符合语义的解码关键词,从而使得筛选出的实体关键词更加准确。

21、4、通过对原始专利文本进行分段后,再去除全部专利文本段落中的重复段落,得到第一专利文本,以防止重复段落对后续文本分析操作造成干扰。再去除第一专利文本中的停用词、非法符号以及特殊字符,得到第二专利文本,以防止停用词、非法符号以及特殊字符对后续文本分析操作造成干扰。最后对文本进行清洗操作和规范化操作,使得得到的预处理后的专利技术文本有较好的文本一致性和干净度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1