一种确定涉密文本的方法和装置与流程

文档序号:23470398发布日期:2020-12-29 13:12阅读:来源:国知局

技术特征:

1.一种确定涉密文本的方法,其特征在于,包括:

从文本中获取包含涉密关键词及其上下文信息的子文本;

根据所述子文本,确定所述涉密关键词之间的依存关系;

将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。

2.根据权利要求1所述的方法,其特征在于,所述涉密关键词被设置为按照如下方式确定,包括:

获取文本中的词语;

将所述词语与预设的涉密关键词库中涉密关键词进行匹配;

若匹配成功,则将所述词语确定为涉密关键词。

3.根据权利要求2所述的方法,其特征在于,在所述将所述词语与预设的涉密关键词库中涉密关键词进行匹配之后,还包括:

若匹配不成功,则将所述词语输入至预设的同义词语转换模型,经所述同义词语转换模型,输出所述词语的同义词;

将所述同义词与所述涉密关键词进行匹配。

4.根据权利要求3所述的方法,其特征在于,所述同义词语转换模型包括下述中的至少一种:

音变模型、形变模型、错别字模型和繁体字模型。

5.根据权利要求1所述的方法,其特征在于,从文本中获取包含涉密关键词及其上下文信息的子文本,包括:

确定所述文本中的涉密关键词;

将所述涉密关键词所在位置上下相邻两预设截止符之间的文本确定为所述子文本。

6.根据权利要求1所述的方法,其特征在于,根据所述子文本,确定所述涉密关键词之间的依存关系,包括:

将所述子文本输入至依存句法分析模型,经所述依存句法分析模型,输出所述子文本中的两实体词之间的依存关系。

7.根据权利要求1所述的方法,其特征在于,所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,其中,匹配成功的条件被设置为按照下述方式中的至少一种:

所述子文本中的涉密关键词与所述涉密信息规则库中的涉密关键词为相同的词或词义相同的词并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同,

所述子文本中的涉密关键词属于所述涉密信息规则库中的涉密关键词类别范围并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同。

8.根据权利要求1所述的方法,其特征在于,在所述从文本中获取包含涉密关键词及其上下文信息的子文本之前还包括:

在文本的文件格式为非标准格式的情况下,将所述文本的文件格式转换成预设的标准格式。

9.根据权利要求1所述的方法,其特征在于,所述依存关系包括下述中的至少一种:

主谓关系、核心关系、定中关系、数量关系、副词关系及同位语关系。

10.根据权利要求1所述的方法,其特征在于,所述涉密信息规则库包括多个技术领域的涉密信息规则库,在所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息设置规则库中的涉密关键词的关联依存关系进行匹配之前,还包括:

根据所述子文本的技术领域,确定与所述技术领域相匹配的涉密信息规则库。

11.根据权利要求1所述的方法,其特征在于,所述涉密信息规则库被设置为按照下述方式生成:

将同一技术领域的多个预设的涉密文本进行数据合并;

从合并后的数据中提取所述涉密文本中的涉密关键词;

分析并存储所述涉密关键词之间的依存关系。

12.一种确定涉密文本的装置,其特征在于,包括:

获取模块,用于从文本中获取包含涉密关键词及其上下文信息的子文本;

第一确定模块,用于根据所述子文本,确定所述涉密关键词之间的依存关系;

第二确定模块,用于将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。

13.根据权利要求12所述装置,其特征在于,包括:所述涉密关键词被设置为按照如下方式确定,包括:

获取文本中的词语;

将所述词语与预设的涉密关键词库中涉密关键词进行匹配;

若匹配成功,则将所述词语确定为涉密关键词。

14.根据权利要求13所述的装置,其特征在于,在所述将所述词语与预设的涉密关键词库中涉密关键词进行匹配之后,还包括:

若匹配不成功,则将所述词语输入至预设的同义词语转换模型,经所述同义词语转换模型,输出所述词语的同义词;

将所述同义词与所述涉密关键词进行匹配。

15.根据权利要求14所述的装置,其特征在于,所述同义词语转换模型包括下述中的至少一种:

音变模型、形变模型、错别字模型和繁体字模型。

16.根据权利要求12所述的装置,其特征在于,所述获取模块包括:

第一确定子模块,确定所述文本中的涉密关键词;

第二确定子模块,将所述涉密关键词所在位置上下相邻两预设截止符之间的文本确定为所述子文本。

17.根据权利要求12所述的装置,其特征在于,所述第一确定模块包括:

第三确定子模块,用于将所述子文本输入至依存句法分析模型,经所述依存句法分析模型,输出所述子文本中的两实体词之间的依存关系。

18.根据权利要求12所述的装置,其特征在于,所述将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,其中,匹配成功的条件被设置为按照下述方式中的至少一种:

所述子文本中的涉密关键词与所述涉密信息规则库中的涉密关键词为相同的词或词义相同的词并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同,

所述子文本中的涉密关键词属于所述涉密信息规则库中的涉密关键词类别范围并且所述子文本中的涉密关键词之间的依存关系与所述涉密信息规则库中的涉密关键词之间的依存关系相同。

19.根据权利要求12所述的装置,其特征在于,所述装置还包括:

转换模块,用于在文本的文件格式为非标准格式的情况下,将所述文本的文件格式转换成预设的标准格式。

20.根据权利要求12所述的装置,其特征在于,所述依存关系包括下述中的至少一种:

主谓关系、核心关系、定中关系、数量关系、副词关系及同位语关系。

21.根据权利要求12所述的装置,其特征在于,所述装置还包括:

匹配模块,根据所述子文本的技术领域,确定与所述技术领域相匹配的涉密信息规则库。

22.根据权利要求12所述的装置,其特征在于,所述涉密信息规则库被设置为按照下述方式生成:

将同一技术领域的多个预设的涉密文本进行数据合并;

从合并后的数据中提取所述涉密文本中的涉密关键词;

分析并存储所述涉密关键词之间的依存关系。

23.一种确定涉密文本的装置,其特征在于,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:执行权利要求1至11中任一项所述的方法。

24.一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得处理器能够执行根据权利要求1至11中任一项所述的方法。


技术总结
本公开涉及一种确定涉密文本的方法和装置。包括:从文本中获取包含涉密关键词及其上下文信息的子文本;根据所述子文本,确定所述涉密关键词之间的依存关系;将所述依存关系与预设的包含多个涉密关键词之间依存关系的涉密信息规则库中的涉密关键词的依存关系进行匹配,若匹配成功,则确定所述文本为涉密文本。本公开能够从涉密关键词的上下文语义上确定文本的涉密内容,因而,涉密文本的确定方法更为准确和快速。

技术研发人员:李昊达;高欣;刘兵;杨雨婷;陈旭
受保护的技术使用者:军工保密资格审查认证中心
技术研发日:2020.10.16
技术公布日:2020.12.29
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1