本发明属于地理信息保密检查与自然语言处理,涉及一种文本地理信息安全检查方法及系统,具体涉及一种基于知识库的文本地理信息安全检查方法及系统。
背景技术:
1、地理信息是重要的战略资源,对国防安全、经济建设和社会发展意义非凡。随着信息技术的迅速发展,地理信息的广泛使用和地理信息技术的强专业性,给保密管理与防范工作带来极大的困难。我国一直很重视地理信息的安全保密工作,出台了测绘成果保密管理工作的法律规范和技术标准,为地理信息的安全保密和公共服务提供了适时的政策支撑。虽然地理信息的保密政策在不断完善,但是保密检查工作仍有不少缺陷,检查步骤繁琐、涉及范围较广、技术支撑薄弱,无法高效精准的检查出涉密地理信息。目前,针对文本地理信息的保密检查,主要采用涉密关键词检测、语义相似度计算、正则表达式匹配和机器学习方法来判断文本是否安全,对于多种类型的地理信息“搜不全、查不了”,虚检和漏检程度也非常高。
2、文本匹配是自然语言处理领域的一项重要任务。传统文本匹配方法需要耗费大量的人力,然而只能提取出少量有效特征,模型难以深入挖掘文本的潜在语义,也不能对文本语义相似度进行准确建模。近年来,深度学习模型在文本匹配任务被广泛应用,主要包括三类:基于单语义文档表达的深度文本匹配模型,如dssm、cssm、lstm-rnn,仅捕获了对文本匹配有效的局部信息;基于多语义文档表达的深度文本匹配模型,如urae、mv-lstm、multigrancnn,综合考虑文本的局部和全局信息,却很难捕获匹配中的结构信息;直接建模匹配模式的深度文本匹配模型,如arc-ii、deepmatch、match-srnn,直接捕获匹配的程度和匹配的结构,但需要大量有监督的文本匹配数据来训练模型,资源消耗较大。
3、综上所述,现有的地理信息文本保密检查方法主要存在以下问题:(1)地理信息涉及多个行业部门,数据类型丰富,标准规范不同,缺乏专业的地理信息关键词库来检查文本中的敏感地理信息;(2)文本保密检查方式单一,没有充分利用测绘地理信息的法律规范,根据不同类型地理信息的涉密特征设计相应的涉密判断规则,缺乏外部知识的引入;(3)涉及地理信息的常规文件通常包含大段文本,而深度文本匹配模型只能处理长度适中的文本,文本过长会带来大量无关的噪声,影响文本细粒度语义信息的挖掘。
技术实现思路
1、本发明旨在解决现有的地理信息文本保密检查技术中存在的问题,提供一种基于知识库的文本地理信息安全检查方法及系统。
2、本发明的方法所采用的技术方案是:一种基于知识库的文本地理信息安全检查方法,包括以下步骤:
3、步骤1:针对待进行地理信息保密检查的文件集,利用地理信息检查知识库,获取命中地理信息关键词的文件,以及文件中包含关键词的文本;
4、所述地理信息检查知识库,由地理信息关键词库和涉密判断规则库组成;
5、所述地理信息关键词库,包括多行业地理信息词库、中国地名地址库和敏感地理信息词库;
6、所述多行业地理信息词库,根据测绘标准体系,以及包括测绘、遥感、导航、规划、环境、公安、交通行业的产品标准与规范,采集其中涉及地理信息的专业词汇,构建多行业地理信息词库;
7、所述中国地名地址库,包括地名数据、地址数据和兴趣点数据;
8、所述敏感地理信息词库,包括监狱、物资储备库所、能源设施、卫星观测站、拘留所、工业设施和雷达站信息;
9、所述涉密判断规则库,是从地理信息数据定密、审图的上位规定和基础地理信息公开应用这三个方面出发,研究各类地理时空数据的涉密特征,根据数据的不同特征设计相应的涉密判断规则,形成含n条判断文本的规则库r={r1,r2,…,rn},且每条判断规则rb有对应的关键词列表keyword_rb;
10、步骤2:生成融合字词的深层注意力文本匹配模型cw-datm的文本对,包括待检查的文本和涉密判断规则;
11、步骤3:通过融合字词的深层注意力文本匹配模型cw-datm,检测文本是否安全。
12、本发明的系统所采用的技术方案是:一种基于知识库的文本地理信息安全检查系统,包括以下模块:
13、文件集准备与知识库构建模块,用于针对待进行地理信息保密检查的文件集,利用地理信息检查知识库,获取命中地理信息关键词的文件,以及文件中包含关键词的文本;
14、所述地理信息检查知识库,由地理信息关键词库和涉密判断规则库组成;
15、所述地理信息关键词库,包括多行业地理信息词库、中国地名地址库和敏感地理信息词库;
16、所述多行业地理信息词库,根据测绘标准体系,以及包括测绘、遥感、导航、规划、环境、公安、交通行业的产品标准与规范,采集其中涉及地理信息的专业词汇,构建多行业地理信息词库;
17、所述中国地名地址库,包括地名数据、地址数据和兴趣点数据;
18、所述敏感地理信息词库,包括监狱、物资储备库所、能源设施、卫星观测站、拘留所、工业设施和雷达站信息;
19、所述涉密判断规则库,是从地理信息数据定密、审图的上位规定和基础地理信息公开应用这三个方面出发,研究各类地理时空数据的涉密特征,根据数据的不同特征设计相应的涉密判断规则,形成含n条判断文本的规则库r={r1,r2,…,rn},且每条判断规则rb有对应的关键词列表keyword_rb;
20、保密检查文本对生成模块,用于生成融合字词的深层注意力文本匹配模型cw-datm的文本对,包括待检查的文本和涉密判断规则;
21、文本匹配与安全检测模块,用于通过融合字词的深层注意力文本匹配模型cw-datm,检测文本是否安全。
22、相较于已有的地理信息文本保密检查方法,本发明产生的有益效果是:建立了地理信息检查知识库,包括地理信息关键词库和涉密判断规则库,作为关键词检查和文本涉密分析的依据,能够更加全面、专业的检查文本地理信息;设计了融合字词的深层注意力文本匹配模型cw-datm,分别抽取文本的字向量和词向量并融合,通过bi-lstm模型和多头自注意力机制获取深层的上下文语义信息,再用多头交互注意力机制提取文本对之间的交互语义特征,依次经过融合层、池化层和预测层后得到文本的安全判断结果,模型在文本语义匹配任务上取得了良好效果。
1.一种基于知识库的文本地理信息安全检查方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于知识库的文本地理信息安全检查方法,其特征在于:步骤1中所述获取命中地理信息关键词的文件,以及文件中包含关键词的文本;
3.根据权利要求2所述的基于知识库的文本地理信息安全检查方法,其特征在于:步骤2中,对于文件集f中每个文件的句子集s,将每个待检查的文本sa与r条涉密判断规则rb组成文本对(sa,rb),其中,a=1,2,…,s,b=1,2,…,r;组成文本对的条件是,sa与rb的关键词列表keyword_sa与keyword_rb中含有相同的关键词。
4.根据权利要求1-3任意一项所述的基于知识库的文本地理信息安全检查方法,其特征在于:步骤2中所述融合字词的深层注意力文本匹配模型cw-datm,由嵌入层、编码层、交互层、融合层和池化层及预测层组成;
5.根据权利要求4所述的基于知识库的文本地理信息安全检查方法,其特征在于:所述字词融合向量层,若文本sa中的一个词向量wi,它由z个字向量cj组成,经过字词融合层后得到字词融合向量n为文本sa中词向量的总数。
6.根据权利要求5所述的基于知识库的文本地理信息安全检查方法,其特征在于:所述编码层,使用双向长短期记忆网络bi-lstm对输入x进行编码,从正反两个方向捕获文本序列的长距离依赖关系;字词融合向量xi经过正向lstm得到含上下文信息的隐藏层表示经过反向lstm得到含上下文信息的隐藏层表示将两个向量拼接作为双向长短期记忆网络bi-lstm的输出
7.根据权利要求6所述的基于知识库的文本地理信息安全检查方法,其特征在于:所述交互层,计算文本交互矩阵hc:
8.根据权利要求7所述的基于知识库的文本地理信息安全检查方法,其特征在于:所述融合层,针对文本sa,对hc以及两者相乘得到的矩阵进行残差连接与层归一化,则融合特征的计算公式为:
9.根据权利要求1-8任意一项所述的基于知识库的文本地理信息安全检查方法,其特征在于:所述融合字词的深层注意力文本匹配模型cw-datm,为训练好的融合字词的深层注意力文本匹配模型cw-datm;
10.一种基于知识库的文本地理信息安全检查系统,其特征在于,包括以下模块: