银行运维规章制度变更的合规性查验方法及装置与流程

文档序号：12667055阅读：342来源：国知局

本发明涉及计算机应用与银行技术领域，特别涉及一种银行运维规章制度变更的合规性查验方法及装置。

背景技术：

目前，银行系统的安全性和高效性尤为重要，尤其是安全性更是银行系统的命脉，但是银行方面大规模的故障仍时有发生。其中，大规模的故障往往不是由前台的工作失误造成的，因为银行前台周全的交易步骤几乎可以杜绝人为失误的发生，而即使失误发生也是一两笔交易的小规模的错误。大规模的故障往往都是由后台的系统的故障造成的。因此，想要更加有效的避免银行故障的发生，应该着重从后台系统下手。但是银行后台系统往往十分复杂，造成故障的原因更是多种多样，可能由：银行之间的链接网络，后端记录数据的数据库，用于运行交易程序的服务器等等产生故障。而其中的一个故障往往会造成一系列的连锁反应，比如，当数据库发生瘫痪时，所有的交易请求就会开始堆积，从而导致服务器的资源不足；相反，如果服务器的内存产生泄漏，那么渐渐的系统资源会越来越少，从而导致数据库的运行所需资源不足，最终瘫痪。由此可见，后端的系统相关性相当复杂，想要通过规则方法直接分析出故障产生的原因几乎不可能。故障产生的次数虽然稀少，但是并不是无规律可循，根据银行方面的经验，在故障发生之前往往系统会产生一些异常的状态，而系统的状态往往比故障更加容易监测，我们可以通过实时的监测分析系统的参数，从而预测故障将会何时发生，这也是人工智能中的一个重要的研究领域。

一个准确的故障预测可以在故障发生之前提前给人们做出警告，从而可以使用例如故障排查、数据备份以及软件硬件设备重启等恰当的方式进行应对。评价一个系统的稳定性可以从可靠性和可用性两个指标来评价。这里可靠性是指系统发生故障的几率，对于银行系统来说可靠性往往是很高的，即极少的情况会发生故障，因此从可靠性的角度很难对系统的性能做出一个提升；而可用性是指故障后，系统恢复所需要的时间的长短，这个性能指标在实际使用的过程中也是十分重要的。通过故障预测方法可以提前预测采取对应措施，从而在一定的可靠性的条件下，加速系统恢复速度，提升系统的可用性，改善系统性能。另一方面，既然知道了和故障相关的一些系统参数，那么可以通过对这些参数进行人为限制和调整从而在预先的避免故障的发生，在一定的程度上提高系统额可靠性。

另一方面如果故障已经发生，就需要寻找一种方法来排除故障，首先可以直接重启机器，或者可以检测故障发生的位置解决造成故障的问题等等。这些方法之间的选择和很多因素有关，但最主要的是在故障发生的过程中银行会损失的交易量的多少。如果当前是一个交易的高峰期，那么往往会选择直接重启系统，使得系统尽快恢复；如果当前交易并不那么密集，就可以选择逐一排除，找到故障源头分析故障原因，尝试避免同样的故障下次发生。

由于银行系统的私密性，因此很难找到针对于银行交易系统的故障预测相关文献。但是故障预测这个问题一直是人工智能领域的一个大方向。人们对于系统故障的预测方法研究历史已经超过了30年，随着系统不断的变得复杂，故障预测的方法也在与时俱进的发展，随着近几年的研究，预测故障的方法大致可以归纳成为以下的流程：数据采集、关键特征提取、降维处理、模型训练、算法评价。

技术实现要素：

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种银行运维规章制度变更的合规性查验方法，该方法可以提高查验的准确性和效率，简单易实现。

本发明的另一个目的在于提出一种银行运维规章制度变更的合规性查验装置。

为达到上述目的，本发明一方面实施例提出了一种银行运维规章制度变更的合规性查验方法，包括以下步骤：获取银行系统的制度文档；对所述制度文档进行词项化，以建立倒排索引；对所述制度文档进行词语的同义词扩充，以得到结构化存储的制度文档；获取变更文档；在索引匹配时，根据所述结构化存储的制度文档和所述变更文档的段落进行短文本的相似匹配，得到查询结果。

本发明实施例的银行运维规章制度变更的合规性查验方法，在存储有结构化存储的制度文档时，通过根据结构化存储的制度文档和变更文档得到查询结果，实现银行运维规章制度变更的合规性查验的目的，规章制度变更的快速回溯和查找能够使银行在排除故障、查找问题时更加方便快捷，同时也为历史文档建立了索引，能够对以往的运维变更有清晰直观的了解，提高查验的准确性和效率，简单易实现。

另外，根据本发明上述实施例的银行运维规章制度变更的合规性查验方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述索引匹配进一步包括：根据所述结构化存储的制度文档和所述变更文档得到目标文件的匹配项，以得到规整的变更历史。

可选地，在本发明的一个实施例中，通过相关系数计算得到所述目标文件的匹配项。

进一步地，在本发明的一个实施例中，所述对所述制度文档进行词项化进一步包括：将所述制度文档的词序列切分为多个单体词；根据预设规范将所述多个单体词组合成新的词序列。

进一步地，在本发明的一个实施例中，还包括：在根据所述查询结果查验银行运维规章制度变更的合规性后，将所述查询结果按照所述变更文档的名称以文件的形式存入本地文件系统。

为达到上述目的，本发明另一方面实施例提出了一种银行运维规章制度变更的合规性查验装置，包括：第一获取模块，用于获取银行系统的制度文档；词项化模块，用于对所述制度文档进行词项化，以建立倒排索引；存储模块，用于对所述制度文档进行词语的同义词扩充，以得到结构化存储的规章制度文档；第二获取模块，用于获取变更文档；索引匹配模块，用于在索引匹配时，根据所述结构化存储的制度文档和所述变更文档的段落进行短文本的相似匹配，得到查询结果。

本发明实施例的银行运维规章制度变更的合规性查验装置，在存储有结构化存储的制度文档时，通过根据结构化存储的制度文档和变更文档得到查询结果，实现银行运维规章制度变更的合规性查验的目的，规章制度变更的快速回溯和查找能够使银行在排除故障、查找问题时更加方便快捷，同时也为历史文档建立了索引，能够对以往的运维变更有清晰直观的了解，提高查验的准确性和效率，简单易实现。

另外，根据本发明上述实施例的银行运维规章制度变更的合规性查验装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述索引匹配模块还用于根据所述结构化存储的制度文档和所述变更文档得到目标文件的匹配项，以得到规整的变更历史。

可选地，在本发明的一个实施例中，通过相关系数计算得到所述目标文件的匹配项。

进一步地，在本发明的一个实施例中，所述词项化模块包括：切分单元，用于将所述制度文档的词序列切分为多个单体词；组合单元，用于根据预设规范将所述多个单体词组合成新的词序列。

进一步地，在本发明的一个实施例中，在根据所述查询结果查验银行运维规章制度变更的合规性后，所述存储模块还用于将所述查询结果按照所述变更文档的名称以文件的形式存入本地文件系统。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的银行运维规章制度变更的合规性查验方法的流程图；

图2为根据本发明一个实施例的银行运维规章制度变更的合规性查验装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的银行运维规章制度变更的合规性查验方法及装置，首先将参照附图描述根据本发明实施例提出的银行运维规章制度变更的合规性查验方法。

图1是本发明一个实施例的银行运维规章制度变更的合规性查验方法的流程图。

如图1所示，该银行运维规章制度变更的合规性查验方法包括以下步骤：

在步骤S101中，获取银行系统的制度文档。

在步骤S102中，对制度文档进行词项化，以建立倒排索引。

进一步地，在本发明的一个实施例中，对制度文档进行词项化进一步包括：将制度文档的词序列切分为多个单体词；根据预设规范将多个单体词组合成新的词序列。

具体地，词项化指的是将一个汉字序列切分成一个一个单独的词。词项化就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。

词项化算法可分为三大类：基于字符串匹配的词项化方法、基于理解的词项化方法和基于统计的词项化方法。按照是否与词性标注过程相结合，又可以分为单纯词项化方法和词项化与标注相结合的一体化方法。

字符匹配：

这种方法又叫做机械词项化方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，串匹配词项化方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；常用的几种机械词项化方法如下：

1)正向最大匹配法(由左到右的方向)；

2)逆向最大匹配法(由右到左的方向)；

3)最少切分(使每一句中切出的词数最小)；

4)双向最大匹配法(进行由左到右、由右到左两次扫描)；

还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的词项化系统，都是把机械词项化作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械词项化，从而减少匹配的错误率。另一种方法是将词项化和词类标注结合起来，利用丰富的词类信息对词项化决策提供帮助，并且在标注过程中又反过来对词项化结果进行检验、调整，从而极大地提高切分的准确率。

对于机械词项化方法，可以建立一个一般的模型，在此不作详细赘述。

理解法：

这种词项化方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在词项化的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：词项化子系统、句法语义子系统、总控部分。在总控部分的协调下，词项化子系统可以获得有关词、句子等的句法和语义信息来对词项化歧义进行判断，即它模拟了人对句子的理解过程。这种词项化方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的词项化系统还处在试验阶段。

统计法：

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切词项化典，因而又叫做无词典词项化法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计词项化系统都要使用一部基本的词项化词典(常用词词典)进行串匹配词项化，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配词项化切分速度快、效率高的特点，又利用了无词典词项化结合上下文识别生词、自动消除歧义的优点。

另外一类是基于统计机器学习的方法。首先给出大量已经词项化的文本，利用统计机器学习模型学习词语切分的规律(称为训练)，从而实现对未知文本的切分。我们知道，汉语中各个字单独作词语的能力是不同的，此外有的字常常作为前缀出现，有的字却常常作为后缀(“者”“性”)，结合两个字相临时是否成词的信息，这样就得到了许多与词项化有关的知识。这种方法就是充分利用汉语组词的规律来词项化。这种方法的最大缺点是需要有大量预先分好词的语料作支撑，而且训练过程中时空开销极大。

需要说明的是，到底哪种词项化算法的准确度更高，并无定论。对于任何一个成熟的词项化系统来说，不可能单独依靠某一种算法来实现，都需要综合不同的算法。例如，海量科技的词项化算法就采用“复方词项化法”，所谓复方，就是像中西医结合般综合运用机械方法和知识方法。对于成熟的词项化系统，需要多种算法综合处理问题。

进一步地，索引算法源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为索引算法。带有索引算法的文件我们称为倒排索引文件，简称倒排文件(inverted file)。

倒排列表用来记录有哪些文档包含了某个单词。一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号(DocID)，单词在这个文档中出现的次数(TF)及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称为索引算法项(Posting)，包含这个单词的一系列索引算法项形成了列表结构，这就是某个单词对应的倒排列表。右图是倒排列表的示意图，在文档集合中出现过的所有单词及其对应的倒排列表组成了索引算法。

在实际的搜索引擎系统中，并不存储索引算法项中的实际文档编号，而是代之以文档编号差值(D-Gap)。文档编号差值是倒排列表中相邻的两个索引算法项文档编号的差值，一般在索引构建过程中，可以保证倒排列表中后面出现的文档编号大于之前出现的文档编号，所以文档编号差值总是大于0的整数。如图2所示的例子中，原始的3个文档编号分别是187、196和199，通过编号差值计算，在实际存储的时候就转化成了：187、9、3。

之所以要对文档编号进行差值计算，主要原因是为了更好地对数据进行压缩，原始文档编号一般都是大数值，通过差值计算，就有效地将大数值转换为了小数值，而这有助于增加数据的压缩率。

其中，索引算法通常有反向索引、置入档案或反向档案等索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过索引算法，可以根据单词快速获取包含这个单词的文档列表。索引算法主要由两个部分组成：“单词词典”和“倒排文件”。

索引算法有两种不同的反向索引形式：

一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表；

一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。

需要说明的是，后者的形式提供了更多的兼容性(比如短语搜索)，但是需要更多的时间和空间来创建。

现代搜索引擎的索引都是基于索引算法。相比“签名文件”、“后缀树”等索引结构，“索引算法”是实现单词到文档映射关系的最佳实现方式和最有效的索引结构.

皮尔逊相关系数：

在统计学中，皮尔逊相关系数(Pearson product-moment correlation coefficient)用于度量两个变量X和Y之间的相关，值介于-1和1之间。

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商：

上式定义了总体相关系数，常用希腊小写字母p作为代表符号。估算样本的协方差和标准差，可得到样本相关系数，常用英文小写字母r代表：

r亦可由(Xi,Yi)样本点的标准分数均值估计，得到与上式等价的表达式：

皮尔逊相关系数的变化范围为-1到1。系数的值为1意味着X和Y可以很好的由直线方程来描述，所有的数据点都很好的落在一条直线上，且Y随着X的增加而增加。系数的值为-1意味着所有的数据点都落在直线上，且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。

斯皮尔曼等级相关系数：

在统计学中，斯皮尔曼等级相关系数是衡量两个变量的依赖性的非参数指标。它利用单调方程评价两个统计变量的相关性。如果数据中没有重复值，并且当两个变量完全单调相关时，斯皮尔曼相关系数则为+1或-1。

斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本，n个原始数据Xi，Yi被转换成等级数据xi、yi，相关系数p为：

原始数据依据其在总体数据中平均的降序位置，被分配了一个相应的等级。斯皮尔曼相关也可称为"级别相关"；也就是说，被观测数据的"等级"被替换成"级别"。在连续的分布中，被观测数据的级别，通常总是小于等级的一半。然而，在这个案例中，级别和等级相关系数是一致的。更一般的，被观测数据的"级别"与估计的总体样本的比值小于给定的值，即被观测值的一半。也就是说，它是相应的等级系数的一种可能的解决方案。虽然不常用，"级别相关"还是仍然有被使用。

斯皮尔曼相关系数表明X(独立变量)和Y(依赖变量)的相关方向。如果当X增加时，Y趋向于增加,斯皮尔曼相关系数则为正。如果当X增加时，Y趋向于减少,斯皮尔曼相关系数则为负。斯皮尔曼相关系数为零表明当X增加时Y没有任何趋向性。当X和Y越来越接近完全的单调相关时，斯皮尔曼相关系数会在绝对值上增加。当X和Y完全单调相关时,斯皮尔曼相关系数的绝对值为1。完全的单调递增关系意味着任意两对数据Xi、Yi和Xj、Yj，有Xi-Xj和Yi-Yj总是同号。完全的单调递减关系意味着任意两对数据Xi、Yi和Xj、Yj，有Xi-Xj和Yi-Yj总是异号。

斯皮尔曼相关系数经常被称作"非参数"的。这里有两层含义。首先，当X和Y的关系是由任意单调函数描述的，则它们是完全皮尔逊相关的。与此相应的，皮尔逊相关系数只能给出由线性方程描述的X和Y的相关性。其次，斯皮尔曼不需要先验知识(也就是说,知道其参数)便可以准确获取X and Y的采样概率分布。

肯德尔等级相关系数：

肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参数假设检验，它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1到1之间，当τ为1时，表示两个随机变量拥有一致的等级相关性；当τ为-1时，表示两个随机变量拥有完全相反的等级相关性；当τ为0时，表示两个随机变量是相互独立的。

假设两个随机变量分别为X、Y(也可以看作两个集合)，它们的元素个数均为N，两个随即变量取的第i(1<＝i<＝N)个值分别用Xi、Yi表示。X与Y中的对应元素组成一个元素对集合XY，其包含的元素为(Xi,Yi)(1<＝i<＝N)。当集合XY中任意两个元素(Xi，Yi)与(Xj,Yj)的排行相同时(也就是说当出现情况1或2时；情况1：Xi>Xj且Yi>Yj，情况2：Xi<Xj且Yi<Yj)，这两个元素就被认为是一致的。当出现情况3或4时(情况3：Xi>Xj且Yi<Yj，情况4：Xi<Xj且Yi>Yj)，这两个元素被认为是不一致的。当出现情况5或6时(情况5：Xi＝Xj，情况6：Yi＝Yj)，这两个元素既不是一致的也不是不一致的：

在步骤S103中，对制度文档进行词语的同义词扩充，以得到结构化存储的制度文档。

也就是说，一方面通过词项化的方法对制度文档建立索引算法，同时利用“同义词词林”进行词语的同义词扩充，最终形成结构化存储的制度文档。

在步骤S104中，获取变更文档。

在步骤S105中，在索引匹配时，根据结构化存储的制度文档和变更文档的段落进行短文本的相似匹配，得到查询结果。

也就是说，另一方面在进行检索匹配时候，以制度文档和变更文档的段落为单位进行短文本的相似匹配，如主要采用的匹配方法可以是词形词序法。

其中，在本发明的一个实施例中，索引匹配进一步包括：根据结构化存储的制度文档和变更文档得到目标文件的匹配项，以得到规整的变更历史。

可选地，在本发明的一个实施例中，通过相关系数计算得到目标文件的匹配项。

另外，在本发明的一个实施例中，还包括：在根据查询结果查验银行运维规章制度变更的合规性后，将查询结果按照变更文档的名称以文件的形式存入本地文件系统。

可以理解的是，在本发明的实施例中，在大型银行提供了规章制度文档和部分运维变更文档的基础上，通过中文分词的方法对制度文档建立倒排索引，同时利用“同义词词林”进行词语的同义词扩充，最终形成结构化存储的制度文档。另一方面在进行检索匹配时候，以制度文档和变更文档的段落为单位进行短文本的相似匹配，主要采用的匹配方法是词形词序法。支持制度文档的离线存储与文档内容的增添、删除、修改等操作。通过选择适合的存储数据结构为接下来的短文本查询匹配创造条件。对于每一篇变更单方案文档能够快速从制度文档中检索出与变更文档相关的内容条款并将查询结果结构化存储，方便用户查看。能够实现高效的查询，一篇变更文档的检索时间一般不超过3s，同时支持多篇变更文档的一次性检索查找。

根据本发明实施例的银行运维规章制度变更的合规性查验方法，在存储有结构化存储的制度文档时，通过根据结构化存储的制度文档和变更文档得到查询结果，实现银行运维规章制度变更的合规性查验的目的，规章制度变更的快速回溯和查找能够使银行在排除故障、查找问题时更加方便快捷，同时也为历史文档建立了索引，能够对以往的运维变更有清晰直观的了解，提高查验的准确性和效率，简单易实现。

其次参照附图描述根据本发明实施例提出的银行运维规章制度变更的合规性查验装置。

图2是本发明一个实施例的银行运维规章制度变更的合规性查验装置的结构示意图。

如图2所示，该银行运维规章制度变更的合规性查验装置10包括：第一获取模块100、词项化模块200、存储模块300、第二获取模块400和索引匹配模块500。

其中，第一获取模块100用于获取银行系统的制度文档。词项化模块200用于对制度文档进行词项化，以建立倒排索引。存储模块300用于对制度文档进行词语的同义词扩充，以得到结构化存储的规章制度文档。第二获取模块400用于获取变更文档。索引匹配模块500用于在索引匹配时，根据结构化存储的制度文档和变更文档的段落进行短文本的相似匹配，得到查询结果。本发明实施例的装置10可以根据结构化存储的制度文档和变更文档得到查询结果，提高查验的准确性和效率，简单易实现。

进一步地，在本发明的一个实施例中，索引匹配模块500还用于根据结构化存储的制度文档和变更文档得到目标文件的匹配项，以得到规整的变更历史。

可选地，在本发明的一个实施例中，通过相关系数计算得到目标文件的匹配项。

进一步地，在本发明的一个实施例中，词项化模块200包括：切分单元，用于将制度文档的词序列切分为多个单体词；组合单元，用于根据预设规范将多个单体词组合成新的词序列。

进一步地，在本发明的一个实施例中，在根据查询结果查验银行运维规章制度变更的合规性后，存储模块300还用于将查询结果按照变更文档的名称以文件的形式存入本地文件系统。

需要说明的是，前述对银行运维规章制度变更的合规性查验方法实施例的解释说明也适用于该实施例的银行运维规章制度变更的合规性查验装置。

举例而言，本发明实施例的装置10包括：数据与处理模块(相当于包括上述第一获取模块100、词项化模块200和第二获取模块400)、文档相似度匹配模块(相当于包括上述存储模块300和索引匹配模块500)和运维变更合规性查验结果展示模块。

其中，数据预处理模块主要是利用特征提取从大型商业银行后台数据中获取银行提供的变更文档以及制度文档。项目主要对上述两部分数据进行研究，核心是两部分数据的短文本语义匹配，最终能够分别从两个数据源中抽取出语义相似度较高的文本加以整合，并呈现给用户，方便用户对变更内容的合规性作出检查。文档相似度匹配模块能够实现对于多篇制度文档的快速存储，以文件和表格的形式对于分词处理过的制度文档进行存储，同时通过方面的对文档的内容进行修改或扩展。每次修改或者扩展操作后能够快速更新存储内容，保证数据的正确性，并且通过将变更文档集中放在系统指定位置，系统能够一次对多篇变更文档进行处理，并将变更文档与制度文档匹配的查询结果按照变更文档名称以文件的形式存入本地文件系统。每篇变更文档的结果返回时间不超过3s，如可以使用相关性系数计算方法来计算文档之间的相似度。在进行文档匹配之后，运维变更合规性查验结果展示模块可以返回得到最后的查验结果。

可以理解的是，在本发明的实施例中，可以开发出一套大型商业银行运维变更合规性查验技术方法软件。对银行所有变更文档、制度文档进行分析，对两类文档的内容进行匹配，找到目标文件的匹配项，得知规章的变更历史，从而建立起一套完整的银行运维变更合规性查验软件。

具体而言，对商业银行制度文档、变更文档进行合规性查验主要包含两个阶段：首先是系统的准备阶段；其次是系统的使用阶段。在系统准备阶段，主要需要完成后台的银行数据分析。首先，系统针对目标文档，对候选文档集中的文档进行词项化，并利用索引算法来检索匹配。在系统的使用阶段，用户可以使用系统对所有规章制度进行匹配索引。分析结果不仅能给银行后台提供参考，并且可以协助银行发生故障后的快速故障处理。

大型商业银行运维变更合规性查验技术方法软件的实施采用了本发明方法中的如下相关技术，原始数据词项化、索引算法、相似度匹配等核心技术。这些算法和图形用户界面等功能模块均在Windows10下用java等语言开发实现。

其中，基于上述开发平台，整个运维变更合规性查验技术软件的部署运行需要如下几个层次运行环境的支撑。首先在操作系统层，预测系统需要在Windows 10或其兼容的操作系统平台之上运行；同时还需要程序运行支撑环境，也就是java运行支撑环境。只有具备了上述支撑环境，运维变更合规性查验技术软件才能正常地运行。

根据本发明实施例的银行运维规章制度变更的合规性查验装置，在存储有结构化存储的制度文档时，通过根据结构化存储的制度文档和变更文档得到查询结果，实现银行运维规章制度变更的合规性查验的目的，规章制度变更的快速回溯和查找能够使银行在排除故障、查找问题时更加方便快捷，同时也为历史文档建立了索引，能够对以往的运维变更有清晰直观的了解，提高查验的准确性和效率，简单易实现。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐华;詹立雄;邓俊辉;石炎军;孙晓民;楼浩;郭京生;李佳;张帆
技术所有人：清华大学;北京银信长远科技股份有限公司
我是此专利的发明人

上一篇：一种地下滴灌带系统田间建立的方法与流程
上一篇：一种高效止血海绵的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。