制度信息处理方法、装置、计算机设备和存储介质与流程

文档序号:15385549发布日期:2018-09-08 00:31阅读:135来源:国知局

本申请涉及计算机技术领域,特别是涉及一种制度信息处理方法、装置、计算机设备和存储介质。



背景技术:

企业标准化是对企业生产经营与管理等活动中的重复性事物和概念,通过制订、发布和实施制度规范达到统一,以提高企业管理水平。制度规范(以下简称“制度”)是员工在生产经营活动中须共同遵守的规定和准则,包括法律与政策、企业组织结构、管理制度、岗位职责、技术标准、工作流程等规范文件。为了满足各个岗位的工作需求,企业需要从不同维度对制度进行分类管理,构建多个不同的信息树,如技术标准信息树、法律政策信息树等,以使不同类和用途的制度形成不同的制度体系。当有新制度发布时,需要将新发布的制度纳入相应的信息树。同一种制度可能同时隶属于多个不同的信息树。随着企业规模增大,相应的制度信息和信息树均越来越多。在传统的方式中,通过人工对海量制度信息进行分类管理,不仅效率低,且易出错。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够提高制度信息分类效率和准确率的制度信息处理方法、装置、计算机设备和存储介质。

一种制度信息处理方法,所述方法包括:监测终端发布的制度信息,对所述制度信息进行分词得到对应的原始词语集合;所述原始词语集合包括多个原始词语;对各个原始词语进行同义扩展,生成每个原始词语对应的扩展词语集合;根据各个扩展词语集合形成所述制度信息对应的扩展制度信息集合;将所述扩展制度信息集合输入预设的制度管理模型,得到所述制度信息对应的目标类别;获取多个目标信息树分别对应的类别标注,筛选包含与所述目标类别对应类别标注的目标信息树,将所述制度信息添加至筛选得到的目标信息树。

在其中一个实施例中,所述制度信息包括制度描述信息;在对所述制度信息进行分词得到对应的原始词语集合之前,还包括:检测所述制度描述信息是否包含类别信息;若包含,则根据所述类别信息将所述制度信息添加至相应的目标信息树;否则,对所述制度信息进行分词得到对应的原始词语集合。

在其中一个实施例中,所述制度管理模型的生成步骤包括:获取训练样本数据;所述训练样本数据包括多个样本制度信息及分别对应的类别标注;对各个所述样本制度信息进行分词和同义扩展处理,得到每个所述样本制度信息分别对应的扩展样本制度信息集合;根据各个扩展样本制度信息集合和对应的类别标注,通过支持向量机算法对初始的制度管理模型进行训练,得到所述制度管理模型。

在其中一个实施例中,所述扩展样本制度信息集合包括多组扩展样本制度信息;根据各个扩展样本制度信息集合和对应的类别标注,通过支持向量机算法对初始的制度管理模型进行训练包括:获取特征项,计算所述特征项在一组所述扩展样本制度信息的词频权重;计算所述特征项在整个训练样本数据中的文档频率;根据所述词频权重和文档频率计算所述特征项对应的特征权重;根据所述特征权重选择所述特征项作为相应扩展样本制度信息的特征词;根据所述特征词提取各个所述扩展样本标准信息的特征。

在其中一个实施例中,所述制度信息包括制度描述信息和制度文件;将所述制度信息添加至筛选得到的目标信息树包括:根据所述制度描述信息生成信息节点;检测筛选得到的目标信息树中是否已存在相同的信息节点;若不存在,则将所述信息节点添加至相应的目标信息树,将所述制度文件关联至所述信息节点。

在其中一个实施例中,所述制度信息包括制度描述信息及关联的制度文件;所述制度文件包括多个制度条款以及分别对应的适用对象标识;所述关联信息树具有对应的适用对象标识;所述方法还包括:对所述制度文件进行拆分,利用每个适用对象标识对应的制度条款生成相应适用对象标识对应的制度子文件;获取所述目标信息树对应的多个关联信息树;根据所述适用对象标识,将所述制度描述信息及所述制度子文件添加至相应的关联信息树。

在其中一个实施例中,所述对所述制度文件进行拆分包括:计算所述制度文件的数据量,检测所述数据量是否超过阈值;当所述数据量超过阈值时,获取预设的目标数据量,根据所述目标数据量确定所述制度文件的拆分位置;检测所述拆分位置是否位于相邻分隔符之间;当所述拆分位置位于一个分隔符处时,在所述拆分位置将所述制度文件拆分为多个中间文件;当所述拆分位置位于相邻分隔符之间时,在所述相邻分隔符中任意一个分隔符处将所述制度文件拆分为多个中间文件;按照预设的拆分规则,对多个所述中间文件进行拆分。

一种制度信息处理装置,所述装置包括:

信息扩展模块,用于监测终端发布的制度信息,对所述制度信息进行分词得到对应的原始词语集合;所述原始词语集合包括多个原始词语;对各个原始词语进行同义扩展,生成每个原始词语对应的扩展词语集合;根据各个扩展词语集合形成所述制度信息对应的扩展制度信息集合;

信息分类模块,用于将所述扩展制度信息集合输入预设的制度管理模型,得到所述制度信息对应的目标类别;

信息归档模块,用于获取多个目标信息树分别对应的类别标注,筛选包含与所述目标类别对应类别标注的目标信息树,将所述制度信息添加至筛选得到的目标信息树。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:监测终端发布的制度信息,对所述制度信息进行分词得到对应的原始词语集合;所述原始词语集合包括多个原始词语;对各个原始词语进行同义扩展,生成每个原始词语对应的扩展词语集合;根据各个扩展词语集合形成所述制度信息对应的扩展制度信息集合;将所述扩展制度信息集合输入预设的制度管理模型,得到所述制度信息对应的目标类别;获取多个目标信息树分别对应的类别标注,筛选包含与所述目标类别对应类别标注的目标信息树,将所述制度信息添加至筛选得到的目标信息树。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:监测终端发布的制度信息,对所述制度信息进行分词得到对应的原始词语集合;所述原始词语集合包括多个原始词语;对各个原始词语进行同义扩展,生成每个原始词语对应的扩展词语集合;根据各个扩展词语集合形成所述制度信息对应的扩展制度信息集合;将所述扩展制度信息集合输入预设的制度管理模型,得到所述制度信息对应的目标类别;获取多个目标信息树分别对应的类别标注,筛选包含与所述目标类别对应类别标注的目标信息树,将所述制度信息添加至筛选得到的目标信息树。

上述制度信息处理方法、装置、计算机设备和存储介质,通过监测新发布的制度信息,对制度信息进行分词得到对应的原始词语集合;通过获取原始词语集合中各个原始词语对应的同义词,可以利用原始词语与对应的同义词形成扩展词语集合;根据各个原始词语对应的扩展词语集合,可以形成制度信息对应的扩展制度信息集合;将扩展制度信息集合输入已训练的制度管理模型得到制度信息对应的目标类别;将目标类别与预存储的多个目标信息树分别对应的类别标注进行匹配,可以筛选得到能够包含该制度信息的目标信息树,将制度信息添加至筛选得到的目标信息树。先形成每个原始词语对应的扩展词语集合,再通过扩展词语集合形成扩展制度信息集合,大大提高了扩展制度信息的扩展度,扩展后的各个扩展制度信息表达了与制度信息相同或相近的含义,提高了制度信息的有效覆盖范围,从而在后续输入已训练的制度管理模型后,可提高目标类别的精准性,进而可以准确将制度信息纳入相应的目标信息树,提高制度信息分类效率和准确率。

附图说明

图1为一个实施例中制度信息处理方法的应用场景图;

图2为一个实施例中制度信息处理方法的流程示意图;

图3为一个实施例中制度信息处理方法中目标信息树的示意图;

图4为一个实施例中构建关联信息树步骤的流程示意图;

图5为一个实施例中制度信息处理方法中关联信息树的示意图;

图6为一个实施例中制度信息处理装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的制度信息处理方法,可以应用于如图1所示的应用环境中。其中,终端102与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

服务器104中存储了多种目标信息树。每种目标信息树具有对应的类别标注。服务器104对终端102是否发布新的制度信息进行监测,当监测到终端102发布了新的制度信息时,服务器104对制度信息进行分类,将制度信息纳入相应的目标信息树。具体的,服务器104对制度信息进行分词,得到包括多个原始词语的原始词语集合。服务器104获取各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合。每个原始词语都存在对应的扩展词语集合。服务器104按与制度信息中各个原始词语出现的顺序,从各个原始词语对应的扩展词语集合中任意选择一个词语,按顺序形成一个扩展制度信息。当从扩展词语集合中选择不同的词语时,则形成不同的扩展制度信息,不同的扩展制度信息组成扩展制度信息集合。服务器104将扩展制度信息集合输入已训练的制度管理模型,利用制度管理模型确定制度信息对应的目标类别。服务器104获取与目标类别对应的类别标注,筛选包含获取到的类别标注的信息节点,将制度信息添加至筛选得到的目标信息树。对制度信息进行分词和同义扩展,提高了制度信息的有效覆盖范围,从而在后续输入制度管理模型后,可提高目标类别的精准性,进而可准确将制度信息纳入相应目标信息树,提高制度信息分类效率和准确率。

在一个实施例中,如图2所示,提供了一种制度信息处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤202,监测终端发布的制度信息,对制度信息进行分词得到对应的原始词语集合;原始词语集合包括多个原始词语。

服务器对第一终端是否发布新的制度信息进行监测。制度信息包括制度描述信息及关联的制度文件。制度描述信息包括制度编码、制度名称、制度级别、发布单位、发布日期、适用对象标识或信息摘要等。制度信息可以是文本信息,也可以是语音信息、图像信息、视频信息等。如果是语音信息、图像信息或视频信息,则可先通过语音识别或图像处理,将语音信息、图像信息和视频信息转化为文本信息。制度文件包括多项制度条款以及每项制度条款对应的适用对象标识。适用对象标识是指需要执行或了解该制度的对象的标识信息,可以是岗位标识或机构标识等。

当监测到第一终端发布了新的制度信息时,服务器对制度信息进行分类。具体的,服务器通过分词算法对制度信息进行分词,得到原始词语集合。原始词语集合包括多个原始词语。在一个实施例中,得到各个原始词语后,去除停用词、语气词、标点符号等对分类影响作用小的词语,从而提高后续特征提取的效率。停用词指的是制度信息中出现频率超过预设阈值但实际意义不大的词,如我,的,他等。

在一个实施例中,在对制度信息进行分词得到对应的原始词语集合之前,还包括:检测制度描述信息是否包含类别信息;若包含,则根据类别信息将制度信息添加至相应的目标信息树;否则,对制度信息进行分词得到对应的原始词语集合。

终端在发布制度信息时,也可以预先标明制度信息的类别信息,以便服务器可以根据该类别信息,将制度信息纳入相应的目标信息树。若制度描述信息并未包含制度信息的类别信息,则可以按照本申请提供的制度信息处理方法对制度信息进行分类管理。

步骤204,对各个原始词语进行同义扩展,生成每个原始词语对应的扩展词语集合。

服务器分别获取原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合。每个原始词语都存在对应的扩展词语集合。同义词是指与原始词语含义相同或相近的词语,如原始词语为“不得”,同义词可为“切勿”、“禁止”、“避免”、“杜绝”等,将原始词语与对应的同义词形成扩展词语集合,如原始词语“不得”对应的扩展词语集合为{不得,切勿,禁止,避免,杜绝}。如原始词语集合为{a,b,c},则原始词语集合中的每个原始词语都存在对应的扩展词语集合,如a对应的扩展词语集合为{a,a1,a2},b对应的扩展词语集合为{b,b1,b2,b3},c对应的扩展词语集合为{c,c1,c2}。

步骤206,根据各个扩展词语集合形成制度信息对应的扩展制度信息集合。

服务器按照与制度信息中各个原始词语出现的顺序,从各个原始词语对应的扩展词语集合中任意选择一个词语,按顺序形成一个扩展制度信息。当从扩展词语集合中选择不同的词语时,则形成不同的扩展制度信息,不同的扩展制度信息组成扩展制度信息集合。

在一个实施例中,服务器对各个原始词语对应的扩展词语集合求笛卡尔积,形成由不同的扩展制度信息组成的扩展制度信息集合。两个集合x和y的笛卡尔积,又称直积,表示为x×y。第一个对象是x的成员而第二个对象是y的所有可能有序对的其中一个成员。

步骤208,将扩展制度信息集合输入预设的制度管理模型,得到制度信息对应的目标类别。

制度管理模型用于根据输入从多个候选类型中确定与输入对应的目标类别。制度管理模型可以是通过逻辑回归算法、支持向量机算法等训练得到的模型。制度管理模型内部可以由多个子管理模型连接形成。由于已训练的制度管理模型的输入是经过扩展了的扩展制度信息集合,扩展后的各个扩展制度信息表达了与制度信息相同或相近的含义,提高了制度信息的有效覆盖范围,从而在后续输入已训练的制度管理模型后,可提高目标类别的精准性。

步骤210,获取多个目标信息树分别对应的类别标注,筛选包含与目标类别对应类别标注的目标信息树,将制度信息添加至筛选得到的目标信息树。

服务器中存储了多种目标信息树。如图3所示,每种目标信息树包括多个信息节点及每个信息节点关联的制度文件。制度文件可以是多种格式的文件,如pdf文档、jpg图像、xls表格、mp3音频或avi视频等。不同的信息节点在目标信息树中可以按照发布时间先后排列。容易理解,一项制度信息也可以不具有关联的制度文件,也还可以具有多个关联的制度文件,对此不作限制。

每种目标信息树具有对应的类别标注。类别标注用于标识相应目标信息树能够包含的信息节点的类别,如行政管理类、销售管理类或风险管理类等。服务器获取与目标类别对应的类别标注,筛选包含获取到的类别标注的一种或多种目标信息树。服务器根据制度描述信息生成信息节点。例如,可以将制度编号和/或制度名称作为信息节点。服务器将制度文件关联至该信息节点,将关联有制度文件的信息节点添加至筛选得到的目标信息树。

在一个实施例中,制度信息包括制度描述信息和制度文件;将制度信息添加至筛选得到的目标信息树包括:根据制度描述信息生成信息节点;检测筛选得到的目标信息树中是否已存在相同的信息节点;若不存在,则将信息节点添加至相应的目标信息树,将制度文件关联至信息节点。

若筛选得到的关联信息树中已经存在相应的信息节点,则服务器只需将制度文件关联至已存在相应的信息节点。在另一个实施例中,服务器根据制度描述信息判断生成的信息节点与已存在的相同信息节点属于并列节点还是父子节点。当生成的信息节点与已存在的相同信息节点属于并列节点时,服务器对生成的信息节点与已存在的相同信息节点进行区别标记,将区别标记后的信息节点添加至相应的目标信息树,将制度文件关联至区别标记后的信息节点。

当生成的信息节点与已存在的相同信息节点属于并列节点时,服务器根据制度描述信息对生成的信息节点进行描述限定,即在制度描述信息中提取关键词,利用提取到的关键词对生成的信息节点进行语义扩充。例如,根据制度名称生成的信息节点为“公司福利管理制度”,在制度描述信息中提取关键词“研发部”,则语义扩充后的信息节点可以是“公司研发部福利管理制度”。服务器将语义扩充后的信息节点作为已存在的相同信息节点的子节点添加至相应的目标信息树,将制度文件关联至该子节点。

本实施例中,通过监测新发布的制度信息,对制度信息进行分词得到对应的原始词语集合;通过获取原始词语集合中各个原始词语对应的同义词,可以利用原始词语与对应的同义词形成扩展词语集合;根据各个原始词语对应的扩展词语集合,可以形成制度信息对应的扩展制度信息集合;将扩展制度信息集合输入已训练的制度管理模型得到制度信息对应的目标类别;将目标类别与预存储的多个目标信息树分别对应的类别标注进行匹配,可以筛选得到能够包含该制度信息的目标信息树,将制度信息添加至筛选得到的目标信息树。先形成每个原始词语对应的扩展词语集合,再通过扩展词语集合形成扩展制度信息集合,大大提高了扩展制度信息的扩展度,扩展后的各个扩展制度信息表达了与制度信息相同或相近的含义,提高了制度信息的有效覆盖范围,从而在后续输入已训练的制度管理模型后,可提高目标类别的精准性,进而可以准确将制度信息纳入相应的目标信息树,提高制度信息分类效率和准确率。

在一个实施例中,制度管理模型的生成步骤包括:获取训练样本数据;训练样本数据包括多个样本制度信息及分别对应的类别标注;对各个样本制度信息进行分词和同义扩展处理,得到每个样本制度信息分别对应的扩展样本制度信息集合;根据各个扩展样本制度信息集合和对应的类别标注,通过支持向量机算法对初始的制度管理模型进行训练,得到制度管理模型。

训练样本数据可以是已发布的多种样本制度信息。每种样本制度信息都有对应的类别标注,用于描述样本制度信息的实际类别。例如,样本制度信息对应的制度名称为“考勤注意事项”,则该样本制度信息对应的类别标注可以是“行政管理”。训练样本数据包括所有可能的类别对应的样本制度信息,以保证各个类别确定的准确性。在一个具体的实施例中,训练样本数据包括476个样本制度信息,类别标注总数为57。

服务器通过分词算法对各个训练样本信息进行分词得到各个词语,各个词语组成各个训练样本信息对应的原始训练词语集合。服务器获取每个原始训练词语的同义词,将原始训练词语与对应的同义词形成扩展训练词语集合。扩展训练词语集合包括多组

服务器先获取其中一个训练样本信息作为当前训练样本信息,获取当前训练样本信息对应的各个原始训练词语,获取各个原始训练词语对应的扩展训练词语集合,然后按与当前训练样本信息中各个原始训练词语出现的顺序,从各个原始训练词语对应的扩展训练词语集合中任意选择一个词语,按顺序形成一个扩展样本制度信息。不同的扩展样本制度信息组成扩展样本制度信息集合。各个样本制度信息都有对应的扩展样本制度信息集合。在一个实施例中,服务器对各个原始训练词语对应的扩展训练词语集合求笛卡尔积,形成得到每个样本制度信息分别对应的扩展样本制度信息集。

支持向量机算法是一种用来进行模式识别,模式分类的机器学习算法。支持向量机的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,支持向量机算法在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类,支持向量机算法是一种有监督的训练方法。在一个实施例中,制度管理模型由多个子管理模型连接形成。

本实施例中,对大量已发布制度信息进行分词和同义扩展处理,处理得到的扩展样本制度信息集合,大大提高了样本制度信息的有效覆盖范围;将扩展样本制度信息集合输入制度管理模型,并基于支持向量机算法对制度管理模型进行训练,可提高制度管理模型的分类精准性。

在一个实施例中,扩展样本制度信息集合包括多组扩展样本制度信息;根据各个扩展样本制度信息集合和对应的类别标注,通过支持向量机算法对初始的制度管理模型进行训练包括:获取特征项,计算特征项在一组扩展样本制度信息的词频权重;计算特征项在整个训练样本数据中的文档频率;根据词频权重和文档频率计算特征项对应的特征权重;根据特征权重选择特征项作为相应扩展样本制度信息的特征词;根据特征词提取各个扩展样本标准信息的特征。

特征项可以是一组扩展样本制度信息中的任一个词语。词频权重指的是特征项在该组扩展样本制度信息中出现的频率。可以理解的是,如果扩展样本制度信息中存在特征项的同义词,则也算出现。词频权重通常被归一化,可表示为tfij,其中i表示特征项对应的标识,j表示类别标识。文档频率dfi是一个词语普遍重要性的度量,可以由特征项所在的扩展样本制度信息数目除以训练样本数据中所有训练样本信息的总数目得到。

如果该特征项在扩展样本制度信息中出现的次数越多,表明该特征项对扩展样本制度信息的影响力度越大,即特征权重与词频权重成正比。如果该特征项出现的扩展样本制度信息的数量越多,表明,该特征项对信息分类的作用越小,即特征权重与文档频率成反比。在一个实施例中,特征权重wti=tfij*log(dnfi),其中n表示训练样本数据中所有训练样本信息的总数目。

如果特征权重超过预设阈值,则说明此特征项是这一组扩展样本制度信息的重要词语,可将此特征项作为此扩展样本制度信息的特征词。可根据确定的各个特征词提取扩展样本制度信息集合中各个扩展样本制度信息的特征。对于一个扩展样本制度信息,特征词可以包括一个或多个。

本实施例中,通过统计扩展样本制度信息中每个词语的词频权重和文档频率,确定该词语代表扩展样本制度信息的特征权重,根据特征权重可以提取扩展样本制度信息集合中每个扩展样本制度信息的特征,从而使制度管理模型能够从基于多样化的语言描述的制度信息中准确提取其特征,进而进行准确分类。

在一个实施例中,制度信息包括制度描述信息及关联的制度文件;制度文件包括多个制度条款以及分别对应的适用对象标识;关联信息树具有对应的适用对象标识。该方法还包括构建关联信息树的步骤。如图4所示,构建关联信息树的步骤包括:

步骤402,对制度文件进行拆分,利用每个适用对象标识对应的制度条款生成相应适用对象标识对应的制度子文件。

为了满足所有岗位的工作需求,企业可能将适用于不同岗位的制度信息全部记录至同一个制度文件中,使得用户只能基于制度文件全部信息内容进行制度查询,进而使制度信息查询效率降低。本实施例针对不同岗位构建不同的关联信息树。具体的,服务器根据制度文件中每个制度条款对应的适用对象标识,对制度文件中多个制度条款进行拆分,生成每个适用对象标识分别对应的制度子文件。例如,制度文件a包括x1~x4四项制度条款。其中,x1对应适用对象标识包括甲和乙,x2对应适用对象标识包括甲,x3对应适用对象标识包括甲、乙、丙、丁和戊,x4对应适用对象标识包括甲和丁。制度文件a共包括甲、乙、丙、丁和戊五个适用对象标识,对应的拆分得到五个制度子文件a1~a5。其中,适用对象标识甲对应的制度子文件a1包括x1~x4四项制度条款;适用对象标识乙对应的制度子文件a2包括x1和x3两项制度条款;如此类推。

步骤404,获取目标信息树对应的多个关联信息树。

每种目标信息树具有对应的多个关联信息树。目标信息树中每个信息节点具有对应的一个或多个适用对象标识。目标信息树中不同适用对象标识分别具有对应的一个关联信息树。换言之,目标信息树中包含适用对象标识的数量与对应的关联信息树的数量相等,从而每个适用对象标识对应岗位具有对应的关联信息树。

目标信息树用于记录适用于企业全部岗位的制度信息。而关联信息树则只需记录适用于一个岗位的制度信息。每种关联信息树具有对应的适用对象标识。如图5所示,岗位1无需执行或了解信息节点4和信息节点9对应的制度,则适用对象标识“岗位1”对应的关联信息树,相对图3目标信息树不存在信息节点4和信息节点9。容易理解,关联信息树中多个信息节点的目录层级,并非一定与目标信息树一致,可以自适应调整。关联信息树仍存在的其他信息节点关联的制度文件记录的内容,与目标信息树中相应信息节点关联的制度文件记录的内容可以不同。

步骤406,根据适用对象标识,将制度描述信息及制度子文件添加至相应的关联信息树。

服务器将制度信息添加至相应的目标信息树后,服务器根据制度文件记录的适用对象标识,获取目标信息树对应的相应关联信息树。容易理解,服务器只需获取制度文件记录的适用对象标识对应的关联信息树。例如,制度信息分类添加至三种目标信息树,其中包括目标信息树m。目标信息树m对应适用对象标识包括甲、乙、丙、丁、戊和己,假设依上述举例制度文件只包括适用于甲、乙、丙、丁和戊的信息内容,则服务器只需获取目标信息树m对应的甲、乙、丙、丁和戊分别对应的关联信息树。

服务器根据制度描述信息生成信息节点,将拆分得到的多个制度子文件分别关联至信息节点。服务器将多个关联有不同制度子文件的信息节点分别添加至相同适用对象标识对应的关联信息树。例如,在上述举例中,将关联有制度子文件a1的信息节点添加至目标信息树m中适用对象标识甲对应的关联信息树m甲;将关联有制度子文件a2的信息节点添加至目标信息树m中适用对象标识乙对应的关联信息树m乙,如此类推。

当接收到第二终端发送的制度查询请求时,服务器获取适用对象标识对应的关联信息树。制度查询请求携带了适用对象标识和查询条件。服务器在关联信息树中查找满足查询条件的信息节点,获取与满足查询条件的信息节点关联的制度子文件,将制度子文件发送至第二终端。

本实施例中,在制度信息发布时,将记录来了适用于不同岗位的制度信息的制度文件拆分,将每个岗位需要执行或了解的制度条款挑选出来,满足不同岗位个性化需求,为不同岗位分别构建只包含相应岗位需求内容的关联信息树,且所有关联信息树的生成过程全自动进行,省时省力;后续用户只需基于适用于自己的关联信息树进行制度查询,也可以提高制度查询效率。

在一个实施例中,对制度文件进行拆分包括:计算制度文件的数据量,检测数据量是否超过阈值;当数据量超过阈值时,获取预设的目标数据量,根据目标数据量确定制度文件的拆分位置;检测拆分位置是否位于相邻分隔符之间;当拆分位置位于一个分隔符处时,在拆分位置将制度文件拆分为多个中间文件;当拆分位置位于相邻分隔符之间时,在相邻分隔符中任意一个分隔符处将制度文件拆分为多个中间文件;按照预设的拆分规则,对多个中间文件进行拆分。

服务器计算制度文件的数据量,检测数据量是否超过阈值。该阈值可以是预先设定的,也可以是根据服务器的负载监测结果临时生成的。当数据量超过阈值时,服务器可以将制度文件预先拆分为多个数据量小的中间文件,再将中间文件分别拆分为多个制度子文件。具体的,服务器获取预设的目标数据量,根据目标数据量确定制度文件的拆分位置。目标数据量可以是预先设定的,也可以是根据对多个集群内其他服务器的负载监测结果临时生成的。例如,制度文件a的数据量为720m,假设目标数据量为80m,则将制度文件的第80m大小的位置标记为第一个拆分位置,第160m大小的位置标记为第二个拆分位置,以此类推。

服务器识别每个拆分位置是否位于相邻分隔符之间。当拆分位置位于一个分隔符所在的位置时,服务器在该拆分位置对制度文件进行拆分,得到该制度文件对应的多个中间文件。当拆分位置位于相邻分隔符之间时,服务器在相邻分隔符中任意一个分隔符处对相应制度文件进行拆分,即对该相邻分隔符中的前一个分隔符或后一个分隔符处进行拆分,得到制度文件对应的多个中间文件。服务器调用多线程按照上述方式将中间文件拆分为多个制度子文件,或者将中间文件发送至集群内其他服务器进行拆分,以提高文件拆分效率。将数据量较大的制度文件拆分为数据量较小的中间文件后传输至集群内其他服务器进行拆分,还可以提高数据传输效率,

本实施例中,对于数据量较大的制度文件进行两级拆分:其中,第一层级的拆分是根据数据量进行拆分,第二层级的拆分是根据预设的拆分维度进行拆分;将数据量较大的制度文件拆分为数据量较小的中间文件,可以并行将中间文件拆分为多个制度子文件,进而可以提高文件拆分效率。

应该理解的是,虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图6所示,提供了一种制度信息处理装置,包括:信息扩展模块602、信息分类模块604和信息归档模块606,其中:

信息扩展模块602,用于监测终端发布的制度信息,对制度信息进行分词得到对应的原始词语集合;原始词语集合包括多个原始词语;对各个原始词语进行同义扩展,生成每个原始词语对应的扩展词语集合;根据各个扩展词语集合形成制度信息对应的扩展制度信息集合。

信息分类模块604,用于将扩展制度信息集合输入预设的制度管理模型,得到制度信息对应的目标类别。

信息归档模块606,用于获取多个目标信息树分别对应的类别标注,筛选包含与目标类别对应类别标注的目标信息树,将制度信息添加至筛选得到的目标信息树。

在一个实施例中,制度信息包括制度描述信息;信息扩展模块602还用于检测制度描述信息是否包含类别信息;若包含,则根据类别信息将制度信息添加至相应的目标信息树;否则,对制度信息进行分词得到对应的原始词语集合。

在一个实施例中,该装置还包括模型训练模块608,用于获取训练样本数据;训练样本数据包括多个样本制度信息及分别对应的类别标注;对各个样本制度信息进行分词和同义扩展处理,得到每个样本制度信息分别对应的扩展样本制度信息集合;根据各个扩展样本制度信息集合和对应的类别标注,通过支持向量机算法对初始的制度管理模型进行训练,得到制度管理模型。

在一个实施例中,扩展样本制度信息集合包括多组扩展样本制度信息;模型训练模块608还用于获取特征项,计算特征项在一组扩展样本制度信息的词频权重;计算特征项在整个训练样本数据中的文档频率;根据词频权重和文档频率计算特征项对应的特征权重;根据特征权重选择特征项作为相应扩展样本制度信息的特征词;根据特征词提取各个扩展样本标准信息的特征。

在一个实施例中,制度信息包括制度描述信息和制度文件;信息归档模块606还用于根据制度描述信息生成信息节点;检测筛选得到的目标信息树中是否已存在相同的信息节点;若不存在,则将信息节点添加至相应的目标信息树,将制度文件关联至信息节点。

在一个实施例中,制度信息包括制度描述信息及关联的制度文件;制度文件包括多个制度条款以及分别对应的适用对象标识;关联信息树具有对应的适用对象标识;信息归档模块606还用于对制度文件进行拆分,利用每个适用对象标识对应的制度条款生成相应适用对象标识对应的制度子文件;获取目标信息树对应的多个关联信息树;根据适用对象标识,将制度描述信息及制度子文件添加至相应的关联信息树。

在一个实施例中,信息归档模块606还用于计算制度文件的数据量,检测数据量是否超过阈值;当数据量超过阈值时,获取预设的目标数据量,根据目标数据量确定制度文件的拆分位置;检测拆分位置是否位于相邻分隔符之间;当拆分位置位于一个分隔符处时,在拆分位置将制度文件拆分为多个中间文件;当拆分位置位于相邻分隔符之间时,在相邻分隔符中任意一个分隔符处将制度文件拆分为多个中间文件;按照预设的拆分规则,对多个中间文件进行拆分。

关于制度信息处理装置的具体限定可以参见上文中对于制度信息处理方法的限定,在此不再赘述。上述制度信息处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储制度信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种制度信息处理方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:监测终端发布的制度信息,对制度信息进行分词得到对应的原始词语集合;原始词语集合包括多个原始词语;对各个原始词语进行同义扩展,生成每个原始词语对应的扩展词语集合;根据各个扩展词语集合形成制度信息对应的扩展制度信息集合;将扩展制度信息集合输入预设的制度管理模型,得到制度信息对应的目标类别;获取多个目标信息树分别对应的类别标注,筛选包含与目标类别对应类别标注的目标信息树,将制度信息添加至筛选得到的目标信息树。

在一个实施例中,制度信息包括制度描述信息;处理器执行计算机程序时还实现以下步骤:检测制度描述信息是否包含类别信息;若包含,则根据类别信息将制度信息添加至相应的目标信息树;否则,对制度信息进行分词得到对应的原始词语集合。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取训练样本数据;训练样本数据包括多个样本制度信息及分别对应的类别标注;对各个样本制度信息进行分词和同义扩展处理,得到每个样本制度信息分别对应的扩展样本制度信息集合;根据各个扩展样本制度信息集合和对应的类别标注,通过支持向量机算法对初始的制度管理模型进行训练,得到制度管理模型。

在一个实施例中,扩展样本制度信息集合包括多组扩展样本制度信息;处理器执行计算机程序时还实现以下步骤:获取特征项,计算特征项在一组扩展样本制度信息的词频权重;计算特征项在整个训练样本数据中的文档频率;根据词频权重和文档频率计算特征项对应的特征权重;根据特征权重选择特征项作为相应扩展样本制度信息的特征词;根据特征词提取各个扩展样本标准信息的特征。

在一个实施例中,制度信息包括制度描述信息和制度文件;处理器执行计算机程序时还实现以下步骤:根据制度描述信息生成信息节点;检测筛选得到的目标信息树中是否已存在相同的信息节点;若不存在,则将信息节点添加至相应的目标信息树,将制度文件关联至信息节点。

在一个实施例中,制度信息包括制度描述信息及关联的制度文件;制度文件包括多个制度条款以及分别对应的适用对象标识;关联信息树具有对应的适用对象标识;处理器执行计算机程序时还实现以下步骤:对制度文件进行拆分,利用每个适用对象标识对应的制度条款生成相应适用对象标识对应的制度子文件;获取目标信息树对应的多个关联信息树;根据适用对象标识,将制度描述信息及制度子文件添加至相应的关联信息树。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算制度文件的数据量,检测数据量是否超过阈值;当数据量超过阈值时,获取预设的目标数据量,根据目标数据量确定制度文件的拆分位置;检测拆分位置是否位于相邻分隔符之间;当拆分位置位于一个分隔符处时,在拆分位置将制度文件拆分为多个中间文件;当拆分位置位于相邻分隔符之间时,在相邻分隔符中任意一个分隔符处将制度文件拆分为多个中间文件;按照预设的拆分规则,对多个中间文件进行拆分。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:监测终端发布的制度信息,对制度信息进行分词得到对应的原始词语集合;原始词语集合包括多个原始词语;对各个原始词语进行同义扩展,生成每个原始词语对应的扩展词语集合;根据各个扩展词语集合形成制度信息对应的扩展制度信息集合;将扩展制度信息集合输入预设的制度管理模型,得到制度信息对应的目标类别;获取多个目标信息树分别对应的类别标注,筛选包含与目标类别对应类别标注的目标信息树,将制度信息添加至筛选得到的目标信息树。

在一个实施例中,制度信息包括制度描述信息;计算机程序被处理器执行时还实现以下步骤:检测制度描述信息是否包含类别信息;若包含,则根据类别信息将制度信息添加至相应的目标信息树;否则,对制度信息进行分词得到对应的原始词语集合。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取训练样本数据;训练样本数据包括多个样本制度信息及分别对应的类别标注;对各个样本制度信息进行分词和同义扩展处理,得到每个样本制度信息分别对应的扩展样本制度信息集合;根据各个扩展样本制度信息集合和对应的类别标注,通过支持向量机算法对初始的制度管理模型进行训练,得到制度管理模型。

在一个实施例中,扩展样本制度信息集合包括多组扩展样本制度信息;计算机程序被处理器执行时还实现以下步骤:获取特征项,计算特征项在一组扩展样本制度信息的词频权重;计算特征项在整个训练样本数据中的文档频率;根据词频权重和文档频率计算特征项对应的特征权重;根据特征权重选择特征项作为相应扩展样本制度信息的特征词;根据特征词提取各个扩展样本标准信息的特征。

在一个实施例中,制度信息包括制度描述信息和制度文件;计算机程序被处理器执行时还实现以下步骤:根据制度描述信息生成信息节点;检测筛选得到的目标信息树中是否已存在相同的信息节点;若不存在,则将信息节点添加至相应的目标信息树,将制度文件关联至信息节点。

在一个实施例中,制度信息包括制度描述信息及关联的制度文件;制度文件包括多个制度条款以及分别对应的适用对象标识;关联信息树具有对应的适用对象标识;计算机程序被处理器执行时还实现以下步骤:对制度文件进行拆分,利用每个适用对象标识对应的制度条款生成相应适用对象标识对应的制度子文件;获取目标信息树对应的多个关联信息树;根据适用对象标识,将制度描述信息及制度子文件添加至相应的关联信息树。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:计算制度文件的数据量,检测数据量是否超过阈值;当数据量超过阈值时,获取预设的目标数据量,根据目标数据量确定制度文件的拆分位置;检测拆分位置是否位于相邻分隔符之间;当拆分位置位于一个分隔符处时,在拆分位置将制度文件拆分为多个中间文件;当拆分位置位于相邻分隔符之间时,在相邻分隔符中任意一个分隔符处将制度文件拆分为多个中间文件;按照预设的拆分规则,对多个中间文件进行拆分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1