一种基于自然语言分析处理的巡视信息系统及分析方法与流程

文档序号:17587299发布日期:2019-05-03 21:26阅读:482来源:国知局
一种基于自然语言分析处理的巡视信息系统及分析方法与流程

本发明涉及自然语言分析处理技术领域,特别涉及一种基于自然语言分析处理的巡视信息系统及分析方法。



背景技术:

当前,巡视监督工作受到高度重视。巡视工作的核心任务就是要发现问题。

为了更好的发现问题,巡视工作需要检查海量资料、查询大量数据,工作量十分繁重。由于这些材料比较分散,碎片化严重,导致巡视工作数据应用方面面临三大问题:

一、当前税务总局及全国大多数国税机关未实现巡视工作的信息化建设,巡视过程中存在工作信息不对称,巡视工作组之间、巡视组与被巡视单位之间信息不对称、交流有滞后、理解有偏差问题;

二、巡视相关的数据、资料以纸质方式存档,既不利于数据的分析及利用,也不利于全面掌握巡视工作进展情况,存在资料利用不便捷的情况;

三、数据应用不深入,巡视发现问题能力、发现问题精准度以及工作效率偏低,严重制约了巡视工作效能。

为了提高巡视工作发现问题,分析问题的能力,需要借助信息化的支撑。基于此,本发明提出了一种基于自然语言分析处理的巡视信息系统及分析方法。



技术实现要素:

本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于自然语言分析处理的巡视信息系统及分析方法。

本发明是通过如下技术方案实现的:

一种基于自然语言分析处理的巡视信息系统,其特征在于:采用的b/s架构,包括在税务行业各个层级搭建的分系统,在税务行业各个层级搭建的分系统与税务部门的第三方系统进行对接,以获取更全面的数据;用户将巡视过程数据录入到在税务行业各个层级搭建的分系统中,对巡视组成员输入的巡视过程数据描述进行分词标注,并采用nlp技术从第三方系统中抽取数据进行筛选,将问题数据或疑似问题的数据提供给巡视组成员,并对筛选出的问题数据或疑似问题的数据进行智能定性。

所述第三方系统包括核心征管单元,财务软件单元,人事管理单元,数字人事单元,采购系统单元和内控监督单元。

用户在巡视过程中向在税务行业各个层级搭建的分系统发送请求,请求通过网络传输协议进行传输,网络传输协议会对请求内容进行加密,服务器端进行身份验证,若用户通过身份验证则执行客户请求,若未通过,则拦截客户的请求进行反馈。

所述在税务行业各个层级搭建的分系统包括总局分系统,省局分系统和市局分系统。

所述基于自然语言分析处理的巡视信息系统的分析方法,其特征在于,包括以下步骤:

(1)首先要建立典型问题标签库;

(2)使用对纸质文档进行扫描,将扫描的内容存到系统数据库;

(3)系统根据配置的标签库的内容对文档扫描的数据进行检索和比对,基于textrank构建拓扑图模型,利用投票机制对文本中的重要成分进行排序,按照排序高低将疑似问题的内容展示给巡视组成员,同时将标签库的标签作为发现问题的依据同样提供给巡视组成员,方便巡视组成员对问题进一步的筛选和分析;

(4)巡视组成员在系统中录入问题数据后,根据问题的内容进行问题的定性分析,对于定性难、问题定性不准确的问题,则利用nlp技术实现对问题的智能定性。

所述步骤(1)中,建立标签库时需要将巡视过程中发现的典型案例问题维护到系统中,基于tf-idf算法模型,综合考虑词语在文本中的频率和词语在千万级背景数据中的频率,从输入文本中提取最具有代表性的关键词并给出相应权重,根据权重为这些关键词建立标签并维护到系统中。

所述步骤(4)中,利用nlp技术实现对问题的智能定性,具体包括以下步骤:

(a)对巡视组成员输入的问题描述进行分词标注;

(b)分词结束后进行句法依存分析,提取出问题的核心内容,即问题直接描述的短文本;

(c)将得到的问题短文本与系统中维护的问题定性相关的典型案例短文本进行比对,对两个不同短文本进行相似度的计算,输出的相似度介于0到1之间,值越大表示相似度越高;

(d)短文本比对结束后,按照比对结果进行排名,将排名前三的问题定性结果提供给用户进行进一步的选择,用户可以对这三个结果进行进一步的调整和组合,得出用户认可的问题定性结论。

所述步骤(a)中,分词词性标注是将连续的一段问题描述语句切分成具有语义合理性和完整性的词汇序列,并为每个词汇赋予一个词性的过程;在分词词性标注的过程中还会进行人名识别、机构名识别和地名识别。

所述步骤(b)中,句法依存分析是对输入的问题描述进行句法结构分析以及句子各成分之间的依存关系分析,得到句子的完整句法结构,以及各成分之间的依存关系,从而提取出问题的核心内容,即问题直接描述的短文本。

在巡视工作结束后,用户将所有的巡视过程数据录入到系统中,系统对用户录入的所有数据进行统计分析,汇总成数据报表并展示给用户,同时自动汇总成巡视分析报告提供给巡视组相关领导岗位方便巡视组对整个巡视过程进行数据的统计和分析。

本发明的有益效果是:该基于自然语言分析处理的巡视信息系统及分析方法,将巡视工作发现问题的流程规范化,不仅大大减轻了巡视组工作人员检查海量资料、查询大量文档数据的工作压力,还增强了巡视工作深入发现问题、综合分析问题、系统总结问题能力,统一了巡视工作对问题定性的准则,提高了巡视工作的效率。

附图说明

附图1为本发明基于自然语言分析处理的巡视信息系统架构示意图。

附图2为本发明基于自然语言分析处理的巡视信息系统采用nlp技术筛选问题的流程示意图。

附图3为本发明基于自然语言分析处理的巡视信息系统采用nlp技术对问题智能定性的流程示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

该基于自然语言分析处理的巡视信息系统,采用的b/s架构,包括在税务行业各个层级搭建的分系统,在税务行业各个层级搭建的分系统与税务部门的第三方系统进行对接,以获取更全面的数据;用户将巡视过程数据录入到在税务行业各个层级搭建的分系统中,对巡视组成员输入的巡视过程数据描述进行分词标注,并采用nlp技术从第三方系统中抽取数据进行筛选,将问题数据或疑似问题的数据提供给巡视组成员,并对筛选出的问题数据或疑似问题的数据进行智能定性。

所述第三方系统包括核心征管单元,财务软件单元,人事管理单元,数字人事单元,采购系统单元和内控监督单元。

用户在巡视过程中向在税务行业各个层级搭建的分系统发送请求,请求通过网络传输协议进行传输,网络传输协议会对请求内容进行加密,服务器端进行身份验证,若用户通过身份验证则执行客户请求,若未通过,则拦截客户的请求进行反馈。

所述在税务行业各个层级搭建的分系统包括总局分系统,省局分系统和市局分系统。

该基于自然语言分析处理的巡视信息系统的分析方法,包括以下步骤

(1)首先要建立典型问题标签库;

(2)使用对纸质文档进行扫描,将扫描的内容存到系统数据库;

(3)系统根据配置的标签库的内容对文档扫描的数据进行检索和比对,基于textrank构建拓扑图模型,利用投票机制对文本中的重要成分进行排序,按照排序高低将疑似问题的内容展示给巡视组成员,同时将标签库的标签作为发现问题的依据同样提供给巡视组成员,方便巡视组成员对问题进一步的筛选和分析;

(4)巡视组成员在系统中录入问题数据后,根据问题的内容进行问题的定性分析,对于定性难、问题定性不准确的问题,则利用nlp技术实现对问题的智能定性。

所述步骤(1)中,建立标签库时需要将巡视过程中发现的典型案例问题维护到系统中,基于tf-idf算法模型,综合考虑词语在文本中的频率和词语在千万级背景数据中的频率,从输入文本中提取最具有代表性的关键词并给出相应权重,根据权重为这些关键词建立标签并维护到系统中。

所述步骤(4)中,利用nlp技术实现对问题的智能定性,具体包括以下步骤:

(a)对巡视组成员输入的问题描述进行分词标注;

(b)分词结束后进行句法依存分析,提取出问题的核心内容,即问题直接描述的短文本;

(c)将得到的问题短文本与系统中维护的问题定性相关的典型案例短文本进行比对,对两个不同短文本进行相似度的计算,输出的相似度介于0到1之间,值越大表示相似度越高;

(d)短文本比对结束后,按照比对结果进行排名,将排名前三的问题定性结果提供给用户进行进一步的选择,用户可以对这三个结果进行进一步的调整和组合,得出用户认可的问题定性结论。

所述步骤(a)中,分词词性标注是将连续的一段问题描述语句切分成具有语义合理性和完整性的词汇序列,并为每个词汇赋予一个词性的过程;在分词词性标注的过程中还会进行人名识别、机构名识别和地名识别。

所述步骤(b)中,句法依存分析是对输入的问题描述进行句法结构分析以及句子各成分之间的依存关系分析,得到句子的完整句法结构(如主谓宾、定状补等),以及各成分之间的依存关系(如主谓、动宾、定中等),从而提取出问题的核心内容,即问题直接描述的短文本。

在巡视工作结束后,用户将所有的巡视过程数据录入到系统中,系统对用户录入的所有数据进行统计分析,汇总成数据报表并展示给用户,其中包括巡视过程关键的数据统计,比如信访相关的数据、问题数据、问题线索数据等;同时,自动汇总成巡视分析报告提供给巡视组相关领导岗位方便巡视组对整个巡视过程进行数据的统计和分析。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1