【技术领域】
本发明属于计算机软件的技术领域,具体涉及一种基于抽取文档内容的自动审核校验文档的方法、装置、及计算机设备。
背景技术:
传统的文档审核一般由人工判断来完成,根据个人的经验,对文档的标题、文档的版权、文档的内容等信息进行判断,从而决定文档是否合法、是否有利用价值、是否涉及侵权,主观随意性较大,且不同的审核人员水平参差不齐,容易出现审核纰漏的情况,无法准确的对文档进行审核。
技术实现要素:
本发明所要解决的技术问题在于提供一种基于抽取文档内容的自动审核校验文档的方法、装置、及计算机设备。
本发明是这样实现的:
第一方面,本发明提供了一种自动审核校验文档的方法,包括如下步骤:
步骤一:通过tika算法抽取需要审核的文档的文本内容;
步骤二:对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过messagedigest类进行md5加密,然后转换成16进制的md5码值生成该文本内容的唯一的md5码;
步骤三:若生成的若md5码匹配到md5码库,则判断为重复文件,审核不通过;若md5码无法匹配到md5码库,则转入步骤四;
步骤四:对文档题名和文档内容进行过滤规则定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
步骤五:抽取出当前文档的正文内容后,采用dfa算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
第二方面,本发明提供了一种自动审核校验文档的装置,包括:
抽取文本模块,用于对需要审核的文档通过tika算法抽取文本内容;
md5生成模块,用于对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过messagedigest类进行md5加密,然后转换成16进制的md5码值生成该文本内容的唯一的md5码;
md5匹配模块,用于将生成的md5码匹配md5码库;若生成的若md5码匹配到md5码库,则判断为重复文件,审核不通过;若md5码无法匹配到md5码库,则进入下一程序;
规则库和敏感词库配置模块,用于对文档题名和文档内容进行过滤规则的定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
规则库和敏感词库过滤模块,用于抽取出当前文档的正文内容后,采用dfa算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
第三方面,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
本发明的优点在于:本次发明主要针对审核文档进行设计,对文档的内容进行抽取分析,增加审核规则,通过制定的规则,实现对文档的真实性、合法性的初审,若通过审核规则无法检测到文档内容的真实性,再交由人工继续审核,实现人工审核前的初步审核,给与审核人员审核文档时较为准确的参考。自动审核校验文档能为管理员审核文档提供支持。自动审核校验文档可自定义过滤规则,如敏感词过滤、相同文件过滤等,为管理员提供机器初审结果。通过自动审核校验,能充分发挥文档部门及其人员的工作积极性,提高其审阅文档的能力和效率,履行其辅助决策的职责。准确的自动审核结果能够方便文档审核管理员审核文档时参考,能使管理员的审核意见在自动审核结果的基础上更加明确具体,有助于节省管理员大量的时间和精力。
【附图说明】
下面参照附图结合实施例对本发明作进一步的描述。
图1是本发明的流程示意图。
【具体实施方式】
实施例一
本实施例提供一种自动审核校验文档的方法,如图1所示,包括如下步骤:
步骤一:通过tika算法抽取需要审核的文档的文本内容;
步骤二:对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过messagedigest类进行md5加密,然后转换成16进制的md5码值生成该文本内容的唯一的md5码;
步骤三:若生成的若md5码匹配到md5码库,则判断为重复文件,审核不通过;若md5码无法匹配到md5码库,则转入步骤四;
步骤四:对文档题名和文档内容进行过滤规则定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
步骤五:抽取出当前文档的正文内容后,采用dfa算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
基于同一发明构思,本申请还提供了与实施例一中的方法对应的装置,详见实施例二。
实施例二:
在本实施例中提供了一种自动审核校验文档的装置,包括:抽取文本模块,用于对需要审核的文档通过tika算法抽取文本内容;
md5生成模块,用于对抽取的文本内容进行分析处理,先获取文本内容的byte信息,再通过messagedigest类进行md5加密,然后转换成16进制的md5码值生成该文本内容的唯一的md5码;
md5匹配模块,用于将生成的md5码匹配md5码库;若生成的若md5码匹配到md5码库,则判断为重复文件,审核不通过;若md5码无法匹配到md5码库,则进入下一程序;
规则库和敏感词库配置模块,用于对文档题名和文档内容进行过滤规则的定制:文档题名规则库分为公开关键字和不公开关键字,匹配到不公开关键字则视为敏感文档,匹配到公开关键字后继续进行文档内容规则过滤;文档内容规则库是人工维护的敏感词库,若文档内容匹配到敏感词则视为敏感文档;
规则库和敏感词库过滤模块,用于抽取出当前文档的正文内容后,采用dfa算法进行文档题名和正文内容的审核规则库、敏感词库的过滤匹配,最终计算出该文档是否符合审核通过的要求。
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的计算机设备实施例,详见实施例三。
实施例三
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。
由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。