敏感词过滤的方法、装置、移动终端及存储介质与流程

文档序号:14835856发布日期:2018-06-30 12:22阅读:249来源:国知局
敏感词过滤的方法、装置、移动终端及存储介质与流程

本发明涉及信息过滤技术领域,尤其涉及一种敏感词过滤的方法、装置、移动终端及存储介质。



背景技术:

目前先有的文本文件内容主要有四种敏感词过滤技术,即基于因特网内容分级平台(PICS)过滤、敏感词数据库过滤、关键字或词过滤以及智能内容理解过滤。

由于信息传送者一般不会主动给其与发送的文本文件按照PICS标准贴标签,所以基于PICS过滤在实际应用中效果不大;敏感词数据库过滤方式为现有技术中应用作为广泛的方式,其将长期积累的敏感词形成的敏感词数据库(敏感词文本库)对文本内容进行逐个排查,当与敏感词一致时,则对其进行过滤,但是,由于敏感词数据库是共用或为大家所熟知的,因此,信息传送者可以采用修改待发送文本文件的方式进行规避,例如在发送文本文件中带有的敏感词中间增加空格或特殊符号,或者敏感词中部分字、词以拼音替代,这样,敏感词数据库无法对其进行识别和过滤;关键字或词过滤能够实现较快的过滤速度,但是往往不考虑文本内容,漏报、错报率较高,而且关键字词更容易规避;智能内容理解过滤技术发展不成熟,同时其计算量大、速度慢。



技术实现要素:

为了克服现有技术的不足,本发明的目的之一在于提供一种敏感词过滤的方法,其在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且计算量小、速度快。

本发明的目的之二在于提供一种敏感词过滤的装置,其在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且计算量小、速度快。

本发明的目的之三在于提供一种实现上述敏感词过滤的方法的移动终端。

本发明的目的之四在于提供一种存储上述敏感词过滤的方法的计算机可读存储介质。

本发明的目的之一采用如下技术方案实现:

一种敏感词过滤的方法,包括步骤:

第一转换步骤:通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;

接收步骤:接收待发送的文本文件,并存储为临时文本文件;

第二转换步骤:通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;

比对步骤:将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置;

过滤步骤:对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。

进一步地,所述敏感词查找树结构为:

根节点不包含任何字符;

除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从根节点到某一节点路径上的所有字符串连接起来构成新的字符串,每个词的公共前缀共享一个分支。

本发明的目的之二采用如下技术方案实现:

一种敏感词过滤的装置,包括:

第一转换模块:用于通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;

接收模块:用于接收待发送的文本文件,并存储为临时文本文件;

第二转换模块:用于通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;

比对模块:用于将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置;

过滤模块:用于对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。

本发明的目的之三采用如下技术方案实现:

一种移动终端,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明目的之一的敏感词过滤的方法。

本发明的目的之四采用如下技术方案实现:

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行以下步骤:

第一转换步骤:通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;

接收步骤:接收待发送的文本文件,并存储为临时文本文件;

第二转换步骤:通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;

比对步骤:将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置;

过滤步骤:对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。

进一步地,所述敏感词查找树结构为:

根节点不包含任何字符;

除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从根节点到某一节点路径上的所有字符串连接起来构成新的字符串,每个词的公共前缀共享一个分支。

相比现有技术,本发明的有益效果在于:

本发明在现有敏感词文本库的基础上,将待发送文本文件以及敏感词文本库均通过文本-语音转换后形成音频数据文件和敏感词音频数据库,然后再进行比对,在很大程度上满足信息过滤的要求,而且敏感词音频数据库只需要转换一次即可对所有文本文件进行过滤,计算量小、速度快。

附图说明

图1为本发明实施例一的敏感词过滤的方法的流程图;

图2为本发明实施例二的敏感词过滤的装置的结构框图;

图3为本发明实施例三的移动终端的结构示意图。

具体实施方式

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

请参照图1所示,本发明实施例一公开了一种敏感词过滤的方法,该方法可以由硬件或/和软件来执行,其包括以下步骤:

110、第一转换步骤。

通过文本-语音转换将敏感词文本库转换成敏感词音频数据库。根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树。

敏感词文本库为常规数据库,其由被视为敏感词的若干个敏感词组整理形成,已广泛应用于互联网中。敏感词文本库经由代理服务器中的文本-语音转换单元转换形成敏感词音频数据库。该文本-语音转换单元的转换方法有多种,其为常规技术,这里不再赘述。根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树,所述敏感词查找树结构为:根节点不包含任何字符;除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从根节点到某一节点路径上的所有字符串连接起来构成新的字符串,每个词的公共前缀共享一个分支。

敏感词音频数据库存储于代理服务器中,只有在敏感词文本库更新后,才进行一次敏感词文本库的音频转换,并且这时只需要对更新的敏感词组进行转换即可,计算量小。

120、接收步骤。

通过第一网络接收待发送的文本文件,并存储为临时文本文件。

待发送的文本文件存储于移动终端或PC机上,移动终端可以是手机、平板电脑等设备,第一网络可以为有线网络或无线网络,临时文本文件存储于代理服务器中,避免了重复调用文本文件的可能性。

130、第二转换步骤。

通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储。

临时文本文件通过文本-语音转换单元转换形成临时音频数据文件,该临时音频数据文件也存储于代理服务器中,同时临时文本文件和临时音频数据文件在内容上是相关联的,也就是临时文本文件中的每个字均对应临时音频数据文件中的一个音频数据,对于临时文本文件中的标点、特殊符号、空格以及乱码等,则可直接忽略。

140、比对步骤。

将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置。

通过代理服务器中的过滤单元在临时音频数据文件中遍历敏感词音频数据库中的每个敏感词树,当临时音频数据文件具有一致的敏感词树,则对该敏感词树以及其位置进行标记。

150、过滤步骤。

对临时文本文件进行过滤,并通过第二网络将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。

在临时音频数据文件标记的敏感词树及其位置,必然在临时文本文件中的相应位置具有一定与该敏感词树相关联的文本内容(该文本内容中可能会出现的标点、特殊符号、空格以及乱码等),然后将这些文本内容进行删除后的临时文本文件通过第二网络发送给接收终端,从而完成了文本敏感词的过滤。

实施例二

实施例二公开了一种对应上述实施例的敏感词过滤的装置,请参照图2所示,包括:

第一转换模块210:用于通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;

接收模块220:用于接收待发送的文本文件,并存储为临时文本文件;

第二转换模块230:用于通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;

比对模块240:用于将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置;

过滤模块250:用于对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。

进一步地,所述敏感词查找树结构为:

根节点不包含任何字符;

除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从根节点到某一节点路径上的所有字符串连接起来构成新的字符串,每个词的公共前缀共享一个分支。

实施例三

图3为本发明实施例三提供的一种移动终端的结构示意图,如图3所示,该移动终端包括处理器310、存储器320、输入装置330和输出装置340;计算机设备中处理器310的数量可以是一个或多个,图3中以一个处理器310为例;移动终端中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接,图3中以通过总线连接为例。

存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的敏感词过滤的方法对应的程序指令/模块(例如,敏感词过滤的装置中的第一转换模块210、接收模块220、第二转换模块230、比对模块240和过滤模块250)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行移动终端的各种功能应用以及数据处理,即实现上述的敏感词过滤的方法。

存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收输入的用户身份信息等。输出装置340可包括显示屏等显示设备。

实施例四

本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种敏感词过滤的方法,该方法包括:

第一转换步骤:通过文本-语音转换将敏感词文本库转换成敏感词音频数据库,根据敏感词查找树结构建立确定有机状态自动机中各个敏感词的转换函数,将所述敏感词音频数据库中的敏感词构建成敏感词树;

接收步骤:接收待发送的文本文件,并存储为临时文本文件;

第二转换步骤:通过文本-语音转换将临时文本文件转换成临时音频数据文件并存储,所述临时文本文件和临时音频数据文件相关联;

比对步骤:将所述敏感词树分别与临时音频数据文件进行比对,获得所述临时音频数据文件中具有的敏感词树,组成音频过滤集合,并记录这些敏感词树在临时音频数据文件中的位置;

过滤步骤:对临时文本文件进行过滤,并将过滤后的临时文本文件发送至接收终端,所述对临时文本文件进行过滤的方法是将临时文本文件中与所述位置相对应的文本内容进行删除。

进一步地,所述敏感词查找树结构为:

根节点不包含任何字符;

除根节点以外的每个节点记录不定量的字符数以及结束标志位符号,子节点采用哈希机制;从根节点到某一节点路径上的所有字符串连接起来构成新的字符串,每个词的公共前缀共享一个分支。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的基于敏感词过滤的方法中的相关操作。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台移动终端(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是,上述基于敏感词过滤的装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1