本发明涉及网络交互管理的技术领域,更具体地,涉及一种交互过程中智能识别并处理敏感内容的方法及系统。
背景技术:
随着网络技术的发展,各种社交应用程序(app)、社交平台的推出,社交聊天逐渐成为了人们常用的信息交互方式,但是社交过程中人员错综复杂,聊天内容也是各种各样,聊天内容多,为保证聊天质量,社交系统需要屏蔽一些不文明或不合法的敏感词汇或发广告(即社交敏感内容,也有的称其为黄版词汇)。
目前,现有技术中通过将聊天词汇与预设的黄版数据库中词汇对比搜索识别是否为黄版词汇,如果发现有黄版词汇,对其使用者的id进行屏蔽。但是,用户如果采用其它形式词汇替代存在于词库中的黄版词汇,如将“8”替换为“八”的形式,就能绕过屏蔽,不能达到预期的黄版词汇屏蔽的目的。而且网络词汇更新换代如此之快,现有系统对新兴的敏感内容的自动识别能力还不够强,在数据库中也不能智能地、及时地收录这些新兴的敏感词汇内容。
再者,中英文相结合的多个词汇的组合就能得到各种不同的词汇含义,对于如此之多的组合形式,采用现有的敏感词汇库匹配对比查询敏感词汇的方式难道较大且准确性不高,还需要消耗较长的匹配比对时间,执行效率不高,不能够全面地、准确地改变现有敏感词汇的使用和传播。而误操作屏蔽用户之后的申诉过程又很复杂,对用户造成很不好的使用体验。
因此,提供一种智能化、准确度高、操作简便及效率高的交互过程中敏感内容处理方案是本领域亟待解决的问题。
技术实现要素:
有鉴于此,本发明提供了一种交互过程中智能识别并处理敏感内容的方法及系统,解决了现有技术中不能智能化集中处理交互过程中敏感内容的技术问题。
为了解决上述技术问题,本发明提出一种交互过程中智能识别并处理敏感内容的方法,包括:
接收预设敏感内容,按照ac自动机的机制将所述预设敏感内容编译成自动机;将所述自动机按照预设的关键字编码的字符顺序排列,并根据所述字符顺序排列将所述自动机构建成自动机搜索树,并将所述自动机搜索树存储至远程网络请求服务平台上;
接收客户端的交互内容,解析所述交互内容得到交互字符,通过远程服务协议在所述自动机搜索树中逐字读入所述交互字符,通过所述交互字符遍历所述自动机搜索树得到所述交互内容中的敏感内容;
搜索所述客户端的历史交互记录,得到所述敏感内容出现的次数,结合预先设置的敏感内容处理策略,对所述客户端执行相应的处理操作;
基于当前的所述字符顺序排列,根据所述敏感内容更新所述自动机搜索树;
将更新后的所述自动机搜索树及所述敏感内容对应的处理策略存储至所述远程网络请求服务平台上;
统计所述交互字符在交互过程中出现的次数,在所述交互字符在交互过程中出现的次数大于或等于敏感次数时,将所述交互字符反馈至管理端口;
接收所述管理端口的敏感内容指令,并根据所述敏感内容指令将所述交互字符更新至所述自动机搜索树中。
进一步地,其中,所述敏感内容处理策略,为:
所述敏感内容出现次数小于或等于设定次数时,在交互界面中屏蔽该敏感内容,并向所述客户端发送警示消息;
所述敏感内容出现次数大于设定次数且小于或等于设定次数阈值时,在交互界面中屏蔽该敏感内容,并将所述客户端屏蔽预设时间;
所述敏感内容出现次数大于所述设定次数阈值时,在交互界面中屏蔽该敏感内容,并屏蔽所述客户端。
进一步地,其中,所述设定次数,为一到三次;所述设定次数阈值,为三到五次。
进一步地,其中,将所述自动机按照预设的关键字编码的字符顺序排列,并根据所述字符顺序排列将所述自动机构建成自动机搜索树,为:
根据预设的自动机扩展策略获取所述自动机对应的扩展自动机;
将所述自动机及其扩展自动机按照预设的关键字编码的字符顺序排列,并根据所述字符顺序排列将所述自动机构建成自动机搜索树。
另一方面,本发明还提供一种交互过程中智能识别并处理敏感内容的系统,包括:自动机搜索树创建模块、敏感内容获取模块、敏感内容处理模块、自动机搜索树更新模块及敏感内容处理策略存储模块;其中,
所述自动机搜索树创建模块,用于与所述敏感内容获取模块相连接,接收预设敏感内容,按照ac自动机的机制将所述预设敏感内容编译成自动机;将所述自动机按照预设的关键字编码的字符顺序排列,并根据所述字符顺序排列将所述自动机构建成自动机搜索树,并将所述自动机搜索树存储至远程网络请求服务平台上;
所述敏感内容获取模块,用于与所述自动机搜索树创建模块及敏感内容处理模块相连接,接收客户端的交互内容,解析所述交互内容得到交互字符,通过远程服务协议在所述自动机搜索树中逐字读入所述交互字符,通过所述交互字符遍历所述自动机搜索树得到所述交互内容中的敏感内容;
所述敏感内容处理模块,用于与所述敏感内容获取模块及自动机搜索树更新模块相连接,搜索所述客户端的历史交互记录,得到所述敏感内容出现的次数,结合预先设置的敏感内容处理策略,对所述客户端执行相应的处理操作;
所述自动机搜索树更新模块,用于与所述敏感内容处理模块及敏感内容处理策略存储模块相连接,基于当前的所述字符顺序排列,根据所述敏感内容更新所述自动机搜索树;
所述敏感内容处理策略存储模块,用于与所述自动机搜索树更新模块相连接,将更新后的所述自动机搜索树及所述敏感内容对应的处理策略存储至所述远程网络请求服务平台上;
进一步包括:预设敏感内容更新模块,用于与所述自动机搜索树创建模块相连接,统计所述交互字符在交互过程中出现的次数,在所述交互字符在交互过程中出现的次数大于或等于敏感次数时,将所述交互字符反馈至管理端口;
接收所述管理端口的敏感内容指令,并根据所述敏感内容指令将所述交互字符更新至所述自动机搜索树中。
进一步地,其中,所述敏感内容处理模块,为:敏感内容出现的次数统计单元、第一敏感内容处理单元、第二敏感内容处理单元及第三敏感内容处理单元;其中,
所述敏感内容出现的次数统计单元,用于与所述敏感内容获取模块、自动机搜索树更新模块及第一敏感内容处理单元相连接,搜索所述客户端的历史交互记录,得到所述敏感内容出现的次数;
所述第一敏感内容处理单元,用于与所述敏感内容出现的次数统计单元及第二敏感内容处理单元相连接,在所述敏感内容出现次数小于或等于设定次数时,在交互界面中屏蔽该敏感内容,并向所述客户端发送警示消息;
所述第二敏感内容处理单元,用于与所述第一敏感内容处理单元及第三敏感内容处理单元相连接,所述敏感内容出现次数大于设定次数且小于或等于设定次数阈值时,在交互界面中屏蔽该敏感内容,并将所述客户端屏蔽预设时间;
所述第三敏感内容处理单元,用于与所述第二敏感内容处理单元相连接,所述敏感内容出现次数大于所述设定次数阈值时,在交互界面中屏蔽该敏感内容,并屏蔽所述客户端。
进一步地,其中,所述设定次数,为一到三次;所述设定次数阈值,为三到五次。
进一步地,其中,所述自动机搜索树创建模块,为:自动机获取单元及自动机搜索树创建单元;其中,
所述自动机获取单元,用于与所述敏感内容获取模块及自动机搜索树创建单元相连接,按照ac自动机的机制将所述预设敏感内容编译成自动机,根据预设的自动机扩展策略获取所述自动机对应的扩展自动机;
所述自动机搜索树创建单元,用于与所述自动机获取单元相连接,将所述自动机及其扩展自动机按照预设的关键字编码的字符顺序排列,并根据所述字符顺序排列将所述自动机构建成自动机搜索树,并将所述自动机搜索树存储至远程网络请求服务平台上。
与现有技术相比,本发明的交互过程中智能识别并处理敏感内容的方法及系统,实现了如下的有益效果:
(1)本发明所述的交互过程中智能识别并处理敏感内容的方法及系统,利用ac自动机建立搜索树进行黄版词汇搜索、处理,能够全面地搜索、处理各种黄版词汇及其变形;建立可对外提供调用服务的rpc黄版词汇搜索服务系统,不需要对每个交互系统构建一个黄版词汇处理模块,对黄版词汇也能进行统一管理,提升了黄版词汇的处理效率。
(2)本发明所述的交互过程中智能识别并处理敏感内容的方法及系统,利用ac自动机建立搜索树进行黄版词汇搜索、处理,并设置分级式的敏感内容处理方案及自动机搜索树和新兴黄版词汇数据的更新策略,保证了敏感内容处理的及时性和准确性。
当然,实施本发明的任一产品必不特定需要同时达到以上所述的所有技术效果。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1为本发明实施例1中所述交互过程中智能识别并处理敏感内容的方法的流程示意图;
图2为本发明实施例2中所述交互过程中智能识别并处理敏感内容的方法的流程示意图;
图3为本发明实施例3中所述交互过程中智能识别并处理敏感内容的系统的结构示意图;
图4为本发明实施例4中所述交互过程中智能识别并处理敏感内容的系统的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
实施例1
如图1所示,为本实施例所述交互过程中智能识别并处理敏感内容的方法的流程示意图,本实施例提供了一种集中智能化处理交互过程中黄版敏感内容的方法,该方法包括如下的步骤:
步骤101、接收预设敏感内容,按照ac自动机的机制将预设敏感内容编译成自动机;将自动机按照预设的关键字编码的字符顺序排列,并根据字符顺序排列将自动机构建成自动机搜索树,并将自动机搜索树存储至远程网络请求服务平台上。
ac自动机(aho-corasick),是一种基于自动机原理的字符串匹配算法,如图1所示,其基本工作原理为:首先将特征字符串(如病毒特征库、过滤关键字等)编译成自动机,从状态0开始,逐字读入待匹配内容,每次读入一个字符时,检查当前状态是否有对应字符的跳转箭头,若有,则跳到此跳转对应的下一状态,若没有,则跳回到状态0。有一些状态被标记为匹配状态,如果进入这个状态代表匹配成功。将用户的交互内容以关键字编码的字符形式进行顺序组合后能够体现出该交互内容的词汇组合。
将敏感词汇集中存储在远程网络请求服务平台上进行管理,通过远程网络请求服务平台连接各个交互服务平台,有利于保证敏感词汇标准的统一性和网络信息的一致性。
步骤102、接收客户端的交互内容,解析交互内容得到交互字符,通过远程服务协议在自动机搜索树中逐字读入交互字符,通过交互字符遍历自动机搜索树得到交互内容中的敏感内容。
如果遍历自动机搜索树后没得到任何敏感内容,对该交互不做任何干涉,仅获取客户端的交互内容进行记录,以便后续使用。
步骤103、搜索客户端的历史交互记录,得到敏感内容出现的次数,结合预先设置的敏感内容处理策略,对客户端执行相应的处理操作。
可选地,搜索客户端在最近一段时间内的交互记录,该一段时间可以是1个月到1年内。因为网络语言更新换代速度很快,如果不对记录交互记录的时间段加以限制,可能会对敏感内容处理造成较大的误差。
步骤104、基于当前的字符顺序排列,根据敏感内容更新自动机搜索树。
本次搜索得到的敏感内容可能成为之后敏感内容搜索的基础自动机字符,利用交互过程中搜索出的敏感内容本身更新可以更好地完善自动机搜索树。
步骤105、将更新后的自动机搜索树及敏感内容对应的处理策略存储至远程网络请求服务平台上。
通过存储敏感内容对应的处理策略,可以为其它交互平台上相应敏感词汇或者相似敏感词汇的处理提供依据,甚至可以智能化综合各个交互平台的敏感内容处理策略得到该敏感内容的处理标准。
步骤106、统计交互字符在交互过程中出现的次数,在交互字符在交互过程中出现的次数大于或等于敏感次数时,将交互字符反馈至管理端口;接收管理端口的敏感内容指令,并根据敏感内容指令将交互字符更新至自动机搜索树中。
实施例2
如图2所示,为本实施例所述交互过程中智能识别并处理敏感内容的方法的流程示意图,本实施例是在上述实施例1基础上提供的一种优选实施例,该方法包括如下步骤:
步骤201、接收预设敏感内容,按照ac自动机的机制将预设敏感内容编译成自动机,根据预设的自动机扩展策略获取自动机对应的扩展自动机。
可选地,自动机扩展策略可以是:词汇的中文、拼音、中文拼音首字母、英文、英文首字母、变形词等。
步骤202、将自动机及其扩展自动机按照预设的关键字编码的字符顺序排列,并根据字符顺序排列将自动机构建成自动机搜索树,并将自动机搜索树存储至远程网络请求服务平台上。
步骤203、接收客户端的交互内容,解析交互内容得到交互字符,通过远程服务协议在自动机搜索树中逐字读入交互字符,通过交互字符遍历自动机搜索树得到交互内容中的敏感内容。
步骤204、搜索客户端的历史交互记录,得到敏感内容出现的次数,结合预先设置的敏感内容处理策略,对客户端执行相应的处理操作。
步骤205、敏感内容出现次数小于或等于设定次数时,在交互界面中屏蔽该敏感内容,并向客户端发送警示消息;敏感内容出现次数大于设定次数且小于或等于设定次数阈值时,在交互界面中屏蔽该敏感内容,并将客户端屏蔽预设时间;敏感内容出现次数大于设定次数阈值时,在交互界面中屏蔽该敏感内容,并屏蔽客户端。
可选地,设定次数,进一步为一到三次;设定次数阈值,进一步为三到五次。
步骤206、基于当前的字符顺序排列,根据敏感内容更新自动机搜索树。
步骤207、将更新后的自动机搜索树及敏感内容对应的处理策略存储至远程网络请求服务平台上。
步骤208、统计交互字符在交互过程中出现的次数,在交互字符在交互过程中出现的次数大于或等于敏感次数时,将交互字符反馈至管理端口;接收管理端口的敏感内容指令,并根据敏感内容指令将交互字符更新至自动机搜索树中。
实施例3
如图3所示,为本实施例所述交互过程中智能识别并处理敏感内容的系统的结构示意图,本实施例所述系统用于实施上述实施例中所述交互过程中智能识别并处理敏感内容的方法,该系统包括:自动机搜索树创建模块301、敏感内容获取模块302、敏感内容处理模块303、自动机搜索树更新模块304及敏感内容处理策略存储模块305。
其中,自动机搜索树创建模块301与敏感内容获取模块302相连接,用于接收预设敏感内容,按照ac自动机的机制将预设敏感内容编译成自动机;将自动机按照预设的关键字编码的字符顺序排列,并根据字符顺序排列将自动机构建成自动机搜索树,并将自动机搜索树存储至远程网络请求服务平台上。
敏感内容获取模块302与自动机搜索树创建模块301及敏感内容处理模块303相连接,用于接收客户端的交互内容,解析交互内容得到交互字符,通过远程服务协议在自动机搜索树中逐字读入交互字符,通过交互字符遍历自动机搜索树得到交互内容中的敏感内容。
敏感内容处理模块303与敏感内容获取模块302及自动机搜索树更新模块304相连接,用于搜索客户端的历史交互记录,得到敏感内容出现的次数,结合预先设置的敏感内容处理策略,对客户端执行相应的处理操作。
自动机搜索树更新模块304与敏感内容处理模块303及敏感内容处理策略存储模块305相连接,用于基于当前的字符顺序排列,根据敏感内容更新自动机搜索树。
敏感内容处理策略存储模块305与自动机搜索树更新模块304相连接,用于将更新后的自动机搜索树及敏感内容对应的处理策略存储至远程网络请求服务平台上。
上述系统进一步包括:预设敏感内容更新模块306,用于与自动机搜索树创建模块301相连接,统计交互字符在交互过程中出现的次数,在交互字符在交互过程中出现的次数大于或等于敏感次数时,将交互字符反馈至管理端口;接收管理端口的敏感内容指令,并根据敏感内容指令将交互字符更新至自动机搜索树中。
实施例4
如图4所示,为本实施例所述交互过程中智能识别并处理敏感内容的系统的结构示意图,本实施例是在上述实施例3基础上提供的一种优选实施例,该系统包括:自动机搜索树创建模块401、敏感内容获取模块402、敏感内容处理模块403、自动机搜索树更新模块404及敏感内容处理策略存储模块405。
其中,自动机搜索树创建模块401进一步为:自动机获取单元411及自动机搜索树创建单元412。
自动机获取单元411,用于与敏感内容获取模块402及自动机搜索树创建单元412相连接,按照ac自动机的机制将预设敏感内容编译成自动机,根据预设的自动机扩展策略获取自动机对应的扩展自动机。
自动机搜索树创建单元412,用于与自动机获取单元411相连接,将自动机及其扩展自动机按照预设的关键字编码的字符顺序排列,并根据字符顺序排列将自动机构建成自动机搜索树,并将自动机搜索树存储至远程网络请求服务平台上。
敏感内容获取模块402与自动机搜索树创建模块401及敏感内容处理模块403相连接,用于接收客户端的交互内容,解析交互内容得到交互字符,通过远程服务协议在自动机搜索树中逐字读入交互字符,通过交互字符遍历自动机搜索树得到交互内容中的敏感内容。
敏感内容处理模块403与敏感内容获取模块402及自动机搜索树更新模块404相连接,用于搜索客户端的历史交互记录,得到敏感内容出现的次数,结合预先设置的敏感内容处理策略,对客户端执行相应的处理操作。
敏感内容处理模块403,进一步为:敏感内容出现的次数统计单元431、第一敏感内容处理单元432、第二敏感内容处理单元433及第三敏感内容处理单元434.
其中,敏感内容出现的次数统计单元431,用于与敏感内容获取模块402、自动机搜索树更新模块404及第一敏感内容处理单元432相连接,搜索客户端的历史交互记录,得到敏感内容出现的次数。
第一敏感内容处理单元432,用于与敏感内容出现的次数统计单元431及第二敏感内容处理单元433相连接,在敏感内容出现次数小于或等于设定次数时,在交互界面中屏蔽该敏感内容,并向客户端发送警示消息。
第二敏感内容处理单元433,用于与第一敏感内容处理单元432及第三敏感内容处理单元434相连接,敏感内容出现次数大于设定次数且小于或等于设定次数阈值时,在交互界面中屏蔽该敏感内容,并将客户端屏蔽预设时间。
第三敏感内容处理单元434,用于与第二敏感内容处理单元433相连接,敏感内容出现次数大于设定次数阈值时,在交互界面中屏蔽该敏感内容,并屏蔽客户端。
可选地,设定次数,进一步为一到三次;设定次数阈值,进一步为三到五次。
自动机搜索树更新模块404与敏感内容处理模块403及敏感内容处理策略存储模块405相连接,用于基于当前的字符顺序排列,根据敏感内容更新自动机搜索树。
敏感内容处理策略存储模块405与自动机搜索树更新模块404相连接,用于将更新后的自动机搜索树及敏感内容对应的处理策略存储至远程网络请求服务平台上。
上述系统进一步包括:预设敏感内容更新模块406,用于与自动机搜索树创建模块401相连接,统计交互字符在交互过程中出现的次数,在交互字符在交互过程中出现的次数大于或等于敏感次数时,将交互字符反馈至管理端口;接收管理端口的敏感内容指令,并根据敏感内容指令将交互字符更新至自动机搜索树中。
通过上述实施例可知,本发明的交互过程中智能识别并处理敏感内容的方法及系统,达到了如下的有益效果:
(1)本发明所述的交互过程中智能识别并处理敏感内容的方法及系统,利用ac自动机建立搜索树进行黄版词汇搜索、处理,能够全面地搜索、处理各种黄版词汇及其变形;建立可对外提供调用服务的rpc黄版词汇搜索服务系统,不需要对每个交互系统构建一个黄版词汇处理模块,对黄版词汇也能进行统一管理,提升了黄版词汇的处理效率。
(2)本发明所述的交互过程中智能识别并处理敏感内容的方法及系统,利用ac自动机建立搜索树进行黄版词汇搜索、处理,并设置分级式的敏感内容处理方案及自动机搜索树和新兴黄版词汇数据的更新策略,保证了敏感内容处理的及时性和准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
虽然已经通过例子对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。