本发明涉及网络数据过滤技术领域,尤其涉及一种页面弹幕的过滤方法及系统。
背景技术:
随着社会与科技的发展,越来越多用户通过智能终端观看视频,比如观看电影、综艺节目和直播平台,这些网络平台为了能够与用户更好地互动,普遍设置了弹幕功能,用户可通过智能终端输入弹幕。这些弹幕会出现在视频的前面,被千千万万的用户观看到。因此,有些不法分子或者图谋不轨的人想借助弹幕传播一些不良信息,这些信息一当被传输就会被成千上万的人接收到,会造成严重的后果。因此,考虑到法律法规和视频播放的安全,需要对弹幕信息进行审核,从而选出弹幕中的敏感词,并加以处理。然而,现有的过滤方案一般是采用敏感词库来匹配过滤,然而这种方案过滤的效果不够全面,比如,在敏感词库中记录有“小明”,而如果弹幕信息中出现“xiao明”,则过滤不掉。
技术实现要素:
为了解决上述技术问题,本发明的目的是提供一种效果更好的页面弹幕的过滤方法。
本发明的另一目的是提供一种效果更好的页面弹幕的过滤系统。
本发明方法所采用的技术方案是:
一种页面弹幕的过滤方法,包括以下步骤:
s1、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行初步处理,并结合预设的敏感词库判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,继续执行步骤s2;
s2、将经过初步处理的第一弹幕信息输入审核界面后,对第一弹幕信息做进一步的提炼,并判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。
进一步,所述步骤s2中所述的对弹幕信息做进一步的提炼的步骤,具体为:
采用人工提炼方式对第一弹幕信息进行提炼。
进一步,所述步骤s1,具体包括以下步骤:
s11、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行拆分,从而获得多个词语;
s12、依次将各词语与敏感词库中的敏感词进行匹配,并判断是否匹配成功,若是,判定第一弹幕信息存有敏感词,并对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,根据预设的常规词库对第一弹幕信息进行第三格式处理后,继续执行步骤s2。
进一步,所述步骤s2,具体包括以下步骤:
s21、按照预设的合并条件对经过初步处理的第一弹幕信息进行合并,并将合并后的第一弹幕信息输入审核界面;
s22、采用人工提炼方式对第一弹幕信息进行提炼;
s23、判断弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。
进一步,所述步骤s21,具体为:
获取预设间隔时间内的第一弹幕信息,判断是否存有相同的第一弹幕信息,并在判断存有时,将相同的第一弹幕信息合并后,输入审核界面。
本发明系统所采用的技术方案是:
一种页面弹幕的过滤系统,包括:
初步过滤模块,用于接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行初步处理,并结合预设的敏感词库判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,进入提炼过滤模块;
提炼过滤模块,用于将经过初步处理的第一弹幕信息输入审核界面后,对第一弹幕信息做进一步的提炼,并判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。
进一步,所述初步过滤模块,包括拆分单元和匹配单元;
所述拆分单元,用于接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行拆分,从而获得多个词语;
所述匹配单元,用于依次将各词语与敏感词库中的敏感词进行匹配,并判断是否匹配成功,若是,判定第一弹幕信息存有敏感词,并对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,根据预设的常规词库对第一弹幕信息进行第三格式处理后,进入提炼过滤模块。
进一步,所述提炼过滤模块包括合并单元、提炼单元和输出单元;
所述合并单元,用于按照预设的合并条件对经过初步处理的第一弹幕信息进行合并,并将合并后的第一弹幕信息输入审核界面;
所述提炼单元,用于采用人工提炼方式对第一弹幕信息进行提炼;
所述输出单元,用于判断弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。
进一步,所述合并单元具体用于获取预设间隔时间内的第一弹幕信息,判断是否存有相同的第一弹幕信息,并在判断存有时,将相同的第一弹幕信息合并后,输入审核界面。
本发明系统所采用的另一技术方案是:
一种页面弹幕的过滤系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述的一种页面弹幕的过滤方法。
本发明的有益效果是:本发明根据敏感词库对弹幕信息进行初步过滤后,再将弹幕信息输入审核界面进行提炼并做进一步过滤,能够更加快速的进行过滤,也使过滤效果更加全面,提高了过滤质量,满足了全面过滤的高要求。
附图说明
图1是本发明一种页面弹幕的过滤方法的步骤流程图;
图2是本发明一种页面弹幕的过滤系统的结构框图。
具体实施方式
实施例一
如图1所示,本实施例提供一种页面弹幕的过滤方法,包括以下步骤:
a1、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行初步处理,并结合预设的敏感词库判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,继续执行步骤a2。
a2、将经过初步处理的第一弹幕信息输入审核界面后,对第一弹幕信息做进一步的提炼,并判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。
上述方法的工作原理为:用户通过智能终端输入弹幕后,对弹幕进行初步处理,比如识别弹幕中的文字、符号和表情图像等信息,并过滤掉符号或表情图像等。获取到弹幕信息中的语句后,结合预设的敏感词库对判断弹幕信息中是否存有敏感词,所述敏感词库是存储有敏感词汇的数据库,当判断到弹幕语句中存有敏感词库记录的敏感词,判定该弹幕信息违规,直接对该弹幕信息进行第一格式处理,再输出弹幕信息,所述第一格式处理可以为:将弹幕信息的文字删掉,也可以为将文字采用预设好的表情图案代替。上述基于敏感词库过滤只是初步过滤,将经过初步过滤的弹幕信息输入审核界面,对弹幕信息做进一步的提炼,所述提炼可以为机器人提炼,也可以为人工提炼,当选择机器人提炼时,可以对敏感词的相义词或相近词进行提炼,比如“18”的相义词为“十八”,或者“小明”的相义词为“xiaoming”,“肥”的相近词为“胖”,通过机器人提炼后,判定为敏感词的,对弹幕信息进行第二格式处理后输出弹幕信息,并将提炼到的敏感词补入敏感词库。由于初步过滤的速度比较快,因此通过初步过滤,可以过滤大部分的敏感词,加快了过滤的速度,而通过进一步敏感词的提炼,可使敏感词的过滤更加充分,过滤质量更好,从而满足高质量的过滤要求。
具体的,其中步骤a1具体包括a11~a12:
a11、接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行拆分,从而获得多个词语。
a12、依次将各词语与敏感词库中的敏感词进行匹配,并判断是否匹配成功,若是,判定第一弹幕信息存有敏感词,并对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,根据预设的常规词库对第一弹幕信息进行第三格式处理后,继续执行步骤a2。
由于接收到的弹幕信息大都是语句,故需要对语句拆分成词语后,在于敏感词库进行对比匹配,在本实施例中的语句拆分采用现有的语句拆分技术即可,比如通过动宾结构拆分等。拆分后,进行比对并判断是否存有敏感词,若存有,则直接对弹幕信息进行第一格式处理后输出弹幕信息;若不存有,则根据预设的常规词库对弹幕信息进行第三格式处理,因为一般语句中存有较多的常规词语,比如“的”“地”“我”等等这些词汇,选出弹幕信息中这些常规的词汇,并对剩下的词语进行高亮处理或以其他形式显示,即进行第三格式处理,如此更加方便后续的人工提炼。
步骤a2具体包括a21~a23:
a21、按照预设的合并条件对经过初步处理的第一弹幕信息进行合并,并将合并后的第一弹幕信息输入审核界面。
其中,步骤a21具体为:获取预设间隔时间内的第一弹幕信息,判断是否存有相同的第一弹幕信息,并在判断存有时,将相同的第一弹幕信息合并后,输入审核界面。
a22、采用人工提炼方式对第一弹幕信息进行提炼。
a23、判断弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。
由于弹幕信息中,存有较多的相同弹幕信息,这是因为有些用户在发送弹幕时直接复制粘贴别人的内容,因此存有相同弹幕信息,在将弹幕信息输入审核界面前,先获取相同的弹幕信息,并将相同的弹幕信息进行合并,从而使得在审核界面上相同的内容只显示一次。在本实施例中,审核界面以5秒为间隔,审核界面上显示5秒内用户发送的弹幕信息,所以合并步骤中,是将5秒内相同的弹幕信息进行合并。人工对敏感词提炼后,判断弹幕信息存有敏感词的,对弹幕信息进行第二格式处理后输出弹幕信息,并将提炼到的敏感词补入敏感词库,增加敏感词库词汇量,从而加大初步过滤的功能。
上述方法,对弹幕信息的敏感词进行初步过滤,再通过人工提炼对敏感词进行深一步的过滤,从而达到更加全面过滤的效果,满足了高质量的过滤质量,由于先进行初步过滤,且对弹幕信息进行合并处理,因此提高的过滤想效率。
实施例二
如图2所示,本实施例提供一种页面弹幕的过滤系统,包括:
初步过滤模块,用于接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行初步处理,并结合预设的敏感词库判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,进入提炼过滤模块;
提炼过滤模块,用于将经过初步处理的第一弹幕信息输入审核界面后,对第一弹幕信息做进一步的提炼,并判断第一弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。
进一步作为优选的实施方式,所述初步过滤模块,包括拆分单元和匹配单元;
所述拆分单元,用于接收输入的第一弹幕信息后,根据预设方式对第一弹幕信息进行拆分,从而获得多个词语;
所述匹配单元,用于依次将各词语与敏感词库中的敏感词进行匹配,并判断是否匹配成功,若是,判定第一弹幕信息存有敏感词,并对第一弹幕信息进行第一格式处理后输出第二弹幕信息;反之,根据预设的常规词库对第一弹幕信息进行第三格式处理后,进入提炼过滤模块。
进一步作为优选的实施方式,所述提炼过滤模块包括合并单元、提炼单元和输出单元;
所述合并单元,用于按照预设的合并条件对经过初步处理的第一弹幕信息进行合并,并将合并后的第一弹幕信息输入审核界面;
所述提炼单元,用于采用人工提炼方式对第一弹幕信息进行提炼;
所述输出单元,用于判断弹幕信息中是否存有敏感词,若是,对第一弹幕信息进行第二格式处理后输出第三弹幕信息,并将提炼到的敏感词补入敏感词库;反之,输出第一弹幕信息。
进一步作为优选的实施方式,所述合并单元具体用于获取预设间隔时间内的第一弹幕信息,判断是否存有相同的第一弹幕信息,并在判断存有时,将相同的第一弹幕信息合并后,输入审核界面。
上述系统,对弹幕信息的敏感词进行初步过滤,再通过人工提炼对敏感词进行深一步的过滤,从而达到更加全面过滤的效果,满足了高质量的过滤质量,由于先进行初步过滤,且对弹幕信息进行合并处理,因此提高的过滤想效率。
实施例三
本实施例提供一种页面弹幕的过滤系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现实施例一所述的一种页面弹幕的过滤方法。
本实施例的一种页面弹幕的过滤系统,可执行本发明方法实施例一所提供的一种页面弹幕的过滤方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。