本申请涉及计算机技术领域,尤其涉及一种风险识别方法及装置。
背景技术:
随着信息技术以及互联网技术的快速发展,现阶段,用户可以通过发帖、评论等方式,与他人进行互动,从而极大的增进了各用户之间的交流。即用户可以通过多种途径发表文本与他人进行互动。
为了保障用户之间的健康交流,一般需要对文本的内容进行审核,以查看文本内容中是否存在风险内容,如黄赌毒、暴恐政、广告等不良内容。一般情况下需要进行审核的文本长短不一,对于篇幅比较短的短文本可以直接使用风险识别模型进行风险识别,但是由于风险识别模型对于输入的文本有字数限制,因此,针对篇幅较长的长文本则无法直接输入风险识别模型进行风险识别。
因此,亟需提出一种方案,以便可以实现准确高效的对篇幅较长的文本进行风险识别。
技术实现要素:
本说明书实施例的目的是提供一种风险识别方法及装置,在对超过第一设定字数的待识别文本进行风险识别时,先检测待识别文本的主题是否满足预设的风险条件;若是待识别文本的主题满足预设的风险识别条件,则认为待识别文本的风险内容出现在与主题相关的内容中,在这种情况下,为了提高风险识别效率,则直接对待识别文本的主题内容进行风险识别即可,识别效率较高;若是待识别文本的主题不满足预设的风险识别条件,则认为待识别文本的风险内容与主题内容无关,在这种情况下,为了提高对待识别文本的风险识别的准确性,则需要提取出待识别文本中的风险文本片段,基于风险文本片段对待识别文本进行风险识别;因此,本说明书实施例所提供的方法,可以同时兼顾风险识别的效率和准确性。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供了一种风险识别方法,包括:
检测待识别文本的主题是否满足预设的风险条件;其中,所述待识别文本的字数超过第一设定字数;
若是,则将所述待识别文本的主题内容确定为风险识别内容;若否,则确定所述待识别文本中是否具有包含风险词的风险文本片段,若具有,则将所述风险文本片段确定为风险识别内容;
基于所述风险识别内容对所述待识别文本进行风险识别。
本说明书实施例还提供了一种风险识别装置,包括:
检测模块,用于检测待识别文本的主题是否满足预设的风险条件;其中,所述待识别文本的字数超过第一设定字数;
确定模块,用于若所述待识别文本的主题满足预设的风险条件,则将所述待识别文本的主题内容确定为风险识别内容;若所述待识别文本的主题不满足预设的风险条件,则确定所述待识别文本中是否具有包含风险词的风险文本片段,若具有,则将所述风险文本片段确定为风险识别内容;
识别模块,用于基于所述风险识别内容对所述待识别文本进行风险识别。
本说明书实施例还提供了一种风险识别设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
检测待识别文本的主题是否满足预设的风险条件;其中,所述待识别文本的字数超过第一设定字数;
若是,则将所述待识别文本的主题内容确定为风险识别内容;若否,则确定所述待识别文本中是否具有包含风险词的风险文本片段,若具有,则将所述风险文本片段确定为风险识别内容;
基于所述风险识别内容对所述待识别文本进行风险识别。
本说明书实施例还提供了一种存储介质,用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
检测待识别文本的主题是否满足预设的风险条件;其中,所述待识别文本的字数超过第一设定字数;
若是,则将所述待识别文本的主题内容确定为风险识别内容;若否,则确定所述待识别文本中是否具有包含风险词的风险文本片段,若具有,则将所述风险文本片段确定为风险识别内容;
基于所述风险识别内容对所述待识别文本进行风险识别。
本实施例中的技术方案,在对超过第一设定字数的待识别文本进行风险识别时,先检测待识别文本的主题是否满足预设的风险条件;若是待识别文本的主题满足预设的风险识别条件,则认为待识别文本的风险内容出现在与主题相关的内容中,在这种情况下,为了提高风险识别效率,则直接对待识别文本的主题内容进行风险识别即可,识别效率较高;若是待识别文本的主题不满足预设的风险识别条件,则认为待识别文本的风险内容与主题内容无关,在这种情况下,为了提高对待识别文本的风险识别的准确性,则需要提取出待识别文本中的风险文本片段,基于风险文本片段对待识别文本进行风险识别;因此,本说明书实施例所提供的方法,可以同时兼顾风险识别的效率和准确性。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的风险识别方法的方法流程图之一;
图2为本说明书实施例提供的风险识别方法的方法流程图之二;
图3为本说明书实施例提供的风险识别方法的方法流程图之三;
图4为本说明书实施例提供的风险识别方法的方法流程图之四;
图5为本说明书实施例提供的风险识别装置的模块组成示意图;
图6为本说明书实施例提供的风险识别设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本说明书实施例的思想在于,在对字数超过第一设定字数的待识别文本进行识别时,先检测待识别文本的主题是否满足预设的风险识别条件;从而根据识别结果,选择合适的风险识别内容提取方法确定待识别文本的风险识别内容,从而基于风险识别内容对待识别文本进行风险识别,这样,可以同时兼顾风险识别的效率和准确率;基于此思想,本说明书实施例提供了一种风险识别方法、装置、设备及存储介质。
其中,本说明书实施例所提供的风险识别方法既可以应用于服务器侧,也可以应用于手机、平板电脑、计算机等终端设备侧。即本说明书实施例所提供方法的执行主体可以为服务器也可以为终端设备,具体的,执行主体为安装于服务器或者终端设备上的风险识别装置。
图1为本说明实施例提供的风险识别方法的方法流程图之一,图1所示的方法,至少包括如下步骤:
步骤102,检测待识别文本的主题是否满足预设的风险条件;其中,待识别文本的字数超过第一设定字数。若是,则执行步骤104,否则,执行步骤106。
其中,上述步骤102中,检测待识别文本的主题是否满足预设的风险条件实质可以理解为检测待识别文本的主题是否具有风险倾向,即待识别文本中主体内容部分是否存在风险内容。
需要说明的是,本说明书实施例中所提及的风险内容可以为黄赌毒、暴恐政、广告等不良内容。在本说明书实施例中,所提及的待识别文本一般指的是文字内容比较多、篇幅比较长的文本。其中,上述第一设定字数可以根据实际应用场景进行限定。本说明书实施例并不对上述第一设定字数的具体取值进行限定。
步骤104,将待识别文本的主题内容确定为风险识别内容。
步骤106,确定待识别文本中是否具有包含风险词的风险文本片段,若具有,则将该风险文本片段确定为风险识别内容。
在本说明书实施例中,上述风险识别内容则是从待识别文本中所提取的部分内容,用于代表待识别文本进行风险识别。
其中,步骤106中所提及的风险文本片段可以理解为待识别文本中的一个或者多个文本片段,且在该文本片段中包含有风险词。所谓风险词,则是与风险内容相关的字词,具体的,可以为与黄赌毒、暴恐政、广告等内容相关的字词。例如,上述风险词可以为黑丝诱惑等。
在本说明书实施例中,若是待识别文本的主题满足预设的风险条件,则认为待识别文本的风险内容与待识别文本的主题相关,在该种情况下,则提取待识别文本的主题内容,并将所提取的主题内容作为风险识别内容即可;若是待识别文本的主题不满足预设的风险条件,则认为待识别文本的风险内容与待识别文本的主题无关,在该种情况下,则需要检测待识别文本中具有包含风险词的风险文本片段,若具有,则将风险文本片段确定为风险识别内容即可。
具体的,在上述步骤104中,可以使用textrank或者长短时记忆模型(longshort-termmemory,lstm)算法等提取待识别文本的摘要内容,将提取的摘要内容作为待识别文本的主题内容。
步骤108,基于上述风险识别内容对待识别文本进行风险识别。
在上述步骤108中,待识别内容进行识别文本进行风险识别实际上就是识别待识别文本是否为风险文本。因此,在具体实施时,对待识别文本进行风险识别的结果为风险文本或者非风险文本。
在具体实施时,上述步骤108中,基于上述风险识别内容对待识别文本进行识别,具体包括:
将风险识别内容输入风险识别模型中,获取风险识别内容所对应的风险分数;基于上述风险分数确定待识别文本是否为风险文本。
其中,上述风险识别模型可以为textcnn、lstm等风险识别模型。当然,在具体实施时,上述风险识别模型对于输入的风险识别内容具有字数限制,因此,在本说明书实施例中,通过步骤104或者步骤106所确定出的风险识别内容的字数需要满足风险识别模型的字数要求。
在具体实施时,上述基于风险分数确定待识别文本是否为风险文本可以将风险分数与预设分数进行比较,若是风险分数大于或等于预设分数,则认为待识别文本为风险文本,否则确定待识别文本为非危险文本。
当然,在其他具体实施方式中,上述步骤108中,对待识别文本进行风险识别,也可以直接将对待识别文本进行风险识别的风险分数作为结果进行输出,从而可以使用户基于该风险分数判断待识别文本是否为风险文本。
图2为本说明书实施例提供的风险识别方法的方法流程图之二,图2所示的方法至少包括如下步骤:
步骤202,检测待识别文本的主题是否满足预设的风险条件;若是,则执行步骤204,否则,执行步骤206。
步骤204,将待识别文本的主题内容确定为风险识别内容。
步骤206,确定待识别文本中是否具有包含风险词的风险文本片段;若具有,则执行步骤208。
步骤208,将风险文本片段确定为风险识别内容。
步骤210,将风险识别内容输入风险识别模型中。
步骤212,从风险识别模型获取风险识别内容所对应的风险分数。
步骤214,判断上述风险分数是否大于或等于预设分数;若是,则执行步骤216;否则,执行步骤218。
步骤216,确定待识别文本为风险文本。
步骤218,确定待识别文本为非风险文本。
为便于理解本说明书实施例提供的风险识别方法,下述将详细介绍上述各个步骤的具体实现方式。
具体的,在上述步骤102中,检测待识别文本的主题是否满足预设的风险条件,具体包括如下步骤一、步骤二和步骤三;
步骤一、确定待识别文本中的主题关键词集合,以及,确定待识别文本中所包含的风险词集合;
步骤二、对上述主题关键词集合与风险词集合进行相似度匹配;
步骤三、根据相似度匹配的结果确定待识别文本的主题是否满足预设的风险条件。
具体的,在上述步骤一种,可以采用词频-逆文档频率(termfrequency–inversedocumentfrequency,tf-idf)、textrank等算法提取待识别文本中的关键词,提取的关键词则为与待识别文本的主题相关的词语,因此,可以将提取的关键词记为待识别文本的主题关键词集合。
其中,采用tf-idf、textrank等关键词提取算法提取关键词均属于现有技术,因此,此处不再赘述上述步骤一中确定待识别文本的主题关键词集合的具体实现过程。
另外,在具体实施中,在确定待识别文本中所包含的风险词集合时,可以采用风险词匹配的方式确定,一种可能的具体实现方式为:
将第二风险词库与待识别文本进行匹配;其中,第二风险词库中存储有多个风险词;将出现在待识别文本中的第一风险词库中的风险词添加至风险词集合中。
上述将第二风险词库与待识别文本进行匹配,实际上是将第二风险词库中所包含的各个风险词分别与待识别文本进行匹配,若是第二风险词库中的某些风险词出现在待识别文本中,则认为该风险词为待识别文本所对应的风险词,通过上述方式,可以确定出待识别文本所包含的风险词集合。
需要说明的是,在本说明书实施例中,所选用的第二风险词库为覆盖率比较高的风险词库,即第二风险词库中存储有尽量较多的风险词,这样,才能提高第二风险词库与待识别文本匹配的概率,从而使得确定出的待识别文本的风险词集合比较全面,从而减少待识别文本中所漏掉的风险词的数量和概率。
在具体实施时,上述步骤二中,对主题关键词集合与风险词集合进行相似度匹配,具体包括:计算主题关键词集合与风险词集合之间的相似度值。
在本说明书实施例中,在计算主题关键词集合与风险词集合之间的相似度值时,实际上是计算主题关键词集合中的主题关键词与风险词集合中的风险词之间的词汇相似度。在具体实施时,可以通过使用embedding算法计算主题关键词集合与风险词集合之间的距离来实现,根据所计算的主题关键词集合与风险词集合之间的embedding距离确定主题关键词集合与风险词集合之间的相似度值。
具体的,使用embedding算法计算主题关键词集合与风险词集合之间的相似度值的具体过程如下所示:
分别将主题关键词集合以及风险词集合进行向量化,即分别使用词向量表示主题关键词集合和风险词集合中的各个词,得到主题关键词集合所对应的第一向量,以及风险词集合所对应的第二向量,然后分别计算第一向量和第二向量之间的余弦值,所计算得到的该余弦值则表征第一向量和第二向量之间的距离,即主题关键词集合与风险词集合之间的距离。所计算出的余弦值越小,则说明两个向量之间的距离越近,即主题关键词集合与风险词集合之间的相似度值越大。
其中,上述将主题关键词集合以及风险词集合向量化的方式有多种,此处不再赘述。
需要说明的是,在本说明书实施例中,可以通过word2vec技术实现计算主题关键词集合与风险词集合之间的相似度值。
另外,在本说明书实施例中,还可以采用余弦相似度值、余弦相似度、simhash算法或者最长公共子序列(longestcommonsubsequence,lsc)算法等相似度算法计算主题关键词集合与风险词集合之间的相似度值,其具体计算过程本说明书实施例不再一一赘述。
相应的,在计算出主题关键词集合与风险词集合之间的相似度值之后,上述步骤三中,根据相似度匹配的结果确定待识别文本的主题是否满足预设的风险条件,具体通过如下过程实现:
将上述相似度值与设定阈值进行比对;若是上述相似度值大于或等于设定阈值,则确定待识别文本的主题满足预设的风险条件;否则,确定待识别文本的主题不满足预设的风险条件。
具体的,上述设定阈值的具体取值可以根据实际应用场景进行设置,例如,可以设置为70%、85%等,本说明书实施例并不对上述设定阈值的具体取值进行限定。
当计算出主题关键词集合与风险词集合之间的相似度值后,将该相似度值与设定阈值进行比较,若是该相似度值大于或等于设定阈值,则认为主题关键词集合与风险词集合比较相似,即待识别文本的主题满足预设的风险条件,也即认为待识别文本的主题具有风险倾向;若是上述相似度值小于设定阈值,则认为主题关键词集合与风险词集合不相似,即待识别文本的主题不满足预设的风险条件,也即待识别文本的主题不具有风险倾向。
图3为本说明书实施例提供的风险识别方法的方法流程图之三,图3所示的方法,至少包括如下步骤:
步骤302,确定待识别文本中的主题关键词集合,以及,确定待识别文本中所包含的风险词集合。
步骤304,计算上述主题关键词集合与风险词集合之间的相似度值。
步骤306,判断上述相似度值是否大于或等于设定阈值;若是,则执行步骤308,否则,执行步骤310。
步骤308,将待识别文本的主题内容确定为风险识别内容。
步骤310,确定待识别文本中是否具有包含风险词的风险文本片段;若具有,则执行步骤312。
步骤312,将上述风险文本片段确定为风险识别内容。
步骤314,基于上述风险识别内容对待识别文本进行风险识别。
在具体实施时,若是确定待识别文本不具有风险倾向,则需要确定待识别文本中是否具有包含风险词的风险文本片段,以便确定待识别文本所对应的风险识别内容。
具体的,在本说明书实施例中,上述步骤106中,确定待识别文本中是否具有包含风险词的风险文本片段,具体包括如下步骤(1)和步骤(2);
步骤(1)、按照设定规则将待识别文本划分为多个文本片段;
步骤(2)、识别每个文本片段中是否具有风险词;若具有,则将该文本片段确定为风险文本片段。
其中,步骤(1)中所提及的设定规则可以是设定字数、待识别文本原本的段落划分或者设定行数等。
因此,在具体实施时,在上述步骤(1)中,可以按照设定字数将待识别文本划分为多个文本片段,即从待识别文本的第一个文字开始,往后数设定字数个文本,将该段文字作为其中一个文本片段,然后再从截断位置处往后继续数设定字数个文字,作为待识别文本的一个文本片段,以此类推,直至将整个待识别文本划分为多个文本片段。
为便于理解,下述将举例进行说明。
例如,若是待识别文本的内容如下所示:“永和九年,岁在癸丑,暮春之初,会于会稽山阴之兰亭,修禊事也。群贤毕至,少长咸集。此地有崇山峻岭,茂林修竹,又有清流激湍,映带左右,引以为流觞曲水,列坐其次。虽无丝竹管弦之盛,一觞一咏,亦足以畅叙幽情。是日也,天朗气清,惠风和畅。仰观宇宙之大,俯察品类之盛,所以游目骋怀,足以极视听之娱,信可乐也。”
若是设定字数为40字,则划分成的文字片段如下所示:
“永和九年,岁在癸丑,暮春之初,会于会稽山阴之兰亭,修禊事也。群贤毕至,少长咸集。”、“此地有崇山峻岭,茂林修竹,又有清流激湍,映带左右,引以为流觞曲水,列坐其次。虽无”、“丝竹管弦之盛,一觞一咏,亦足以畅叙幽情。是日也,天朗气清,惠风和畅。仰观宇宙之大”、“,俯察品类之盛,所以游目骋怀,足以极视听之娱,信可乐也。”
当然,本申请实施例所提供的方法一般针对的为篇幅较长的长文本,此处只是示例性说明文本片段的划分方式,并不构成对本申请实施例中的待识别文本的限定。
另外,还需要说明的是,在上述示例中,在将待识别文本划分为多个文本片段时,将待识别文本中的标点符号也作为一个字符考虑在内,在具体实施时,也可以不将文本中的标点符合作为一个字符考虑在内。
当然,在上述步骤(1)中,除了按照字数将待识别文本划分为多个文本片段之外,也可以按照行数将待识别文本划分为多个文本片段,即所划分成的每个文本判断中都包含相同行数的文本内容;或者,若是待识别文本原本存在段落划分,也可以按照原来的段落划分将待识别文本划分为多个文本片段。
优选的,在本说明书实施例中可以按照字数将待识别文本划分为多个文本片段,这样可以保证划分得到的每个文本判断的长度相同,便于后续进行风险识别内容的确定。
具体的,在上述步骤(2)中,识别每个文本片段中是否具有风险词,具体包括:
将第一风险词库与各个文本片段进行匹配;其中,第一风险词库中存储有多个风险词。
其中,针对每个文本片段,可以将第一风险词库中所存储的各个风险词分别与该文本片段进行匹配,若是第一风险词库中存储的某一个或者多个风险词出现在该文本片段中,则认为该文本片段具有风险词。
通过上述方式,可以识别出待识别文本所划分成的多个文本片段中的每个文本片段中是否包含风险词,并且将包含有风险词的文本片段记为风险文本片段。
在本说明书实施例中,在识别出待识别文本中的所有风险文本片段后,则将待识别文本的风险文本片段作为待识别文本的风险识别内容输入值风险识别模型中进行风险识别。
在具体实施时,在使用风险识别模型进行风险识别时,风险识别模型对所输入的风险识别内容存在字数限制,因此,若是上述风险文本片段的总字数超过风险识别模型所能识别的字数上限后,则需要从所有的风险文本片段中选择部分风险文本片段作为风险识别内容进行识别。
因此,在本说明书实施例中,若上述风险文本片段的总字数超过第二设定字数;则上述步骤106中,将风险文本片段确定为风险识别内容,具体包括如下步骤(a)和步骤(b);
步骤(a)、基于各个风险文本片段中所包含的风险词所对应的匹配准确率,确定各个风险文本片段所对应的风险分值;其中,第一风险词库中存储有各个风险词所对应的匹配准确率;
步骤(b)、按照风险分值从高到低的顺序截取设定数量个风险文本片段作为风险识别内容;其中,设定数量个风险文本片段的总字数小于或等于第二设定字数。
其中,上述第二设定字数可以为风险识别模型所允许输入文本的字数的上限值。需要说明的是,在本说明书实施例中,第一设定字数与第二设定字数的数值可以相同,也可以不相同。本说明书实施例并不对此进行限定。
若是第一设定字数与第二设定字数的数值相同,则即认为文本的字数超过风险识别模型所允许输入的最大字数的文本即为长文本。
另外,需要说明的是,上述匹配准确率则指的是第一风险词库中的某个风险词与风险片段进行匹配时,匹配结果的准确率。例如,针对组合类风险词,如黑丝诱惑,则与风险片段进行匹配时,可能会将出现在该风险片段中的不同位置处的黑丝和诱惑确定为相匹配的词语。例如,在风险片段的第一行出现了黑丝两个字,在该风险片段的第五行出现了诱惑两个字,在进行匹配时,可能会认为在该风险片段中出现了黑丝诱惑这一风险词,但是,实际上在风险片段中并未出现黑丝诱惑这一风险词,因此,针对此类词语,则匹配的准确率可能会较低。
在具体实施时,可以预先在第一风险词库中存储各个风险词以及其对应的匹配准确率的对应关系。
例如,在具体实施时,若是某风险文本片段中包括风险词1、风险词2和风险词3,第一风险词库中所存储的风险词1所对应的匹配准确率记为准确率1、第一风险词库中所存储的风险词2所对应的匹配准确率记为准确率2、第一风险词库中所存储的风险词3所对应的匹配准确率记为准确率3,则根据准确率1、准确率2和准确率3确定该风险文本片段所对应的风险分值。
在一种具体实施方式中,上述步骤(a)中,基于各个风险文本片段中所包含的风险词所对应的匹配准确率,确定各个风险文本片段所对应的风险分值,具体包括:
针对每个风险文本片段,确定风险文本片段所对应的最高匹配准确率;基于最高匹配准确率,确定该风险文本片段所对应的风险分值。
具体的,在本说明书实施例中,若是某风险文本片段包括多个风险词,则可以从多个风险词所对应的匹配准确率中选取一个最高的匹配准确率,基于该最高的匹配准确率,确定该风险文本片段所对应的风险分值。
例如,继续沿用上例,若是上述准确率1、准确率2和准确率3中,准确率3的值最高,则根据准确率3确定该风险文本片段所对应的风险分值。
在具体实施时,可以直接将最高匹配准确率确定为该风险片段所对应的风险分值;若是风险分值为百分制,则可以将最高匹配准确率乘以一百所得到的值作为该风险片段所对应的风险分值;若是风险分值为十分制,则可以将最高匹配准确率乘以十所得到的值作为该风险片段所对应的风险分值。
当然,上述只是示例性的介绍了根据最高匹配准确率,确定风险文本片段所对应的风险分值的具体实现方式,当然,还可以根据最高匹配准确率通过其他方式确定风险文本片段所对应的风险分值,本说明书实施例不再一一列举。
另外,在本说明书实施例中,除了根据风险文本片段所包含的风险词中的最高匹配准确率确定该风险文本片段所对应的风险分值之外,还可以基于该风险文本片段所包含的风险词所对应的匹配准确率的平均值或者总和确定该风险文本片段所对应的风险分值。对于,如何确定风险分值本说明书实施例不再一一列举。
当确定出了各个风险文本片段所对应的风险分值后,可以按照风险分值从大到小的顺序对风险文本片段进行排序,按照从前到后的顺序截取设定数量个风行文本片段,将截取的设定数量个风险文本片段作为风险识别内容进行风险识别。
或者,还可以按照风险分值从小到大的顺序对风险文本片段进行排序,按照从后到前的顺序截取设定数量个风险文本片段,将截取的设定数量个风险文本片段作为风险识别内容进行风险识别。
需要说明的是,在本说明书实施例中,上述设定数量的具体取值与风险识别模型所允许输入的最大文本字数,以及各个风险文本片段所包含的字数有关系,总值,所选取的设定数量个风险文本片段的总字数不能超过风险识别模型所允许输入的最大文本字数。即在本说明书实施例中,上述设定数量个风险文本片段的总字数应该小于或等于第二设定字数。
在本说明书实施例中,所选取的风险分值最大的设定数量个风险文本片段,为风险较高的风险文本片段,因此,通过将风险分值最大的设定数量个风险文本片段作为风险识别内容使得对风险识别内容进行风险识别的结果更贴近于风险文本的识别结果,即使得风险识别结果的准确性更高。
图4为本说明书实施例提供的风险识别方法的方法流程图之四,图4所示的方法,至少包括如下步骤:
步骤402,确定待识别文本中的主题关键词集合,以及,确定待识别文本中所包含的风险词集合。
步骤404,计算上述主题关键词集合与风险词集合之间的相似度值。
步骤406,判断上述相似度值是否大于或等于设定阈值;若是,则执行步骤408,否则,执行步骤410。
步骤408,将待识别文本的主题内容确定为风险识别内容。
步骤410,按照设定规则将待识别文本划分为多个文本片段。
步骤412,识别每个文本片段中是否具有风险词;若具有,则执行步骤414。
步骤414,将该文本片段确定为风险文本片段。
步骤416,判断待识别文本中所有风险文本片段所对应的总字数是否大于或等于第二设定字数;若是,则执行步骤418;否则,执行步骤420。
步骤418,确定各待识别文本所对应的风险分值,并按照风险分值从高到低的顺序截取设定数量个风险文本片段作为风险识别内容。
步骤420,将识别出的风险文本片段确定为风险识别内容。
步骤422,将风险识别内容输入风险识别模型中。
步骤424,从风险识别模型获取风险识别内容所对应的风险分数。
步骤426,判断上述风险分数是否大于或等于设定分数值;若是,则执行步骤428;否则,执行步骤430。
步骤428,确定待识别文本为风险文本。
步骤430,确定待识别文本为非风险文本。
本说明书实施例提供的风险识别方法,在对超过第一设定字数的待识别文本进行风险识别时,先检测待识别文本的主题是否满足预设的风险条件;若是待识别文本的主题满足预设的风险识别条件,则认为待识别文本的风险内容出现在与主题相关的内容中,在这种情况下,为了提高风险识别效率,则直接对待识别文本的主题内容进行风险识别即可,识别效率较高;若是待识别文本的主题不满足预设的风险识别条件,则认为待识别文本的风险内容与主题内容无关,在这种情况下,为了提高对待识别文本的风险识别的准确性,则需要提取出待识别文本中的风险文本片段,基于风险文本片段对待识别文本进行风险识别;因此,本说明书实施例所提供的方法,可以同时兼顾风险识别的效率和准确性。
对应于本说明书实施例提供的方法,基于相同的思路,本说明书实施例还提供了一种风险识别装置,用于执行本说明书实施例提供的风险识别方法,图5为本说明书实施例提供的风险识别装置的模块组成示意图,图5所示的装置,包括:
检测模块502,用于检测待识别文本的主题是否满足预设的风险条件;其中,待识别文本的字数超过第一设定字数;
确定模块504,用于若待识别文本的主题满足预设的风险条件,则将待识别文本的主题内容确定为风险识别内容;若待识别文本的主题不满足预设的风险条件,则确定待识别文本中是否具有包含风险词的风险文本片段,若具有,则将风险文本片段确定为风险识别内容;
识别模块506,用于基于风险识别内容对待识别文本进行识别。
可选的,上述确定模块504,包括:
划分单元,用于按照设定规则将待识别文本划分为多个文本片段;
第一识别单元,用于识别每个文本片段中是否具有风险词;
第一确定单元,用于若文本片段中具有风险词,则将文本片段确定为风险文本片段。
可选的,上述第一识别单元,具体用于:
将第一风险词库与各个文本片段进行匹配;其中,第一风险词库中存储有多个风险词。
可选的,若上述风险文本片段的总字数超过第二设定字数;
上述确定模块504,还包括:
第二确定单元,用于基于各个上述风险文本片段中所包含的风险词所对应的匹配准确率,确定各个风险文本片段所对应的风险分值;其中,上述第一风险词库中存储有各个风险词所对应的匹配准确率;
截取单元,用于按照上述风险分值从高到低的顺序截取设定数量个风险文本片段作为上述风险识别内容;其中,上述设定数量个上述风险文本片段的总字数小于或等于上述第二设定字数。
可选的,上述第二确定单元,具体用于:
针对每个风险文本片段,确定风险文本片段所对应的最高匹配准确率;基于最高匹配准确率,确定风险文本片段所对应的风险分值。
可选的,上述检测模块502,包括:
第三确定单元,用于确定待识别文本中的主题关键词集合,以及,确定待识别文本中所包含的风险词集合;
匹配单元,用于对主题关键词集合与风险词集合进行相似度匹配;
第四确定单元,用于根据相似度匹配的结果确定待识别文本的主题是否满足预设的风险条件。
可选的,上述匹配单元,具体用于:
计算主题关键词集合与风险词集合之间的相似度值;
相应的,上述第四确定单元,具体用于:
将相似度值与设定阈值进行比对;若是相似度值大于或等于设定阈值,则确定待识别文本的主题满足预设的风险条件;否则,确定待识别文本的主题不满足预设的风险条件。
可选的,上述第三确定单元,具体用于:
将第二风险词库与待识别文本进行匹配;其中,第二风险词库中存储有多个风险词;将出现在待识别文本中的第二风险词库中的风险词添加至风险词集合中。
可选的,上述识别模块506,包括:
输入单元,用于将风险识别内容输入风险识别模型中;
获取单元,用于获取风险识别内容所对应的风险分数;
第二识别单元,用于基于风险分数确定待识别文本是否为风险文本。
本说明书实施例的风险识别装置还可执行图1-图4中风险识别装置执行的方法,并实现风险识别装置在图1-图4所示实施例的功能,在此不再赘述。
本说明书实施例提供的风险识别装置,在对超过第一设定字数的待识别文本进行风险识别时,先检测待识别文本的主题是否满足预设的风险条件;若是待识别文本的主题满足预设的风险识别条件,则认为待识别文本的风险内容出现在与主题相关的内容中,在这种情况下,为了提高风险识别效率,则直接对待识别文本的主题内容进行风险识别即可,识别效率较高;若是待识别文本的主题不满足预设的风险识别条件,则认为待识别文本的风险内容与主题内容无关,在这种情况下,为了提高对待识别文本的风险识别的准确性,则需要提取出待识别文本中的风险文本片段,基于风险文本片段对待识别文本进行风险识别;因此,本说明书实施例所提供的方法,可以同时兼顾风险识别的效率和准确性。
进一步地,基于上述图1至图4所示的方法,本说明书实施例还提供了一种风险识别设备,如图6所示。
风险识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对风险识别设备中的一系列计算机可执行指令信息。更进一步地,处理器601可以设置为与存储器602通信,在风险识别设备上执行存储器602中的一系列计算机可执行指令信息。风险识别设备还可以包括一个或一个以上电源603,一个或一个以上有线或无线网络接口604,一个或一个以上输入输出接口605,一个或一个以上键盘606等。
在一个具体的实施例中,风险识别设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对风险识别设备中的一系列计算机可执行指令信息,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令信息:
检测待识别文本的主题是否满足预设的风险条件;其中,待识别文本的字数超过第一设定字数;
若是,则将待识别文本的主题内容确定为风险识别内容;若否,则确定待识别文本中是否具有包含风险词的风险文本片段,若具有,则将风险文本片段确定为风险识别内容;
基于风险识别内容对待识别文本进行识别。
可选的,计算机可执行指令信息在被执行时,确定待识别文本中是否具有包含风险词的风险文本片段,包括:
按照设定规则将待识别文本划分为多个文本片段;
识别每个文本片段中是否具有风险词;若具有,则将文本片段确定为风险文本片段。
可选的,计算机可执行指令信息在被执行时,识别每个文本片段中是否具有风险词,包括:
将第一风险词库与各个文本片段进行匹配;其中,第一风险词库中存储有多个风险词。
可选的,计算机可执行指令信息在被执行时,若风险文本片段的总字数超过第二设定字数;
将风险文本片段确定为风险识别内容,包括:
基于各个风险文本片段中所包含的风险词所对应的匹配准确率,确定各个风险文本片段所对应的风险分值;其中,第一风险词库中存储有各个风险词所对应的匹配准确率;
按照风险分值从高到低的顺序截取设定数量个风险文本片段作为风险识别内容;其中,设定数量个风险文本片段的总字数小于或等于第二设定字数。
可选的,计算机可执行指令信息在被执行时,基于各个风险文本片段中所包含的风险词所对应的匹配准确率,确定各个风险文本片段所对应的风险分值,包括:
针对每个风险文本片段,确定风险文本片段所对应的最高匹配准确率;
基于最高匹配准确率,确定风险文本片段所对应的风险分值。
可选的,计算机可执行指令信息在被执行时,检测待识别文本的主题是否满足预设的风险条件,包括:
确定待识别文本中的主题关键词集合,以及,确定待识别文本中所包含的风险词集合;
对主题关键词集合与风险词集合进行相似度匹配;
根据相似度匹配的结果确定待识别文本的主题是否满足预设的风险条件。
可选的,计算机可执行指令信息在被执行时,对主题关键词集合与风险词集合进行相似度匹配,包括:
计算主题关键词集合与风险词集合之间的相似度值;
相应的,根据相似度匹配的结果确定待识别文本的主题是否满足预设的风险条件,包括:
将相似度值与设定阈值进行比对;
若是相似度值大于或等于设定阈值,则确定待识别文本的主题满足预设的风险条件;否则,确定待识别文本的主题不满足预设的风险条件。
可选的,计算机可执行指令信息在被执行时,确定待识别文本中所包含的风险词集合,包括:
将第二风险词库与待识别文本进行匹配;其中,第二风险词库中存储有多个风险词;
将出现在待识别文本中的第二风险词库中的风险词添加至风险词集合中。
可选的,计算机可执行指令信息在被执行时,基于风险识别内容对待识别文本进行识别,包括:
将风险识别内容输入风险识别模型中,获取风险识别内容所对应的风险分数;
基于风险分数确定待识别文本是否为风险文本。
本说明书实施例提供的风险识别设备,在对超过第一设定字数的待识别文本进行风险识别时,先检测待识别文本的主题是否满足预设的风险条件;若是待识别文本的主题满足预设的风险识别条件,则认为待识别文本的风险内容出现在与主题相关的内容中,在这种情况下,为了提高风险识别效率,则直接对待识别文本的主题内容进行风险识别即可,识别效率较高;若是待识别文本的主题不满足预设的风险识别条件,则认为待识别文本的风险内容与主题内容无关,在这种情况下,为了提高对待识别文本的风险识别的准确性,则需要提取出待识别文本中的风险文本片段,基于风险文本片段对待识别文本进行风险识别;因此,本说明书实施例所提供的方法,可以同时兼顾风险识别的效率和准确性。
进一步地,基于上述图1至图4所示的方法,本说明书实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为u盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
检测待识别文本的主题是否满足预设的风险条件;其中,待识别文本的字数超过第一设定字数;
若是,则将待识别文本的主题内容确定为风险识别内容;若否,则确定待识别文本中是否具有包含风险词的风险文本片段,若具有,则将风险文本片段确定为风险识别内容;
基于风险识别内容对待识别文本进行识别。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,确定待识别文本中是否具有包含风险词的风险文本片段,包括:
按照设定规则将待识别文本划分为多个文本片段;
识别每个文本片段中是否具有风险词;若具有,则将文本片段确定为风险文本片段。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,识别每个文本片段中是否具有风险词,包括:
将第一风险词库与各个文本片段进行匹配;其中,第一风险词库中存储有多个风险词。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,若风险文本片段的总字数超过第二设定字数;
将风险文本片段确定为风险识别内容,包括:
基于各个风险文本片段中所包含的风险词所对应的匹配准确率,确定各个风险文本片段所对应的风险分值;其中,第一风险词库中存储有各个风险词所对应的匹配准确率;
按照风险分值从高到低的顺序截取设定数量个风险文本片段作为风险识别内容;其中,设定数量个风险文本片段的总字数小于或等于第二设定字数。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,基于各个风险文本片段中所包含的风险词所对应的匹配准确率,确定各个风险文本片段所对应的风险分值,包括:
针对每个风险文本片段,确定风险文本片段所对应的最高匹配准确率;
基于最高匹配准确率,确定风险文本片段所对应的风险分值。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,检测待识别文本的主题是否满足预设的风险条件,包括:
确定待识别文本中的主题关键词集合,以及,确定待识别文本中所包含的风险词集合;
对主题关键词集合与风险词集合进行相似度匹配;
根据相似度匹配的结果确定待识别文本的主题是否满足预设的风险条件。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,对主题关键词集合与风险词集合进行相似度匹配,包括:
计算主题关键词集合与风险词集合之间的相似度值;
相应的,根据相似度匹配的结果确定待识别文本的主题是否满足预设的风险条件,包括:
将相似度值与设定阈值进行比对;
若是相似度值大于或等于设定阈值,则确定待识别文本的主题满足预设的风险条件;否则,确定待识别文本的主题不满足预设的风险条件。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,确定待识别文本中所包含的风险词集合,包括:
将第二风险词库与待识别文本进行匹配;其中,第二风险词库中存储有多个风险词;
将出现在待识别文本中的第二风险词库中的风险词添加至风险词集合中。
可选的,该存储介质存储的计算机可执行指令信息在被处理器执行时,基于风险识别内容对待识别文本进行识别,包括:
将风险识别内容输入风险识别模型中,获取风险识别内容所对应的风险分数;
基于风险分数确定待识别文本是否为风险文本。
本说明书实施例提供的存储介质存储的计算机可执行指令信息在被处理器执行时,在对超过第一设定字数的待识别文本进行风险识别时,先检测待识别文本的主题是否满足预设的风险条件;若是待识别文本的主题满足预设的风险识别条件,则认为待识别文本的风险内容出现在与主题相关的内容中,在这种情况下,为了提高风险识别效率,则直接对待识别文本的主题内容进行风险识别即可,识别效率较高;若是待识别文本的主题不满足预设的风险识别条件,则认为待识别文本的风险内容与主题内容无关,在这种情况下,为了提高对待识别文本的风险识别的准确性,则需要提取出待识别文本中的风险文本片段,基于风险文本片段对待识别文本进行风险识别;因此,本说明书实施例所提供的方法,可以同时兼顾风险识别的效率和准确性。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令信息实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令信息到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令信息产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令信息也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令信息产生包括指令信息装置的制造品,该指令信息装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令信息也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令信息提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令信息、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令信息的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。