文本识别方法和装置、存储介质及电子设备与流程

文档序号:23718048发布日期:2021-01-24 06:25阅读:来源:国知局

技术特征:
1.一种文本识别方法,其特征在于,包括:获取待识别的目标文本对应的目标词列表;利用所述目标词列表生成所述目标文本对应的目标文本向量;在已存储的文本聚类簇集合中查找与所述目标文本向量匹配的目标文本聚类簇,其中,所述文本聚类簇集合将被定期更新,且所述文本聚类簇集合中包括配置有文本类型标签的对象文本聚类簇,所述文本类型标签用于指示所述对象文本聚类簇为恶意聚类簇或非恶意聚类簇;在所述文本聚类簇集合中查找到所述目标文本聚类簇,且所述目标文本聚类簇对应的文本类型标签指示所述目标文本聚类簇为恶意聚类簇的情况下,将所述目标文本确定为异常文本。2.根据权利要求1所述的方法,其特征在于,所述在已存储的文本聚类簇集合中查找与所述目标文本向量匹配的目标文本聚类簇包括:在基于所述文本聚类簇集合构建的聚类图中进行查找,其中,在所述聚类图中,每个文本向量设置为一个元素,在同一个对象文本聚类簇中的文本向量对应的元素之间设置连线;在所述聚类图中查找到目标聚类中心向量的情况下,将所述目标聚类中心向量所指示的对象文本聚类簇,确定为所述目标文本聚类簇,其中,所述目标聚类中心向量与所述目标文本向量之间的距离大于目标距离阈值。3.根据权利要求2所述的方法,其特征在于,在基于所述文本聚类簇集合构建的聚类图中查找所述目标文本向量包括:根据与所述文本聚类簇集合对应的索引列表中记录的索引关系,从所述文本聚类簇集合中确定出所述目标词列表中各个词所在的候选文本聚类簇,其中,所述索引关系为所述文本聚类簇集合中各个词与对象文本聚类簇之间的映射关系;在所述候选文本聚类簇对应的候选聚类图中进行查找。4.根据权利要求1所述的方法,其特征在于,在所述在已存储的文本聚类簇集合中查找与所述目标文本向量匹配的目标文本聚类簇之后,还包括:在所述文本聚类簇集合中并未查找到所述目标文本聚类簇的情况下,利用所述目标文本向量创建新的对象文本聚类簇;根据所述新的对象文本聚类簇更新所述文本聚类簇集合。5.根据权利要求4所述的方法,其特征在于,所述根据所述新的对象文本聚类簇更新所述文本聚类簇集合包括:在所述文本聚类簇集合中当前已存储的对象文本聚类簇的数量尚未达到目标数值的情况下,直接将所述新的对象文本聚类簇添加到所述文本聚类簇集合中;在所述文本聚类簇集合中当前已存储的对象文本聚类簇的数量达到所述目标数值的情况下,从所述文本聚类簇集合中剔除至少一个对象文本聚类簇,再将所述新的对象文本聚类簇添加到所述文本聚类簇集合中。6.根据权利要求5所述的方法,其特征在于,所述根据所述新的对象文本聚类簇更新所述文本聚类簇集合包括:在将所述新的对象文本聚类簇添加到所述文本聚类簇集合时,更新所述文本聚类簇集
合对应的两级索引列表,其中,所述两级索引列表包括一级索引列表及二级索引列表,其中,所述一级索引列表中记录有所述文本聚类簇集合中各个对象文本聚类簇对应的簇索引标识,与该簇索引标识所指示的对象文本聚类簇中包含的各个词在所述二级索引列表所在位置的位置指针之间的索引关系,所述二级索引列表中记录有所述文本聚类簇集合中出现的各个词与该词所在对象文本聚类簇对应的簇标识之间的索引关系。7.根据权利要求6所述的方法,其特征在于,所述更新所述文本聚类簇集合对应的两级索引列表包括:在剔除至少一个对象文本聚类簇的情况下,在所述一级索引列表中查找到所述至少一个对象文本聚类簇对应的各个词在所述二级索引列表所在位置的位置指针;将所述位置指针所指示的各个词分别所在的对象文本聚类簇剔除;在新增至少一个对象文本聚类簇的情况下,在所述二级索引列表中增加所述至少一个对象文本聚类簇中出现的各个词与该词所在对象文本聚类簇对应的簇标识之间的索引关系;在所述一级索引列表中创建所述至少一个对象文本聚类簇的簇索引标识,与该簇索引标识所指示的对象文本聚类簇中包含的各个词在所述二级索引列表所在位置的位置指针之间的索引关系。8.根据权利要求5所述的方法,其特征在于,所述将所述新的对象文本聚类簇添加到所述文本聚类簇集合中之前,包括:在所述新的对象文本聚类簇的出现频次大于第一阈值的情况下,将所述新的对象文本聚类簇上报给服务器,以使所述服务器对各个聚类设备上报的新的对象文本聚类簇进行汇聚;在所述服务器的汇聚结果指示所述新的对象文本聚类簇的簇大小大于第二阈值的情况下,为所述新的对象文本聚类簇分配簇标识。9.根据权利要求1至8中任一项所述的方法,其特征在于,所述获取待识别的目标文本对应的目标词列表包括:对所述目标文本执行预处理操作,以得到所述目标词列表,其中,所述预处理操作包括:分词操作、去除冗余字符操作、格式转换操作;所述利用所述目标词列表生成所述目标文本对应的目标文本向量包括:采用蒸馏后的语言向量转换模型,将所述目标文本转化为所述目标文本向量,其中,所述蒸馏后的语言向量转换模型中的网络层数小于原始的语言向量转换模型中的网络层数,所述语言向量转换模型为用于语言处理的编码表示模型。10.根据权利要求1至8中任一项所述的方法,其特征在于,在将所述目标文本确定为异常文本之后,还包括:定期从所述文本聚类簇集合中拉取目标时间段内处于热门状态的多个对象文本聚类簇;为所述多个对象文本聚类簇配置所述文本类型标签。11.根据权利要求1至8中任一项所述的方法,其特征在于,在将所述目标文本确定为异常文本之后,还包括:对发送所述异常文本的源账号或源ip地址执行以下至少一种操作:发送告警信息、终止使用权限。
12.根据权利要求1至8中任一项所述的方法,其特征在于,在将所述目标文本确定为异常文本之后,还包括:获取目标周期内识别出的所述异常文本的聚类信息,其中,所述聚类信息中至少包括所述异常文本的量级变化信息;将所述聚类信息以图表形式推送到各个客户端进行展示。13.一种文本识别装置,其特征在于,包括:获取单元,用于获取待识别的目标文本对应的目标词列表;生成单元,用于利用所述目标词列表生成所述目标文本对应的目标文本向量;查找单元,用于在已存储的文本聚类簇集合中查找与所述目标文本向量匹配的目标文本聚类簇,其中,所述文本聚类簇集合将被定期更新,且所述文本聚类簇集合中包括配置有文本类型标签的对象文本聚类簇,所述文本类型标签用于指示所述对象文本聚类簇为恶意聚类簇或非恶意聚类簇;识别单元,用于在所述文本聚类簇集合中查找到所述目标文本聚类簇,且所述目标文本聚类簇对应的文本类型标签指示所述目标文本聚类簇为恶意聚类簇的情况下,将所述目标文本确定为异常文本。14.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至12任一项中所述的方法。15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至12任一项中所述的方法。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1