技术特征:
1.一种文本检测的方法,其特征在于,所述方法包括:针对待检测文本,分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型,得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值;响应针对检测偏好值的配置操作,确定与配置操作对应的检测偏好值;其中,不同的检测偏好值对应不同的检测策略;根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值,确定所述待检测文本的检测结果。2.根据权利要求1所述的方法,其特征在于,所述检测偏好值包括偏好准确率和偏好召回率;所述响应针对检测偏好值的配置操作,确定与配置操作对应的检测偏好值,包括:响应针对偏好准确率和偏好召回率的选择操作,确定与选择操作对应的检测偏好值为偏好准确率或偏好召回率;其中,所述偏好准确率和所述偏好召回率对应不同的检测策略。3.根据权利要求2所述的方法,其特征在于,所述偏好准确率对应的所述检测策略包括第一阈值、第二阈值和公共阈值;所述偏好召回率对应的所述检测策略包括公共阈值。4.根据权利要求3所述的方法,其特征在于,所述根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值,确定所述待检测文本的检测结果,包括:若所述检测偏好值为所述偏好准确率,在满足以下任一条件时,将所述待检测文本确定为异常文本;所述第一预测值大于第一阈值;所述第二预测值大于第二阈值;所述第一预测值和所述第二预测值均大于公共阈值。5.根据权利要求3所述的方法,其特征在于,所述根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值,确定所述待检测文本的检测结果,包括:若所述检测偏好值为所述偏好召回率,且所述第一预测值大于公共阈值或者所述第二预测值大于公共阈值,将所述待检测文本确定为异常文本。6.根据权利要求1所述的方法,其特征在于,所述方法通过以下方式得到有限状态自动机:获取敏感词,并为各个敏感词设置对应的权重;其中,权重表征词汇的敏感程度;根据所述敏感词和该敏感词对应的权重,构建所述有限状态自动机。7.根据权利要求1所述的方法,其特征在于,所述方法通过以下方式得到文本分类模型:构建初始transformer模型,并对训练数据进行标注;使用标注的所述训练数据对所述初始transformer模型进行训练,直至达到预设的精度,得到所述文本分类模型。8.一种文本检测的装置,其特征在于,所述装置包括:处理模块,用于针对待检测文本,分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型,得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值;
配置模块,用于响应针对检测偏好值的配置操作,确定与配置操作对应的检测偏好值;其中,不同的检测偏好值对应不同的检测策略;检测模块,用于根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值,确定所述待检测文本的检测结果。9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的文本检测的方法的步骤。10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的文本检测的方法的步骤。
技术总结
本申请提供了一种文本检测的方法、装置、电子设备及存储介质,该方法包括:针对待检测文本,分别将所述待检测文本输入到预设的有限状态自动机和文本分类模型,得到有限状态自动机输出所述待检测文本的第一预测值和文本分类模型输出所述待检测文本的第二预测值;响应针对检测偏好值的配置操作,确定与配置操作对应的检测偏好值;其中,不同的检测偏好值对应不同的检测策略;根据与所述检测偏好值对应的检测策略、所述第一预测值和所述第二预测值,确定所述待检测文本的检测结果。本申请方法结合了敏感词检测和文本分类,通过对二者的结果进行分析,确定出待检测文本的检测结果,提高了检测的准确性。了检测的准确性。了检测的准确性。
技术研发人员:李文举 吴一超 卞豪 支蕴倩
受保护的技术使用者:北京匠数科技有限公司
技术研发日:2022.12.06
技术公布日:2023/1/3