数据处理方法、装置、电子设备、介质及程序产品与流程

文档序号:31629047发布日期:2022-09-24 01:26阅读:55来源:国知局
数据处理方法、装置、电子设备、介质及程序产品与流程

1.本技术涉及机器学习技术领域,尤其涉及一种数据处理方法、装置、电子设备、介质及程序产品。


背景技术:

2.随着计算机技术的不断发展,人工智能(ai)技术也越发成熟,其中人工智能技术就涉及到机器学习的相关技术。
3.现有技术中,可以通过机器学习相关技术来对模型进行训练,训练得到的模型可以应用于对指定业务场景的文本数据进行分类预测。例如,获取目标对象的会话文本数据,并利用模型对该会话文本数据的风险进行分类,如对目标对象的会话文本数据中是否包含恶意文本的分类。实际构建训练集时,可能会存在当前业务场景下的所能采集到的样本数量较少的情况,若利用该小样本训练集对模型进行训练,容易导致模型训练过拟合,使得训练得到的模型的准确性低。


技术实现要素:

4.本技术实施例提供了一种数据处理方法、装置、电子设备、介质及程序产品,可以提高训练好的分类模型的准确性,进而通过训练好的分类模型也可以对文本数据进行更准确的分类预测。
5.一方面,本技术实施例提供了一种数据处理方法,该方法包括:
6.获取样本文本数据;该样本文本数据的数量小于样本指标数量;该样本文本数据携带分类标签;该样本文本数据包含n个子文本,n为正整数;
7.基于滑动窗口对n个子文本依次进行滑动切分,得到样本文本数据的多个候选文本数据;任一个候选文本数据包含n个子文本中任意连续的至少一个子文本;
8.基于样本文本数据对分类模型进行预训练,得到预训练的分类模型;
9.调用预训练的分类模型对多个候选文本数据进行分类预测,并根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据;
10.基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型;该训练好的分类模型用于对文本数据进行分类预测。
11.一方面,本技术实施例提供了一种数据处理装置,该装置包括:
12.获取模块,用于获取样本文本数据;该样本文本数据的数量小于样本指标数量;该样本文本数据携带分类标签;该样本文本数据包含n个子文本,n为正整数;
13.处理模块,用于基于滑动窗口对n个子文本依次进行滑动切分,得到样本文本数据的多个候选文本数据;任一个候选文本数据包含n个子文本中任意连续的至少一个子文本;
14.处理模块,还用于基于样本文本数据对分类模型进行训练,得到预训练的分类模型;
15.处理模块,还用于调用预训练的分类模型对多个候选文本数据进行分类预测,并
根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据;
16.处理模块,还用于基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型;该训练好的分类模型用于对文本数据进行分类预测。
17.一方面,本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,其中,存储器用于存储计算机程序,该计算机程序包括程序指令,处理器被配置用于调用该程序指令,执行上述方法中的部分或全部步骤。
18.一方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时,用于执行上述方法中的部分或全部步骤。
19.相应地,根据本技术的一个方面,提供了一种计算机程序产品或者计算机程序,该计算机程序产品或计算机程序包括程序指令,该程序指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该程序指令,处理器执行该程序指令,使得该计算机设备执行上述提供的数据处理方法。
20.本技术实施例中,可以获取样本文本数据,基于滑动窗口对n个子文本依次进行滑动切分,得到多个候选文本数据;该候选文本数据为对样本文本数据进行样本扩充得到的,从而可以增加样本数量,并规避因小样本训练集可能产生的过拟合问题;基于样本文本数据对分类模型进行预训练得到预训练的分类模型;调用预训练的分类模型对多个候选文本数据进行分类预测,并根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据;基于该预测准确性可以从候选文本数据中挑选出质量较高的目标文本数据;基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型;通过高质量的目标文本数据和样本文本数据可以对模型训练有正面效果,从而可提高该训练好的分类模型的预测准确性,进而通过训练好的分类模型也可以对文本数据进行更准确的分类预测。
附图说明
21.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1为本技术实施例提供的一种应用架构示意图;
23.图2为本技术实施例提供的一种数据处理方法的流程示意图;
24.图3为本技术实施例提供的一种数据处理方法的流程示意图;
25.图4a为本技术实施例提供的一种获取候选文本数据的场景示意图;
26.图4b为本技术实施例提供的一种获取候选文本数据的场景示意图;
27.图4c为本技术实施例提供的一种获取候选文本数据的场景示意图;
28.图5为本技术实施例提供的一种训练分类模型的流程示意图;
29.图6a为本技术实施例提供的一种应用分类模型的流程示意图;
30.图6b为本技术实施例提供的一种特征工程处理的流程示意图;
31.图7为本技术实施例提供的一种基于分类模型的风险预警的场景示意图;
32.图8为本技术实施例提供的一种数据处理装置的结构示意图;
33.图9为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
34.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
35.本技术实施例提出的数据处理方法实现于电子设备,该电子设备可以是服务器,也可以是终端。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。本技术实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
36.接下来,对本技术实施例的方案可能应用的技术领域中涉及的技术术语进行相关介绍:
37.一、人工智能:
38.本技术实施例涉及人工智能中的机器学习(machine learning,ml)技术领域,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。如可基于机器学习技术对本技术技术方案中的分类模型进行训练。
39.在一些实施例中,请参见图1,图1为本技术实施例提供的一种应用架构示意图,可以通过该应用架构执行本技术所提出的数据处理方法。如图1所示,可以包括电子设备,该电子设备中部署有待训练的分类模型;其中,电子设备可以获取样本集,该样本集包括样本文本数据,样本文本数据包括n个子文本,并利用样本文本数据对分类模型进行预训练,并对样本文本数据进行数据切分得到多个候选文本数据,实现样本集扩充,该数据切分可以基于滑动窗口实现,调用预训练的分类模型对该多个候选文本数据进行分类预测,以根据针对多个候选文本数据的预测结果从多个候选文本数据中选取目标文本数据,该预测结果表征了模型针对多个候选文本数据的预测准确性,基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型。
40.可以理解的是,图1只是示例性地表征本技术技术方案的可能存在的应用架构,并不对本技术技术方案的具体架构进行限定,即本技术技术方案还可以提供其他形式的应用架构。
41.可选的,在一些实施例中,电子设备可根据实际的业务需求,执行该数据处理方法以提高所获取模型的预测准确性。本技术技术方案可以应用于任意文本数据的分类场景中。例如文本数据可以是目标对象的会话文本数据,针对会话文本数据的分类可以是风险
分类,如目标对象是否接触恶意信息的分类(或可称恶意文本等)的分类,此时的分类结果比如可以指示已接触恶意信息或未接触恶意信息。可以理解的是,当分类结果指示已接触恶意信息时,可表示具有会话风险;当分类结果指示未接触恶意信息时,可表示不具有会话风险。电子设备可以获取携带风险分类标签的样本会话文本数据,按照本技术技术方案所提出的方法对样本会话文本数据进行样本扩充,并基于样本会话文本数据以及获得的候选会话文本数据一齐训练得到可以进行风险分类的分类模型。
42.又如,文本数据可以是目标对话的社交文本数据,针对社交文本数据的分类可以是情绪分类,如对目标对象的情绪倾向的分类(或可称情绪文本的分类),此时的分类结果比如可以为积极、消极等。电子设备可以获取携带情绪分类标签的样本社交文本数据,按照本技术技术方案所提出的方法对样本社交文本数据进行样本扩充,并基于样本社交文本数据以及获得的候选社交文本数据一齐训练得到可以进行情绪分类的分类模型。
43.可选的,本技术涉及的数据如样本文本数据、候选文本数据等,可以存储于数据库中,或者可以存储于区块链中,如通过区块链分布式系统存储,本技术不做限定。
44.需要说明的是,在本技术的具体实施方式中,涉及到用户信息等相关的数据,如在构建样本集时或模型实际应用时所需获取的用户数据(比如会话数据、社交数据等),当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
45.可以理解,上述场景仅是作为示例,并不构成对于本技术实施例提供的技术方案的应用场景的限定,本技术的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
46.本技术实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
47.基于上述的描述,本技术实施例提出了一种数据处理方法,该方法可以由上述提及的电子设备来执行。请参见图2,图2为本技术实施例提供的一种数据处理方法的流程示意图。如图2所示,本技术实施例的数据处理方法的流程可以包括如下:
48.s201、获取样本文本数据。
49.在一些实施例中,样本文本数据的数量小于样本指标数量。该样本指标数量可由人工设置,该样本指标数量可以用于区分小样本训练集和非小样本训练集。当一个样本集中的样本数量小于该样本指标数量时,则表示该样本集为小样本训练集。即所获取的样本文本数据属于小样本训练集。因此本技术可以通过样本文本数据对分类模型进行训练,实现小样本场景下的模型训练,基于本技术实施例所提出的训练方法可提高小样本场景下的模型训练效果和预测准确性。
50.在一些实施例中,样本文本数据可以是任意业务类型的文本,例如可以是会话文本数据(比如基于外呼机器人与样本对象(如用户)进行智能外呼时采集到的会话记录所转写得到的文本数据;该文本数据中对外呼机器人侧的会话和用户侧的会话已分别进行标记),或者还可以是社交文本数据(比如基于样本对象在社交应用上发表的评论信息所组合得到的文本数据),在此对样本文本数据的具体类型不做限定。另外,该样本文本数据可以是以任意语言形式构成的文本,例如以中文语言构成的文本,或者英文语言构成的文本,或
者是包含中文语言和英文语言的混合语言构成的文本。本技术并不对文档的形式进行限定。该样本文本数据可以包含至少一个句子,n为正整数;所谓句子是语言运用的基本单位,它由词、词组(短语)构成,能表达一个完整的意思,它的结尾一般会用上句号、问号、省略号、感叹号等标识符。
51.在一些实施例中,样本文本数据携带分类标签。该分类标签可以由相关业务人员根据样本文本数据和实际应用场景设置。例如,样本文本数据为样本会话文本数据,实际应用场景为对会话文本数据的风险预测,因此分类标签可以指示具体的风险分类,例如已接触恶意信息、未接触恶意信息。因此根据分类标签的不同,所训练的分类模型具有的分类功能不同。
52.在一些实施例中,每个样本文本数据可以包含一个或多个子文本,每个样本文本数据的子文本划分方式相同,此处以一个样本文本数据为例进行描述。设该一个样本文本数据包含n个子文本,n为正整数。电子设备可以按照预设划分规则对该样本文本数据进行划分得到所包含的n个子文本,其中,预设划分规则可以是按照样本文本数据中包括的分隔字符进行划分,该分隔字符可以由相关业务人员根据经验值设置,例如分隔字符可以是逗号、句号、感叹号等标识符。此时划分的子文本可以是组成样本文本数据的完整的一个句子,或者组成一个句子中的部分文字。预设划分规则还可以是按照指定文字长度进行划分,例如将样本文本数据中每10个字符划分为一个子文本,此时在划分时可以预先过滤或者不过滤样本文本数据中的指定字符,如指定标识符。在此对预设划分规则不做限定。
53.s202、基于滑动窗口对n个子文本依次进行滑动切分,得到样本文本数据的多个候选文本数据。
54.在一些实施例中,电子设备可以对样本文本数据进行数据切分得到样本文本数据的多个候选文本数据。该数据切分可以基于滑动窗口实现。如可以是基于滑动窗口对样本文本数据包含的子文本进行滑动切分。
55.在一些实施例中,获取每个样本文本数据的候选文本数据的过程和原理相同,此处以一个样本文本数据的确定过程为例进行描述。设该一个样本文本数据包含n个子文本数据。具体可以是,获取滑动窗口,该滑动窗口的窗口尺寸为m个子文本的尺寸,m为正整数;基于滑动窗口对n个子文本依次进行滑动切分,得到多个候选文本数据。其中,在切分到最后一个候选文本数据时,若此时剩余的子文本的数量小于m,可以直接将剩余的子文本作为候选文本数据;也可以是设置默认子文本以对剩余的子文本进行补充,使得补充后的剩余子文本的数量等于m,并将该补充后的剩余子文本作为候选文本数据。
56.需要说明的是,该滑动窗口可以是固定模型的窗口也可以是可变模型的窗口。即每次滑动时,滑动窗口对应的m可以是固定的,也可以是可变的。比如,每次滑动时,滑动窗口的窗口尺寸均为3个子文本的尺寸。又如,每次滑动时,滑动窗口的窗口尺寸依次为1个子文本的尺寸、3个子文本的尺寸、5个子文本的尺寸......等等。在此对滑动窗口的尺寸定义规则不做限定,具体可以由相关业务人员设置。因此,上述任一个候选文本数据可以包含该n个子文本中任意连续的至少一个子文本。可以理解的是,每次划分时的滑动窗口的长度可以不一致,具体根据m个子文本的尺寸确定。该m个子文本的尺寸基于具体包含的文字或字符数量确定。
57.因此在划分时是以子文本为粒度进行划分的,一个滑动窗口中的子文本可以得到
一个候选样本文本数据,该多个候选样本文本数据与对应的样本文本数据所包含的信息量不同。因此,通过该多个候选样本文本数据可以实现样本扩充,从而改善通过小样本数据对模型进行训练而带来的过拟合问题。
58.s203、基于样本文本数据对分类模型进行预训练,得到预训练的分类模型。
59.在一些实施例中,电子设备基于样本文本数据对分类模型进行预训练可以是通过样本文本数据包含的子文本对分类模型进行训练。因此,基于样本文本数据包含的子文本对分类模型进行预训练,得到预训练的分类模型可以是,基于样本文本数据包含的子文本获取样本文本数据对应的样本特征,并调用分类模型基于样本特征输出针对样本文本数据的分类结果,基于针对样本文本数据的分类结果和样本文本数据的分类标签生成针对预训练的分类模型的预测偏差,基于预测偏差修正该分类模型的模型参数,得到预训练的分类模型。其中,该样本特征可以包括一种或多种不同类型的特征,如可以包括无需通过分类模型获取的特征以及包括需要通过分类模型获取的特征。样本特征的获取方式具体可以由相关业务人员根据经验值设置,此处不做限定。预训练时所使用的样本特征类型与训练该预训练的分类模型时所使用的样本特征类型可以相同。该样本特征的具体获取方式可以参见下述实施例的相关描述。
60.s204、调用预训练的分类模型对多个候选文本数据进行分类预测,并根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据。
61.在一些实施例中,由于候选文本数据的信息量各式各样,因此候选文本数据对于模型训练的样本质量也不同。因此电子设备可以调用预训练的分类模型对多个候选文本数据进行分类预测,得到针对每个候选文本数据的预测结果,并基于该预测结果所表征的预测准确性确定目标文本数据,该目标文本数据为样本质量较高的样本,通过这部分目标文本数据去训练模型从而可以使得训练好的分类模型有更好的训练效果,以及可以实现半监督学习的方式训练模型,从而可以改善通过小样本数据对模型进行有监督训练时而导致的过拟合的情况。
62.在一些实施例中,多个候选文本数据中的任一个表示为目标候选文本数据,目标候选文本数据具有分类标签,预训练的分类模型对目标候选文本数据的分类预测结果包含对目标候选文本数据的预测类别和针对该预测类别的预测概率。因此根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据具体可以是,若针对目标候选文本数据的预测类别与目标候选文本数据的分类标签所指示类别相同,且针对目标候选文本数据的预测概率大于概率阈值,则确定预训练的分类模型对目标候选文本数据具有预测准确性,并确定目标候选文本数据是目标文本数据。该概率阈值可以由相关业务人员根据经验值设置,如0.9。
63.其中,该预测准确性可以衡量预训练的分类模型对于候选文本数据的预测表现。该预测概率可以理解为置信度,当预训练的分类模型可以以较高预测概率(可以理解为高于置信度阈值)预测出候选文本数据的预测类别且该预测类别是正确的时,则表示该预训练的分类模型具备一定能力可以预测出这类候选文本数据的正确结果,表示这类候选文本数据对于分类模型而言是高可信的,因此可以将该候选文本数据选取出来对模型进行训练,使模型可以学习到这类候选文本数据中的特征。
64.在一些实施例中,上述目标候选文本数据所具有的分类标签可以是与对应的样本文本数据相同的分类标签,也可以是按照样本文本数据的分类标签确定方式对目标候选文本数据进行分类标签确定而得到的。例如,样本文本数据a进行数据切分得到候选样本文本数据a.1和候选样本文本数据a.2,样本文本数据b进行数据切分得到候选样本文本数据b.1和候选样本文本数据b.2,因此候选样本文本数据a.1和候选样本文本数据a.2的分类标签同样本文本数据a,候选样本文本数据b.1和候选样本文本数据b.2的分类标签同样本文本数据b;或者,样本文本数据a和样本文本数据b按照指定方式进行分类标签的标注,候选样本文本数据a.1、候选样本文本数据a.2、候选样本文本数据b.1和候选样本文本数据b.2也按照该指定方式进行分类标签的标注。
65.s205、基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型。
66.其中,训练好的分类模型用于对文本数据进行分类预测。
67.在一些实施例中,电子设备基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型的过程可以同预训练的过程。其具体可以是,将样本文本数据和目标文本数据中的任一个表示为目标样本数据,获取目标样本数据的样本特征,调用预训练的分类模型基于该样本特征输出针对目标样本数据的分类结果,基于针对目标样本数据的分类结果和目标样本数据携带的分类标签生成针对预训练的分类模型的预测偏差,基于该预测偏差修正预训练的分类模型的模型参数,得到训练好的分类模型。进一步地,电子设备可以将多个候选文本数据中除目标文本数据以外的其余候选数据继续按照上述过程输入该训练好的分类模型进行分类预测,以得到其余候选数据的分类预测结果,并基于该分类预测结果从其余候选数据中再次挑选新的目标文本数据,并加入样本集中继续训练该训练好的分类模型。
68.此外,电子设备可以将样本文本数据和目标文本数据作为新的样本集,并将多个候选文本数据中除目标文本数据以外的数据作为新的候选集,并按照上述过程基于新的样本集和新的候选集对该训练好的分类模型继续进行迭代训练,直至模型表现没有明显提升即模型收敛,得到最终训练好的分类模型,如此基于小样本数据进行多轮次的半监督训练,可以实现样本扩充且保证样本质量,并使得所得到的分类模型有较好的泛化能力和更好的模型效果,并实现对文本数据的快速、精准分类。
69.本技术实施例中,可以获取样本文本数据,基于滑动窗口对n个子文本依次进行滑动切分,得到样本文本数据的多个候选文本数据;该候选文本数据为对样本文本数据进行样本扩充得到的,从而可以增加样本数量,并规避因小样本训练集可能产生的过拟合问题;基于样本文本数据对分类模型进行预训练,得到预训练的分类模型;调用预训练的分类模型对多个候选文本数据进行分类预测,并根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据;基于该预测准确性可以从候选文本数据中挑选出质量较高的目标文本数据;基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型;通过高质量的目标文本数据和样本文本数据可以对模型训练有正面效果,从而可提高该训练好的分类模型的预测准确性,进而通过训练好的分类模型也可以对文本数据进行更准确的分类预测。
70.请参见图3,图3为本技术实施例提供的一种数据处理方法的流程示意图,该方法
可以由上述提及的电子设备执行。如图3所示,本技术实施例中数据处理方法的流程可以包括如下:
71.s301、获取样本文本数据。
72.在一些实施例中,样本文本数据携带分类标签。该样本文本数据可以是任意类型的文本,以及分类标签可以是任何类型的标签。为了便于阐述,此处以对会话文本数据的风险进行分类为例进行说明。其中,当样本文本数据为样本会话文本数据时,可以是采集外呼机器人与不同用户之间的会话记录所转写的文本数据(即多轮对话文本,指一段根据上下文进行的连续的、达到特征目标的渐进式对话过程);也可以是相关人员与不同用户之间的会话记录所转写的文本数据;等等,在此对会话文本数据的构成不做限定。
73.在一些实施例中,由于会话记录包含用户的人为语言(如口语、语气词等),或者容易通讯对话中容易收到环境影响,从而导致所转写的文本数据容易出现转写错误、含有脏数据(例如无效字符)等情况,因此可以预先对样本文本数据进行预处理,再对预处理后的样本文本数据执行本技术实施例所指示过程。其中,该预处理可以是对样本文本数据进行去除脏数据、去掉停用词、对连续重复文本进行去重等处理,在此对预处理所包含的具体类型不做限定。
74.在一些实施例中,每个样本文本数据可以包含一个或多个子文本。设一个样本文本数据包括n个子文本。具体可以是检测样本文本数据中的分隔字符,并基于检测到的分隔字符将样本文本数据划分为n个子文本,也可以是基于定义的指定长度对样本文本数据进行划分所得到的数据(若划分至最后一个子文本,数量不足指定长度时,可以补充默认字符以使得最后一个子文本的尺寸满足指定长度)。
75.s302、基于滑动窗口对n个子文本依次进行滑动切分,得到样本文本数据的多个候选文本数据。
76.在一些实施例中,电子设备基于滑动窗口对每个样本文本数据进行滑动切分得到对应的候选文本数据的过程和原理相同。此处以一个样本文本数据确定候选文本数据的过程为例进行说明。电子设备确定样本文本数据的候选文本数据的过程可以是基于滑动窗口对该样本文本数据包含的n个子文本数据进行滑动切分的过程。该前述切分过程可以是结合“n-gram(n元语法,一种语言模型)”的思想进行设计的。该滑动窗口以子文本为粒度进行切分,滑动窗口的窗口尺寸为m个子文本的尺寸,当不同的连续m个子文本的尺寸变化时,对应滑动窗口的窗口尺寸也随之变化。
77.上述滑动窗口可以分为定窗口和可变窗口,也就是m为正整数,且m可以为固定值,也可以为变化值。当滑动窗口为定窗口时,需要定义窗口的大小c和步长i:窗口大小决定当前窗口能涵盖的数据量,步长决定滑动的距离,c和i均指示的是子文本的数量;即假设当前样本文本数据包含t个子文本时,则通过定窗口可以生成候选文本数据的数量k为:
[0078][0079]
其中,表示下取整符号(只要后面有小数忽略小数给定,例如的结果为3)。
[0080]
例如,样本文本数据包含16个子文本,窗口大小为3,步长为2,则通过滑动窗口所产生的候选文本数据为7,每个候选文本数据包括3个完整的子文本。
[0081]
当滑动窗口为可变窗口时,需要定义步长i,窗口大小会根据指定规则变化。例如可以是窗口起点固定、窗口终点从初始大小c0开始随步长i增长,此时通过可变窗口生成的候选文本数据的数量k为:
[0082][0083]
其中,表示上取整符号(只要后面有小数前面的整数就加1,例如的结果为4)。
[0084]
在一些实施例中,对n个子文本进行切分得到候选文本数据还可以是,按照滑动窗口对n个子文本进行滑动切分得到r个子文本集,并将r个子文本集进行组合以作为样本文本数据对应候选文本数据。其中,一个子文本集中所包含的数据会拼接为一个整体,以作为一个子文本。此时的候选文本数据与样本文本数据的数据内容不同。
[0085]
例如,如图4a-图4c所示,图4a-图4c为本技术实施例提供的一种获取候选文本数据的场景示意图;其中,如图4a:1)获取一个或多个样本文本数据,并基于指定规则1将每个样本文本数据进行划分,获取每个样本文本数据包含的子文本(每个样本文本数据的子文本数量可以不同也可以相同);2)将每个样本文本数据包含的子文本作为原始样本集,该原始样本集用于训练模型,以及可以按照同样的获取方法获取一部分文本数据以作为测试样本集;3)定义滑动窗口的相关参数;4)基于相关参数和指定规则2遍历每个样本文本数据包含的子文本并进行数据切分数据,得到多个候选文本数据;4)将多个候选文本数据作为候选样本集,根据原始样本集(还可以包括测试样本集)和候选样本集获得此次对分类模型进行训练的总样本集;
[0086]
基于上述(2):以一个样本文本数据(样本1)为例,如图4b中的(1)所示,指定规则1可以是基于分隔字符进行划分,即可以是根据样本1中的逗号和句号进行划分得到5个子文本;如图4b中的(2)所示,指定规则1可以是将过滤指定字符的文本数据按照指定长度进行划分,即可以是根据将过滤了分隔字符的样本1按照每5个字符进行划分,得到6个子文本;此时在划分至子文本6时,由于剩余字符数量不足,则可以补充字符以使子文本6包含5个字符;
[0087]
基于上述(4):如图4c中(1)所示,指定规则2可以是按照定窗口进行滑动切分,并将一个定滑动窗口中的子文本作为一个候选文本数据,即可以是根据窗口大小为3、步长为1对上述样本1的5个子文本进行划分,得到3个候选文本数据;在划分到最后一个候选文本数据时,若此时剩余的子文本的数量小于3,则可以将剩余的子文本直接作为候选文本数据,也可以是基于默认子文本对剩余子文本进行补充,使得补充后的剩余子文本的数量等于3,并将该补充后的剩余子文本作为候选文本数据;
[0088]
如图4c中(2)所示,指定规则2可以是按照可变窗口进行滑动切分,并将一个可变窗口中的子文本作为一个候选文本数据,即可以是根据步长为1,窗口终点的初始大小为3对上述样本1的5个子文本进行划分,得到3个候选文本数据;
[0089]
如图4c中(3)所示,指定规则2可以是按照定窗口进行滑动切分,并将每个定窗口中的子文本组合为候选文本数据,即可以是根据窗口大小为3、步长为2对上述样本1的5个子文本进行划分,得到2个子文本集,将一个子文本集中的数据拼接为一个子文本,并将2个
子文本集组合得到候选文本数据。
[0090]
在一些实施例中,当获取多个候选文本数据后,还可以确定该多个候选文本数据是否存在重复数据,并对多个候选文本数据进行去重操作。此时,确定多个候选文本数据的分类标签可以是按照同样本文本数据确定分类标签的方式进行标注。
[0091]
s303、基于样本文本数据对分类模型进行预训练,得到预训练的分类模型。其中,步骤s303的具体实施方式可以参见上述实施例的相关描述,此处不再赘述。
[0092]
s304、调用预训练的分类模型对多个候选文本数据进行分类预测,并根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据。
[0093]
在一些实施例中,电子设备可以调用预训练的分类模型对多个候选文本数据进行分类预测,得到针对每个候选文本数据的分类预测结果,并根据该分类预测结果所表征的预测准确性确定目标文本数据。
[0094]
在一些实施例中,多个候选文本数据中的任一个表示为目标候选文本数据,目标候选文本数据具有分类标签,该确定目标候选文本数据的分类标签的方式可以参见上述实施例的相关描述。设预训练的分类模型对目标候选文本数据的分类预测结果包含对目标候选文本数据的预测类别和针对该预测类别的预测概率,则根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据具体可以是,若预测类别与分类标签所指示类别相同,且预测概率大于概率阈值,则确定具有预测准确性,并将该目标候选文本数据作为目标文本数据。
[0095]
在一些实施例中,设预训练的分类模型对目标候选文本数据的分类预测结果包含对目标候选文本数据的预测类别,则根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据具体可以是,若针对目标候选文本数据的预测类别与目标候选文本数据的分类标签所指示类别相同,则确定预训练的分类模型对目标候选文本数据具有预测准确性,并确定目标候选文本数据是目标文本数据。
[0096]
s305、获取样本文本数据对应的第一样本特征和目标文本数据对应的第二样本特征,调用预训练的分类模型基于第一样本特征输出针对样本文本数据的第一分类结果以及基于第二样本特征输出针对目标文本数据的第二分类结果。
[0097]
在一些实施例中,样本文本数据对应的第一样本特征和目标文本数据对应的第二样本特征的处理方式和原理相同,此处以样本文本数据和目标文本数据中的任一个(表示为目标样本数据)为例。电子设备可以对目标样本数据进行特征工程处理得到对应的样本特征,并调用预训练的分类模型对样本特征进行预测以输出针对目标样本数据的分类结果。该特征工程处理可以由相关业务人员根据具体应用场景设置,所得样本特征可以包括针对目标样本数据的样本文本统计特征,和/或可以包括调用预训练的分类模型所生成的目标样本数据的样本文本特征。其中,样本文本统计特征可以包含以下至少一种:针对目标样本数据中字符的词性频率分布特征,针对目标样本数据中子文本的统计特征,或者,针对目标样本数据中分类关键词的统计特征。该不同样本特征中的多种特征的特征维度固定,即不同样本特征中的同一特征的特征维度相同,不同特征的特征维度可以相同也可以不同。
[0098]
在一些实施例中,电子设备调用预训练的分类模型对样本特征进行预测可以是,
将样本特征包括的多种特征依次拼接得到拼接样本特征,并调用预训练的分类模型对拼接样本特征进行预测。
[0099]
在一些实施例中,获取针对目标样本数据中字符的词性频率分布特征可以是对目标样本数据进行jieba(结巴)分词词性分析处理,得到目标样本数据中每个分词的词性,并根据每个分词的词性生成词性频率分布特征。例如,针对目标样本数据的分词集合l含有s个词,对于词性为类型tc的词语,其词性频率值f
tc
为:
[0100][0101]
其中,t(x)定义为获取输入分词x的词性的函数。
[0102]
因此,根据以上公式可以计算出多个词性频率值,并将该多个词性频率值拼接得到词性频率分布特征;或者也可以是将该词性频率值映射到指定范围内,并将每个词性频率值的映射值拼接得到词性频率分布特征。例如,动词频率为0.3、名词频率为0.1等,则词性频率分布特征为[0.3,0.1,...];或者,将词性频率映射到0-10之间,则动词频率的映射值为3、名词频率的映射值为1等,则词性频率分布特征为[3,1,...]。该词性频率分布特征的组成例如可以参见如下表1所示:
[0103][0104]
表1
[0105]
其中,可以根据具体的应用场景对多种词性进行取舍,例如对于词性频率值为0或小于预设阈值的词性可以舍去。此外,当会话文本数据基于外呼机器人与用户之间的会话记录得到时,外呼机器人侧的会话通常为指定对话模板,大量信息包含于用户的会话中,因此在计算词性频率分布特征时,还可以是从n个子文本中获取属于用户侧的目标子文本,并基于目标子文本确定词性频率分布特征。由于通过会话记录所转写得到的会话文本数据可能会存在上下文冲突(如用户一开始否认某行为,但是后续又承认某行为的情况)以及转写质量(如口语文本等)等问题,因此通过加入词性频率分布特征,可以有效地刻画口语文本特征,并抵消上下文冲突及语音转写时带来的文本问题,可以从侧重用户口语语言的角度补齐语义信息的失真和消除语义损失,从而使得在模型效果上有很大提升。
[0106]
在一些实施例中,获取针对目标样本数据中子文本的统计特征具体包括但不限于以下类型:基于子文本确定与用户的对话轮数、子文本的平均长度、子文本的长度标准差等等。可以理解的是,根据样本文本数据的类型不同,统计特征也可以不同。
[0107]
因此,可以计算出多种类型的统计结果,并将该多种统计结果拼接得到针对目标样本数据中子文本的统计特征。该统计特征的组成例如可以参见如下表2所示:
[0108][0109]
表2
[0110]
其中,大量信息包含于用户的会话中,因此在计算针对目标样本数据中子文本的统计特征时,部分统计特征还可以是获取属于用户侧的目标子文本,并基于目标子文本来确定的。具体规则可以由相关业务人员根据经验值设置。
[0111]
在一些实施例中,获取针对目标样本数据中分类关键词的统计特征具体可以是,获取指定的分类关键词(例如与风险相关的关键词,比如转账、风险应用名称等),并检测目标样本数据中是否包含前述分类关键词,根据检测结果生成针对每个分类关键词的one-hot编码(热独编码),将针对每个分类关键词的one-hot编码进行拼接,得到分类关键词的统计特征。该分类关键词可以有相关业务人员根据实际场景设置。以及针对分类关键词的one-hot编码生成规则可以由相关业务人员设置。示例性地,若目标样本数据包含分类关键词,则one-hot编码为第一数值;若不包含,则one-hot编码为第二数值等。例如,针对“转账”关键词,若包含则生成对应的one-hot编码为1,针对“风险应用名称”关键词,若不包含则生成对应对应的one-hot编码为0,并拼接得到统计特征为[1,0]。其中,该分类关键词的统计特征的组成例如可以参见如下表3所示:
[0112][0113]
表3
[0114]
其中,大量信息包含于用户的会话中,因此在计算分类关键词的统计特征时,还可以是获取属于用户侧的目标子文本,并确定目标子文本中是否包含分类关键词。具体规则可以由相关业务人员根据经验值设置。
[0115]
在一些实施例中,获取样本文本特征具体可以是,调用预训练的分类模型生成目标样本数据的文本向量,并将文本向量作为样本文本数据。其中,生成文本向量的方式可以是生成每个子文本的句向量,并根据每个子文本的句向量确定目标样本数据的文本向量;如可以是将每个子文本的句向量的平均向量作为文本向量,在此不做限定;或者也可以是生成子文本中每个分词的词向量,并根据每个分词的词向量确定对应子文本的句向量,并根据每个子文本的句向量确定目标样本数据的文本向量;如可以是将每个分词的词向量的平均向量作为对应子文本的句向量,在此不做限定;根据子文本的句向量确定文本向量的方式可以同上述描述。
[0116]
在一些实施例中,当生成文本向量的方式是调用预训练的分类模型生成每个子文
本的句向量时,可以是在分类模型构建特征生成层,该特征生成层包括句向量生成网络,该句向量生成网络可以是基于word2vec(word to vector,一种向量转换工具)的doc2vec(一种段落向量转化工具)的思想构建的;当生成文本向量的方式是调用预训练的分类模型生成每个分词的词向量时,可以是在分类模型构建特征生成层,该特征生成层包括词向量生成网络,该词向量生成网络可以是基于cbow(continuous bag-of-words,连续词袋模式)的word2vec,或基于skip-gram(跳字模式)的word2vec,或是基于全局矩阵分解的glove(global vectors for word representation,一种基于全局词频统计的词表征工具)的思想构建的。
[0117]
在一些实施例中,为了使目标样本数据的样本文本特征可以更好地涵盖语义信息,本技术技术方案中采用了200维的word2vec词向量特征,其具体过程可以是,获取目标样本数据对应的分词集合,并在分类模型中使用genism(一种自然语言处理库)训练200维的word2vec词向量,并基于训练完成的word2vec对分词集合进行向量转化,得到目标样本数据对应的词向量。该确定样本文本特征还可以有其他方式,在此不做限定。
[0118]
其中,由于样本文本数据中外呼机器人侧的会话通常为固定模板,因此可以预先设置外呼机器人侧的子文本对应的默认向量,在调用分类模型生成样本文本特征时,可以仅对用户侧的目标子文本进行向量转换,并基于针对目标子文本的转换向量和前述默认向量得到对应的样本文本特征。
[0119]
在一些实施例中,上述分类模型可以基于是任意模型结构和思想所构建的。分类模型可以包括特征预测层,特征预测层可以理解为是一个分类器,用于预测生成分类结果。当分类结果用于指示两种类别时,该分类器则为二分类器。电子设备可以根据具体的样本特征选取较为合适的模型思想以构建分类模型中的特征预测层。例如,若使用针对子文本的统计特征和词性频率分布特征时,可以使用传统机器学习模型,比如逻辑回归分类器、随机森林分类器或决策树分类器;若使用了样本文本特征,则可以使用rnn(recurrent neural network,循环神经网络)、lstm(long short-term memory,长短期记忆网络)、gru(gated recurrent unit,门控循环单元)等适用于文本数据特征的深度学习模型。本技术技术方案中选择双向lstm以构建分类模型中的特征预测层的模型结构。该分类模型还可以为其他模型结构,在此不做限定。
[0120]
s306、基于针对第一分类结果和第二分类结果生成针对预训练的分类模型的预测偏差,基于预测偏差修正预训练的分类模型的模型参数,得到训练好的分类模型。
[0121]
在一些实施例中,电子设备可以构建损失函数,并基于针对目标样本数据的分类结果和目标样本数据携带的分类标签生成针对预训练的分类模型的预测偏差,基于该预测偏差修正预训练的分类模型的模型参数,并通过不断迭代的半监督训练,得到训练好的分类模型。可以理解的是,分类模型的预训练过程同上述对预训练的分类模型进行训练的过程,其所使用的样本特征的具体类型也相同。
[0122]
例如,如图5所示,图5为本技术实施例提供的一种训练分类模型的流程示意图;其中,1)利用原始样本集(即一个或多个样本文本数据)对分类模型进行预训练,得到预训练的分类模型;2)调用预训练的分类模型对候选样本集(即多个候选文本数据)进行分类预测,得到每个候选文本数据的分类预测结果(包含预测类别以及预测概率);3)根据每个候选文本数据的分类预测结果所表征的预测准确性,将候选样本集分为高可信候选样本集合
和低可信候选样本集,其具体可以是:将对于预测类别的预测概率大于概率阈值的候选样本数据作为高可信候选样本集合,将对于预测类别的预测概率小于或等于概率阈值的候选样本数据作为低可信候选样本集合;4)从高可信候选样本集合中选取目标文本数据加入原始样本集,得到新的样本集,其具体可以是:将预测类别与分类标签所指示类别相同的候选文本数据作为目标文本数据;或者也可以是,对高可信候选样本集合进行随机抽样,并将抽取出的数据中,预测类别与分类标签所指示类别相同的候选文本数据作为目标文本数据;将候选样本集中除目标文本数据以外的候选文本数据作为新的候选样本集;5)基于新的样本集合和新的候选样本集继续从上述(1)开始执行,当多轮训练后所得到的分类模型的表现无明显提升,即分类模型针对测试样本集的多次预测结果基本无差异时,得到训练好的分类模型以及扩充的样本集(即此时用于训练模型的原始样本集)。后续可以通过该扩充的样本集对新的分类模型进行有监督的模型训练。
[0123]
在一些实施例中,以训练好的分类模型用于对文本数据(此处为会话文本数据)的风险进行分类为例,对分类模型的应用可以是,获取目标对象(比如目标对象)的会话文本数据,并获取会话文本数据的会话文本统计特征,调用训练好的分类模型生成会话文本数据的会话文本特征,并调用训练好的分类模型基于会话文本统计特征和会话文本特征,输出针对会话文本数据的风险分类结果,该风险分类结果可以指示会话文本数据具有会话风险或不具有会话风险。该会话文本数据可以通过外呼机器人对目标对象进行智能外呼得到。后续,若风险分类结果用于指示会话文本数据具有会话风险,则向目标对象进行预警,如进行人工干预。
[0124]
在一些实施例中,训练好的分类模型可以有多个,通过该多个训练好的分类模型输出的风险分类结果共同确定是否进行预警。该多个训练好的分类模型可以均按照上述过程进行训练得到,也可以是按照上述过程训练得到一个训练好的分类模型以及最终的扩充样本集,并利用该扩充样本集进行其余分类模型的训练。
[0125]
例如,如图6a所示,图6a为本技术实施例提供的一种应用分类模型的流程示意图;其中:1)获取会话文本数据,并对会话文本数据进行处理,得到会话文本数据包含的n个子会话文本数据;2)对n个子会话文本数据进行特征工程处理,得到用于分别输入多个训练好的分类模型(例如:“是否接触恶意信息”分类模型、“是否转账”分类模型等)的多个会话特征,其具体可以是:基于n个子会话文本数据获取会话文本统计特征,并分别调用多个训练好的分类模型生成针对每个训练好的分类模型的会话文本特征,将会话文本统计特征和针对每个训练好的分类模型的会话文本特征作为各自输入的会话特征;3)调用多个训练好的分类模型基于各自输入的会话特征进行预测,得到多个风险分类结果(例如:“已接触恶意信息”、“已转账”、“未下载风险应用”等);4)通过该多个风险分类结果确定会话文本数据是否具有会话风险以及是否进行预警(例如人工干预);
[0126]
上述对n个子会话文本数据进行特征工程处理的流程示意图可以如图6b所示;其中:1)确定针对会话文本数据中子会话文本数据的统计特征,如n个子会话文本数据中用户侧的子会话文本数据的平均长度;2)确定针对会话文本数据中字符的词性频率分布特征;3)针对会话文本数据中分类关键词的统计特征;
[0127]
4)调用训练好的分类模型生成会话文本数据的样本文本特征。
[0128]
又如,如图7所示,图7为本技术实施例提供的一种基于分类模型的风险预警的场
景示意图;其中,以对会话文本数据进行风险分类为例:
[0129]
获取预警数据,该预警数据可以包含目标对象的对象信息、风险来源等;该预警数据可以由上游业务设备生成并发送,也可以由电子设备检测并生成的;例如目标对象的终端中安装有安全防护程序,电子设备可以为该安全防护程序的后台设备,具备检测终端上的异常操作行为的权限,比如接听恶意来电;或者目标对象的终端中所安装的目标应用(如浏览器)嵌入有安全防护插件,电子设备可以为该安全防护插件的后台设备,具有检测目标应用上的异常操作行为的权限,比如浏览恶意网站;
[0130]
可以由电子设备或外呼设备中的智能语音模块基于预警数据对目标对象的终端发起智能外呼得到会话记录,并对会话记录进行处理,比如将该会话记录进行转写并显示,以及将转写后的会话内容拼接得到会话文本数据;不同的目标对象进行智能外呼的模板可以不同,具体可由相关业务人员设置;
[0131]
基于会话文本数据进行风险预测得到处理结果,比如:调用多个训练好的分类模型对会话文本数据进行分类预测,得到针对风险预测的多个分类预测结果(比如已转账,已接触恶意信息
……
),并基于多个分类预测结果确定是否需要风险预警(比如需要人工干预);
[0132]
因此,针对训练好的分类模型的整体处理流程可以包括:训练过程包括三个模块:样本预处理、特征工程处理、迭代半监督训练;应用过程包括一个模块:文本分类。其具体可以参见下述表4中的相关内容:
[0133]
[0134][0135]
表4
[0136]
本技术实施例中,可以获取样本文本数据,基于滑动窗口对n个子文本依次进行滑动切分,得到样本文本数据的多个候选文本数据;该候选文本数据为对样本文本数据进行样本扩充得到的,从而可以增加样本数量,并规避因小样本训练集可能产生的过拟合问题;基于样本文本数据对分类模型进行预训练,得到预训练的分类模型;调用预训练的分类模型对多个候选文本数据进行分类预测,并根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据;基于该预测准确性可以从候选文本数据中挑选出质量较高的目标文本数据;获取样本文本数据对应的第一样本特征和目标文本数据对应的第二样本特征,调用预训练的分类模型基于第一样本特征输出针对样本文本数据的第一分类结果以及基于第二样本特征输出针对目标文本数据的第二分类结果,基于针对第一分类结果和第二分类结果生成针对预训练的分类模型的预测偏差,基于预测偏差修正预训练的分类模型的模型参数,得到训练好的分类模型;通过高质量的目标文本数据和样本文本数据可以对模型训练有正面效果,从而可提高该训练好的分类模型的预测准确性,进而通过训练好的分类模型也可以对文本数据进行更准确的分类预测。
[0137]
请参见图8,图8为本技术提供的一种数据处理装置的结构示意图。需要说明的是,图8所示的数据处理装置,用于执行本技术图2和图3所示实施例的方法,为了便于说明,仅示出了与本技术实施例相关的部分,具体技术细节未揭示,经参照本技术图2和图3所示的实施例。该数据处理装置800可包括:处理模块801、获取模块802。其中:
[0138]
获取模块801,用于获取样本文本数据;该样本文本数据的数量小于样本指标数量;该样本文本数据携带分类标签;该样本文本数据包含n个子文本,n为正整数;
[0139]
处理模块802,用于基于滑动窗口对n个子文本依次进行滑动切分,得到样本文本数据的多个候选文本数据;任一个候选文本数据包含n个子文本中任意连续的至少一个子文本;
[0140]
处理模块802,还用于基于样本文本数据对分类模型进行训练,得到预训练的分类模型;
[0141]
处理模块802,还用于调用预训练的分类模型对多个候选文本数据进行分类预测,
并根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据;
[0142]
处理模块802,还用于基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型;训练好的分类模型用于对文本数据进行分类预测。
[0143]
在一些实施例中,获取模块801还用于:
[0144]
检测样本文本数据中的分隔字符;
[0145]
基于检测到的分隔字符将样本文本数据划分为n个子文本。
[0146]
在一些实施例中,多个候选文本数据中的任一个表示为目标候选文本数据,目标候选文本数据具有分类标签,预训练的分类模型对目标候选文本数据的分类预测结果包含对目标候选文本数据的预测类别和针对该预测类别的预测概率;
[0147]
处理模块802在用于根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据时,具体用于:
[0148]
若针对目标候选文本数据的预测类别与目标候选文本数据的分类标签所指示类别相同,且针对目标候选文本数据的预测概率大于概率阈值,则确定预训练的分类模型对目标候选文本数据具有预测准确性,并确定目标候选文本数据是目标文本数据。
[0149]
在一些实施例中,多个候选文本数据中的任一个表示为目标候选文本数据,目标候选文本数据具有分类标签,预训练的分类模型对目标候选文本数据的分类预测结果包含对目标候选文本数据的预测类别;
[0150]
处理模块802在用于根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据时,具体用于:
[0151]
若针对目标候选文本数据的预测类别与目标候选文本数据的分类标签所指示类别相同,则确定预训练的分类模型对目标候选文本数据具有预测准确性,并确定目标候选文本数据是目标文本数据。
[0152]
在一些实施例中,样本文本数据和目标文本数据中的任一个表示为目标样本数据;处理模块802在用于基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型时,具体用于:
[0153]
获取针对目标样本数据的样本文本统计特征;
[0154]
调用预训练的分类模型生成目标样本数据的样本文本特征;
[0155]
调用预训练的分类模型基于样本文本统计特征和样本文本特征,输出针对目标样本数据的分类结果;
[0156]
基于针对目标样本数据的分类结果和目标样本数据携带的分类标签生成针对预训练的分类模型的预测偏差;
[0157]
基于预测偏差修正预训练的分类模型的模型参数,得到训练好的分类模型。
[0158]
在一些实施例中,样本文本统计特征包含以下至少一种:针对目标样本数据中字符的词性频率分布特征,针对目标样本数据中子文本的统计特征,或者,针对目标样本数据中分类关键词的统计特征。
[0159]
在一些实施例中,训练好的分类模型用于对文本数据的风险进行分类;
[0160]
处理模块802还用于:
[0161]
获取目标对象的会话文本数据,并获取会话文本数据的会话文本统计特征;
[0162]
调用训练好的分类模型生成会话文本数据的会话文本特征;
[0163]
调用训练好的分类模型基于会话文本统计特征和会话文本特征,输出针对会话文本数据的风险分类结果;
[0164]
处理模块802还用于:
[0165]
若风险分类结果用于指示会话文本数据具有会话风险,则向目标对象进行预警。
[0166]
本技术实施例中,获取模块获取样本文本数据;处理模块基于滑动窗口对n个子文本依次进行滑动切分,得到样本文本数据的多个候选文本数据;处理模块基于样本文本数据对分类模型进行训练,得到预训练的分类模型;处理模块调用预训练的分类模型对多个候选文本数据进行分类预测,并根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据;处理模块基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型;该训练好的分类模型用于对文本数据进行分类预测。通过上述装置,候选文本数据为对样本文本数据进行样本扩充得到的,从而可以增加样本数量,并规避因小样本训练集可能产生的过拟合问题,基于预测准确性可以实现从候选文本数据中挑选出质量较高的目标文本数据,通过高质量的目标文本数据和样本文本数据可以对模型训练有正面效果,从而可提高该训练好的分类模型的预测准确性,进而通过训练好的分类模型也可以对文本数据进行更准确的分类预测。
[0167]
在本技术各个实施例中的各功能模块可以集成在一个模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现,本技术不做限定。
[0168]
请参见图9,图9为本技术实施例提供的一种电子设备的结构示意图。如图9所示,该电子设备900包括:至少一个处理器901、存储器902。可选的,该电子设备还可包括网络接口。其中,处理器901、存储器902以及网络接口之间可以交互数据,网络接口受处理器901的控制用于收发消息,存储器902用于存储计算机程序,该计算机程序包括程序指令,处理器901用于执行存储器902存储的程序指令。其中,处理器901被配置用于调用该程序指令执行上述方法。
[0169]
其中,存储器902可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,ram);存储器902也可以包括非易失性存储器(non-volatile memory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,ssd)等;存储器902还可以包括上述种类的存储器的组合。
[0170]
其中,处理器901可以是中央处理器(central processing unit,cpu)。在一个实施例中,处理器901还可以是图形处理器(graphics processing unit,gpu)。处理器901也可以是由cpu和gpu的组合。
[0171]
在一个可能的实施方式中,存储器902用于存储程序指令,处理器901可以调用该程序指令,执行以下步骤:
[0172]
获取样本文本数据;该样本文本数据的数量小于样本指标数量;该样本文本数据携带分类标签;该样本文本数据包含n个子文本,n为正整数;
[0173]
基于滑动窗口对n个子文本依次进行滑动切分,得到样本文本数据的多个候选文本数据;任一个候选文本数据包含n个子文本中任意连续的至少一个子文本;
[0174]
基于样本文本数据对分类模型进行预训练,得到预训练的分类模型;
[0175]
调用预训练的分类模型对多个候选文本数据进行分类预测,并根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据;
[0176]
基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型;该训练好的分类模型用于对文本数据进行分类预测。
[0177]
在一些实施例中,处理器901还用于:
[0178]
检测样本文本数据中的分隔字符;
[0179]
基于检测到的分隔字符将样本文本数据划分为n个子文本。
[0180]
在一些实施例中,多个候选文本数据中的任一个表示为目标候选文本数据,目标候选文本数据具有分类标签,预训练的分类模型对目标候选文本数据的分类预测结果包含对目标候选文本数据的预测类别和针对该预测类别的预测概率;
[0181]
处理器901在用于根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据时,具体用于:
[0182]
若针对目标候选文本数据的预测类别与目标候选文本数据的分类标签所指示类别相同,且针对目标候选文本数据的预测概率大于概率阈值,则确定预训练的分类模型对目标候选文本数据具有预测准确性,并确定目标候选文本数据是目标文本数据。
[0183]
在一些实施例中,多个候选文本数据中的任一个表示为目标候选文本数据,目标候选文本数据具有分类标签,预训练的分类模型对目标候选文本数据的分类预测结果包含对目标候选文本数据的预测类别;
[0184]
处理器901在用于根据预训练的分类模型针对多个候选文本数据的预测准确性,从多个候选文本数据中选取目标文本数据时,具体用于:
[0185]
若针对目标候选文本数据的预测类别与目标候选文本数据的分类标签所指示类别相同,则确定预训练的分类模型对目标候选文本数据具有预测准确性,并确定目标候选文本数据是目标文本数据。
[0186]
在一些实施例中,样本文本数据和目标文本数据中的任一个表示为目标样本数据;处理器901在用于基于样本文本数据和目标文本数据对预训练的分类模型进行训练,得到训练好的分类模型时,具体用于:
[0187]
获取针对目标样本数据的样本文本统计特征;
[0188]
调用预训练的分类模型生成目标样本数据的样本文本特征;
[0189]
调用预训练的分类模型基于样本文本统计特征和样本文本特征,输出针对目标样本数据的分类结果;
[0190]
基于针对目标样本数据的分类结果和目标样本数据携带的分类标签生成针对预训练的分类模型的预测偏差;
[0191]
基于预测偏差修正预训练的分类模型的模型参数,得到训练好的分类模型。
[0192]
在一些实施例中,样本文本统计特征包含以下至少一种:针对目标样本数据中字符的词性频率分布特征,针对目标样本数据中子文本的统计特征,或者,针对目标样本数据中分类关键词的统计特征。
[0193]
在一些实施例中,训练好的分类模型用于对文本数据的风险进行分类;
[0194]
处理器901还用于:
[0195]
获取目标对象的会话文本数据,并获取会话文本数据的会话文本统计特征;
[0196]
调用训练好的分类模型生成会话文本数据的会话文本特征;
[0197]
调用训练好的分类模型基于会话文本统计特征和会话文本特征,输出针对会话文本数据的风险分类结果;
[0198]
处理器901还用于:
[0199]
若风险分类结果用于指示会话文本数据具有会话风险,则向目标对象进行预警。
[0200]
具体实现中,上述所描述的装置、处理器、存储器等可执行上述方法实施例所描述的实现方式,也可执行本技术实施例所描述的实现方式,在此不再赘述。
[0201]
本技术实施例中还提供一种计算机(可读)存储介质,该计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行时,使处理器可执行上述方法实施例中所执行的部分或全部步骤。可选的,该计算机存储介质可以是易失性的,也可以是非易失性的。计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
[0202]
本技术实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令被处理器执行时可实现上述方法中的部分或全部步骤。
[0203]
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0204]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,前述的程序可存储于计算机存储介质中,该计算机存储介质可以为计算机可读存储介质,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0205]
以上所揭露的仅为本技术的部分实施例而已,当然不能以此来限定本技术之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本技术权利要求所作的等同变化,仍属于本技术所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1