本发明涉及噪声数据筛选技术领域,特别是涉及一种数据筛选方法、装置及终端。
背景技术:
近来,深度学习在自然语言处理、文本翻译等相关内容理解领域取得了突破性的进展。然而这些发展严重依赖于训练数据的规模,所以数据在将这些技术应用到实际生产环境中最主要的瓶颈。
以目前的数据分类任务为例,一般每一个标签需要的数据量是“千”这样的量级。传统的方法使用的是全监督数据训练模型,即首先需要获得足够的标注数据,然后再使用这部分标注数据训练模型。但是基于人工标注数据的方式在互联网数据中获得大规模标注数据存在如下不足:
第一、“千”量级的数据看似不多,但是待标注的数据的量却十分巨大。一般情况下10-20左右的标注数据中才存在一个训练数据,这就意味着每个标签需要的标注人力成本激增。
第二、一般标签体系相对来说十分庞大,这样对于每一个标签都采用人工标注的方法将消耗大量的人力资源。不仅如此,互联网环境中每天产生的数据源源不断,几乎不可能对所有的数据进行人工标注,标注难度大。
技术实现要素:
本发明实施例提供一种数据筛选方法、装置及终端,以解决现有技术中存在的对互联网环境中每天产生的数据进行标注后进行数据筛选,难度大且消耗人力成本高的问题。
依据本发明的一个方面,提供了一种数据筛选方法,其中,所述方法包括:从待筛选数据中提取多个噪声数据作为样本数据;对各所述样本数据进行变换处理,得到各所述样本数据的变换数据;通过预先训练好的图像分类模型,对各所述样本数据及各所述变换数据进行标签预测,确定各所述样本数据的目标标签和目标标签概率;根据各所述样本数据的目标标签及目标标签概率,对各所述样本数据进行筛选,获得目标数据库。
可选地,所述根据各所述样本数据的目标标签及目标标签概率,对各所述样本数据进行筛选,获得目标数据库的步骤,包括:将各所述样本数据按照目标标签进行分组;其中,每个分组对应一个目标标签;按照目标标签概率对同一分组中的样本数据进行排序;其中,排序在前的样本数据的目标标签概率值大;筛选得到各分组中排序在前的预设数量的样本数据,生成目标数据库。
可选地,所述通过预先训练好的图像分类模型,对各所述样本数据及各所述变换数据进行标签预测,确定各所述样本数据的目标标签和目标标签概率的步骤,包括:通过预先训练好的图像分类模型,对各所述样本数据和各所述变换数据进行标签预测,分别得到各所述样本数据以及各所述变换数据的标签识别结果;其中,标签识别结果包括:数据对应的各标签和每个标签对应的概率;针对每个样本数据,依据所述样本数据的标签识别结果,和所述样本数据的变换数据的标签识别结果,确定所述样本数据的目标标签和目标标签概率。
可选地,依据所述样本数据的标签识别结果,和所述样本数据的变换数据的标签识别结果,确定所述样本数据的目标标签和所述目标标签概率的步骤,包括:针对每个标签,将所述样本数据和所述样本数据的变换数据对应的所述标签的概率进行加权平均,得到所述标签的加权平均概率;确定各标签的加权平均概率中的最大值;将最大加权平均概率对应的标签,确定为所述样本数据的目标标签;将所述最大加权平均概率确定为所述样本数据的目标标签概率。
可选地,所述对各所述样本数据进行变换,得到各所述样本数据的变换数据的步骤,包括:对每个样本数据按照预设变换方式进行变换,得到各所述样本数据的变换数据;其中,预设变换方法包括以下至少之一:旋转、平移以及剪切。
根据本发明的另一方面,提供了一种数据筛选装置,其中,所述装置包括:提取模块,被配置为从待筛选数据中提取多个噪声数据作为样本数据;变换模块,被配置为对各所述样本数据进行变换处理,得到各所述样本数据的变换数据;确定模块,被配置为通过预先训练好的图像分类模型,对各所述样本数据及各所述变换数据进行标签预测,确定各所述样本数据的目标标签和目标标签概率;筛选模块,被配置为根据各所述样本数据的目标标签及目标标签概率,对各所述样本数据进行筛选,获得目标数据库。
可选地,所述筛选模块包括:分组子模块,被配置为将各所述样本数据按照目标标签进行分组;其中,每个分组对应一个目标标签;排序子模块,被配置为按照目标标签概率对同一分组中的样本数据进行排序;其中,排序在前的样本数据的目标标签概率值大;生成子模块,被配置为筛选得到各分组中排序在前的预设数量的样本数据,生成目标数据库。
可选地,所述确定模块包括:识别子模块,被配置为通过预先训练好的图像分类模型,对各所述样本数据和各所述变换数据进行标签预测,分别得到各所述样本数据以及各所述变换数据的标签识别结果;其中,标签识别结果包括:数据对应的各标签和每个标签对应的概率;标签确定子模块,被配置为针对每个样本数据,依据所述样本数据的标签识别结果,和所述样本数据的变换数据的标签识别结果,确定所述样本数据的目标标签和目标标签概率。
可选地,所述标签确定子模块具体被配置为:针对每个标签,将所述样本数据和所述样本数据的变换数据对应的所述标签的概率进行加权平均,得到所述标签的加权平均概率;确定各标签的加权平均概率中的最大值;将最大加权平均概率对应的标签,确定为所述样本数据的目标标签;将所述最大加权平均概率确定为所述样本数据的目标标签概率。
可选地,所述变换模块具体被配置为:对每个样本数据按照预设变换方式进行变换,得到各所述样本数据的变换数据;其中,预设变换方法包括以下至少之一:旋转、平移以及剪切。
根据本发明的再一方面,提供了一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现本发明中所述的任意一种数据筛选方法的步骤。
根据本发明的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明中所述的任意一种数据筛选方法的步骤。
与现有技术相比,本发明具有以下优点:
本发明实施例提供的数据筛选方案,定期进行数据筛选,筛选时从用户在两次筛选间隔内产生的数据即待筛选的数据中提取样本数据,对各样本数据进行变换以进行数据增广,通过增广后的数据和样本数据确定各样本数据的目标标签以及目标标签概率,根据各样本数据的目标标签及目标标签概率,对各样本数据进行筛选,获得目标数据库。本发明实施例提供的数据筛选方案,无需用户手动对待筛选数据逐一进行标记筛选,可依据计算机程序自动进行数据筛选,操作便捷且耗时短,既能够节省人力资源,又能够提升数据筛选效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明实施例一的一种数据筛选方法的步骤流程图;
图2是根据本发明实施例二的一种数据筛选方法的步骤流程图;
图3是根据本发明实施例三的一种数据筛选装置的结构框图;
图4是根据本发明实施例四的一种终端的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参照图1,示出了本发明实施例一的一种数据筛选方法的步骤流程图。
本发明实施例的数据筛选方法可以包括以下步骤:
步骤101:从待筛选数据中提取多个噪声数据作为样本数据。
本发明实施例提供的数据筛选方式,可以适用于对用户历史操作中所生成的大规模噪声数据进行筛选,噪声数据可以为图像。例如:不同用户上传图像至平台,服务器按照预设时间间隔定期对用户所产生的图像进行筛选,预设时间间隔内用户操作所生成的图像则为待筛选数据。预设时间间隔可以为一天、两天或者12个小时等,本发明实施例中对此不做具体显示。本发明实施例中对单次数据筛选流程进行说明,在具体实现过程中,每次数据筛选时均可执行本发明实施例中所述的流程。
本发明实施例中预先存在一个训练好的图像分类模型,该图像分类模型中包含多个标签,以及各标签对应的训练数据,当执行数据筛选操作时,需借助管理维护的预选训练好的图像分类模型,对数据进行标签预测。
从待筛选数据中提取的噪声数据个数,可以由本领域技术人员根据实际需求进行调整。例如:可以提取千万或者亿数量级的噪声数据作为样本数据。从待筛选数据中提取噪声数据时,可以随机提取。
步骤102:对各样本数据进行变换处理,得到各样本数据的变换数据。
其中,对样本数据的变换方式可以包括但不限于:旋转、平移以及剪切等任意方式。
步骤103:通过预先训练好的图像分类模型,对各样本数据及各变换数据进行标签预测,确定各样本数据的目标标签和目标标签概率。
分别将各样本数据和各样本数据的变换数据,输入预先训练好的图像分类模型中进行标签预测,即可得到输入的各数据的标签识别结果。对于具体地依据已训练好的图像分类模型预测数据标签的具体方式,参照相关技术即可,本发明实施例中对此不做具体限制。
其中,每个数据的标签识别结果中包括:至少一个标签、以及各标签的概率;标签的概率越高,则说明数据属于该标签指示的数据类别的可能性越大。
确定一个样本数据的目标标签和目标标签概率时,可依据该样本数据和该样本数据的变换数据的标签识别结果,依据投票方式,确定出一个最终标签即目标标签。
步骤104:根据各样本数据的目标标签及目标标签概率,对各样本数据进行筛选,获得目标数据库。
在对样本数据进行筛选时,可以将各样本数据按照所属目标标签进行分组;然后从各分组中筛除出预设数量的数据,筛选得到的样本数据构成目标数据库。
通过本次数据筛选后,仅保留目标数据库库中的样本数据,对于被筛除的样本数据和待筛选数据中未被提取出作为样本数据的数据将被丢弃。目标数据库中的样本数据则可用于扩充图像分类模型。
预设数量可以由本领域技术人员根据实际需求进行设置,本发明实施例中对此不做具体限制。预设数量越小,则被筛除的样本数据数量越多,保留的样本数据量越少,相应地目标数据库中样本数据的精准度越高。
本发明实施例提供的数据筛选方法,定期进行数据筛选,筛选时从用户在两次筛选间隔内产生的数据即待筛选的数据中提取样本数据,对各样本数据进行变换以进行数据增广,通过增广后的数据和样本数据确定各样本数据的目标标签以及目标标签概率,根据各样本数据的目标标签及目标标签概率,对各样本数据进行筛选,获得目标数据库。本发明实施例提供的数据筛选方法,无需用户手动对待筛选数据逐一进行标记筛选,可依据计算机程序自动进行数据筛选,操作便捷且耗时短,既能够节省人力资源,又能够提升数据筛选效率。
实施例二
参照图2,示出了本发明实施例二的一种数据筛选方法的步骤流程图。
本发明实施例的数据筛选方法具体可以包括以下步骤:
步骤201:从待筛选数据中提取多个噪声数据作为样本数据。
用户在历史操作过程中可实时向平台上上传噪声数据例如图像,管理该平台的后台服务器可定期对用户历史操作过程中生成的噪声数据进行筛选。筛选周期可由本领域技术人员根据实际需求进行设置。相邻两次筛选间隔中用户操作生成的噪声数据则为待筛选数据。
具体实现过程中,可从待筛选数据中随机提取多个噪声数据作为样本数据,提取的样本数据的数量可以为千万量级或者亿量级。例如:平台中用户每日生成的噪声数据数量为几十亿,但由于数据库容量有限,则需要提取几亿或者几千万个噪声数据作为样本数据,丢弃其余未被提取的噪声数据。
其中,提取出的样本数据可构成一个数据库,数据库可表示为:dbnoise。
步骤202:对各样本数据进行变换处理,得到各样本数据的变换数据。
对样本数据进行变换后,每个样本数据对应一个或多个变换数据。
样本数据可表示为:sampleiori,变换数据可表示为:sampleitrans。
优选地,针对一个样本数据,样本数据和该样本数据对应的变换数据的总个数为奇数。
步骤203:通过预先训练好的图像分类模型,对各样本数据和各变换数据进行标签预测,分别得到各样本数据以及各变换数据的标签识别结果。
在执行数据筛选流程前,需预先训练图像分类模型。训练好的图像分类模型中包含多个标签以及各标签对应的训练数据,训练数据为干净数据。对于基于训练数据来训练图像分类模型的具体方式,参照相关技术即可,本发明实施例中对此不做具体限制。图像分类模型的训练实质上是对模型参数的不断更新,直至图像分类模型收敛到预设标准。
例如:可以采用随机梯度下降法计算损失函数l(θ)对于图像分类模型中的参数θ的梯度
其中,标签识别结果包括:数据对应的各标签和每个标签对应的概率。样本数据和变换数据统称为数据,将数据输入图像分类模型进行标签预测,图像分类模型将输出所输入数据对应的标签识别结果。
图像分类模型可以通过如下方式对输入的数据进行标签预测:
首先,确定输入数据的特征图;
其次,将特征图进行降维处理,得到中间特征图;
再次,将中间特征图平均池化,得到中间特征图对应的特征向量;其中,特征向量中包含多个点,每个点对应一个标签以及一个概率,将概率非0的标签作为数据对应的标签为有效标签输出,并输出各有效标签对应的概率。
步骤204:针对每个样本数据,依据样本数据的标签识别结果,和样本数据的变换数据的标签识别结果,确定样本数据的目标标签和目标标签概率。
通过图像分类模型标签识别后,每个样本数据对应至少一个标签,本步骤中最终需要通过投票的方式,确定出各样本数据的唯一目标标签和目标标签概率。一种优选地通过投票方式确定样本数据的目标标签和目标标签概率的方式如下:
首先,针对每个样本数据的每个标签,将样本数据和样本数据的变换数据对应的该标签的概率进行加权平均,得到该标签的加权平均概率;
单个样本数据的单个标签的加权平均概率,可以通过如下公式计算:
其中,i为样本数据标识,j为标签标识,
其次,确定各标签的加权平均概率中的最大值;
最后,将最大加权平均概率对应的标签,确定为该样本数据的目标标签;将最大加权平均概率确定为该样本数据的目标标签概率。
重复执行该方式,可确定各样本数据的目标标签和目标标签概率。确定各样本数据的目标标签和目标标签概率后,根据各样本数据的目标标签及目标标签概率,对各样本数据进行筛选,获得目标数据库。具体筛选流程如步骤205至步骤
步骤205:将各样本数据按照目标标签进行分组。
其中,每个分组对应一个目标标签,每个分组中包含至少一个样本数据,对于各样本数据对应的变换数据直接丢弃即可,无需添加至分组中。
步骤206:按照目标标签概率对同一分组中的样本数据进行排序。
其中,排序在前的样本数据的目标标签概率值大。
步骤207:筛选得到各分组中排序在前的预设数量的样本数据,得到目标数据库。
其中,预设数量可以由本领域技术人员根据实际需求进行设置,本发明实施例中对此不做具体限制。
本步骤中对同一分组中的各样本数据的目标标签概率大小进行排序,在各分组中筛选出topk个样本数据,构成目标数据库。仅保留目标数据库中的样本数据,对于被筛除掉的样本数据和待筛选数据中未被提取出作为样本数据的噪声数据将被丢弃。目标数据库中的样本数据则可用于扩充训练图像分类模型。
本发明实施例提供的数据筛选方法,除具有实施例一中所示的数据筛选方法所具有的有益效果外,通过软投票的方式基于各标签的概率,确定样本数据的目标标签和目标标签概率,能够提升样本数据目标标签的准确性。
实施例三
参照图3,示出了本发明实施例三的一种数据筛选装置的结构框图。
本发明实施例的数据筛选装置可以包括:提取模块301,被配置为从待筛选数据中提取多个噪声数据作为样本数据;变换模块302,被配置为对各所述样本数据进行变换处理,得到各所述样本数据的变换数据;确定模块303,被配置为通过预先训练好的图像分类模型,对各所述样本数据及各所述变换数据进行标签预测,确定各所述样本数据的目标标签和目标标签概率;筛选模块304,被配置为根据各所述样本数据的目标标签及目标标签概率,对各所述样本数据进行筛选,获得目标数据库。
优选地,所述筛选模块304可以包括:分组子模块3041,被配置为将各所述样本数据按照目标标签进行分组;其中,每个分组对应一个目标标签;排序子模块3042,被配置为按照目标标签概率对同一分组中的样本数据进行排序;其中,排序在前的样本数据的目标标签概率值大;生成子模块3043,被配置为筛选得到各分组中排序在前的预设数量的样本数据,生成目标数据库。
优选地,所述确定模块303可以包括:识别子模块3031,被配置为通过预先训练好的图像分类模型,对各所述样本数据和各所述变换数据进行标签预测,分别得到各所述样本数据以及各所述变换数据的标签识别结果;其中,标签识别结果包括:数据对应的各标签和每个标签对应的概率;标签确定子模块3032,被配置为针对每个样本数据,依据所述样本数据的标签识别结果,和所述样本数据的变换数据的标签识别结果,确定所述样本数据的目标标签和目标标签概率。
优选地,所述标签确定子模块3032具体被配置为:针对每个标签,将所述样本数据和所述样本数据的变换数据对应的所述标签的概率进行加权平均,得到所述标签的加权平均概率;确定各标签的加权平均概率中的最大值;将最大加权平均概率对应的标签,确定为所述样本数据的目标标签;将所述最大加权平均概率确定为所述样本数据的目标标签概率。
优选地,所述变换模块302具体被配置为:对每个样本数据按照预设变换方式进行变换,得到各所述样本数据的变换数据;其中,预设变换方法包括以下至少之一:旋转、平移以及剪切。
本发明实施例的数据筛选装置用于实现前述实施例一、实施例二中相应的数据筛选方法,并具有与方法实施例相应的有益效果,在此不再赘述。
实施例四
参照图4,示出了本发明实施例四的一种用于筛选数据的终端的结构框图。
本发明实施例的终端可以包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现本发明中所述的任意一种数据筛选方法的步骤。
图4是根据一示例性实施例示出的一种数据筛选终端600的框图。例如,终端600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,终端600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(i/o)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在终端600的操作。这些数据的示例包括用于在终端600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为终端600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为终端600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述终端600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当终端600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(mic),当终端600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
i/o接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为终端600提供各个方面的状态评估。例如,传感器组件614可以检测到终端600的打开/关闭状态,组件的相对定位,例如所述组件为终端600的显示器和小键盘,传感器组件614还可以检测终端600或终端600一个组件的位置改变,用户与终端600接触的存在或不存在,装置600方位或加速/减速和终端600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于终端600和其他设备之间有线或无线方式的通信。终端600可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
在示例性实施例中,终端600可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行数据筛选方法,具体地数据筛选方法包括:从待筛选数据中提取多个噪声数据作为样本数据;对各所述样本数据进行变换处理,得到各所述样本数据的变换数据;通过预先训练好的图像分类模型,对各所述样本数据及各所述变换数据进行标签预测,确定各所述样本数据的目标标签和目标标签概率;根据各所述样本数据的目标标签及目标标签概率,对各所述样本数据进行筛选,获得目标数据库。
优选地,所述根据各所述样本数据的目标标签及目标标签概率,对各所述样本数据进行筛选,获得目标数据库的步骤,包括:将各所述样本数据按照目标标签进行分组;其中,每个分组对应一个目标标签;按照目标标签概率对同一分组中的样本数据进行排序;其中,排序在前的样本数据的目标标签概率值大;筛选得到各分组中排序在前的预设数量的样本数据,生成目标数据库。
优选地,所述通过预先训练好的图像分类模型,对各所述样本数据及各所述变换数据进行标签预测,确定各所述样本数据的目标标签和目标标签概率的步骤,包括:通过预先训练好的图像分类模型,对各所述样本数据和各所述变换数据进行标签预测,分别得到各所述样本数据以及各所述变换数据的标签识别结果;其中,标签识别结果包括:数据对应的各标签和每个标签对应的概率;针对每个样本数据,依据所述样本数据的标签识别结果,和所述样本数据的变换数据的标签识别结果,确定所述样本数据的目标标签和目标标签概率。
优选地,依据所述样本数据的标签识别结果,和所述样本数据的变换数据的标签识别结果,确定所述样本数据的目标标签和所述目标标签概率的步骤,包括:针对每个标签,将所述样本数据和所述样本数据的变换数据对应的所述标签的概率进行加权平均,得到所述标签的加权平均概率;确定各标签的加权平均概率中的最大值;将最大加权平均概率对应的标签,确定为所述样本数据的目标标签;将所述最大加权平均概率确定为所述样本数据的目标标签概率。
优选地,所述对各所述样本数据进行变换,得到各所述样本数据的变换数据的步骤,包括:对每个样本数据按照预设变换方式进行变换,得到各所述样本数据的变换数据;其中,预设变换方法包括以下至少之一:旋转、平移以及剪切。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由终端600的处理器620执行以完成上述数据筛选方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。当存储介质中的指令由终端的处理器执行时,使得终端能够执行本发明中所述的任意一种数据筛选方法的步骤。
本发明实施例提供的终端,定期进行数据筛选,筛选时从用户在两次筛选间隔内产生的数据即待筛选的数据中提取样本数据,对各样本数据进行变换以进行数据增广,通过增广后的数据和样本数据确定各样本数据的目标标签以及目标标签概率,根据各样本数据的目标标签及目标标签概率,对各样本数据进行筛选,获得目标数据库。本发明实施例提供的数据筛选方案,无需用户手动对待筛选数据逐一进行标记筛选,可依据计算机程序自动进行数据筛选,操作便捷且耗时短,既能够节省人力资源,又能够提升数据筛选效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的数据筛选方案不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造具有本发明方案的系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的数据筛选方案中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。