一种确定样本标签的方法及装置与流程

文档序号:30645234发布日期:2022-07-05 22:53阅读:200来源:国知局
一种确定样本标签的方法及装置与流程

1.本发明实施例涉及机器学习技术领域,尤其涉及一种确定样本标签的方法、装置、计算设备及计算机可读存储介质。


背景技术:

2.随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。
3.在业务运维领域,经常需要根据业务一段时间的交易数据确定业务状态是否异常以及具体的异常时间。一般的做法是训练一个模型,将一段时间的交易数据输入该模型,该模型给出该段时间内的交易数据是否正常的结论。
4.模型的训练需要大量带有标签的样本,包括业务正常时上报的正样本和业务异常时上报的负样本。样本的标注工作全部由人力完成的话,无疑会耗费大量的人力,同时也会存在标注不准确的问题。
5.综上,提供一种确定样本标签的方法,提高样本标注的速度和准确度,节省人力。


技术实现要素:

6.本发明实施例提供一种确定样本标签的方法,提高样本标注的速度和准确度,节省人力。
7.第一方面,本发明实施例提供一种确定样本标签的方法,包括:
8.从连续时长的交易数据中划分出时长相同且具有时段属性的多个待标注样本;其中,待标注样本的时段属性是根据待标注样本所属时段对应的日期类型确定的;所述日期类型是通过日期对交易数据的波动效应进行划分的;
9.针对任一待标注样本,在所述待标注样本的时段属性为波动型时,根据所述待标注样本的相邻样本对所述待标注样本进行波动修正;其中,所述相邻样本为交易时间与所述待标注样本相邻且时段属性为非波动型的样本;
10.将与波动修正后的待标注样本的相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签。
11.通过对连续时长的交易数据进行划分,得到多个待标注样本,将多个待标注样本与已经标注好的少量已标注样本进行相似度的计算,从而确定待标注样本的标签。无需人力操作,提高了标注的速度。具体地,根据待标注样本所属时段对应的日期类型确定待标注样本的时段属性,充分考虑了不同的日期类型之间交易数据的差异。若待标注样本的时段属性为波动型时,则说明该待标注样本的交易数据本身具有波动效应。因此需要通过相邻的且时段属性为非波动型的相邻样本对该待标注样本进行波动修正,从而弱化波动效应。将与波动修正后的待标注样本的相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签,得到的相似度更加准确。
12.可选地,从连续时长的交易数据中划分出时长相同且具有时段属性的多个待标注样本,包括:
13.在连续时长的交易数据中,将具有相同的时段属性的交易数据按照交易时间的先后顺序进行拼接,得到多段拼接交易数据;
14.针对任一段拼接交易数据,划分出时长相同的多个待标注样本。
15.如此得到的任一待标注样本中包含的时间段均具有相同的时段属性。
16.可选地,根据所述待标注样本的相邻样本对所述待标注样本进行波动修正,包括:
17.确定所述待标注样本中交易数据存在突变的各突变时刻;
18.基于相邻样本中与各突变时刻对应的交易数据,确定波动修正系数;
19.针对任一突变时刻,根据相邻样本中所述突变时刻的交易数据和所述波动修正系数,对所述待标注样本中所述突变时刻的交易数据进行波动修正;
20.其中,通过如下公式确定所述波动修正系数:
[0021][0022]
j为所述待标注样本中突变时刻的起点,k为所述待标注样本中突变时刻的终点,m为所述待标注样本中的交易数据的个数;xi为所述相邻样本中的第i个交易数据;为所述相邻样本中所有交易数据的平均值。
[0023]
先确定各突变时刻,对突变时刻的交易数据进行波动修正,从而弱化波动效应。与各已标注样本计算的相似度会更加准确。
[0024]
可选地,根据相邻样本中所述突变时刻的交易数据和所述波动修正系数,对所述待标注样本中所述突变时刻的交易数据进行波动修正,包括:
[0025]
针对所述待标注样本中任一突变时刻的交易数据yi,获取所述相邻样本中所述突变时刻的交易数据xi,代入下列公式,得到所述待标注样本中所述突变时刻的波动修正和归一化处理后的交易数据zi:
[0026][0027]
其中,为所述待标注样本中所有交易数据的平均值。
[0028]
对待标注样本的突变时刻的交易数据进行波动修正和归一化处理,同时对非突变时刻的交易数据进行归一化处理,弱化波动效应的同时,使待标注样本的交易数据均落在[0,1]的范围内,与各已标注样本计算的相似度会更加准确。
[0029]
可选地,所述日期类型包括工作日类型、周末类型及假日类型;
[0030]
所述时段属性包括工作日类型对应的非波动型、周末类型对应的周末波动型及假日类型对应的假日波动型。
[0031]
可选地,还包括:
[0032]
在所述待标注样本的时段属性为非波动型时,对所述待标注样本进行归一化处理;将与归一化处理后的待标注样本的相似度满足所述第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0033]
如此,可以使时段属性为非波动型的待标注样本的交易数据均落在[0,1]的范围内,与各已标注样本计算的相似度会更加准确。
[0034]
可选地,将与波动修正后的待标注样本的相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签,包括:
[0035]
针对任一已标注样本,按照设定的平移规则对所述已标注样本进行多次时刻平移操作;
[0036]
针对任一次时刻平移操作,计算时刻平移操作后的已标注样本与波动修正后的待标注样本的相似度;将时刻平移操作对应的相似度满足第二预设条件的相似度确定为与所述已标注样本的相似度;
[0037]
将相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0038]
由于时间序列存在平行漂移的情况,即交易量的高峰发生的时刻存在一些提前或是滞后,若是直接将两条业务曲线进行相似度的计算,很容易计算得到的相似度较低,从而得到错误的标签结果。通过时刻平移操作,每次时刻平移操作均计算一次相似度,可以避免这种误判,得到正确的样本标注结果。
[0039]
可选地,将时刻平移操作对应的相似度满足第二预设条件的相似度确定为与所述已标注样本的相似度,包括:
[0040]
将各时刻平移操作对应的相似度中的最高相似度,确定为与所述已标注样本的相似度;
[0041]
将相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签,包括:
[0042]
将各已标注样本对应的相似度中的最高相似度对应的已标注样本的标签作为所述待标注样本的标签。
[0043]
可选地,根据所述待标注样本的相邻样本对所述待标注样本进行波动修正之前,还包括:
[0044]
将所述待标注样本划分为多个子样本序列;
[0045]
计算任意两个子样本序列的序列相似度,确定得到的多个序列相似度均不满足第三预设条件。
[0046]
在实际情况中,由于业务的特殊性,业务曲线会呈周期性的变化,例如,每2h出现一个波峰。若业务曲线出现周期性的变化,则可以说明该业务曲线是正常的,直接将其作为正样本加入已标注样本库,而无需再将其进行波动修正,然后计算与已标注样本的相似度,如此,可以大大简化算法,提高确定待标注样本的速度和正确率。
[0047]
可选地,计算任意两个子样本序列的序列相似度,包括:
[0048]
按照设定的平移规则对第一子样本序列进行多次时刻平移操作;
[0049]
针对任一次时刻平移操作,计算时刻平移操作后的第一子样本序列与第二子样本序列的序列待定相似度;所述第一子样本序列和所述第二子样本序列为所述多个子样本序列中任意不同的两个;
[0050]
根据多个待定序列相似度,确定出所述第一子样本序列与所述第二样本序列的序列相似度。
[0051]
考虑到时间序列的平行漂移,提高了确定两个子样本序列的序列相似度的准确性。
[0052]
可选地,还包括:
[0053]
若任意两个子样本序列之间的相似度均满足所述第三预设条件,则将所述待标注样本的标签设置为正常。
[0054]
可选地,所述平移规则为向左平移s和/或向右平移s,所述s每次加1,直至时刻平移操作后的第一子样本序列与所述第二子样本序列不具有相同时刻。
[0055]
时刻平移操作越多,得到的两个子样本序列的序列相似度的准确性越高。
[0056]
第二方面,本发明实施例还提供一种确定样本标签的装置,包括:
[0057]
确定单元,用于从连续时长的交易数据中划分出时长相同且具有时段属性的多个待标注样本;其中,待标注样本的时段属性是根据待标注样本所属时段对应的日期类型确定的;所述日期类型是通过日期对交易数据的波动效应进行划分的;
[0058]
处理单元,用于:
[0059]
针对任一待标注样本,在所述待标注样本的时段属性为波动型时,根据所述待标注样本的相邻样本对所述待标注样本进行波动修正;其中,所述相邻样本为交易时间与所述待标注样本相邻且时段属性为非波动型的样本;
[0060]
将与波动修正后的待标注样本的相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0061]
可选地,所述确定单元具体用于:
[0062]
在连续时长的交易数据中,将具有相同的时段属性的交易数据按照交易时间的先后顺序进行拼接,得到多段拼接交易数据;
[0063]
针对任一段拼接交易数据,划分出时长相同的多个待标注样本。
[0064]
可选地,所述处理单元具体用于:
[0065]
确定所述待标注样本中交易数据存在突变的各突变时刻;
[0066]
基于相邻样本中与各突变时刻对应的交易数据,确定波动修正系数;
[0067]
针对任一突变时刻,根据相邻样本中所述突变时刻的交易数据和所述波动修正系数,对所述待标注样本中所述突变时刻的交易数据进行波动修正;
[0068]
其中,通过如下公式确定所述波动修正系数:
[0069][0070]
j为所述待标注样本中突变时刻的起点,k为所述待标注样本中突变时刻的终点,m为所述待标注样本中的交易数据的个数;xi为所述相邻样本中的第i个交易数据;为所述相邻样本中所有交易数据的平均值。
[0071]
可选地,所述处理单元具体用于:
[0072]
针对所述待标注样本中任一突变时刻的交易数据yi,获取所述相邻样本中所述突
变时刻的交易数据xi,代入下列公式,得到所述待标注样本中所述突变时刻的波动修正和归一化处理后的交易数据zi:
[0073][0074]
其中,为所述待标注样本中所有交易数据的平均值。
[0075]
可选地,所述日期类型包括工作日类型、周末类型及假日类型;
[0076]
所述时段属性包括工作日类型对应的非波动型、周末类型对应的周末波动型及假日类型对应的假日波动型。
[0077]
可选地,所述处理单元还用于:
[0078]
在所述待标注样本的时段属性为非波动型时,对所述待标注样本进行归一化处理;将与归一化处理后的待标注样本的相似度满足所述第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0079]
可选地,所述处理单元具体用于:
[0080]
针对任一已标注样本,按照设定的平移规则对所述已标注样本进行多次时刻平移操作;
[0081]
针对任一次时刻平移操作,计算时刻平移操作后的已标注样本与波动修正后的待标注样本的相似度;将时刻平移操作对应的相似度满足第二预设条件的相似度确定为与所述已标注样本的相似度;
[0082]
将相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0083]
可选地,所述处理单元具体用于:
[0084]
将各时刻平移操作对应的相似度中的最高相似度,确定为与所述已标注样本的相似度;
[0085]
将相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签,包括:
[0086]
将各已标注样本对应的相似度中的最高相似度对应的已标注样本的标签作为所述待标注样本的标签。
[0087]
可选地,所述处理单元还用于:
[0088]
将所述待标注样本划分为多个子样本序列;
[0089]
计算任意两个子样本序列的序列相似度,确定得到的多个序列相似度均不满足第三预设条件。
[0090]
可选地,所述处理单元具体用于:
[0091]
按照设定的平移规则对第一子样本序列进行多次时刻平移操作;
[0092]
针对任一次时刻平移操作,计算时刻平移操作后的第一子样本序列与第二子样本序列的序列待定相似度;所述第一子样本序列和所述第二子样本序列为所述多个子样本序列中任意不同的两个;
[0093]
根据多个待定序列相似度,确定出所述第一子样本序列与所述第二样本序列的序
列相似度。
[0094]
可选地,所述处理单元还用于:
[0095]
若任意两个子样本序列之间的相似度均满足所述第三预设条件,则将所述待标注样本的标签设置为正常。
[0096]
可选地,所述平移规则为向左平移s和/或向右平移s,所述s每次加1,直至时刻平移操作后的第一子样本序列与所述第二子样本序列不具有相同时刻。
[0097]
第三方面,本发明实施例还提供一种计算设备,包括:
[0098]
存储器,用于存储计算机程序;
[0099]
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述任一方式所列的确定样本标签方法。
[0100]
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述任一方式所列的确定样本标签方法。
附图说明
[0101]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0102]
图1为本发明实施例提供的一种系统架构的示意图;
[0103]
图2为本发明实施例提供的同一种业务在工作日、周六日和端午节的业务曲线走势示意图;
[0104]
图3为本发明实施例提供的时间序列漂移的示意图;
[0105]
图4为本发明实施例提供的一种确定样本标签的方法示意图;
[0106]
图5a为本发明实施例提供的一种跨日期类型的待标注样本的确定方法的示意图;
[0107]
图5b为本发明实施例提供的一种切片拼接的示意图;
[0108]
图6为本发明实施例提供的一种对时段属性为波动型的待标注样本进行波动修正的示意图;
[0109]
图7为本发明实施例提供的采用方式一进行波动修正后的待标注样本与未经过波动修正的待标注样本的对比示意图;
[0110]
图8为本发明实施例提供的一种针对时间序列的平行漂移的修正方法的流程示意图;
[0111]
图9a为本发明实施例提供的采用本发明实施例提供的方法得到的两个工作日的相似度的示意图;
[0112]
图9b为本发明实施例提供的采用本发明实施例提供的方法得到的两个假日的相似度的示意图;
[0113]
图9c为本发明实施例提供的采用本发明实施例提供的方法得到的两个周末的相似度的示意图;
[0114]
图10为本发明实施例提供的一种确定样本标签的装置的结构的示意图;
[0115]
图11为本发明实施例提供的一种计算设备的结构的示意图。
具体实施方式
[0116]
为使本技术的目的、实施方式和优点更加清楚,下面将结合本技术示例性实施例中的附图,对本技术示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本技术一部分实施例,而不是全部的实施例。
[0117]
基于本技术描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术所附权利要求保护的范围。此外,虽然本技术中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
[0118]
需要说明的是,本技术中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本技术的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
[0119]
本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本技术实施例图示或描述中给出那些以外的顺序实施。
[0120]
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
[0121]
图1示例性的示出了本发明实施例所适用的一种系统架构,该系统架构可以为服务器100,包括处理器110、通信接口120和存储器130。
[0122]
其中,通信接口120用于与终端设备进行通信,收发该终端设备传输的信息,实现通信。
[0123]
处理器110是服务器100的控制中心,利用各种接口和路线连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
[0124]
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0125]
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
[0126]
图1所示的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0127]
针对有监督学习和半监督学习,都需要一定数量的标注样本,也就是说在训练模型的时候,全部或者部分数据需要带上相应的标签才能进行模型的训练。其中包括正样本和多样化的负样本。样本的标注工作若全部由人工完成,会耗费大量的人力,标注时间长,毕竟要训练一个准确有效的模型需要千万级的样本库。
[0128]
若仅由人工标注少量的样本,通过设计高效的规则和算法自动比较未标注样本与已标注样本的相似度,将相似度满足条件的已标注样本的标签作为未标注样本的标签,再让人工确认和审核,这样可以降低标注成本,减少人工耗费,节约大量时间。
[0129]
本发明实施例提供一种可能的确定样本标签的方法,获取任一待标注的一段时长的业务曲线,业务曲线的横坐标为时间,纵坐标为交易量。将该待标注的业务曲线与一段同样时长的已标注的业务曲线计算皮尔逊相似度,若相似度符合条件例如大于0.9则认为待标注的业务曲线的标签应与该已标注的业务曲线的标签相同,从而完成标注工作。
[0130]
但是上述方法存在如下问题:1、没有对待标注样本和已标注样本的日期类型做区分。在实际情况中,我们发现,同样是正常的业务曲线,曲线走势在不同的日期类型是不一样的。图2示出了同一种业务在工作日、周六日和端午节的业务曲线走势,可以看到,周末、节假日时,由于用户的生活习惯、工作习惯等的改变,业务曲线和工作日的业务曲线不同。因此,如果单纯的从两条时间序列曲线相似度维度判断是否归为同一类标签的样本明显是不合理的。例如,若已标注样本为工作日的正常的业务曲线(正样本),待标注样本为节假日的业务曲线,由于节假日本身的业务波动,待标注样本与已标注样本的相似度不高,那么就会将待标注样本标记为负样本(可能实际上待标注样本是正常的业务曲线),如此就会导致样本标注的错误,直接影响后续模型训练的准确率和召回率。
[0131]
2、在一些实际的情况下,时间序列也是会存在漂移的。例如图3所示,星期一、星期二和星期三的业务曲线的大致趋势是相同的,经过工作人员检查也都是正常的业务曲线。但是观察同比图可以清楚地看到,波峰的位置出现了左右漂移,也就是说,业务量出现突增的时间点不是一个固定的时间点,出现突增的时间点间隔了一段时间。或者,节假日的访问量高峰相较于工作日的访问量高峰会提前或滞后等等。如果星期一的业务曲线是已标注样本(正样本),星期二的业务曲线是待标注样本的话,直接比较二者的相似度,会发现二者的相似度并不高,那么就会将待标注样本(星期二的业务曲线)标记为负样本,如此同样会导致样本标注的错误,直接影响后续模型训练的准确率和召回率。
[0132]
为了解决上述问题,本发明实施例提供另一种可能的确定样本标签的方法,如图4所示,包括:
[0133]
步骤401,从连续时长的交易数据中划分出时长相同且具有时段属性的多个待标注样本。
[0134]
步骤402,针对任一待标注样本,在所述待标注样本的时段属性为波动型时,根据所述待标注样本的相邻样本对所述待标注样本进行波动修正;其中,所述相邻样本为交易时间与所述待标注样本相邻且时段属性为非波动型的样本。
[0135]
步骤403,将与波动修正后的待标注样本的相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0136]
在步骤401中,获取一段连续时长的交易数据,交易数据可以是交易总量、tps(transactions per second,每秒交易量)等,例如,获取某个业务连续一个月的每分钟的
交易总量、获取某个业务连续一个月的每小时的每秒交易量等。此处不一一列举。
[0137]
在连续时长的交易数据中划分出多个时长相同且具有时段属性的待标注样本。时段属性是根据待标注样本所属时段对应的日期类型确定的;所述日期类型是通过日期对交易数据的波动效应进行划分的。
[0138]
经过研究发现,一般来说,节假日和周末时,用户对某些业务的访问量会突增或突降,业务曲线波动性更大。那么节假日和周末对应的时段属性为波动型,工作日对应的时段属性为非波动型。还可以进行更加细致的划分,节假日对应的时段属性为假日波动型、周末类型对应的时段属性为周末波动型、工作日对应的时段属性为非波动型等,本发明实施例对此不作限制。
[0139]
对于任一待标注样本,其包含的时间段应具有相同的时段属性。例如获取一个月内每分钟的交易总量,将这些交易数据划分为多个待标注样本,每个待标注样本的时长为6个小时,将一天的24小时划分为0:00-6:00、6:00-12:00、12:00-18:00、18:00-24:00。按照这样的时段在连续时长的交易数据中进行划分得到的待标注样本一定具有相同的时段属性,例如2022年3月1日为工作日,那么2022年3月1日0:00-6:00的待标注样本的时段属性为非波动型、2022年3月1日6:00-12:00的待标注样本的时段属性为非波动型、2022年3月1日12:00-18:00的待标注样本的时段属性为非波动型、2022年3月1日18:00-24:00的待标注样本的时段属性为非波动型;例如2022年3月5日为周六,那么2022年3月1日0:00-6:00的待标注样本的时段属性为周末波动型、2022年3月5日6:00-12:00的待标注样本的时段属性为周末波动型、2022年3月5日12:00-18:00的待标注样本的时段属性为周末波动型、2022年3月5日18:00-24:00的待标注样本的时段属性为周末波动型。
[0140]
还有一种可能的情况,待标注样本的时段划分不是在同一天内,例如每个待标注样本的时长还是6个小时,分别为:2:00-8:00、8:00-14:00、14:00-20:00、20:00-下一天的2:00。这样就出现了跨日期的情况,如果相邻的两天是相同的时段属性,则可以进行拼接,若相邻的两天不是相同的时段属性,则需要继续向前或向后找到具有相同时段属性的一天进行拼接,从而得到的待标注样本中包含的时间段具有相同的时段属性。例如,2022年3月6日为周日,划分得到的待标注样本2022年3月6日2:00-8:00的待标注样本的时段属性为周末波动型、待标注样本2022年3月6日8:00-14:00的待标注样本的时段属性为周末波动型、待标注样本2022年3月6日14:00-20:00的待标注样本的时段属性为周末波动型、2022年3月6日20:00-24:00和2022年3月12日0:00-2:00拼接成一个待标注样本,其时段属性为周末波动型。
[0141]
图5a示意出了一种跨日期类型的待标注样本的确定方法,一个待标注样本具有361个交易数据,若当前工作日只有一个交易数据,往前一天是节日,则不取节日内的交易数据,而是继续向前找到相邻的工作日,取360个交易数据,进行拼接后,得到一段具有361个交易数据的时长为6h的待标注样本。
[0142]
可选地,日期类型为假日类型和周末类型对应的时段属性相同,均为波动型,那么就可能会出现周末的一段时间和节假日的一段时间拼接为同一个待标注样本。此处不作限制,这样的划分较为粗略,可能会导致后续的样本标注的准确率不高。
[0143]
可选地,可以按照如下方法得到时长相同且具有时段属性的多个待标注样本:在连续时长的交易数据中,将具有相同的时段属性的交易数据按照交易时间的先后顺序进行
拼接,得到多段拼接交易数据;针对任一段拼接交易数据,划分出时长相同的多个待标注样本。
[0144]
举个例子,时段属性包括工作日类型对应的非波动型、周末类型对应的周末波动型及假日类型对应的假日波动型。获取第二季度内每分钟的交易总量,参照日历按照时间的先后顺序将工作日全部切片拼接、参照日历按照时间的先后顺序将周末全部切片拼接、参照日历按照时间的先后顺序将节假日全部切片拼接,如此得到3段拼接交易数据,这3段拼接交易数据的任一段,包含的时间段的时段属性都是相同的,那么在任一段拼接交易数据中就可划分出时长相同且具有时段属性的多个待标注样本。图5b示出了一种可能的切片拼接的示意图。
[0145]
在上述实施例中,以待标注样本的时长为6h进行举例,不作为对本发明保护范围的限制。实际上,待标注样本可以为各种时长:3h、6h、7h、12h和24h等等。待标注样本的时长不能太长,否则计算量太大,耗时长;待标注样本的时长不能太短,因为如果某业务的访问量高峰持续超过2h,待标注样本为2h,则无法区分正样本和负样本。根据研究确定,待标注样本的时长为6h时,确定样本标签的准确率和速度较佳。本领域技术人员可以根据需要自行选择待标注样本的时长。
[0146]
若连续时长的交易数据为一段时长内的每分钟的交易总量,按照6h划分待标注样本,那么每个待标注样本可以看成是一段具有361个交易数据的向量。
[0147]
在步骤402中,针对任一待标注样本,在所述待标注样本的时段属性为波动型时,根据所述待标注样本的相邻样本对所述待标注样本进行波动修正。
[0148]
由于日期类型为周末类型和假日类型的业务曲线存在波动效应,即本身容易产生突增或者突降,而并非是业务异常,因此需要根据该待标注样本的相邻样本对该待标注样本进行波动修正,相邻样本的交易时间与待标注样本相邻且时段属性为非波动型。这里的相邻样本可以是待标注样本也可以是已标注样本,在此不作限制。
[0149]
例如某一待标注样本为2022年3月6日0:00-6:00,时段属性为波动型,那么选取相邻样本:2022年3月4日18:00-24:00的交易数据对待标注样本进行波动修正。或者相邻样本也可以为2022年3月7日0:00-6:00。
[0150]
具体的,下面介绍3种波动修正的方法。
[0151]
方式一、仅对突变时刻的交易数据进行波动修正
[0152]
图6示出了对时段属性为波动型的待标注样本进行波动修正的具体流程。包括:
[0153]
步骤601,确定所述待标注样本中交易数据存在突变的各突变时刻。
[0154]
步骤602,基于相邻样本中与各突变时刻对应的交易数据,确定波动修正系数。
[0155]
步骤603,针对任一突变时刻,根据相邻样本中所述突变时刻的交易数据和所述波动修正系数,对所述待标注样本中所述突变时刻的交易数据进行波动修正。
[0156]
对于一段时段属性为波动型的待标注样本来说,其包含了一段时间内的交易数据,交易数据发生突变时对应的时刻为突变时刻,因此确定突变时刻可以根据交易数据的大小来确定。以一段包含6h的待标注样本为例进行介绍,该待标注样本包含361个交易数据,通过361个交易数据的平均值和标准差确定某一交易数据是否发生突变,从而确定突变时刻。
[0157]
需要强调的是,在对各待标注样本进行波动修正时,各待标注样本的横坐标不再
是原先的时刻,例如:某一待标注样本原先是2022年3月6日12:00-18:00,在进行波动修正时,所有待标注样本的横坐标均为0:00-6:00,相邻样本也是如此。基于这样的认识,可以进行后续的波动修正。
[0158]
遍历待标注样本中的各交易数据yi,若yi<μ-3σ或yi>μ+3σ,则该交易数据对应的时刻为突变时刻。μ为各交易数据的平均值,σ为各交易数据的标准差。以上仅为示例,确定突变的交易数据的方法不止于上述方法,还可以仅根据平均值确定某一交易数据是否发生突变,从而确定突变时刻。例如若yi<0.5μ或yi>2μ,则该交易数据对应的时刻为突变时刻。本发明实施例对此不做限制。
[0159]
在相邻样本中找到突变时刻对应的交易数据,通过相邻样本中与各突变时刻对应的交易数据,确定波动修正系数。
[0160]
波动修正系数为:
[0161]
其中,j为待标注样本中突变时刻的起点,k为突变时刻的终点,假设在待标注样本中的第30-60个点为突变数据,那么在相邻样本确定第30-60个交易数据,从而确定波动修正系数。在上述公式中,m为整个待标注样本中的交易数据的个数。xi为所述相邻样本中的第i个交易数据;为所述相邻样本中所有交易数据的平均值。
[0162]
在确定波动修正系数后,针对任一突变时刻,都可根据相邻样本中所述突变时刻的交易数据和所述波动修正系数,对所述待标注样本中所述突变时刻的交易数据进行波动修正。
[0163]
具体的,经过修正后的交易数据zi通过如下公式确定:
[0164][0165]
只有突变时刻的交易数据通过上述公式进行了波动修正,非突变时刻的交易数据保持原来即可。
[0166]
图7示出了采用方式一进行波动修正后的待标注样本与未经过波动修正的待标注样本的对比示意图。可以看出,经过波动修正后,待标注样本的各交易数据中的突变数据经过了修正,更加平滑,消去了波动效应,如此得到的待标注样本能够更加准确地反映业务运行的正常与否。
[0167]
方式二、对突变时刻的交易数据进行波动修正和归一化处理,同时对非突变时刻的交易数据进行归一化处理
[0168]
相邻样本和待标注样本可能位于不同的区间,例如待标注样本中交易数据的区间为[200,300],而相邻样本中交易数据的区间为[50,100],为了波动修正的准确性,需要对相邻样本和待标注样本均进行归一化处理,使交易数据均落在[0,1]的范围内。
[0169]
那么就需对待标注样本的突变时刻的交易数据进行波动修正和归一化处理,同时对非突变时刻的交易数据进行归一化处理,对相邻样本的各交易数据进行归一化处理。
[0170]
具体的方法流程为:
[0171]
在待标注样本中确定突变时刻和非突变时刻。突变时刻的确定方法上文有过描述,在此不在赘述。非突变时刻即除了突变时刻之外的所有时刻。例如遍历待标注样本中的各交易数据yi,若yi<μ-3σ或yi>μ+3σ,则该交易数据对应的时刻为突变时刻,则若μ-3σ<yi<μ+3σ的交易数据对应的时刻为非突变时刻。
[0172]
针对所述待标注样本中的任一非突变时刻,对所述非突变时刻对应的交易数据进行归一化处理。经过归一化处理后的交易数据zi的确定公式为:
[0173][0174]
同理,按照上述方式可以对相邻样本的各交易数据进行归一化处理。
[0175]
针对所述待标注样本中任一突变时刻的交易数据yi,获取所述相邻样本中所述突变时刻的交易数据xi,代入下列公式,得到所述待标注样本中所述突变时刻的波动修正和归一化处理后的交易数据zi:
[0176][0177]
方式三、对待标注样本的所有交易数据进行波动修正和归一化处理
[0178]
不再区分突变数据和非突变数据,而是对所有交易数据进行波动修正和归一化处理。具体的波动修正方法和归一化处理方法在方式一和方式二中有过介绍,此处不再赘述。
[0179]
在待标注样本的时段属性为波动型时,进行上述处理,处理后的待标注样本就可与已标注样本库中的样本进行相似度的对比。
[0180]
在待标注样本的时段属性为非波动型时,也可以对待标注样本进行相应的处理后,再与已标注样本库中的样本进行相似度的对比。
[0181]
具体的,若时段属性为波动型的待标注样本采用方式一进行波动修正,那么时段属性为非波动型的待标注样本无需进行任何处理;若时段属性为波动型的待标注样本采用方式二进行波动修正,那么时段属性为非波动型的待标注样本需要进行归一化处理;若时段属性为波动型的待标注样本采用方式三进行波动修正,那么时段属性为非波动型的待标注样本需要进行归一化处理。
[0182]
在步骤403中,若待标注样本的时段属性为波动型,将与波动修正后的待标注样本的相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0183]
可选地,若待标注样本的时段属性为非波动型,则对所述待标注样本进行归一化处理;将与归一化处理后的待标注样本的相似度满足所述第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0184]
这里的已标注样本的时长应当与待标注样本相同,并且也应当经过与待标注样本同样的处理过程。例如,在已标注样本库中,均为时长为6h的正样本和负样本。若待标注样本采用方式二的处理方式进行波动修正,那么已标注样本也应该经过同样的处理过程:若该已标注样本的日期类型为工作日,则可对该已标注样本中的各交易数据进行归一化处
理,若该已标注样本的日期类型为假日或周末,则对突变时刻的交易数据做波动修正处理,对非突变时刻的交易数据做波动修正处理和归一化处理。经过处理后,加入已标注样本库。所以可以看出,已标注样本库中存在各种日期类型的已标注样本,待标注样本可以与任一已标注样本进行相似度的对比,而不必考虑已标注样本的日期类型或者时段属性是否与待标注样本一致。
[0185]
具体的确定待标注样本的标签的规则多种多样,在此列举以下几种:
[0186]
1、将待标注样本与已标注样本库中的各样本(包括正样本和负样本)分别进行相似度的比较,将相似度最大的已标注样本的标签作为待标注样本的标签;或者将相似度按大小排序前n的已标注样本中数量最多的样本的标签作为待标注样本的标签。
[0187]
举例来说,已标注样本库中包含10个样本(包括正样本和负样本),将待标注样本与这10个已标注样本分别计算相似度,得到10个相似度值,相似度最大的已标注样本的标签为正样本,则该待标注样本的标签为正样本。
[0188]
或者,取10个相似度值中按照大小进行排序的前5个相似度值,5个相似度值对应的已标注样本中有4个是正样本,1个是负样本,则该待标注样本的标签为正样本。
[0189]
2、由于已标注样本库中的负样本是多种多样的(因为业务异常的原因非常复杂和多样),将待标注样本与已标注样本中的负样本比较,相似度较低的话可能并不能够说明该待标注样本就是正样本。因此令待标注样本仅与正样本计算相似度,若相似度最高的相似度值满足预设阈值,则将该待标注样本的标签设置为正样本,若未满足预设阈值,则将该待标注样本的标签设置为负样本。
[0190]
举例来说,已标注样本库中有10个已标注样本,其中4个正样本,将待标注样本与4个正样本分别计算相似度,若相似度最高的相似度值为0.6,未满足预设阈值0.9,则将该待标注样本的标签设置为负样本,加入已标注样本库中。
[0191]
3、为了提高计算效率,节省计算时间,可以不与已标注样本库中的每个已标注样本均计算相似度。在计算相似度的过程中,只要出现任一相似度值满足预设阈值,则将该相似度值对应的已标注样本的标签作为待标注样本的标签。
[0192]
举例来说,已标注样本库中有10个已标注样本(包括正样本和负样本),将待标注样本与已标注样本按顺序计算相似度,当计算到第2个已标注样本时,得到的相似度值为0.95,满足预设阈值,该相似度值对应的已标注样本的标签为负样本,则将待标注样本的标签设置为负样本。
[0193]
以上仅为示例,实际的确定待标注样本的标签的规则可以根据情况进行各种变形,均应落在本发明实施例的保护范围之内。
[0194]
在计算两条业务曲线的相似度时(即计算待标注样本与任一已标注样本),可以计算两条曲线的欧式距离、余弦距离、皮尔逊相关系数等,本领域技术人员可以自由选择,本发明实施例对此不作限制。
[0195]
若计算余弦相似度,得到的余弦相似度的范围为[-1,1],相似度越高,则余弦值越大。
[0196]
由于时间序列存在平行漂移的情况,即交易量的高峰发生的时刻存在一些提前或是滞后,若是直接将两条业务曲线进行相似度的计算,很容易计算得到的相似度较低,从而得到错误的标签结果。
[0197]
为了解决上述问题,本发明实施例提供一种修正方法,将待标注样本与任一已标注样本进行相似度对比的方法进行了改进。
[0198]
如图8所示,包括:
[0199]
步骤801,针对任一已标注样本,按照设定的平移规则对所述已标注样本进行多次时刻平移操作;
[0200]
步骤802,针对任一次时刻平移操作,计算时刻平移操作后的已标注样本与波动修正后的待标注样本的相似度;将时刻平移操作对应的相似度满足第二预设条件的相似度确定为与所述已标注样本的相似度;
[0201]
在步骤801中,将已标注样本进行左右平移,已标注样本用w表示,待标注样本用z表示,s为平移的时刻数,例如,s大于等于0表示向右平移,s小于0表示向左平移,平移后,空缺的部分补0处理,超出待标注样本的部分交易数据删除。平移后得到的新的待标注样本w(s)可以用下式表示,其中,s∈[-360,360]:
[0202]
w=(w1,w2,...,wm)和z=(z1,z2,...,zm),令
[0203]
例如,当s=1时,已标注样本向右平移一个时刻,361个交易数据整体向右平移,左边补充一个0,右边删除了一个交易数据w
361
,w(s)的最后一个交易数据为w
360
;当s=2时,已标注样本向右平移2个时刻,361个交易数据整体向右平移,左边补充2个0,右边删除了2个交易数据w
361
和w
360
,w(s)的最后一个交易数据为w
359
;当s=-2时,已标注样本向左平移2个时刻,361个交易数据整体向左平移,右边补充2个0,左边删除了2个交易数据w1和w2,w(s)的第一个交易数据为w3。
[0204]
每次时刻平移操作都会得到新的已标注样本w(s),将时刻平移操作后的已标注样本w(s)与波动修正后的待标注样本z计算相似度(仅计算二者具有相同时刻的部分的相似度),以计算余弦相似度为例,可得如下的余弦相似度fs的计算公式:
[0205][0206]
将相似度满足第二预设条件的相似度确定为与所述已标注样本的相似度。具体可以为,令s=1,每次时刻平移操作后计算一个相似度,令s增加1后继续计算相似度,直至s=360,即时刻平移操作后的已标注样本与待标注样本不具有相同时刻时。再令s=-1,每次时刻平移操作后计算一个相似度,令s减少1后继续计算相似度,直至s=-360,即时刻平移操作后的已标注样本与待标注样本不具有相同时刻时。得到的多个相似度中取最大的相似度值为待标注样本与所述已标注样本的相似度。或者,在时刻平移的过程中,只要出现相似度值大于预设阈值的情况时,例如大于0.9,就不再平移,将此时得到的相似度值作为待标注
样本与所述已标注样本的相似度。
[0207]
在实际情况中,由于业务的特殊性,业务曲线会呈周期性的变化,例如,每2h出现一个波峰。若业务曲线出现周期性的变化,则可以说明该业务曲线是正常的,直接将其作为正样本加入已标注样本库,而无需再将其进行波动修正,然后计算与已标注样本的相似度,如此,可以大大简化算法,提高确定待标注样本的速度和正确率。
[0208]
具体的实现过程为:根据所述待标注样本的相邻样本对所述待标注样本进行波动修正之前,还包括:将所述待标注样本划分为多个子样本序列;计算任意两个子样本序列的序列相似度,确定得到的多个序列相似度均不满足第三预设条件。
[0209]
例如将一段6h的待标注样本划分为3个2h的子样本序列,计算任意两个子样本序列的序列相似度,例如得到的序列相似度分别为0.92、0.93和0.95,均大于0.9,满足第三预设条件,则该待标注样本为正样本。
[0210]
若得到的序列相似度中存在一个小于0.9的,则继续将该待标注样本进行波动修正,与已标注样本计算相似度,从而确定该待标注样本的标签。
[0211]
可选地,在计算任意两个子样本序列的序列相似度时,也可以考虑到平行漂移的情况,按照设定的平移规则对第一子样本序列进行多次时刻平移操作;
[0212]
针对任一次时刻平移操作,计算时刻平移操作后的第一子样本序列与第二子样本序列的序列待定相似度;所述第一子样本序列和所述第二子样本序列为所述多个子样本序列中任意不同的两个;根据多个待定序列相似度,确定出所述第一子样本序列与所述第二样本序列的序列相似度。
[0213]
平移规则为向左平移s和/或向右平移s,所述s每次加1,直至时刻平移操作后的第一子样本序列与所述第二子样本序列不具有相同时刻。
[0214]
这里的时刻平移操作与上文中介绍计算待标注样本和已标注样本的相似度时提到的时刻平移操作相同,方法类似,在此不作赘述。
[0215]
经过了波动修正和平移处理进行相似度的对比后,确定样本标签的准确率有明显上升,图9a示出了采用本发明实施例提供的方法得到的两个工作日的相似度。在未采用本发明实施例提供的方法之前,确定这两个工作日的相似度并不高,因为二者的波峰不完全重合,那么就会将样本标签进行错误的标记。采用本发明实施例提供的方法计算相似度,由于考虑到了时间序列的漂移情况,得到的二者的相似度为0.92,那么二者的样本标签相同。
[0216]
图9b示出了采用本发明实施例提供的方法得到的两个假日的相似度。在未采用本发明实施例提供的方法之前,确定这两个假日的相似度并不高,因为二者的波峰不完全重合,那么就会将样本标签进行错误的标记。采用本发明实施例提供的方法计算相似度,由于考虑到了时间序列的漂移情况,得到的二者的相似度为0.95,那么二者的样本标签相同。
[0217]
图9c示出了采用本发明实施例提供的方法得到的两个周末的相似度。在未采用本发明实施例提供的方法之前,确定这两个周末的相似度并不高,因为二者的波峰不完全重合,那么就会将样本标签进行错误的标记。采用本发明实施例提供的方法计算相似度,由于考虑到了时间序列的漂移情况,得到的二者的相似度为0.901,那么二者的样本标签相同。
[0218]
基于相同的技术构思,图10示例性的示出了本发明实施例提供的一种确定样本标签的装置的结构,该结构可以执行确定样本标签的流程。
[0219]
如图10所示,该装置具体包括:
[0220]
确定单元1001,用于从连续时长的交易数据中划分出时长相同且具有时段属性的多个待标注样本;其中,待标注样本的时段属性是根据待标注样本所属时段对应的日期类型确定的;所述日期类型是通过日期对交易数据的波动效应进行划分的;
[0221]
处理单元1002,用于:
[0222]
针对任一待标注样本,在所述待标注样本的时段属性为波动型时,根据所述待标注样本的相邻样本对所述待标注样本进行波动修正;其中,所述相邻样本为交易时间与所述待标注样本相邻且时段属性为非波动型的样本;
[0223]
将与波动修正后的待标注样本的相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0224]
可选地,所述确定单元1001具体用于:
[0225]
在连续时长的交易数据中,将具有相同的时段属性的交易数据按照交易时间的先后顺序进行拼接,得到多段拼接交易数据;
[0226]
针对任一段拼接交易数据,划分出时长相同的多个待标注样本。
[0227]
可选地,所述处理单元1002具体用于:
[0228]
确定所述待标注样本中交易数据存在突变的各突变时刻;
[0229]
基于相邻样本中与各突变时刻对应的交易数据,确定波动修正系数;
[0230]
针对任一突变时刻,根据相邻样本中所述突变时刻的交易数据和所述波动修正系数,对所述待标注样本中所述突变时刻的交易数据进行波动修正;
[0231]
其中,通过如下公式确定所述波动修正系数:
[0232][0233]
j为所述待标注样本中突变时刻的起点,k为所述待标注样本中突变时刻的终点,m为所述待标注样本中的交易数据的个数;xi为所述相邻样本中的第i个交易数据;为所述相邻样本中所有交易数据的平均值。
[0234]
可选地,所述处理单元1002具体用于:
[0235]
针对所述待标注样本中任一突变时刻的交易数据yi,获取所述相邻样本中所述突变时刻的交易数据xi,代入下列公式,得到所述待标注样本中所述突变时刻的波动修正和归一化处理后的交易数据zi:
[0236][0237]
其中,为所述待标注样本中所有交易数据的平均值。
[0238]
可选地,所述日期类型包括工作日类型、周末类型及假日类型;
[0239]
所述时段属性包括工作日类型对应的非波动型、周末类型对应的周末波动型及假日类型对应的假日波动型。
[0240]
可选地,所述处理单元1002还用于:
[0241]
在所述待标注样本的时段属性为非波动型时,对所述待标注样本进行归一化处理;将与归一化处理后的待标注样本的相似度满足所述第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0242]
可选地,所述处理单元1002具体用于:
[0243]
针对任一已标注样本,按照设定的平移规则对所述已标注样本进行多次时刻平移操作;
[0244]
针对任一次时刻平移操作,计算时刻平移操作后的已标注样本与波动修正后的待标注样本的相似度;将时刻平移操作对应的相似度满足第二预设条件的相似度确定为与所述已标注样本的相似度;
[0245]
将相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签。
[0246]
可选地,所述处理单元1002具体用于:
[0247]
将各时刻平移操作对应的相似度中的最高相似度,确定为与所述已标注样本的相似度;
[0248]
将相似度满足第一预设条件的已标注样本的标签作为所述待标注样本的标签,包括:
[0249]
将各已标注样本对应的相似度中的最高相似度对应的已标注样本的标签作为所述待标注样本的标签。
[0250]
可选地,所述处理单元1002还用于:
[0251]
将所述待标注样本划分为多个子样本序列;
[0252]
计算任意两个子样本序列的序列相似度,确定得到的多个序列相似度均不满足第三预设条件。
[0253]
可选地,所述处理单元1002具体用于:
[0254]
按照设定的平移规则对第一子样本序列进行多次时刻平移操作;
[0255]
针对任一次时刻平移操作,计算时刻平移操作后的第一子样本序列与第二子样本序列的序列待定相似度;所述第一子样本序列和所述第二子样本序列为所述多个子样本序列中任意不同的两个;
[0256]
根据多个待定序列相似度,确定出所述第一子样本序列与所述第二样本序列的序列相似度。
[0257]
可选地,所述处理单元1002还用于:
[0258]
若任意两个子样本序列之间的相似度均满足所述第三预设条件,则将所述待标注样本的标签设置为正常。
[0259]
可选地,所述平移规则为向左平移s和/或向右平移s,所述s每次加1,直至时刻平移操作后的第一子样本序列与所述第二子样本序列不具有相同时刻。
[0260]
基于相同的技术构思,本技术实施例提供了一种计算机设备,如图11所示,包括至少一个处理器1101,以及与至少一个处理器连接的存储器1102,本技术实施例中不限定处理器1101与存储器1102之间的具体连接介质,图11中处理器1101和存储器1102之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
[0261]
在本技术实施例中,存储器1102存储有可被至少一个处理器1101执行的指令,至
少一个处理器1101通过执行存储器1102存储的指令,可以执行上述确定样本标签方法的步骤。
[0262]
其中,处理器1101是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器1102内的指令以及调用存储在存储器1102内的数据,从而进行确定样本标签。可选的,处理器1101可包括一个或多个处理单元,处理器1101可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1101中。在一些实施例中,处理器1101和存储器1102可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
[0263]
处理器1101可以是通用处理器,例如中央处理器(cpu)、数字信号处理器、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0264]
存储器1102作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1102可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,ram)、静态随机访问存储器(static random access memory,sram)、可编程只读存储器(programmable read only memory,prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等等。存储器1102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器1102还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
[0265]
基于相同的技术构思,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行程序,计算机可执行程序用于使计算机执行上述任一方式所列的确定样本标签的方法。
[0266]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0267]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0268]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0269]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0270]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1