一种数据检测方法及装置与流程

文档序号:33002789发布日期:2023-01-18 01:47阅读:40来源:国知局
一种数据检测方法及装置与流程

1.本发明涉及金融科技(fintech)领域,尤其涉及一种数据检测方法及装置。


背景技术:

2.随着计算机技术的发展,越来越多的技术(例如:区块链、云计算或大数据)应用在金融领域,传统金融业正在逐步向金融科技转变,大数据技术也不例外,但由于金融、支付行业的安全性、实时性要求,也对大数据技术提出了更高的要求。
3.nlp(natural language processing,自然语言处理)是实现人与计算机之间通信的方法。通过自然语言处理可以对数据进行异常检测。具体的,获取待检测字段,根据预设编码方式对待检测字段进行编码计算,得到待检测向量;然后计算待检测向量和质心向量的相似度,进而根据相似度确定待检测字段是否异常。其中,质心向量是根据正样本中各字段预先计算得到的,用于对待检测向量进行数据检测。预设编码方式可以为one-hot,tfidf,n-gram等。
4.然而,通过预设编码方式得到的向量仅能表示出字段所存在的字段值,由于数据经过了编码得到向量,然后通过相似度来识别异常,对于具体哪个字段出现异常是不清楚的,导致对待检测数据进行异常检测时,检测结果准确率低,数据出现异常等情况。


技术实现要素:

5.本发明实施例提供一种数据检测方法及装置,用于增加编码向量表示字段的准确性、完整性和全面性。提高数据检测的准确率,保证数据异常检测的准确性。
6.第一方面,本发明实施例提供一种数据检测方法,包括:
7.获取待检测字段;
8.根据预设编码字典对所述待检测字段进行编码,得到待检测向量;其中,预设编码字典是根据预设参数构建的;所述预设参数包括位置元字符和长度元字符;所述位置元字符表示字段中各位置的字段值;长度元字符表示字段的长度;
9.根据所述待检测向量和质心向量计算相似度;所述质心向量是通过位置质心向量和长度质心向量拼接后得到的;所述位置质心向量和所述长度质心向量是根据样本向量得到的;所述样本向量是根据所述预设编码字典对样本字段进行编码后得到的;
10.根据所述相似度对待检测字段进行检测。
11.在上述技术方案中,预设编码字典中包括位置元字符和长度元字符;其中,位置元字符用于对待检测字段中各位置的字段值进行编码,长度元字符用于对待检测字段的长度进行编码;也就是说,通过预设编码字典编码后得到向量可以表示出字段中各位置的字段值以及该字段的长度,以此增加编码向量表示字段的准确性、完整性和全面性。
12.质心向量是根据预设编码字典对样本字段进行编码后得到的样本向量计算得到的;也就是说,质心向量中包括样本字段的长度信息;进而根据待检测向量和质心向量计算相似度,可以提高该相似度的合法性和准确性,以此提高数据检测的准确率,保证数据异常
检测的准确性。
13.可选的,根据预设编码字典对所述待检测字段进行编码,得到待检测向量,包括:
14.确定待检测字段中第i位置的字段值,根据所述第i位置的字段值和所述位置元字符的长度确定第一编码位置;
15.根据所述待检测字段的长度和所述长度元字符的长度确定第二编码位置;
16.将初始向量中所述第一编码位置和所述第二编码位置设置为第一预设值,得到所述待检测向量。
17.上述技术方案中,待检测向量包括位置向量和长度向量;确定字段中第i位置的字段值,然后根据第i位置的字段值确定通过确定第i位置的字段值对应的第一编码位置,并将初始向量中第一编码位置的值设置为第一预设值,进而得到针对第i位置的向量,增加编码向量表示字段的准确性、完整性和全面性。
18.另外,初始向量由第二预设值组成(如第二预设值为0)。也就是说,待检测向量由第一预设值和第二预设值组成(如第一预设值为1),简化了编码向量的描述,降低了后续计算相似度的计算量,提升数据检测的效率。
19.可选的,所述样本向量包括样本位置向量和样本长度向量;所述样本位置向量是根据样本字段中各位置的字段值和所述位置元字符的长度确定的;所述样本长度向量是根据样本字段的长和所述长度元字符的长度确定的;
20.所述位置质心向量和所述长度质心向量是根据样本向量得到的,包括:
21.计算多个样本位置向量中第t元素的平均值,得到所述位置质心向量;
22.根据所述位置质心向量和预设算法计算所述长度质心向量。
23.可选的,根据所述位置质心向量和预设算法计算所述长度质心向量包括:
24.针对所述长度质心向量中倒数第j元素,根据预设算法确定所述位置质心向量中第p元素和第q元素;j为正整数;
25.若j=1,则计算所述位置质心向量中第p元素至第q元素的第一相加结果,将所述第一相加结果作为所述长度质心向量中倒数第j元素的值;
26.若j≥2,则计算所述位置质心向量中第p元素至第q元素的第一相加结果以及所述位置质心向量中第p+k元素至第q+k元素的第二相加结果,将所述第一相加结果与所述第二相加结果的差值作为所述长度质心向量中倒数第j元素的值;其中,k表示位置元字符的长度。
27.可选的,所述根据预设算法确定所述位置质心向量中第p元素和第q元素,包括:
28.根据下述公式(1)计算所述第p元素和所述第q元素;
[0029][0030]
其中,n=k+1;n表示长度元字符的长度;j为正整数。
[0031]
可选的,所述方法还包括:
[0032]
根据预设函数对所述待检测字段中任一位置的字段值进行编码,得到位置向量;
[0033]
拼接各位置向量得到所述待检测字段的待检测函数向量;
[0034]
根据所述待检测向量和函数质心向量计算相似度;所述函数质心向量是根据样本
函数向量得到的;所述样本函数向量是根据所述预设函数对样本字段进行编码后得到的。
[0035]
可选的,所述根据预设函数对所述待检测字段中任一位置的字段值进行编码,得到位置向量,包括:
[0036]
根据公式(2)计算位置向量;
[0037]
f(r)=10rꢀꢀꢀꢀ
(2);
[0038]
其中,f(r)表示第r位置的位置向量;r表示第r位置的字段;r为正整数。
[0039]
第二方面,本发明实施例提供一种数据检测装置,包括:
[0040]
获取模块,用于获取待检测字段;
[0041]
处理模块,用于根据预设编码字典对所述待检测字段进行编码,得到待检测向量;其中,预设编码字典是根据预设参数构建的;所述预设参数包括位置元字符和长度元字符;所述位置元字符表示字段中各位置的字段值;长度元字符表示字段的长度;
[0042]
根据所述待检测向量和质心向量计算相似度;所述质心向量是通过位置质心向量和长度质心向量拼接后得到的;所述位置质心向量和所述长度质心向量是根据样本向量得到的;所述样本向量是根据所述预设编码字典对样本字段进行编码后得到的;
[0043]
根据所述相似度对待检测字段进行检测。
[0044]
可选的,所述处理模块具体用于:
[0045]
确定待检测字段中第i位置的字段值,根据所述第i位置的字段值和所述位置元字符的长度确定第一编码位置;
[0046]
根据所述待检测字段的长度和所述长度元字符的长度确定第二编码位置;
[0047]
将初始向量中所述第一编码位置和所述第二编码位置设置为第一预设值,得到所述待检测向量。
[0048]
可选的,所述样本向量包括样本位置向量和样本长度向量;所述样本位置向量是根据样本字段中各位置的字段值和所述位置元字符的长度确定的;所述样本长度向量是根据样本字段的长和所述长度元字符的长度确定的;
[0049]
所述处理模块具体用于:
[0050]
计算多个样本位置向量中第t元素的平均值,得到所述位置质心向量;
[0051]
根据所述位置质心向量和预设算法计算所述长度质心向量。
[0052]
可选的,所述处理模块具体用于:
[0053]
针对所述长度质心向量中倒数第j元素,根据预设算法确定所述位置质心向量中第p元素和第q元素;j为正整数;
[0054]
若j=1,则计算所述位置质心向量中第p元素至第q元素的第一相加结果,将所述第一相加结果作为所述长度质心向量中倒数第j元素的值;
[0055]
若j≥2,则计算所述位置质心向量中第p元素至第q元素的第一相加结果以及所述位置质心向量中第p+k元素至第q+k元素的第二相加结果,将所述第一相加结果与所述第二相加结果的差值作为所述长度质心向量中倒数第j元素的值;其中,k表示位置元字符的长度。
[0056]
可选的,所述处理模块具体用于:
[0057]
根据下述公式(1)计算所述第p元素和所述第q元素;
[0058][0059]
其中,n=k+1;n表示长度元字符的长度;j为正整数。
[0060]
可选的,所述处理模块还用于:
[0061]
根据预设函数对所述待检测字段中任一位置的字段值进行编码,得到位置向量;
[0062]
拼接各位置向量得到所述待检测字段的待检测函数向量;
[0063]
根据所述待检测向量和函数质心向量计算相似度;所述函数质心向量是根据样本函数向量得到的;所述样本函数向量是根据所述预设函数对样本字段进行编码后得到的。
[0064]
可选的,所述处理模块具体用于:
[0065]
根据公式(2)计算位置向量;
[0066]
f(r)=10rꢀꢀꢀꢀ
(2);
[0067]
其中,f(r)表示第r位置的位置向量;r表示第r位置的字段;r为正整数。
[0068]
第三方面,本发明实施例还提供一种计算机设备,包括:
[0069]
存储器,用于存储程序指令;
[0070]
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述数据检测方法。
[0071]
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述数据检测方法。
附图说明
[0072]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0073]
图1为本发明实施例提供的一种系统架构示意图;
[0074]
图2为本发明实施例提供的一种数据检测方法的流程示意图;
[0075]
图3为本发明实施例提供的一种数据检测装置的结构示意图。
具体实施方式
[0076]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0077]
为了更好的阐述本发明技术方案,下面对可能出现的名词进行解释。
[0078]
文本向量化:指的是将文本转化为向量形式。
[0079]
元素:向量中每一个位置的取值。
[0080]
质心向量:也称为平均向量;即质心向量中第i元素为每个字段向量中第i元素之
和的平均值。
[0081]
字段值:指的是字段中每一个位置的取值。
[0082]
随着传统金融业正在逐步向金融科技转变,导致保证每个系统数据的安全性显得尤为重要。因此需要对每个系统的数据表进行数据检测,检测出异常数据,进而保证数据的安全性。
[0083]
在一种数据为数字形式的应用场景中,用于作为检测标准的正样本如下述表1所示。
[0084]
表1
[0085]
账号客户号手机号日期对方账号渠道编码551001661201135***562022-10-0722123ab001551102661301126***412022-10-091253ab002551203661401135***142022-10-1222125ab003551204661501135***642022-10-181234ab004
[0086]
如上述表1所示,每个字段配置有预设规则;如账号的预设规则为:第一位和第二位的字段值是5、第三位的字段值是1、第四位和第五位的字段值为随机数。当获取待检测账号时,通过账号的预设规则对待检测账号进行数据检测。
[0087]
具体的,基于上述表1以待检测账号为例。在对待检测账号进行数据检测之前,需要通过上述表1预先计算出质心向量。
[0088]
进一步的,根据预设编码方式对样本中各字段进行编码计算,得到各字段对应的编码向量;其中,预设编码方式可以为one-hot,tfidf,n-gram等。基于上述表1以one-hot编码方式进行举例,得到如下述表2所示的各字段的向量。
[0089]
表2
[0090] 01234567895510012200020000551102121002000055120311110200005512041110120000
[0091]
有上述表2可知,字段“551001”的向量为:[2,2,0,0,0,2,0,0,0,0];字段“551102”的向量为:[1,2,1,0,0,2,0,0,0,0];字段“551203”的向量为:[1,1,1,1,0,2,0,0,0,0];字段“551204”的向量为:[1,1,1,0,1,2,0,0,0,0]。
[0092]
以向量“[2,2,0,0,0,2,0,0,0,0]”为例,其中,第1个元素“2”表示字段中包括2个为“0”的字段值、第2个元素“2”表示字段中包括2个为“1”的字段值、第3个元素“0”表示字段中包括0个为“2”的字段值、
……
、第6个元素“2”表示字段中包括2个为“5”的字段值、
……
。也就是说,通过向量“[2,2,0,0,0,2,0,0,0,0]”可以得出该向量对应的字段中包括字段值:2个“0”、2个“1”、2个“5”。综上,可以实现字段的文本向量化,提升数据管理的效率。
[0093]
在确认出各字段的向量之后,针对各向量中任一个位置的元素计算平均值,得到质心向量。例如,向量x1=[x1_1,x1_2,
……
,x1_m],向量x2=[x2_1,x2_2,
……
,x2_m],
……
,向量x2=[xn_1,xn_2,
……
,xn_m]。则质心向量w=[(x1_1+x2_1+
……
+xn_1)/3,(x1_2+x2_2+
……
+xn_2)/3,
……
,(x1_m+x2_m+
……
+xn_m)/3]。
[0094]
基于上述示例进行举例,各向量第1个位置的元素平均值为1.25、各向量第2个位置的元素平均值为1.5、各向量第3个位置的元素平均值为0.75、各向量第4个位置的元素平均值为0.25、各向量第5个位置的元素平均值为0.25、各向量第6个位置的元素平均值为2、各向量第7个位置的元素平均值为0、各向量第8个位置的元素平均值为0、各向量第9个位置的元素平均值为0。得出质心向量为:[1.25,1.5,0.75,0.25,0.25,0.25,2,0,0,0,0]。
[0095]
在计算出质心向量之后,获取待检测账号。以待检测账号是“441001”为例,根据one-hot编码方式对“441001”进行文本向量化,得到待检测向量为[2,2,0,0,2,0,0,0,0,0];然后根据下述公式(3)进行相似度计算。
[0096][0097]
其中,y=[y1,y2,
……
,ym],表示待检测向量;z=[z1,z2,
……
,zm],表示质心向量。
[0098]
基于上述示例进行举例,质心向量为:[1.25,1.5,0.75,0.25,0.25,0.25,2,0,0,0,0],待检测向量为[2,2,0,0,2,0,0,0,0,0];基于上述公式(3)计算出待检测账号“441001”的相似度为0.594,字段“551001”的相似度为0.941,字段“551102”的相似度为0.976,字段“551203”的相似度为0.94,字段“551204”的相似度为0.94。假设预设相似度阈值为0.9,因为待检测账号“441001”的相似度为0.594不大于预设相似度阈值,由此可以确定出,待检测账号“441001”为异常数据。
[0099]
但在上述技术方案中,向量仅能表示出该向量对应的字段中存在的数据,如向量[2,2,0,0,0,2,0,0,0,0],表示该向量对应的字段中包括2个为“0”的字段值、第2个元素“2”表示字段中包括2个为“1”的字段值、第3个元素“0”表示字段中包括0个为“2”的字段值、
……
、第6个元素“2”表示字段中包括2个为“5”的字段值、
……
。无法表示字段中各数值的位置信息,换句话说,无法通过向量还原出字段。例如,向量[2,2,0,0,0,2,0,0,0,0]对应的字段可以是155100、551100、110055等字段。这些字段的相似度均为0.941,会认为这些字段均为正常数据,但实际上这些字段为异常数据,导致数据检测的准确率较低。
[0100]
另外,上述技术方案中向量不包括字段的长度,使得待检测字段的字段长度与样本数据的字段长度不一致,但在相似度计算后,无法检测出待检测字段是否为异常数据,导致数据检测准确率低。例如,待检测字段为“55100”,向量为[2,1,0,0,0,2,0,0,0,0],通过相似度计算后确定出待检测字段55100为非异常数据,而实际上待检测字段“55100”与样本数据的字段长度不一致(即待检测字段的长度为5,样本数据的长度为6),为异常数据。
[0101]
在一种可实施的方式中,通过将波动信息添加至待检测向量来表示待检测向量与样本数据之间长度信息的差距。其中,波动信息为待检测向量的长度波动标准差的倍数;例如,样本数据的长度均值为5,预设标准差为0.5;假设待检测字段的长度为7,确定待检测字段与长度均值的差为2,该差值与预设标准差的商值为4,进而可以得出该待检测向量的波动信息为4。
[0102]
由以上方案可知,计算待检测向量的波动信息之前,需要先计算出样本数据的长度均值。但在自然语言处理中,各种编码方案是基于时间序列关系进行的,即逐个关键字或者逐个字段进行编码。在处理某个关键词或者字段时,并没有全局文本的信息。若计算待检测向量的波动信息之前,先对大数据背景下字符级进行编码,再获取全局文本的向量长度
均值。使得编码的维护成本高,计算量大。并且在历史样本数据变动时,需要对所有字段重新编码,导致数据处理的维护成本高、计算量大。
[0103]
另外,波动信息与字段在信息性质和刚量上不一致,在计算待检测向量的相似度时,波动信息对计算结果的影响较小,无法提高相似度计算的准确性,进而也无法提高数据处理的准确性。
[0104]
综上,上述技术方案中向量无法全面且准确的描述出字段,导致数据检测的准确率。因此现亟需一种数据检测方法,以增加向量表示字段的准确性、完整性和全面性,提高数据检测的准确率,保证数据异常检测的安全性和准确性。
[0105]
图1示例性的示出了本发明实施例所适用的一种系统架构,该系统架构包括服务器100,该服务器100可以包括处理器110、通信接口120和存储器130。
[0106]
其中,通信接口120用于获取待检测字段、质心向量等信息。
[0107]
处理器110是服务器100的控制中心,利用各种接口和路线连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
[0108]
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0109]
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
[0110]
基于上述描述,图2示例性的示出了本发明实施例提供的一种数据检测方法的流程示意图,该流程可由数据检测装置执行。
[0111]
如图2所示,该流程具体包括:
[0112]
步骤210,获取待检测字段。
[0113]
本发明实施例中,待检测字段的字符可以为文字、字母、数字、特殊符号等,在此不作具体限定。
[0114]
步骤220,根据预设编码字典对所述待检测字段进行编码,得到待检测向量。
[0115]
本发明实施例中,预设编码字典是根据预设参数构建的;预设参数包括位置元字符和长度元字符;位置元字符表示字段中各位置的字段值,用于对待检测字段中各位置的字段值进行编码;长度元字符表示字段的长度,用于对待检测字段的长度进行编码。
[0116]
待检测向量包括位置向量和长度向量;待检测向量由第一预设值(如第一预设值为1)和第二预设值组成(如第一预设值为0)。
[0117]
步骤230,根据所述待检测向量和质心向量计算相似度。
[0118]
在本发明实施例中,质心向量是通过位置质心向量和长度质心向量拼接后得到的;位置质心向量和长度质心向量是根据样本向量得到的;样本向量是根据预设编码字典对样本字段进行编码后得到的。
[0119]
步骤240,根据所述相似度对待检测字段进行检测。
[0120]
在本发明实施例中,基于相似度阈值对根据相似度对待检测字段进行检测;其中,相似度阈值可以是根据经验预设的值,如90%、80%等,在此不作具体限定。
[0121]
在步骤220中,预设编码字典的预设参数还包括位置元字符的长度等信息。为了更好的阐述本发明的技术方案,本发明实施例中以位置元字符的长度k为3,长度元字符的长度n为4进行举例;其中,n=k+1;位置元字符的长度也可以称为位置元字符的数量;长度元字符的长度也可以称为预设编码字典所覆盖的字段长度。
[0122]
例如,位置元字符包括0、1、2;表示字段中任一位置的字段值在0-2之间;需要说明的是,位置元字符还可以包括0-9等数字、a-z等字母、(&、%、¥、#、!、@、空格符)等,在此不作具体限定。
[0123]
通过设置的k和n计算待编码向量的数量,进而得到初始向量;例如,r=k*(n+1)=16;其中,r表示待编码向量的数量。也就是说,通过预设编码字段编码后的向量为16维(即包括16个元素)的向量。
[0124]
为了更好的表示预设编码字典,下述表3示例性的示出了一种预设编码字典的示意表。
[0125]
表3
[0126][0127]
由上述表3所示,预设编码字典包括位置编码区域,应用对待编码字段中个位置的字段值进行编码;还包括长度编码区域,用于对待编码字段的长度进行编码;编码位置表示编码后向量的元素位置。
[0128]
在本发明实施例中,获取待检测字段之后,通过上述表3所示预设编码字典对待检测字段进行编码,进而得到待检测向量。
[0129]
具体的,确定待检测字段中第i位置的字段值,根据第i位置的字段值位置元字符的长度确定第一编码位置;根据待检测字段的长度和长度元字符的长度确定第二编码位置;将初始向量中第一编码位置和第二编码位置设置为第一预设值,得到待检测向量;其中,i为自然数。
[0130]
其中,初始向量由第二预设值组成;如上述表3所示,初始向量均有0(第二预设值)组成,即初始向量为[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
[0131]
第一编码位置是先计算出字段的第i位置与位置元字符的长度的相乘结果;然后将该相乘结果与字段第i位置的字段值的和作为第一编码位置。
[0132]
基于上述表3进行举例,以待检测字段为“001”为例;i=0时,字段“001”第0位置的字段值为“0”;第一编码位置e0=i*k+0=0
×
3+0=0;也就是说,第0位置对应的第一编码位置为“0”。i=1时,字段“001”第1位置的字段值为“0”;第一编码位置e1=i*k+0=1
×
3+0=3。也就是说,第1位置对应的第一编码位置为“3”。i=2时,字段“001”第2位置的字段值为“1”;第一编码位置e2=i*k+0=2
×
3+1=7。也就是说,第2位置对应的第一编码位置为“7”。
[0133]
在一种可实施的方式中,按照倒序的方式计算第二编码位置;第二编码位置是先计算出长度元字符的长度(n)与待检测字段的长度的差值;然后将该差值与预设参数差的和作为第二编码位置。其中,预设参数差指的是长度元字符的长度n与位置元字符的长度k的差值;在本发明实施例中,预设参数差为1。
[0134]
基于上述表3进行举例,以待检测字段为“001”为例;长度元字符的长度n为4,待检测字段“001”的长度为3;则第二编码位置l=4-3+1=2;也就是说,待检测字段“001”的第二编码位置为倒数第2位,即第二编码位置为“14”。
[0135]
在另一种可实施的方式中,按照正序的方式计算第二编码位置;第二编码位置是先计算出长度元字符的长度(n)与位置元字符的长度(k)的相乘结果;然后将该相乘结果与待检测字段的长度的和作为第二编码位置。
[0136]
基于上述表3进行举例,以待检测字段为“001”为例;长度元字符的长度n为4,元字符的长度k为3,待检测字段“001”的长度为3;则第二编码位置l=3*4+3=15;也就是说,待检测字段“001”的第二编码位置为正序第215位,即第二编码位置为“14”。
[0137]
在确定出待检测字段的第一编码位置和第二编码位置之后,将初始向量中第一编码位置和第二编码位置设置为第一预设值,得到待检测向量。
[0138]
基于上述实施例进行举例,将初始向量中,编码位置“0”、编码位置“3”、编码位置“7”和编码位置“14”对应的元素值设置为第一预设值。具体的,初始向量为[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],将初始向量第0位元素、第3位元素、第7位元素和第14位元素设置为第一预设值。以第一预设值是1为例,下述表4示例性的示出了一种字段编码的示意表。
[0139]
表4
[0140][0141]
由上述表4所示,待检测字段“001”对应的待检测向量为[1,0,0,1,0,0,0,1,0,0,0,0,0,0,1,0]。
[0142]
在步骤230中,在对待检测字段进行数据检测之前,需要先计算出质心向量;而在
计算出质心向量之前,需要先对正样本的字段进行编码,得到样本向量,然后根据样本向量计算出质心向量。
[0143]
基于上述描述,将正样本的字段根据预设编码字典进行编码,得到样本向量。基于上述表3所示,其中,将位置编码区域的向量作为样本位置向量,将长度编码区域的向量作为样本长度向量。
[0144]
具体编码方式已在上述实施例中进行阐述,在此不做赘述。为了更好的阐述本发明技术方案,下述表5为示例性示出的一种样本向量的示意表。
[0145]
表5
[0146][0147]
由上述表5所示,样本字段“101”对应的样本向量为[0,1,0,1,0,0,0,1,0,0,0,0,0,0,1,0];样本字段“102”对应的样本向量为[0,1,0,1,0,0,0,0,1,0,0,0,0,0,1,0];样本字段“201”对应的样本向量为[0,0,1,1,0,0,0,1,0,0,0,0,0,0,1,0];样本字段“202”对应的样本向量为[0,0,1,1,0,0,0,0,1,0,0,0,0,0,1,0]。
[0148]
其中,样本向量“[0,1,0,1,0,0,0,1,0,0,0,0,0,0,1,0]”中的样本位置向量为“[0,1,0,1,0,0,0,1,0,0,0,0]”,样本长度向量为“[0,0,1,0]”;以此类推,样本向量“[0,1,0,1,0,0,0,0,1,0,0,0,0,0,1,0]”中的样本位置向量为“[0,1,0,1,0,0,0,0,1,0,0,0]”,样本长度向量为“[0,0,1,0]”;样本向量“[0,0,1,1,0,0,0,1,0,0,0,0,0,0,1,0]”中的样本位置向量为“[0,0,1,1,0,0,0,1,0,0,0,0]”,样本长度向量为“[0,0,1,0]”;样本向量“[0,0,1,1,0,0,0,0,1,0,0,0,0,0,1,0]”中的样本位置向量为“[0,0,1,1,0,0,0,0,1,0,0,0]”,样本长度向量为“[0,0,1,0]”。
[0149]
在确定出多个样本向量的样本位置向量之后,计算多个样本位置向量中第t元素的平均值,得到位置质心向量。
[0150]
基于上述实施例进行举例;例如t=0时,各样本位置向量中第0元素(编码位置为“0”的元素)的平均值为0;t=1时,各样本位置向量中第1元素(编码位置为“1”的元素)的平均值为0.5;t=2时,各样本位置向量中第2元素(编码位置为“2”的元素)的平均值为0.5;
……
;t=7时,各样本位置向量中第7元素(编码位置为“7”的元素)的平均值为0.5;t=
8时,各样本位置向量中第8元素(编码位置为“8”的元素)的平均值为0.5;
……
;t=11时,各样本位置向量中第11元素(编码位置为“11”的元素)的平均值为0。由此可以确定出位置质心向量为“[0,0.5,0.5,1,0,0,0,0.5,0.5,0,0,0]”。
[0151]
在确定出位置质心向量之后,根据位置质心向量和预设算法计算长度质心向量。具体的,针对长度质心向量中倒数第j元素,根据预设算法确定位置质心向量中第p元素和第q元素;
[0152]
进一步的,根据下述公式(1)计算第p元素和第q元素;
[0153][0154]
其中,n=k+1;k表示位置元字符的长度;n表示长度元字符的长度;j为正整数。
[0155]
在本发明实施例中,位置质心向量中第p元素至第q元素对应于各样本向量中倒数第j位置的平均数;基于上述表5进行举例,j=3时,p=3,q=5(表示倒数第3各位置,即表5中“第1个位置”);基于此可知,位置质心向量中第p+k元素至第q+k元素对应于各样本向量中倒数第j-1位置(如表5中“第2个位置”)的平均数;因此,第p元素至第q元素的和表示位置质心向量中倒数第j个位置的向量元素和。
[0156]
因为位置质心向量中各位置的向量元素和可以表示出样本字段中对应位置上具有数据的概率;例如,位置质心向量中第3元素至第5元素的元素和为1,则表示各样本字段在第1个位置一定具有字段值。所以通过将位置质心向量中第w个位置的向量元素和以及位置质心向量中第w+1个位置的向量元素和做差值,可以表示出第w+1个位置不具有字段值的样本字段的概率;例如,第1个位置的向量元素和为1,第2个位置的向量元素和为1,差值为0,则表示各样本字段第w+1位置不具有字段值的概率为0,即各样本字段第2个位置均具有字段值;假设,第2个位置的向量元素和为1,第3个位置的向量元素和为0.5,差值为0.5,则表示各样本字段第3个位置不具有字段值的概率为0.5,即各样本字段中一半的样本字段第3位置不均具有字段值,进而表示出一半的样本字段只包括第0个字段值、第1个字段值、第2个字段值,确定出一半的样本字段的长度为3。以此类推,可以表示出各样本字段的长度概率,即可以得到长度质心向量。
[0157]
综上,在计算各样本字段的长度质心向量时,可以通过各样本字段的位置质心向量计算出各样本字段的长度质心向量。因此对样本字段进行编码时,可以只编码位置向量;也就是说,通过预设编码字典得到样本字段的样本位置向量,不需要编码样本长度向量;通过各样本字段的样本位置向量计算出位置质心向量,再由位置质心向量计算出长度质心向量,进而得到质心向量。以此减少文本向量化的计算量,提高数据处理的效率。
[0158]
基于上述实施例进行举例,质心向量为“[0,0.5,0.5,1,0,0,0,0.5,0.5,0,0,0]”,n=4,k=3;当j=1时,计算出p=9,q=11;当j=2时,计算出p=6,q=8;当j=3时,计算出p=3,q=5;当j=4时,计算出p=0,q=2。
[0159]
在计算出p和q之后,若j=1,则计算位置质心向量中第p元素至第q元素的第一相加结果,将第一相加结果作为长度质心向量中倒数第j元素的值。
[0160]
若j≥2,则计算位置质心向量中第p元素至第q元素的第一相加结果以及位置质心向量中第p+k元素至第q+k元素的第二相加结果,将第一相加结果与第二相加结果的差值作
为长度质心向量中倒数第j元素的值;其中,k表示位置元字符的长度。
[0161]
基于上述实施例进行举例,当j=1时,第9元素至第11元素的值分别为0、0(即第10元素的值)、0,计算出第一相加结果为0,确定长度质心向量的倒数第i元素的值为0。
[0162]
当j=2时,第6元素至第8元素的值分别为0、0.5(即第7元素的值)、0.5,第9(6+3)元素至第11(8+3)元素的值分别为0、0、0,计算出第一相加结果为1,第二相加结果为0;第一相加结果与第二相加结果的差值为1,确定长度质心向量的倒数第2元素的值为1。
[0163]
当j=3时,第3元素至第5元素的值分别为1、0(即第4元素的值)、0,第6(3+3)元素至第8(5+3)元素的值分别为0、0.5、0.5,计算出第一相加结果为1,第二相加结果为1;第一相加结果与第二相加结果的差值为0,确定长度质心向量的倒数第3元素的值为0。
[0164]
当j=4时,第0元素至第2元素的值分别为0、0.5(即第2元素的值)、0.5,第3(0+3)元素至第5(2+3)元素的值分别为1、0、0,计算出第一相加结果为1,第二相加结果为1;第一相加结果与第二相加结果的差值为0,确定长度质心向量的倒数第4元素的值为0。进而可以得出长度质心向量为[0,0,1,0]。
[0165]
在上述技术方案中,对样本字段进行编码时,可以只通过预设编码字典得到样本字段的样本位置向量,不需要编码样本字段的样本长度向量;通过各样本字段的样本位置向量计算出位置质心向量,再由位置质心向量计算出长度质心向量,进而得到质心向量。以此减少文本向量化的计算量,提高数据处理的效率。
[0166]
在一种可实施的方式中,对样本字段进行编码后,得到各样本字段的样本长度向量,计算多个样本位置向量中第h元素的平均值,得到长度质心向量。
[0167]
基于上述表5进行举例,例如h=1时,各样本长度向量中第1元素(编码位置为“12”的元素)的平均值为0;h=2时,各样本长度向量中第2元素(编码位置为“13”的元素)的平均值为0;h=3时,各样本长度向量中第3元素(编码位置为“14”的元素)的平均值为1;h=4时,各样本长度向量中第4元素(编码位置为“15”的元素)的平均值为0;进而得出长度质心向量为[0,0,1,0]。
[0168]
在确定出位置质心向量和长度质心向量之后,拼接位置质心向量和长度质心向量得到质心向量,如下述表6示例性示出的一种质心向量的示意表。
[0169]
表6
[0170][0171]
由上述表6所示,质心向量为[0,0.5,0.5,1,0,0,0,0.5,0.5,0,0,0,0,0,1,0]。
[0172]
基于计算出的质心向量,在计算出待检测向量之后,计算待检测向量和质心向量的相似度。其中,相似度的计算方式可以为上述公式(3)所示的余弦相似度计算。需要说明的是,本发明实施例对相似度的计算方式不作具体限定。
[0173]
为了更好的描述本发明技术方案,下面以具体示例进行阐述。
[0174]
基于上述实施例所述的技术方案,以上述表1中账号字段为例;通过下述表7所示的预设编码字典对表1中各账号字段进行向量编码。
[0175]
表7
[0176]
[0177][0178]
由上述表7所示,k=6,n=7;字段“551001”的样本向量为“[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0]”;字段“551102”的样本向量为“[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,0,1,0,0,
0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0]”;字段“551203”的样本向量为“[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0]”;字段“551204”的样本向量为“[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0]”。
[0179]
基于上述4个样本向量,得到质心向量为“[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,025,025,05,0,0,0,1,0,0,0,0,0,0,025,025,025,025,0,0,0,0,0,0,0,0,0,0,0,0,1,0]”。
[0180]
各样本向量与质心向量的相似度如下:
[0181]
cos_sim(551001,质心向量)=0.877;
[0182]
cos_sim(551102,质心向量)=0.877;
[0183]
cos_sim(551203,质心向量)=0.916;
[0184]
cos_sim(551204,质心向量)=0.916;
[0185]
假设,获取待检测字段分别为:“551201”、“551103”、“441001”;通过上述表7所示的预设编码字典对待检测字段进行编码得到对应的待检测向量;具体的,字段“551201”的待检测向量为“[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0]”;字段“551103”的待检测向量为“[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0]”;字段“441001”的待检测向量为“[0,0,0,0,1,0,0,0,0,0,1,0,0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0]”。
[0186]
各待检测向量与质心向量的相似度如下:
[0187]
cos_sim(551201,质心向量)=0.916;
[0188]
cos_sim(551103,质心向量)=0.877;
[0189]
cos_sim(441001,质心向量)=0.558;
[0190]
假设基于各样本向量与质心向量的相似度设置相似度阈值为0.8,则确定相似度大于0.8的字段为正常数据;确定相似度不大于0.8的字段为异常数据;即确定出待检测字段“551201”、“551103”为正常数据,待检测字段“441001”为异常数据。
[0191]
其中,待检测字段“441001”的相似度低于0.8的原因在于:“441001”的待检测向量与质心向量点乘时,质心向量中第5元素与第11元素的值均为1,而待检测向量的第5元素与第11元素的值均为0,因此待检测字段“441001”的相似度较低。
[0192]
也就是说,在相似度计算的过程中,针对质心向量中非0数值的任一位元素,若待检测向量中对应的元素的值也非0,则相识度越大。
[0193]
在一种可实施的方式中,若位置质心向量中第g元素的值为1,则表示第g元素出现字符的概率是100%,则在待检测向量的第g元素不为1时,确定该待检测向量为异常数据。
[0194]
在另一种可实施的方式中,若长度质心向量中第v元素的值为1,则表示字段的长度是标准统一的;若待检测向量中第v元素的值不为1,则表示待检测字段的长度不统一,进而确定该待检测向量为异常数据。
[0195]
如待检测字段的长度小于样本字段的长度。具体的,待检测字段为“55100”,通过上述表7所示的预设编码字典对待检测字段进行编码,得到字段“55100”的待检测向量为“[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0]”;可以看出,长度质心向量的倒数第2位元素的值为1,则表示字段的长度统一为6,而待检测向量中倒数第2位元素的值为0,则表示待检测字段的长度不为6,进而确定待检测字段的长度不统一,即该待检测向量为异常数据。
[0196]
或者计算待检测向量的相似度。如字段“55100”的待检测向量与质心向量的相似度如下:
[0197]
cos_sim(55100,质心向量)=0.732;
[0198]
进而根据相识度阈值可以确定出字段“55100”为异常数据。
[0199]
在本发明实施例中,根据预设编码字典进行向量编码时,可以对位置质心向量和长度质心向量可以通过赋予不同的权重,如计算长度质心向量时,针对任一元素的值,赋予2倍的权重,以此增加数据检测的灵活性。具体赋予权重,或其他调整质心向量中任一数值的方式在此不作具体限定。
[0200]
在本发明实施例中,通过预设编码字典对样本字段进行编码,得到样本向量,进而通过样本向量计算出质心向量。其中,质心向量包括位置质心向量和长度质心向量。
[0201]
位置质心向量中每个元素的值表示元素对应的位置元字符出现的概率。基于上述表7的质心向量[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,025,025,05,0,0,0,1,0,0,0,0,0,0,025,025,025,025,0,0,0,0,0,0,0,0,0,0,0,0,1,0]进行举例;第20位元素的值为0.5,编码位置的第20位元素对应字段第3个位置,且位置元字符为“2”;也就是说,字段中第3个位置的字段值为2的概率为0.5。
[0202]
长度质心向量中每个元素的值表示字段长度的概率。基于上述表7的质心向量[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,025,025,05,0,0,0,1,0,0,0,0,0,0,025,025,025,025,0,0,0,0,0,0,0,0,0,0,0,0,1,0]进行举例;编码位置的第47位元素的值为1,则表示字段长度为6的概率为100%。
[0203]
在本发明实施例中,位置质心向量中各元素值的和表示字段长度的平均值;例如,基于上述表7的质心向量[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,025,025,05,0,0,0,1,0,0,0,0,0,0,025,025,025,025,0,0,0,0,0,0,0,0,0,0,0,0,1,0],对应的位置质心向量为[0,0,0,0,0,1,0,0,0,0,0,1,0,1,0,0,0,0,025,025,05,0,0,0,1,0,0,0,0,0,0,025,025,025,025,0,0,0,0,0,0,0],各元素值的和为6,表示字段长度的平均值为6。
[0204]
在本发明实施例中,位置质心向量中第s位置的各元素值的和表示样本字段长度大于该位置数量的概率。下述表8示例性的示出了一种编码向量的示意表。
[0205]
表8
[0206]
[0207][0208]
基于上述表8所示,s=0时,位置质心向量中第0位置的各元素(包括编码位置为0、1、2、3、4、5)的值的和为1,则表示样本字段长度大于1的概率为100%。
[0209]
依此类推,s=1时,位置质心向量中第1位置的各元素(包括编码位置为6、7、8、9、10、11)的值的和为1,则表示样本字段长度大于等于2的概率为100%。
[0210]
s=2时,位置质心向量中第2位置的各元素(包括编码位置为12、13、14、15、16、17)的值的和为1,则表示样本字段长度大于等于3的概率为100%。
[0211]
s=3时,位置质心向量中第3位置的各元素(包括编码位置为18、19、20、21、22、23)的值的和为1,则表示样本字段长度大于等于4的概率为100%。
[0212]
s=4时,位置质心向量中第4位置的各元素(包括编码位置为24、25、26、27、28、29)的值的和为0.5,则表示样本字段长度大于等于5的概率为50%。
[0213]
s=5时,位置质心向量中第5位置的各元素(包括编码位置为30、31、32、33、34、35)的值的和为0.25,则表示样本字段长度大于等于6的概率为25%。
[0214]
s=6时,位置质心向量中第6位置的各元素(包括编码位置为36、37、38、39、40、41)的值的和为0,则表示样本字段长度大于等于7的概率为0。
[0215]
在本发明实施例中,质心向量中第s个位置的元素之和组成的差分序列表示字段长度为s的概率。如上述表8所示,质心向量为[0,0.5,0.5,0,0,0,0,0,1,0,0,0,0,0.5,0,0.25,0,0.25,0,0,0.5,0.25,0.25,0,0,0,0,0.25,0,0.25,0,0,0.25,0,0,0,0,0,0,0,0,0,0,0,0,0.5,0.25,0.25,0]。其中,各位置元素之和为[1,1,1,1,0.5,0.25,0];由此可以确定出差分序列为[0,0,0,0.5,0.25,0.25,0]。
[0216]
上述差分序列的含义为:字段长度为1的概率为0;字段长度为2的概率为0;字段长度为3的概率为0;字段长度为4的概率为50%;字段长度为5的概率为25%;字段长度为6的概率为25%;字段长度为7的概率为0。
[0217]
基于上述描述,本发明的技术方案在于:针对任一字段值进行编码,提高了向量编码的准确性、完整性、独立性和全面性。并且,只通过第一预设值和第二预设值组成向量,简
化了向量的描述,减少了冗余信息,降低了后续计算相似度的计算量,提升相似度计算的准确率,提高了数据检测的效率和准确性。
[0218]
下述表9示例性的示出了一种数据检测场景的示意表。
[0219]
表9
[0220][0221]
由上述表9所示,本发明技术方案可应用于各种应用场景,提高了数据检测的灵活性和全面型。
[0222]
本发明实施例还提供了一种数据检测方法,具体的,根据预设函数对待检测字段中任一位置的字段值进行编码,得到位置向量;拼接各位置向量得到待检测字段的待检测函数向量;根据待检测向量和函数质心向量计算相似度;其中,函数质心向量是根据样本函数向量得到的;样本函数向量是根据预设函数对样本字段进行编码后得到的。
[0223]
根据公式(2)计算位置向量;
[0224]
f(r)=10rꢀꢀꢀ
(2);
[0225]
其中,f(r)表示第r位置的位置向量;r表示第r位置的字段;r为正整数。
[0226]
本发明实施例中,通过公式(2)区分每个各位置字段值的向量元素值,进而根据向量元素值区分字段值的位置;例如,r=0时,f(r)=1;r=1时,f(r)=10。其中,f(r)=1表示向量元素值为1,则向量元素值“1”对应的值表示第0个位置的字段值;f(r)=10表示向量元素值为10,则向量元素值“10”对应的值表示第1个位置的字段值,以此类推,区分出每个各位置字段值。
[0227]
本发明实施例中,为了便于显示以及后续的计算,公式(2)为以10为底的指数函数;在一些可实施的方式中,也可以使用其他值为底的指数函数,如以2为底、以5为底等。
[0228]
在拼接各位置向量时,针对同一字段值的位置向量,采用预设拼接方式;预设拼接方式包括但不限于:求和方式、求差方式等。
[0229]
为了更好的阐述上述编码方式,下述表10示例性的示出了一种数据编码的示意表。
[0230]
表10
[0231] 012345678长度向量888101100001010000000001116
[0232]
由上述表10所示,r=0时,表示第0个位置的字段值,f(r)=1,表示第0个位置的位置向量为1;r=1时,表示第1个位置的字段值,f(r)=10,表示第1个位置的位置向量为10;r=2时,表示第2个位置的字段值,f(r)=100,表示第2个位置的位置向量为100;r=3时,表示第3个位置的字段值,f(r)=1000,表示第3个位置的位置向量为1000;r=4时,表示第4个位置的字段值,f(r)=10000,表示第4个位置的位置向量为10000;r=5时,表示第5个位置的字段值,f(r)=100000,表示第5个位置的位置向量为100000。
[0233]
在拼接位置向量时,针对同一字段值的位置向量,采用求和的方式进行拼接。例如,第0个位置的字段值、第1个位置的字段值、第2个位置的字段值相同,均为8,则通过求和的方式得到向量[111];以此类推,对各位置向量进行拼接,得到待检测向量为[10000,101000,0,0,0,0,0,0,111,6]。
[0234]
基于上述描述,针对样本字段的编码在此不做赘述。
[0235]
得到样本函数向量之后,计算各样本函数向量中各元素的平均值,得到函数质心向量。
[0236]
基于相同的技术构思,图3示例性的示出了本发明实施例提供的一种数据检测装置的结构示意图,该装置可以执行数据检测方法的流程。
[0237]
如图3所示,该装置具体包括:
[0238]
获取模块310,用于获取待检测字段;
[0239]
处理模块320,用于根据预设编码字典对所述待检测字段进行编码,得到待检测向量;其中,预设编码字典是根据预设参数构建的;所述预设参数包括位置元字符和长度元字符;所述位置元字符表示字段中各位置的字段值;长度元字符表示字段的长度;
[0240]
根据所述待检测向量和质心向量计算相似度;所述质心向量是通过位置质心向量和长度质心向量拼接后得到的;所述位置质心向量和所述长度质心向量是根据样本向量得到的;所述样本向量是根据所述预设编码字典对样本字段进行编码后得到的;
[0241]
根据所述相似度对待检测字段进行检测。
[0242]
可选的,所述处理模块320具体用于:
[0243]
确定待检测字段中第i位置的字段值,根据所述第i位置的字段值和所述位置元字符的长度确定第一编码位置;
[0244]
根据所述待检测字段的长度和所述长度元字符的长度确定第二编码位置;
[0245]
将初始向量中所述第一编码位置和所述第二编码位置设置为第一预设值,得到所述待检测向量。
[0246]
可选的,所述样本向量包括样本位置向量和样本长度向量;所述样本位置向量是根据样本字段中各位置的字段值和所述位置元字符的长度确定的;所述样本长度向量是根
据样本字段的长和所述长度元字符的长度确定的;
[0247]
所述处理模块320具体用于:
[0248]
计算多个样本位置向量中第t元素的平均值,得到所述位置质心向量;
[0249]
根据所述位置质心向量和预设算法计算所述长度质心向量。
[0250]
可选的,所述处理模块320具体用于:
[0251]
针对所述长度质心向量中倒数第j元素,根据预设算法确定所述位置质心向量中第p元素和第q元素;j为正整数;
[0252]
若j=1,则计算所述位置质心向量中第p元素至第q元素的第一相加结果,将所述第一相加结果作为所述长度质心向量中倒数第j元素的值;
[0253]
若j≥2,则计算所述位置质心向量中第p元素至第q元素的第一相加结果以及所述位置质心向量中第p+k元素至第q+k元素的第二相加结果,将所述第一相加结果与所述第二相加结果的差值作为所述长度质心向量中倒数第j元素的值;其中,k表示位置元字符的长度。
[0254]
可选的,所述处理模块320具体用于:
[0255]
根据下述公式(1)计算所述第p元素和所述第q元素;
[0256][0257]
其中,n=k+1;n表示长度元字符的长度;j为正整数。
[0258]
可选的,所述处理模块320还用于:
[0259]
根据预设函数对所述待检测字段中任一位置的字段值进行编码,得到位置向量;
[0260]
拼接各位置向量得到所述待检测字段的待检测函数向量;
[0261]
根据所述待检测向量和函数质心向量计算相似度;所述函数质心向量是根据样本函数向量得到的;所述样本函数向量是根据所述预设函数对样本字段进行编码后得到的。
[0262]
可选的,所述处理模块320具体用于:
[0263]
根据公式(2)计算位置向量;
[0264]
f(r)=10rꢀꢀꢀꢀ
(2);
[0265]
其中,f(r)表示第r位置的位置向量;r表示第r位置的字段;r为正整数。
[0266]
基于相同的技术构思,本发明实施例还提供一种计算机设备,包括:
[0267]
存储器,用于存储程序指令;
[0268]
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述数据检测方法。
[0269]
基于相同的技术构思,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述数据检测方法。
[0270]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产
品的形式。
[0271]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0272]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0273]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0274]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1