本发明涉及数据处理领域,具体地,涉及一种判断真实数据的方法以及装置。
背景技术:
为了获取滴滴打车平台的司机补贴,司机用户通过真正做单来模拟真实做单场景。这样,也躲避了滴滴打车平台现有的反作弊策略。为了减少真正做单的成本,司机用户通常使用多部手机,在每部手机的司机客户端上注册一个司机账号。这样,该司机用户可以同时模拟多个订单。常见的场景是,一个司机用户的背包中装有多部安装有司机客户端的手机,通过坐公交车来模拟做单,骗取平台的司机补贴。
现有技术中反作弊的方式有很多种,比如说通过同一平台账号、同一手机号码、同一手机设备或同一身份证号来进行反作弊。举例来说,一个手机设备的客户端上连续登录了多个不同的司机账号,那么打车平台就会限制该手机设备的客户端的登录,或者需要验证才能登录。
然而,由于这些订单是司机用户通过模拟真实的做单场景得到的,并且这些订单的司机账号、用户设备以及打车客户都不一样,因此,返回的订单与正常的订单没有区别。现有技术很难针对这种作弊模式进行反作弊。
技术实现要素:
针对现有技术的缺陷,本发明提供一种判断真实数据的方法,通过利用司机用户的行驶轨迹来判断两个司机用户是否为同一司机用户,从而避免了司机用户骗取平台的司机补贴,实现了反作弊。
依据本发明的第一方面,提出了一种判断真实数据的方法,所 述方法包括:
获取预设时间段内第一客户端所属ue的第一行驶轨迹数据和第二客户端所属ue的第二行驶轨迹数据;
根据所述第一行驶轨迹数据和所述第二行驶轨迹数据计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值;
将所述相似性数值与预设阈值进行比较,得到比较结果;
在根据所述比较结果得到所述相似性数值大于所述预设阈值的情况下,则判断所述第一客户端的第一用户与所述第二客户端的第二用户为同一用户,从而实现反作弊。
可选地,所述方法还包括:
在根据所述比较结果得到所述相似性数值小于或等于所述预设阈值的情况下,则判断所述第一客户端的第一用户与所述第二客户端的第二用户为不同的用户。
可选地,所述获取预设时间段内第一客户端所属ue的第一行驶轨迹数据和第二客户端所属ue的第二行驶轨迹数据,包括:
将所述预设时间段划分为多个时间段;
每隔一个时间段分别获取所述第一客户端所属ue的第一位置数据和所述第二客户端所属ue的第二位置数据;
根据所述第一位置数据和所述第二位置数据分别得到所述第一客户端所属ue的第一行驶轨迹数据和所述第二客户端所属ue的第二行驶轨迹数据。
可选地,所述第一位置数据和所述第二位置数据均包括用户账号、时间、经纬度以及用户状态。
可选地,所述根据所述第一行驶轨迹数据和所述第二行驶轨迹数据计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值之前,所述 方法还包括:
分别剔除所述第一行驶轨迹数据和所述第二行驶轨迹数据中的异常数据。
可选地,所述根据所述第一行驶轨迹数据和所述第二行驶轨迹数据计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值,包括:
分别统计所述第一行驶轨迹数据中第一位置数据的个数和所述第二行驶轨迹数据中第二位置数据的个数;
采用geohash算法计算得到与每一第一位置数据对应的第一字符串数据及与每一第二位置数据对应的第二字符串数据;
根据所述第一字符串数据和所述第二字符串数据统计得到所述第一字符串数据与所述第二字符串数据相同的个数;
根据以下公式计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值:
p=k/min{n1,n2}*100%
其中,n1表示所述第一行驶轨迹数据中第一位置数据的个数,n2表示所述第二行驶轨迹数据中第二位置数据的个数,k表示所述第一字符串数据与所述第二字符串数据相同的个数,p表示所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值,min{n1,n2}表示求取n1和n2中较小的一者。
依据本发明的第二方面,提出了一种判断真实数据的装置,所述装置包括:
获取单元,用于获取预设时间段内第一客户端所属ue的第一行驶轨迹数据和第二客户端所属ue的第二行驶轨迹数据;
计算单元,用于根据所述第一行驶轨迹数据和所述第二行驶轨 迹数据计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值;
比较单元,用于将所述相似性数值与预设阈值进行比较,得到比较结果;
判断单元,用于在根据所述比较结果得到所述相似性数值大于所述预设阈值的情况下,则判断所述第一客户端的第一用户与所述第二客户端的第二用户为同一用户,从而实现反作弊。
可选地,所述判断单元,还用于:
在根据所述比较结果得到所述相似性数值小于或等于所述预设阈值的情况下,则判断所述第一客户端的第一用户与所述第二客户端的第二用户为不同的用户。
可选地,所述获取单元,具体用于:
将所述预设时间段划分为多个时间段;
每隔一个时间段分别获取所述第一客户端所属ue的第一位置数据和所述第二客户端所属ue的第二位置数据;
根据所述第一位置数据和所述第二位置数据分别得到所述第一客户端所属ue的第一行驶轨迹数据和所述第二客户端所属ue的第二行驶轨迹数据。
可选地,所述第一位置数据和所述第二位置数据均包括用户账号、时间、经纬度以及用户状态。
可选地,所述装置还包括:
剔除单元,用于分别剔除所述第一行驶轨迹数据和所述第二行驶轨迹数据中的异常数据。
可选地,所述计算单元,具体用于:
分别统计所述第一行驶轨迹数据中第一位置数据的个数和所述第二行驶轨迹数据中第二位置数据的个数;
采用geohash算法计算得到与每一第一位置数据对应的第一字 符串数据及与每一第二位置数据对应的第二字符串数据;
根据所述第一字符串数据和所述第二字符串数据统计得到所述第一字符串数据与所述第二字符串数据相同的个数;
根据以下公式计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值:
p=k/min{n1,n2}*100%
其中,n1表示所述第一行驶轨迹数据中第一位置数据的个数,n2表示所述第二行驶轨迹数据中第二位置数据的个数,k表示所述第一字符串数据与所述第二字符串数据相同的个数,p表示所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值,min{n1,n2}表示求取n1和n2中较小的一者。
通过上述技术方案,获取预设时间段内第一客户端所属ue的第一行驶轨迹数据和第二客户端所属ue的第二行驶轨迹数据;并根据第一行驶轨迹数据和第二行驶轨迹数据计算得到第一行驶轨迹数据所对应的第一行驶轨迹与第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值;及将相似性数值与预设阈值进行比较,得到比较结果;在根据比较结果得到相似性数值大于所述预设阈值的情况下,则判断第一客户端的第一用户与第二客户端的第二用户为同一用户,从而避免了司机用户骗取平台的司机补贴,实现了反作弊。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本公开一实施例提供的判断真实数据的方法的流程图;
图2是本公开一实施例提供的判断真实数据的方法的流程图;
图3是本公开一实施例提供的判断真实数据的装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
以下对本公开实施例中提及的部分词语进行举例说明。
本公开实施例中提及的用户设备(userequipment,简称ue)是所使用的移动终端或个人计算机(personalcomputer,简称pc)等设备。例如智能手机、个人数码助理(pda)、平板电脑、笔记本电脑、车载电脑(carputer)、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如googleglass、oculusrift、hololens、gearvr)等。
图1是本公开一实施例提供的判断真实数据的方法的流程图。如图1所示,本公开一实施例提供的判断真实数据的方法包括:
在步骤s101中,获取预设时间段内第一客户端所属ue的第一行驶轨迹数据和第二客户端所属ue的第二行驶轨迹数据。
其中,ue可为移动终端或pc端等,终端为所持的用于提供运营服务的移动终端或pa端等设备,所述预设时间段为一个小时或一天,所述第一客户端和所述第二客户端均为打车平台的司机客户端,所述第一行驶轨迹数据也可指携带所述第一客户端所属ue的司机用户的行驶轨迹数据,所述第二行驶轨迹数据也可指携带所述第二客户端所属ue的司机用户的行驶轨迹数据。需要说明的是,预设时间段的选 择会影响判断真实数据的方法的准确性,需要在实际应用中采用迭代法不断验证和调节。
具体地,该步骤包括:将所述预设时间段划分为多个时间段;每隔一个时间段分别获取所述第一客户端所属ue的第一位置数据和所述第二客户端所属ue的第二位置数据;根据所述第一位置数据和所述第二位置数据分别得到所述第一客户端所属ue的第一行驶轨迹数据和所述第二客户端所属ue的第二行驶轨迹数据。
其中,所述第一位置数据和所述第二位置数据均包括用户账号、时间、经纬度以及用户状态。用户账号指的是司机用户的用户账号,经纬度指的是行驶轨迹的轨迹点的位置经纬度,用户状态指的是司机用户处于上班状态还是处于下班状态。
举例来说,在一个小时内,每隔10秒钟获取司机客户端所属ue的行驶轨迹的轨迹点的位置数据,那么在一个小时内可以获取360个轨迹点的位置数据,将这360个位置数据按照获取的先后顺序进行排列便可得到司机客户端所属ue的行驶轨迹数据,将这360个位置数据所对应的轨迹点按照位置数据获取的先后顺序串接起来便可得到司机客户端所属ue的行驶轨迹。
接着,在步骤s102中,根据所述第一行驶轨迹数据和所述第二行驶轨迹数据计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值。
具体地,该步骤包括:分别统计所述第一行驶轨迹数据中第一位置数据的个数和所述第二行驶轨迹数据中第二位置数据的个数;采用geohash算法计算得到与每一第一位置数据对应的第一字符串数据及与每一第二位置数据对应的第二字符串数据;根据所述第一字符串数据和所述第二字符串数据统计得到所述第一字符串数据与所述第二字符串数据相同的个数;根据以下公式计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对 应的第二行驶轨迹的相似性数值:
p=k/min{n1,n2}*100%
其中,n1表示所述第一行驶轨迹数据中第一位置数据的个数,n2表示所述第二行驶轨迹数据中第二位置数据的个数,k表示所述第一字符串数据与所述第二字符串数据相同的个数,p表示所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值,min{n1,n2}表示求取n1和n2中较小的一者。
更为具体地,geohash算法是将二维的经纬度转换成字符串,不同位数的字符串数据对应的区域大小不同,字符串数据的位数越多,区域越小,如7位的字符串数据对应的区域是150米*150米。由于geohash算法为现有技术,在此不再赘述。需要说明的是,字符串数据位数的选择会影响判断真实数据的方法的准确性,需要在实际应用中采用迭代法不断验证和调节。
紧接着,在步骤s103中,将所述相似性数值与预设阈值进行比较,得到比较结果。
需要说明的是,预设阈值的选择会影响判断真实数据的方法的准确性,需要在实际应用中采用迭代法不断验证和调节。具体地,阈值的设定是一个不断迭代的过程。迭代过程如下:首先给定一个阈值,判定阈值的准确性。如果准确性较低,那么增大阈值,继续判定阈值的准确性,直到阈值的准确性符合要求。
然后,在步骤s104中,根据所述比较结果判断所述相似性数值是否大于所述预设阈值。
最后,在步骤s105中,在根据所述比较结果得到所述相似性数值大于所述预设阈值的情况下,则判断所述第一客户端的第一用户与所述第二客户端的第二用户为同一用户,从而实现反作弊。
其中,虽然所述第一客户端和所述第二客户端的司机账号不同, 但是所述第一客户端的司机用户和所述第二客户端的司机用户是相同的。
具体地,在根据所述比较结果得到所述相似性数值小于或等于所述预设阈值的情况下,则判断所述第一客户端的第一用户与所述第二客户端的第二用户为不同的用户。
其中,根据所述比较结果得到所述相似性数值小于或等于所述预设阈值的情况下,不仅所述第一客户端和所述第二客户端的司机账号不同,而且所述第一客户端的司机用户和所述第二客户端的司机用户也是不同的。
本实施例通过获取预设时间段内第一客户端所属ue的第一行驶轨迹数据和第二客户端所属ue的第二行驶轨迹数据;并根据第一行驶轨迹数据和第二行驶轨迹数据计算得到第一行驶轨迹数据所对应的第一行驶轨迹与第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值;及将相似性数值与预设阈值进行比较,得到比较结果;在根据比较结果得到相似性数值大于所述预设阈值的情况下,则判断第一客户端的第一用户与第二客户端的第二用户为同一用户,从而避免了司机用户骗取平台的司机补贴,实现了反作弊。
图2是本公开一实施例提供的判断真实数据的方法的流程图。如图2所示,本公开一实施例提供的判断真实数据的方法包括:
在步骤s201中,获取预设时间段内第一客户端所属ue的第一行驶轨迹数据和第二客户端所属ue的第二行驶轨迹数据。
由于步骤s201与图1所示的实施例的步骤s101相同,在此不再赘述。
接着,在步骤s202中,分别剔除所述第一行驶轨迹数据和所述第二行驶轨迹数据中的异常数据。
其中,由于gps漂移,客户端所属ue的行驶轨迹的轨迹点会出现一些异常偏离点,需要将该轨迹点的位置数据进行剔除。藉此, 可保证判断真实数据的方法的准确性。
紧接着,在步骤s203中,根据所述第一行驶轨迹数据和所述第二行驶轨迹数据计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值。
然后,在步骤s204中,将所述相似性数值与预设阈值进行比较,得到比较结果。
接着,在步骤s205中,根据所述比较结果判断所述相似性数值是否大于所述预设阈值。
最后,在步骤s206中,在根据所述比较结果得到所述相似性数值大于所述预设阈值的情况下,则判断所述第一客户端的第一用户与所述第二客户端的第二用户为同一用户,从而实现反作弊。
由于步骤s203-s206分别与图1所示的实施例的步骤s102-s105相同,在此不再赘述。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本公开实施例所必须的。
图3是本公开一实施例提供的判断真实数据的装置的结构示意图。如图3所示,本公开一实施例提供的判断真实数据的装置包括:
获取单元301,用于获取预设时间段内第一客户端所属ue的第一行驶轨迹数据和第二客户端所属ue的第二行驶轨迹数据;
计算单元303,用于根据所述第一行驶轨迹数据和所述第二行驶轨迹数据计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值;
比较单元304,用于将所述相似性数值与预设阈值进行比较,得到比较结果;
判断单元305,用于在根据所述比较结果得到所述相似性数值大于所述预设阈值的情况下,则判断所述第一客户端的第一用户与所述第二客户端的第二用户为同一用户,从而实现反作弊。
在本公开的一种可选实施例中,所述判断单元305,还用于:
在根据所述比较结果得到所述相似性数值小于或等于所述预设阈值的情况下,则判断所述第一客户端的第一用户与所述第二客户端的第二用户为不同的用户。
在本公开的一种可选实施例中,所述获取单元301,具体用于:
将所述预设时间段划分为多个时间段;
每隔一个时间段分别获取所述第一客户端所属ue的第一位置数据和所述第二客户端所属ue的第二位置数据;
根据所述第一位置数据和所述第二位置数据分别得到所述第一客户端所属ue的第一行驶轨迹数据和所述第二客户端所属ue的第二行驶轨迹数据。
在本公开的一种可选实施例中,所述第一位置数据和所述第二位置数据均包括用户账号、时间、经纬度以及用户状态。
在本公开的一种可选实施例中,所述装置还包括:
剔除单元302,用于分别剔除所述第一行驶轨迹数据和所述第二行驶轨迹数据中的异常数据。
在本公开的一种可选实施例中,所述计算单元303,具体用于:
分别统计所述第一行驶轨迹数据中第一位置数据的个数和所述第二行驶轨迹数据中第二位置数据的个数;
采用geohash算法计算得到与每一第一位置数据对应的第一字符串数据及与每一第二位置数据对应的第二字符串数据;
根据所述第一字符串数据和所述第二字符串数据统计得到所述 第一字符串数据与所述第二字符串数据相同的个数;
根据以下公式计算得到所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值:
p=k/min{n1,n2}*100%
其中,n1表示所述第一行驶轨迹数据中第一位置数据的个数,n2表示所述第二行驶轨迹数据中第二位置数据的个数,k表示所述第一字符串数据与所述第二字符串数据相同的个数,p表示所述第一行驶轨迹数据所对应的第一行驶轨迹与所述第二行驶轨迹数据所对应的第二行驶轨迹的相似性数值,min{n1,n2}表示求取n1和n2中较小的一者。
需要说明的是,对于本公开提供的判断真实数据的装置还涉及的具体细节已在本公开提供的判断真实数据的方法中作了详细的说明,在此不在赘述。
应当注意的是,在本公开的系统的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本公开不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本公开实施例的系统中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网 站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上实施方式仅适于说明本公开,而并非对本公开的限制,有关技术领域的普通技术人员,在不脱离本公开的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本公开的范畴,本公开的专利保护范围应由权利要求限定。