专利名称:一种处理产品统计数据的方法及装置的制作方法
技术领域:
本发明涉及数据处理技术,特别涉及一种处理产品统计数据的方法及装置。
背景技术:
目前,随着互联网技术的飞速发展,网上交易、网络数据分析已经深入到人们的日常生活与工作中,其中,“网上银行”与“电子商务”的应用是最具有代表性的应用。举例来说,“网上银行”作为一种全新的银行客户服务提交渠道,客户无论在家里、办公室,还是在旅途中都可以通过互联网络办理包括查询、转账、缴费等各种银行业务,管理自己的资产; 同时,基于“网上银行”与“电子商务”应用的产品统计数据收集也为银行或运营商提供了应用业务优化以及扩展的分析、统计数据,通过收集各用户应用业务的数据记录,并进行统计、运营分析,挖掘用户特征数据,可以拓展业务应用并提供用户个性化应用业务。但互联网技术在带给人们极大方便的同时,互联网络的隐私泄露问题也日益突出地显现出来,为了强化产品统计数据在网络传输过程中的隐私安全性,采用对待传输产品统计数据进行加密处理的方法,即在互联网环境中,由浏览器(Web)端程序、客户端 (Client)程序、或单机版程序将需要传输的产品统计数据用密钥加密后向特定的网络服务器进行传输,网络服务器接收到加密的产品统计数据,利用预先设定的密钥解密获取产品统计数据并对各产品统计数据进行统计及运营分析。例如,用户终端与网络服务器预先协商密钥,用户浏览网页,用户终端将用户访问该网页的次数、停留时长、访问频次等用户隐私数据利用预先协商的加密密钥加密,发送至网络服务器,这样,可以有效防止网络传输过程中的用户隐私数据泄漏的风险。但上述对产品统计数据进行加密处理的方式,只能实现数据传输过程中的安全性,由于用户的个人隐私数据还是被发送到了网络服务器上,能够被相关技术人员,例如, 管理人员掌握,如果相关技术人员对这些数据处理不当,仍将造成产品统计数据的泄露,因而,不仅是传输过程存在用户隐私数据泄露的风险,网络服务器也存在用户隐私数据泄露的风险,例如,网络服务器管理人员将获取的用户隐私数据向外发布,使得基于产品统计数据收集进行数据分析、统计的方法被很多互联网用户所非议。
发明内容
有鉴于此,本发明的主要目的在于提出一种处理产品统计数据的方法,降低产品统计数据泄漏的风险、提高产品统计数据的安全性。本发明的另一目的在于提出一种处理产品统计数据的装置,降低产品统计数据泄漏的风险、提高产品统计数据的安全性。为达到上述目的,本发明提供了一种处理产品统计数据的方法,该方法包括获取产品统计数据,按照预先设置的策略对获取的产品统计数据进行置换处理;将置换处理的产品统计数据进行封装后向网络服务器发送。所述产品统计数据包括数值型产品统计数据以及非数值型产品统计数据。
所述按照预先设置的策略对获取的产品统计数据进行置换处理具体包括预先设置用于置换处理的分布函数;根据接收的产品统计数据生成服从分布函数的随机数;根据生成的随机数对产品统计数据进行置换处理,输出处理后的产品统计数据。所述分布函数包括随机分布函数以及正态分布函数。所述根据生成的随机数对产品统计数据进行置换处理具体包括将生成的随机数与产品统计数据相加;或,将产品统计数据与生成的随机数相减。所述按照预先设置的策略对获取的产品统计数据进行置换处理具体包括预先设置服从
分布的分布函数以及分布阈值;根据接收的产品统计数据生成服从预先设置的分布函数的随机数;判断随机数是否小于分布阈值,如果是,将该产品统计数据取值随机置换为该产品统计数据包含的其他取值并输出,否则,直接输出接收的产品统计数据。进一步包括根据预先设置的密钥对封装的产品统计数据进行加密处理,并采用传输控制协议或产品统计数据报协议进行发送。一种处理产品统计数据的装置,该装置包括产品统计数据扰动器以及封装单元, 其中,产品统计数据扰动器,用于获取产品统计数据,按照预先设置的策略对获取的产品统计数据进行置换处理,输出至封装单元;封装单元,用于将置换处理的产品统计数据进行封装后向网络服务器发送。进一步包括加密单元,用于将封装单元输出的封装数据按照预先设置的加密密钥进行加密后向网络服务器发送。所述产品统计数据扰动器包括随机数生成模块、分布函数存储模块以及置换处理模块,其中,分布函数存储模块,用于存储用于置换处理的分布函数;随机数生成模块,用于接收产品统计数据,从分布函数存储模块读取预先设置的分布函数,生成服从分布函数的随机数,输出至置换处理模块;置换处理模块,用于根据生成的随机数对接收的产品统计数据进行置换处理,输出处理后的产品统计数据。所述产品统计数据扰动器包括分布函数存储模块、随机数生成模块、比较模块以及置换处理模块,其中,分布函数存储模块,存储用于置换处理的服从
分布的分布函数;随机数生成模块,用于接收产品统计数据,从分布函数存储模块读取预先设置的分布函数,生成服从分布函数的随机数,输出至比较模块;比较模块,用于判断随机数是否小于预先设置的分布阈值,如果是,向置换处理模块输出指示置换信息,否则,向置换处理模块输出指示不作置换信息;置换处理模块,用于接收产品统计数据,根据接收的指示置换信息将该产品统计数据取值随机置换为该产品统计数据包含的其他取值并输出,以及,根据接收的指示不作置换信息将该产品统计数据输出。由上述的技术方案可见,本发明提供的一种处理产品统计数据的方法及装置,通过获取产品统计数据,按照预先设置的策略对获取的产品统计数据进行置换处理;将置换处理的产品统计数据进行封装后向网络服务器发送。这样,由于对待传输的产品统计数据进行随机置换处理,不能从经过随机置换处理的产品统计数据中推断出对应的原始产品统计数据,降低了产品统计数据泄漏的风险、提高了产品统计数据的安全性。
图1为本发明实施例处理产品统计数据的方法流程示意图。图2为本发明实施例对数值型产品统计数据进行置换处理的方法流程示意图。图3为本发明实施例对非数值型产品统计数据进行置换处理的方法流程示意图。图4为本发明实施例处理产品统计数据的装置结构示意图。图5为本发明实施例产品统计数据扰动器第一结构示意图。图6为本发明实施例产品统计数据扰动器第二结构示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。现有技术中的产品统计数据处理及上报方法,网络服务器的管理人员能够直接获取并掌握用户的隐私信息,给用户日常生活和工作带来极大不便。本发明实施例中,对待传输的产品统计数据进行随机置换处理,即在产品统计数据传输前,按照一定的概率对数据进行随机化、扭曲、扰动等处理,然后传输。这样,即使网络服务器管理人员获取经过随机置换处理的产品统计数据,也不能从中推断出该随机置换处理的产品统计数据对应的原始产品统计数据;而且,由于仅按照一定概率对产品统计数据进行随机置换处理,可以使得处理后的各产品统计数据在整体上具有有效的统计、分析意义,可以以较高的可靠性反映原始产品统计数据的统计分布,以用于数据分析、数据挖掘等应用。图1为本发明实施例处理产品统计数据的方法流程示意图。参见图1,该流程包括步骤101,获取产品统计数据,按照预先设置的策略对获取的产品统计数据进行置换处理;本步骤中,浏览器端程序、客户端程序、或单机版程序根据网络服务器为完成某项统计、分析需求需要采集的产品统计数据,监测用户操作,记录用户操作信息作为产品统计数据,例如,记录点击次数、访问次数、访问统一资源定位器(URL,Uniform Resource Locator)连接地址信息、用户从给定的多个选项中进行勾选的信息以及用户选择的播放模式信息等,将该记录的信息作为待传输的产品统计数据。举例来说,如果需要统计用户对按钮的点击情况,则需要通知浏览器端程序、客户端程序、或单机版程序将用户的按钮点击次数信息传输至网络服务器;如果需要统计用户对页面的访问情况,则需要传输用户的访问 URL地址信息等。预先设置的策略根据产品统计数据类型的不同而有所不同。
6
产品统计数据类型包括数值型产品统计数据以及非数值型产品统计数据。图2为本发明实施例对数值型产品统计数据进行置换处理的方法流程示意图。参见图2,数值型产品统计数据包括点击次数、访问次数等,该流程包括步骤201,预先设置用于置换处理的分布函数;本步骤中,分布函数可以是随机分布函数,也可以是正态分布函数,还可以是其它类型的分布函数。实际应用中,可以通过程序设计语言中的分布函数指令调用分布函数,例如,通过调用C语言的randO函数,能导入产生预定范围内的均勻分布的随机数的随机分布函数, 例如,预定范围可以为O到1。对于正态分布函数,需要设置正态分布的期望值和方差值,其中,期望值对产品统计数据产生平移效果,对产品统计数据扰动影响较小;方差值则影响产品统计数据的扰动效果,可以通过计算原产品统计数据的方差,选择与原产品统计数据方差值等数量级的方差值作为正态分布的方差值,并使得设置的期望值和方差值能够保证扰动后的产品统计数据未超出产品统计数据类型的存储范围即可。步骤202,根据接收的产品统计数据生成服从分布函数的随机数;步骤203,根据生成的随机数对产品统计数据进行置换处理,输出处理后的产品统计数据。本步骤中,可以将生成的随机数与产品统计数据相加得到的数据作为处理后的产品统计数据,也可以将产品统计数据与生成的随机数相减得到的数据作为处理后的产品统计数据,当然,也可以是通过其他方式,例如,其它线性相加方法,例如,将随机数的k(k为一个预先设置的固定系数)倍与数值型产品用户数据相加等处理得到的数据作为处理后的产品统计数据。图3为本发明实施例对非数值型产品统计数据进行置换处理的方法流程示意图。 参见图3,该流程包括步骤301,预先设置服从W,l]分布的分布函数以及分布阈值;本步骤中,非数值型产品统计数据包括URL连接地址信息、用户从给定的多个选项中进行勾选的信息以及用户选择的播放模式等信息。设置的分布阈值用于标识需要将整个非数值型产品统计数据进行置换的概率,可以根据实际需要进行设置,相对来说,如果分布阈值较大,则表明对非数值型产品统计数据进行置换的概率大,产品统计数据扰动较为充分,因而,产品统计数据不易被数据收集人掌握,但原始的产品统计数据失真较大,上报的产品统计数据可用性较低,整体数据的统计可靠性较低,反之,产品统计数据扰动较不充分,易被数据收集人掌握,但原始的产品统计数据失真小,上报的产品统计数据可用性较高,整体数据的统计可靠性较高。实际应用中,可以设置分布阈值为0. 1 0. 4,这样,可以较佳地结合产品统计数据的可用性以及扰动性。步骤302,根据接收的产品统计数据生成服从预先设置的分布函数的随机数;本步骤中,预先设置的分布函数根据输入的产品统计数据产生服从
分布的随机数。步骤303,判断随机数是否小于分布阈值,如果是,执行步骤304,否则,执行步骤 305 ;
7
步骤304,将该产品统计数据取值随机置换为该产品统计数据包含的其他取值;本步骤中,以用户从给定的多个选项中进行勾选的信息为例,例如,选项包括A、B、 C、D四个选项,用户勾选的信息为选项A,如果设置的分布阈值为0. 4,生成的随机数为0. 3, 则可以按照均勻概率从选项B、C、D中随机选择一个,将选择的值替换掉产品统计数据原来的值。这样,对于收集的整体产品统计数据来说,只有比例为分布阈值(a)的产品统计数据被随机替换,剩余的比例(Ι-a)没有被替换,例如,如果a = 0. 2,则20%的产品统计数据被随机替换,80%的产品统计数据没有被替换,即保留了 80%的真实数据,经过这种随机替换后,统计意义可以从80%的产品统计数据反映出来,20%的随机性不会在分布上对原始数据产生影响,只是在一定程度上减少了原始数据样本,但由于有20%的随机性在统计的数据中,使得数据收集人并不能确定一个产品统计数据是否进行过置换处理,最多只能获知该产品统计数据进行过置换处理的概率为a,不能准确推断出产品统计数据项的真实值。因而,对于单个产品统计数据来说,并不能准确确定其真实值。步骤305,输出处理后的产品统计数据。本步骤中,如果对产品统计数据进行了置换,则将置换后的产品统计数据作为处理后的产品统计数据,如果未对产品统计数据进行置换,则将原产品统计数据作为处理后的产品统计数据。预先设置的策略还可以是其它方式,例如,对于地理位置的产品统计数据,可以将小地理位置转换成大地理位置,举例来说,可以将深圳、广州这些城市的产品统计数据信息置换为广东的产品统计数据信息,从而隐藏的产品统计数据的细节信息;又例如,可以将产品统计数据转换成数据区间,举例来说,对于产品统计数据为年龄的情形,可以将其置换并映射成[1,10), [10,20)等数据区间。步骤102,将置换处理的产品统计数据进行封装后向网络服务器发送。本步骤中,封装后的产品统计数据格式如表1所示。表 权利要求
1.一种处理产品统计数据的方法,其特征在于,该方法包括获取产品统计数据,按照预先设置的策略对获取的产品统计数据进行置换处理; 将置换处理的产品统计数据进行封装后向网络服务器发送。
2.如权利要求1所述的方法,其特征在于,所述产品统计数据包括数值型产品统计数据以及非数值型产品统计数据。
3.如权利要求2所述的方法,其特征在于,所述按照预先设置的策略对获取的产品统计数据进行置换处理具体包括预先设置用于置换处理的分布函数;根据接收的产品统计数据生成服从分布函数的随机数;根据生成的随机数对产品统计数据进行置换处理,输出处理后的产品统计数据。
4.如权利要求3所述的方法,其特征在于,所述分布函数包括随机分布函数以及正态分布函数。
5.如权利要求3所述的方法,其特征在于,所述根据生成的随机数对产品统计数据进行置换处理具体包括将生成的随机数与产品统计数据相加;或, 将产品统计数据与生成的随机数相减。
6.如权利要求2所述的方法,其特征在于,所述按照预先设置的策略对获取的产品统计数据进行置换处理具体包括预先设置服从
分布的分布函数以及分布阈值; 根据接收的产品统计数据生成服从预先设置的分布函数的随机数; 判断随机数是否小于分布阈值,如果是,将该产品统计数据取值随机置换为该产品统计数据包含的其他取值并输出,否则,直接输出接收的产品统计数据。
7.如权利要求1至6任一项所述的方法,其特征在于,进一步包括根据预先设置的密钥对封装的产品统计数据进行加密处理,并采用传输控制协议或产品统计数据报协议进行发送。
8.—种处理产品统计数据的装置,其特征在于,该装置包括产品统计数据扰动器以及封装单元,其中,产品统计数据扰动器,用于获取产品统计数据,按照预先设置的策略对获取的产品统计数据进行置换处理,输出至封装单元;封装单元,用于将置换处理的产品统计数据进行封装后向网络服务器发送。
9.如权利要求8所述的装置,其特征在于,进一步包括加密单元,用于将封装单元输出的封装数据按照预先设置的加密密钥进行加密后向网络服务器发送。
10.如权利要求8或9所述的装置,其特征在于,所述产品统计数据扰动器包括随机数生成模块、分布函数存储模块以及置换处理模块,其中,分布函数存储模块,用于存储用于置换处理的分布函数;随机数生成模块,用于接收产品统计数据,从分布函数存储模块读取预先设置的分布函数,生成服从分布函数的随机数,输出至置换处理模块;置换处理模块,用于根据生成的随机数对接收的产品统计数据进行置换处理,输出处理后的产品统计数据。
11.如权利要求8或9所述的装置,其特征在于,所述产品统计数据扰动器包括分布函数存储模块、随机数生成模块、比较模块以及置换处理模块,其中,分布函数存储模块,存储用于置换处理的服从W,l]分布的分布函数; 随机数生成模块,用于接收产品统计数据,从分布函数存储模块读取预先设置的分布函数,生成服从分布函数的随机数,输出至比较模块;比较模块,用于判断随机数是否小于预先设置的分布阈值,如果是,向置换处理模块输出指示置换信息,否则,向置换处理模块输出指示不作置换信息;置换处理模块,用于接收产品统计数据,根据接收的指示置换信息将该产品统计数据取值随机置换为该产品统计数据包含的其他取值并输出,以及,根据接收的指示不作置换信息将该产品统计数据输出。全文摘要
本发明公开了一种处理产品统计数据的方法,该方法包括获取产品统计数据,按照预先设置的策略对获取的产品统计数据进行置换处理;将置换处理的产品统计数据进行封装后向网络服务器发送。本发明还公开了一种处理产品统计数据的装置。应用本发明,可以降低产品统计数据泄漏的风险、提高产品统计数据的安全性。
文档编号G06F21/00GK102467533SQ201010541900
公开日2012年5月23日 申请日期2010年11月10日 优先权日2010年11月10日
发明者丘正元 申请人:腾讯科技(深圳)有限公司