一种监测异常数据并择优过滤的平衡过滤器及方法

文档序号:8282982阅读:249来源:国知局
一种监测异常数据并择优过滤的平衡过滤器及方法
【技术领域】
[0001] 本发明涉及大数据异常监测等技术领域,特别涉及一种监测异常数据并择优过滤 的平衡过滤器及方法。
【背景技术】
[0002] 大部分时候分析师只区分数据的好坏或优劣(数据不同炜度的全面型或数据的 缺失),但是对于数据的精细程度并没有做区分。而现实中,有很多地方其实是需要区分数 据的精细程度的,比如,防止交易欺诈中的异常数据,淘宝店的刷信用交易数据,还有比如 股市,期货或者外汇行情数据组成的相似形态等等,这些数据看起来都差不多,但是其中的 一些细节其实又有所不同,如何能有效的区分出这些有着相同维度数据的精细程度?这个 技术问题存在已久。现实当中,比如有很多理财产品,有些是高收益高风险的产品,有些是 低收益低风险的产品,大部分人通常会避免高风险的产品,同时觉得如果只把钱放在银行 似乎也不合算,所以大家可能希望要一种折中的产品,既不要高风险高收益也不要低风险 低收益。
[0003] 条件筛选的技术问题还是在于把变量离散化,分割为一段段区间的过程。对于连 续的数值型变量,该离散化过程的结果为多个区间。比如学生的各科成绩,或者面试人员的 学历等变量,分箱的结果可能被分为几个区间,比如数学被分为5个区间。分别是0-60分, 60-70分,70-80分,80-90分,90-100分。每个区间称为一个箱子(bin),而一个变量对应的 一组bin称为该变量的分箱(binning),用于预测的所有变量的binning称为一个分箱组。 统计学上,也叫做把变量转换为"哑变量"。
[0004] 目前,数据分析师在变量分箱过程中,存在两个主要问题:一是要么是手动分箱, 要么是全自动分箱(FICO在其产品Model Builder中提供全自动分箱),手动分箱费时费 力,而全自动分箱的缺点是分析师不能自由调整分箱。本发明方法提供一种半自动分箱过 程,既不需要分析师费时费力计算后再手动分箱,同时,也避免了全自动分箱中的黑箱炒 作,该方法同时提供分析师自由添加删除分箱的可修改模式,大大节省了分析师的筛选变 量工作的同时也方便分析师进行修改完善。
[0005] 现有技术的另外一个问题是变量之间的相关性较弱,比如上面提到到数学,语文, 历史等各学科之间本身相关性较弱,再比如招聘所列的学历,工作经验等变量之间的相关 性也较弱。相关性弱意味着进入分类的数据存在较多的相似数据,也就是筛选的不够精确, 本发明方法所选的变量相关性较强。由于特殊筛选的缘故,本发明特意选了负相关性较强 的变量,这样做的好处是能够比较精确的区分那些似是而非的数据,不仅精确挑选所需数 据同时还能保证数据的一致性。

【发明内容】

[0006] 针对现有技术的不足,本发明提出一种监测异常数据并择优过滤的平衡过滤器及 方法,本发明方法及装置不仅能区分数据的精细程度,更进一步的所述方法和所述装置还 能过滤其中的某些异常数据,尤其能同时过滤粗糙和精细的数据,这在某些领域有着特殊 的技术效果,本发明方法要解决的技术问题就是要在同一个时候过滤掉类似高风险高收益 和低风险低收益的数据,始终只保留中间数据,保留中间数据的好处在于获得持续稳定的 结果,本发明方法以行情数据为基础来对该方法进行阐述。
[0007] 本发明提出一种监测异常数据并择优过滤的平衡过滤器,包括:
[0008] 获取0/1组合模块,用于获取历史数据,并将所述历史数据转换成多个0/1组合, 每个所述0/1组合包括N个0/1的排列组合,并获取与0/1相关的数据,所述数据作为原始 数据;
[0009] 获取评估数据模块,用于根据所述原始数据,计算每个所述0/1组合的所述评估 数据,其中所述评估数据包括条件概率、预期变动率、异常距离、风险波动率、概率波幅;根 据所述评估数据,运行平衡过滤模块,并计算阈值,通过所述阈值对数据进行平衡过滤;
[0010] 所述平衡过滤模块,用于通过所述评估数据计算所述阈值,并将每个所述0/1组 合的所述评估数据进行排序,将所述评估数据中数值未符合所述阈值的数据删除,以完成 所述0/1组合中数据的平衡过滤。
[0011] 所述的监测异常数据并择优过滤的平衡过滤器,计算所条件概率的公式为:
【主权项】
1. 一种监测异常数据并择优过滤的平衡过滤器,其特征在于,包括: 获取0/1组合模块,用于获取历史数据,并将所述历史数据转换成多个0/1组合,每个 所述0/1组合包括N个0/1的排列组合,并获取与0/1相关的数据,所述数据作为原始数 据; 获取评估数据模块,用于根据所述原始数据,计算每个所述0/1组合的所述评估数据, 其中所述评估数据包括条件概率、预期变动率、异常距离、风险波动率、概率波幅;根据所述 评估数据,运行平衡过滤模块,并计算阔值,通过所述阔值对数据进行平衡过滤; 所述平衡过滤模块,用于通过所述评估数据计算所述阔值,并将每个所述0/1组合的 所述评估数据进行排序,将所述评估数据中数值未符合所述阔值的数据删除,W完成所述 0/1组合中数据的平衡过滤。
2. 如权利要求1所述的监测异常数据并择优过滤的平衡过滤器,其特征在于,计算所 条件概率的公式为;
其中f(xi)为所述条件概率,first为未来第一次如果为1或0,那么出现1或0的概 率,second为未来第二次如果为1或0,那么再出现1或0的概率,third为未来第S次如 果为1或0,那么又出现1或0的概率,Times为频次,up为1的情况,down为0的情况; 计算所述预期变动率的公式为:
其中f (X2)为所述预期变动率,Dvalue为1或0的差的绝对值,n为总次数,m为1和 0总次数,Times为频次,xi为每次为正值的值,k值为正值的次数,y为振幅的均值。
3. 如权利要求1所述的监测异常数据并择优过滤的平衡过滤器,其特征在于,计算所 述异常距离的公式为:
其中f (X3)为1的所述异常距离,Dvalue为1或0的差的绝对值,up为所有Dvalue大 于0的值,down为所有Dvalue小于0的值,n为1或0的次数,m为1或0的总次数,xi为 每次为正值的值,y为振幅的均值;
其中f (X3)为0的所述异常距离,f (X4)为1的所属异常距离。
4. 如权利要求1所述的监测异常数据并择优过滤的平衡过滤器,其特征在于,计算所

述风险波动率的公式为:
其中f 0〇为所述风险波动率,up为所有Dvalue大于0的值,n为1或0的次数,m为 1或0的总次数,down为所有Dvalue小于0的值,Dvalue为1或0的差的绝对值,Times为 频次。
5. 如权利要求1所述的监测异常数据并择优过滤的平衡过滤器,其特征在于,计算所 述阔值的公式为: f (又7) = f (Xi) *f (Xg) *f (X2 Vf (X3)和 / 或 f (又7) = f (Xi) *f (Xs) *f (又2) /f (又4) 其中所述f(X,)为所述阔值,f(Xi)为所述条件概率,f(X2)为所述预期变动率,f(X3)为 1的所述异常距离,f(X4)为0的所述异常距离,f(Xg)为所述风险波动率。
6. -种监测异常数据并择优过滤的平衡过滤方法,其特征在于,包括: 步骤1,获取历史数据,并将所述历史数据转换成多个0/1组合,每个所述0/1组合包括 N个0/1的排列组合,并获取与0/1相关的数据,所述数据作为原始数据; 步骤2,根据所述原始数据,计算每个所述0/1组合的所述评估数据,其中所述评估数 据包括条件概率、预期变动率、异常距离、风险波动率、概率波幅; 步骤3,通过所述评估数据计算阔值,并将每个所述0/1组合的所述评估数据进行排 序,将所述评估数据中数值未符合所述阔值的数据删除,W完成所述0/1组合中数据的平 衡过滤。
7. 如权利要求6所述的监测异常数据并择优过滤的平衡过滤方法,其特征在于,计算 所条件概率的公式为;
其中f(xi)为所述条件概率,first为未来第一次如果为1或0,那么出现1或0的概 率,second为未来第二次如果为1或0,那么再出现1或0的概率,third为未来第S次如 果为1或0,那么又出现1或0的概率,Times为频次,up为1的情况,down为0的情况; 计算所述预期变动率的公式为:
其中f(X2)为所述预期变动率,Dvalue为1或0的差的绝对值,n为总次数,m为1和 0总次数,Times为频次,xi为每次为正值的值,k值为正值的次数,y为振幅的均值。
8. 如权利要求6所述的监测异常数据并择优过滤的平衡过滤方法,其特征在于,计算 所述异常距离的公式为:

其中f (X3)为1的所述异常距离,Dvalue为1或0的差的绝对值,up为所有Dvalue大 于0的值,down为所有Dvalue小于0的值,n为1或0的次数,m为1或0的总次数,xi为 每次为正值的值,y为振幅的均值;
/ N 其中f (X3)为0的所述异常距离,f (X4)为1的所属异常距离。
9. 如权利要求6所述的监测异常数据并择优过滤的平衡过滤方法,其特征在于,计算 所述风险波动率的公式为:
其中fOO为所述风险波动率,up为所有Dvalue大于0的值,n为1或0的次数,m为 1或0的总次数,down为所有Dvalue小于0的值,Dvalue为1或0的差的绝对值,Times为 频次。
10. 如权利要求6所述的监测异常数据并择优过滤的平衡过滤方法,其特征在于,计算 所述阔值的公式为: f (又7) = f (Xi) *f (Xg) *f (X2 Vf (X3)和 / 或 f (又7) = f (Xi) *f (Xs) *f (又2) /f (又4) 其中所述f(X,)为所述阔值,f(Xi)为所述条件概率,f(X2)为所述预期变动率,f(X3)为 1的所述异常距离,f(X4)为0的所述异常距离,f(Xg)为所述风险波动率。

【专利摘要】本发明公开了一种监测异常数据并择优过滤的平衡过滤器及方法,涉及互联网大数据,金融数据,舆情等技术领域。该平衡过滤器包括获取0/1组合模块,将历史数据转换成多个0/1组合,每个所述0/1组合包括N个0/1的排列组合,所述数据作为原始数据;根据所述原始数据,计算每个所述0/1组合的评估数据,其中所述评估数据包括条件概率、预期变动率、异常距离、风险波动率、概率波幅;根据所述评估数据,运行平衡过滤模块,计算阈值,通过所述阈值对数据进行平衡过滤;所述平衡过滤模块,通过所述评估数据计算所述阈值,将每个所述0/1组合的所述评估数据进行排序,将所述评估数据中数值未符合所述阈值的数据删除。
【IPC分类】G06Q40-00
【公开号】CN104599173
【申请号】CN201510015396
【发明人】杜登斌, 曾祥洪
【申请人】北京中润普达信息技术有限公司
【公开日】2015年5月6日
【申请日】2015年1月12日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1