一种基于混合聚类的以太坊交易数据脱敏方法及系统

文档序号:35674200发布日期:2023-10-08 01:49阅读:29来源:国知局
一种基于混合聚类的以太坊交易数据脱敏方法及系统

本发明属于数据安全,具体涉及一种基于混合聚类的以太坊交易数据脱敏方法及系统。


背景技术:

1、随着企业数字化转型的深入,数据已然成为了企业运行的重要资产。尤其是随着互联网+、云计算、大数据等信息技术与通信技术的迅猛发展,社会逐步进入了数据时代。

2、但是,与之而来的是数据泄露风险的加剧。根据近期发布的《2022年数据泄露成本报告》,数据泄露的平均成本创下435万美元的历史新高,比2021年增长了2.6%,自2020年以来增长了12.7%。经过2022年的研究首次发现,83%受访组织已经不是第一次发生数据泄露事件。

3、数据的价值在于流动与融合,但数据的可用范围,正常情况下敏感数据是只能存在于生产环境中,而经过脱敏之后就可以在测试环境中存储、在开发环境中存储以及对外部开放访问,进而可以最大限度保证数据的规范使用和数据价值的安全释放,推动企业的数字化发展、业务增收。

4、数据脱敏就是一项重要的数据安全防护手段,它可以有效地减少敏感数据在采集、传输、使用等环节中的暴露,进而降低敏感数据泄露的风险,确保数据合规。数据脱敏是在给定的规则、策略下对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在非可信环境中使用的问题。

5、而现有的以太坊是一个基于区块链技术的开源平台,允许用户构建和部署去中心化应用程序,并通过以太坊网络进行交易。以太坊具有最广泛的用户群体、应用生态和开发者社区,而以太坊属于开放式的账本,用户信息反而更容易被追踪,再加上大多数交易所必须集成中心化身份验证机制,用户的个人信息和区块链的匿名地址之间的映射关系已经被交易所记录了下来,再加上成熟的数据分析方法,用户的交易行为很容易被识别,用户隐私的安全性较低。

6、为了保护用户的隐私,本发明提出了一种基于混合聚类的以太坊交易数据脱敏方法。


技术实现思路

1、为解决现有技术中的不足,本发明提供一种基于混合聚类的以太坊交易数据脱敏方法及系统,在有效保护以太坊交易数据的同时保留了数据的统计特性,为后续的数据挖掘和分析提供了支持。

2、为达到上述目的,本发明所采用的技术方案是:

3、第一方面,提供一种基于混合聚类的以太坊交易数据脱敏方法,包括:收集以太坊区块链上的公开交易数据并进行清洗和格式化处理,作为初始数据集;将初始数据集导入dbscan算法中进行运算,得到聚类的数量以及聚类中心的位置;将聚类的数量以及聚类中心的位置代入到k均值聚类算法中,迭代计算,直至各个数据点与聚类中心的距离不再变化,于是数据被归类至各个集群中;对各个集群进行筛选,剔除其中的异常点,获得待脱敏的常规数据;根据设定的敏感数据脱敏规则,对待脱敏的常规数据进行敏感信息识别和数据脱敏,并将脱敏后的数据输出至受保护的镜像库中。

4、进一步地,k均值聚类算法包括k-means算法。

5、进一步地,所述敏感信息包括交易地址、交易金额和交易时间戳。

6、进一步地,所述数据脱敏包括结合静态数据脱敏引擎处理待脱敏的常规数据,脱敏引擎包括脱敏算法,脱敏算法标记敏感数据并制订敏感数据脱敏规则配置。

7、进一步地,所述脱敏算法通过替换、截断、掩码、重排、日期偏移取整,实现对数据的脱敏。

8、进一步地,还包括判断是否需要动态数据,当需要动态数据时,进行动态脱敏,包括:将动态数据引入代理数据库,重新识别敏感信息,进行再次脱敏,存入镜像库中。

9、进一步地,重新识别敏感信息,包括:在将动态数据引入代理数据库后,将敏感数据类别与每个敏感数据类别下的数据数量,进行有效的负载均衡处理,以使动态脱敏的效率达到最高。

10、进一步地,所述负载均衡处理,包括:b1、统计敏感字段的数量,将其标记为a;统计每种敏感字段下数据的总数量,累计结果,将其标记为b;b2、将每一个敏感字段与之对应的数据,放至代理数据库;b3、初始化a/2条异步线程,为其设置以下状态:b31、在每条线程每次处理该部分敏感数据时,只处理b/a条数据,不足时不取其他类别;并将其置为空闲状态;b32、当某条线程处于空闲状态时,去代理数据库中取一个敏感字段进行脱敏处理,直至该敏感字段下所有数据全部处理完毕,将该敏感字段及其数据移出代理数据库;b4、脱敏结束,存入镜像库。

11、第二方面,提供一种基于混合聚类的以太坊交易数据脱敏系统,包括:数据集构建模块,用于收集以太坊区块链上的公开交易数据并进行清洗和格式化处理,作为初始数据集;第一聚类模块,用于将初始数据集导入dbscan算法中进行运算,得到聚类的数量以及聚类中心的位置;第二聚类模块,用于将聚类的数量以及聚类中心的位置代入到k均值聚类算法中,迭代计算,直至各个数据点与聚类中心的距离不再变化,于是数据被归类至各个集群中;数据筛选模块,用于对各个集群进行筛选,剔除其中的异常点,获得待脱敏的常规数据;数据脱敏模块,用于根据设定的敏感数据脱敏规则,对待脱敏的常规数据进行敏感信息识别和数据脱敏,并将脱敏后的数据输出至受保护的镜像库中。

12、与现有技术相比,本发明所达到的有益效果:本发明通过构建基于以太坊交易数据的初始数据集;将初始数据集导入dbscan算法中进行运算,得到聚类的数量以及聚类中心的位置;将聚类的数量以及聚类中心的位置代入到k均值聚类算法中,迭代计算,直至各个数据点与聚类中心的距离不再变化,于是数据被归类至各个集群中;对各个集群进行筛选,剔除其中的异常点,获得待脱敏的常规数据;根据设定的敏感数据脱敏规则,对待脱敏的常规数据进行敏感信息识别和数据脱敏,并将脱敏后的数据输出至受保护的镜像库中;本发明在有效保护以太坊交易数据的同时保留了数据的统计特性,为后续的数据挖掘和分析提供了支持。



技术特征:

1.一种基于混合聚类的以太坊交易数据脱敏方法,其特征在于,包括:

2.根据权利要求1所述的基于混合聚类的以太坊交易数据脱敏方法,其特征在于,k均值聚类算法包括k-means算法。

3.根据权利要求1所述的基于混合聚类的以太坊交易数据脱敏方法,其特征在于,所述敏感信息包括交易地址、交易金额和交易时间戳。

4.根据权利要求1所述的基于混合聚类的以太坊交易数据脱敏方法,其特征在于,所述数据脱敏包括结合静态数据脱敏引擎处理待脱敏的常规数据,脱敏引擎包括脱敏算法,脱敏算法标记敏感数据并制订敏感数据脱敏规则配置。

5.根据权利要求4所述的基于混合聚类的以太坊交易数据脱敏方法,其特征在于,所述脱敏算法通过替换、截断、掩码、重排、日期偏移取整,实现对数据的脱敏。

6.根据权利要求1所述的基于混合聚类的以太坊交易数据脱敏方法,其特征在于,还包括判断是否需要动态数据,当需要动态数据时,进行动态脱敏,包括:将动态数据引入代理数据库,重新识别敏感信息,进行再次脱敏,存入镜像库中。

7.根据权利要求6所述的基于混合聚类的以太坊交易数据脱敏方法,其特征在于,重新识别敏感信息,包括:在将动态数据引入代理数据库后,将敏感数据类别与每个敏感数据类别下的数据数量,进行有效的负载均衡处理,以使动态脱敏的效率达到最高。

8.根据权利要求7所述的基于混合聚类的以太坊交易数据脱敏方法,其特征在于,所述负载均衡处理,包括:

9.一种基于混合聚类的以太坊交易数据脱敏系统,其特征在于,包括:


技术总结
本发明公开了一种基于混合聚类的以太坊交易数据脱敏方法及系统,通过构建基于以太坊交易数据的初始数据集;将初始数据集导入DBSCAN算法中进行运算,得到聚类的数量以及聚类中心的位置;将聚类的数量以及聚类中心的位置代入到K均值聚类算法中,迭代计算,直至各个数据点与聚类中心的距离不再变化,于是数据被归类至各个集群中;对各个集群进行筛选,剔除其中的异常点,获得待脱敏的常规数据;根据设定的敏感数据脱敏规则,对待脱敏的常规数据进行敏感信息识别和数据脱敏,并将脱敏后的数据输出至受保护的镜像库中;本发明在有效保护以太坊交易数据的同时保留了数据的统计特性,为后续的数据挖掘和分析提供了支持。

技术研发人员:刘炳杉,穆文鹏,付章杰,王保卫,高莉莉
受保护的技术使用者:南京信息工程大学
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1