一种面向版权保护的数据库水印方法
【专利摘要】本发明公开了一种面向版权保护的数据库水印方法。该方法基于Unicode的数据库文本数据进行数字水印的嵌入和检测算法,包括如下步骤:步骤一:选取种子数生成无意义的二值水印序列,同时存储版权信息和水印序列;步骤二:建立不可见字符集与二值水印序列的映射关系;步骤三:将水印序列映射为不可见字符组合,嵌入数据库中并更新数据;步骤四:检测时,提取数据库中属于不可见字符集中的字符;步骤五:根据映射关系,将不可见字符映射为水印信息。步骤六:根据水印信息恢复二值水印序列,比较并计算相关系数,据此判断版权信息。本发明的方法充分利用了不可见字符的特性,解决了数据库中文本数据的水印无损嵌入和水印同步问题。
【专利说明】一种面向版权保护的数据库水印方法
【技术领域】
[0001]本发明属于信息版权保护领域,具体涉及一种利用Unicode不可见字符作为水印载体和水印定位信息,针对数据库文本数据的数字水印嵌入与检测方法,以实现数据库文本数据的来源鉴定和版权保护。
【背景技术】
[0002]数据库是用来高效地组织、管理数据的系统,解决了海量多样化的数据存储、操作、传输等问题,数据库中的数据是从全局观点出发建立的,按一定的数据模型进行组织、描述和存储。其结构基于数据间的自然联系,从而可提供一切必要的存取路径,且数据不再针对某一应用,而是面向全组织,具有整体的结构化特征。数据库向应用系统提供数据查询、数据更新、数据插入、数据删除等服务,是当前大型软件系统或者数据处理系统的重要组成部分,在实际应用中起到了重要作用。例如,国家在统计人口数据时需要将人口的基本信息如姓名、年龄、住址等存入数据库中,而在财务管理、仓库管理、职工管理等方面数据库均承担着重要的数据存储和管理任务。
[0003]近年来,随着数字化、网络化、移动化时代的飞速发展,数据库数据的传输、获取等都变得非常方便快捷。而数据库数据的非法拷贝和复制,不仅会造成数据库所有者蒙受巨大的经济损失,侵害其经济利益,涉密数据的泄露和偷窃更会危及国家安全、国防安全等,从泄露的数据中也无法追查出数据泄露的源头。这使得拥有了数据库版权的数据拥有者对于自己所拥有的数据的不愿轻易共享,或者采取各种费时费力的手段对涉密数据进行保护。这种版权的过度保护行为一方面影响了数据的共享性质,另一面也导致敏感数据的版权保护成本过高。因此,如何保护数据库数据的安全与知识产权已成为迫在眉睫的问题。
[0004]数字水印技术作为一种崭新的信息安全技术,为数据库的安全保护提供了一种切实可行的解决途径,同时对于加强责任心、震慑非法行为、有据可查等方面具有重要作用。数字水印技术在图像、图形、视频、音频等领域的安全保护方面取得了许多的应用,近几年在数据库相关方面也取得了一定的研究和实验成果。
[0005]对于数据库的数字水印技术,国内外均有相当数量的研究。Rakesh Agrawal首次提出了关系型数据库数值型的数字水印算法(Agrawal R, Kiernan J.Watermarkingrelational databases[C].Proceedings of the28th international conference onVery Large Data Bases.VLDB Endowment,2002:155-166),之后也有学者对此算法进行改进(Gupta Gj Pieprzyk J.Database relation watermarking resilient againstsecondary watermarking attacks[M].1nformation Systems Security.SpringerBerlin Heidelberg, 2009:222-236),与图像的数字水印原理类似,均通过对数值型数据的修改实现水印信息的嵌入。而文本数据适用的非数值型数据库水印研究相对较少,Radu Sion提出了同类词替换的方法证明数据的版权所有者(Sion R.Provingownership over categorical data[C].Data Engineering, 2004.Proceedings.20thInternational Conference on.1EEE,2004:584-595),Agusti Solanas 将该方法应用到非数值型的数据库水印中(Solanas A, Domingo-Ferrer J.Watermarking non-numericaldatabases[Μ].Modeling Decisions for Artificial Intelligence.Springer BerlinHeidelberg, 2006:239-250),董晓梅等利用统计特征控制算法进行了进一步的改进(董晓梅,田跃萍,李晓华,于戈.非数值型数据的数据库水印算法研究[J].武汉大学学报,2008,33 (10): 1026-1028),Ali Al-Haj利用英文字符特有的空格嵌入水印信息(Ali Al-Haj, Ashraf Odeh.Robust and Blind Watermarking of Relational DatabaseSystems [J].Journal of Computer Science, 2008,4 (12): 1024-1029),对于数据库非数值型数字水印的模型,也有部分学者进行了研究(Bedi, Rajneeshkaur, Anita Thengade, andVi j ay M.ffadha1.A New Watermarking Approach for Non-numeric RelationalDatabase[J].1nternational Journal of Computer Applications, 2011,13(7):37-40)。但是他们所提出的水印模型或者算法,存在如下的问题:
[0006]I)影响数据的可用性:同义词、语法重构等方式会改变原始属性数据,虽然意义相等,但是属性数据例如中人名、单位名称等往往不允许任何的数据改变,此种水印嵌入方式会破坏数据的完整性,造成嵌入水印后的数据不可用。
[0007]2)语言的适用性:英语中含有大量的空格等冗余信息可以用来实现水印的嵌入,故有学者提出此种水印嵌入方式,但是中文信息中无法找到如此多的空格,无法适用。 [0008]3)不考虑嵌入的具体细节:较多的文献着重于模型和算法,而不考虑具体以怎样的数据形式嵌入水印、提取水印,缺乏实用价值。
【发明内容】
[0009]本发明的目的在于:针对目前数据库文本数据水印技术无法保证数据的完整性、一致性和可用性,算法不适用等问题,提出一种基于Unicode不可见字符的数据库文本数据水印方法。该算法在抵抗特定的数据库操作如增加元组、删除元组、删除主键、删除列、修改表结构等攻击方式下具有好的鲁棒性,同时保证文本数据在嵌入水印之后仍然能够被SQL查询、第三方应用等正常使用。
[0010]为了实现上述发明目的,本发明所采取的技术方案为:
[0011]一种面向版权保护的数据库水印方法,其特征在于包括以下过程:
[0012](一)水印信息生成
[0013]步骤一:从预置的种子数据库中任意取出一个水印种子数WMSeed,种子数据库中水印种子数均不重复,具有唯一性;
[0014]步骤二:使用混沌随机序列发生器作为无意义水印生成方法,将取出的水印种子数WMSeed作为输入生成一个“0”、“1”随机均匀分布的二值序列W ;
[0015]步骤三:在版权数据库中记录W及有意义的版权信息;
[0016](二)水印信息映射
[0017]步骤一:将(一)中的无意义水印信息W转换为二值数组wm[i] = {0, 1},i=l, 2,…,N,其中N为水印信息序列长度;
[0018]步骤二:遍历wm[i],记录每个i的值和相应的wm[i]的值,分别表示为Index和Value ;
[0019]步骤三:选取不可见字符集共L个,设为Char [m] (m=0,1,...,L_l),计算
【权利要求】
1.一种面向版权保护的数据库水印方法,其特征在于包括以下过程: (一)水印信息生成 步骤一:从预置的种子数据库中任意取出一个水印种子数WMSeed,种子数据库中水印种子数均不重复,具有唯一性; 步骤二:使用混沌随机序列发生器作为无意义水印生成方法,将取出的水印种子数WMSeed作为输入生成一个“0”、“1”随机均匀分布的二值序列W ; 步骤三:在版权数据库中记录W及有意义的版权信息; (二)水印信息映射 步骤一:将(一冲的无意义水印信息W转换为二值数组wm[i] = {O, 1},i=l, 2,...,N,其中N为水印信息序列长度; 步骤二:遍历wm[i],记录每个i的值和相应的wm[i]的值,分别表示为Index和Value ; 步骤三:选取不可见字符集共L个,设为Char [m] (m=0, I,..., L_l),计算n =[tog/.lndex\ *其中“|J w符号为向下取整运算,每个Index和Value按照如下公式表示:
【文档编号】G06F21/16GK103646195SQ201310624375
【公开日】2014年3月19日 申请日期:2013年11月27日 优先权日:2013年11月27日
【发明者】朱长青, 佟德宇, 任娜 申请人:南京师范大学