一种基于云服务的存储方法和装置与流程

文档序号:32046911发布日期:2022-11-03 07:30阅读:35来源:国知局
一种基于云服务的存储方法和装置与流程

1.本发明涉及云服务技术领域,特别涉及一种基于云服务的存储方法和装置。


背景技术:

2.云服务是基于互联网的相关服务的增加、使用和交互模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。越来越多的企业为了降低存储成本都会选用云端进行存储,但是云存储的安全事件不断的发生,医疗、政府、金融、科技等行业都曾发生过数据泄露事件,造成重大经济损失和不良社会影响。目前,对于一些数据,主要是通过各种各样的加密方式进行存储,简单的加密方式非常容易被破解,从而导致信息会流失,而复杂的加密信息则在加密过程和解密过程会比较麻烦,导致计算资源损耗较大,不利于推广,因此,现有的云服务的加密存储方法不能解决大众的存储重要文件(例如合同,保险订单等),亟需一种云服务的加密存储方法。


技术实现要素:

3.本发明的主要目的为提供一种基于云服务的存储方法和装置,旨在解决现有的云服务加密存储技术不能解决大众的存储重要文件的问题。
4.本发明提供了一种基于云服务的存储方法,包括:获取待存储的第一文件;利用预设的文本相似度算法从第一云服务端找出与所述第一文件相近的第二文件;对所述第二文件中的语句进行词汇、短语以及单个字符的提取,并基于各个元素在所述第二文件中的位置进行标注,得到第一数据集;所述元素为词汇、短语以及单个字符中的任意一种;对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件;对所述第三文件进行词汇的识别,得到多个暂时词汇,并判断各个所述暂时词汇是否属于所述第一数据集,将属于所述第一数据集中的暂时词汇记为目标词汇进行提取,得到目标词汇集,并对所述第三文件中的目标词汇进行遮盖处理,得到遮盖后的第四文件;对所述第四文件进行单个字符的提取,并判断是否属于所述第一数据集,将属于所述第一数据集中的字符记为目标字符进行提取,得到第一字符集,并将不属于所述第一数据集中的字符记为暂时字符进行提取,得到第二字符集;根据所述目标短语集、所述目标词汇集以及所述第一字符集中的元素按照所述第一数据集中的标注进行编码,以及对所述第二字符集中的元素按照预设的汉字编码器进行编码,并基于所述第一文件的顺序对编码后的代码进行排序,得到第一代码;将所述第一代码按照预设的加密算法进行加密,得到第二代码,将所述第二代码
上传至第二云服务端进行存储。
5.进一步地,所述利用预设的文本相似度算法从第一云服务端找出与所述第一文件相近的第二文件的步骤,包括:对所述第一文件进行词汇、短语以及单个字符的提取并去重,得到第二数据集,其中,所述第二数据集中包括三个级别的元素,第一级别为单个字符,第二级别为词汇,第三个级别为短语;设置所述第一文件中第一级别的权重,根据公式设置第二级别的权重以及第三级别的权重;其中,t=1或2,表示与t相关的预设参数,表示第t个级别的预设参数;根据预设的文本相似度算法计算与多个对比文件的相似度值,其中,表示第二数据集中的第i个元素,n表示第二数据集中元素的个数总和,表示对比文件中对应的数量,表示对应级别的权重,i表示第一文件,r表示对比文件,表示相似度值;根据所述相似度值的大小,选取相似度值最大的对比文件作为所述第二文件。
6.进一步地,所述将所述第一代码按照预设的加密算法进行加密,得到第二代码的步骤,包括:根据所述第一代码的规模生成对应维数的可逆矩阵;从预设的密钥集中筛选出与所述可逆矩阵维数相同的密钥矩阵;通过所述密钥矩阵对所述可逆矩阵进行矩阵运算得到加密矩阵;其中,加密运算公式为:m=p
·
a,m为加密矩阵,p为可逆矩阵,a为密钥矩阵。
7.进一步地,所述对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件的步骤之前,还包括:从预设的数据库中读取隐私词汇集;根据预设的查询函数和所述隐私词汇集查询所述第一文件中的目标隐私词汇;采用预设的非隐私词汇替换所述第一文件中的目标隐私词汇,得到替换后的第一文件用于执行对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件的步骤;建立非隐私词汇与所述目标隐私词汇的对应表并上传至第三云服务端。
8.进一步地,所述将所述第一代码按照预设的加密算法进行加密,得到第二代码,将所述第二代码上传至第二云服务端进行存储的步骤之后,还包括:判断是否接收到发起方获取所述第一文件的获取指令;
若接收到所述获取指令,则通过第一云服务端的第一验证方法向所述发起方进行第一次认证;若第一次认证通过,则将所述第二文件发送给所述发起方;基于所述第二文件触发所述第二云服务端的第二次认证;若所述第二次认证通过,则将所述第二代码发送给所述发起方;基于所述第二代码和所述第二文件执行解码指令,得到所述第一文件。
9.本发明还提供了一种基于云服务的存储装置,包括:获取模块,用于获取待存储的第一文件;寻找模块,用于利用预设的文本相似度算法从第一云服务端找出与所述第一文件相近的第二文件;提取模块,用于对所述第二文件中的语句进行词汇、短语以及单个字符的提取,并基于各个元素在所述第二文件中的位置进行标注,得到第一数据集;所述元素为词汇、短语以及单个字符中的任意一种;短语识别模块,用于对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件;词汇识别模块,用于对所述第三文件进行词汇的识别,得到多个暂时词汇,并判断各个所述暂时词汇是否属于所述第一数据集,将属于所述第一数据集中的暂时词汇记为目标词汇进行提取,得到目标词汇集,并对所述第三文件中的目标词汇进行遮盖处理,得到遮盖后的第四文件;字符提取模块,用于对所述第四文件进行单个字符的提取,并判断是否属于所述第一数据集,将属于所述第一数据集中的字符记为目标字符进行提取,得到第一字符集,并将不属于所述第一数据集中的字符记为暂时字符进行提取,得到第二字符集;编码模块,用于根据所述目标短语集、所述目标词汇集以及所述第一字符集中的元素按照所述第一数据集中的标注进行编码,以及对所述第二字符集中的元素按照预设的汉字编码器进行编码,并基于所述第一文件的顺序对编码后的代码进行排序,得到第一代码;加密模块,用于将所述第一代码按照预设的加密算法进行加密,得到第二代码,将所述第二代码上传至第二云服务端进行存储。
10.进一步地,所述寻找模块,包括:去重子模块,用于对所述第一文件进行词汇、短语以及单个字符的提取并去重,得到第二数据集,其中,所述第二数据集中包括三个级别的元素,第一级别为单个字符,第二级别为词汇,第三个级别为短语;设置子模块,用于设置所述第一文件中第一级别的权重,根据公式设置第二级别的权重以及第三级别的权重;其中,t=1或2,表示与t相关的预设参数,表示第t个级别的预设参数;
计算子模块,用于根据预设的文本相似度算法计算与多个对比文件的相似度值,其中,表示第二数据集中的第i个元素,n表示第二数据集中元素的个数总和,表示对比文件中对应的数量,表示对应级别的权重,i表示第一文件,r表示对比文件,表示相似度值;选取子模块,用于根据所述相似度值的大小,选取相似度值最大的对比文件作为所述第二文件。
11.进一步地,所述加密模块,包括:生成子模块,用于根据所述第一代码的规模生成对应维数的可逆矩阵;筛选子模块,用于从预设的密钥集中筛选出与所述可逆矩阵维数相同的密钥矩阵;运算子模块,用于通过所述密钥矩阵对所述可逆矩阵进行矩阵运算得到加密矩阵;其中,加密运算公式为:m=p
·
a,m为加密矩阵,p为可逆矩阵,a为密钥矩阵。
12.进一步地,所述基于云服务的存储装置,还包括:读取模块,用于从预设的数据库中读取隐私词汇集;查询模块,用于根据预设的查询函数和所述隐私词汇集查询所述第一文件中的目标隐私词汇;替换模块,用于采用预设的非隐私词汇替换所述第一文件中的目标隐私词汇,得到替换后的第一文件用于执行对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件的步骤;上传模块,用于建立非隐私词汇与所述目标隐私词汇的对应表并上传至第三云服务端。
13.进一步地,所述基于云服务的存储装置,还包括:判断模块,用于判断是否接收到发起方获取所述第一文件的获取指令;第一认证模块,用于若接收到所述获取指令,则通过第一云服务端的第一验证方法向所述发起方进行第一次认证;第一发送模块,用于若第一次认证通过,则将所述第二文件发送给所述发起方;第二认证模块,用于基于所述第二文件触发所述第二云服务端的第二次认证;第二发送模块,用于若所述第二次认证通过,则将所述第二代码发送给所述发起方;解码模块,用于基于所述第二代码和所述第二文件执行解码指令,得到所述第一文件。
14.本发明的有益效果:通过第一文件找取相似的第二文件,利用第二文件对第一文件进行加密,并将加密后的密文上传至第二云服务端,从而实现了对重要文件的云服务加
密存储,利用两个云服务端来实现对数据的共同加密,加密过程简单高效,加密的可靠性得到了提高。
附图说明
15.图1 是本发明一实施例的一种基于云服务的存储方法的流程示意图;图2是本发明一实施例的一种基于云服务的存储装置的结构示意框图。
16.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
17.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
18.需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
19.本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。
20.另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
21.参照图1,本发明提出一种基于云服务的存储方法,包括:s1:获取待存储的第一文件;s2:利用预设的文本相似度算法从第一云服务端找出与所述第一文件相近的第二文件;s3:对所述第二文件中的语句进行词汇、短语以及单个字符的提取,并基于各个元素在所述第二文件中的位置进行标注,得到第一数据集;所述元素为词汇、短语以及单个字符中的任意一种;s4:对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件;s5:对所述第三文件进行词汇的识别,得到多个暂时词汇,并判断各个所述暂时词汇是否属于所述第一数据集,将属于所述第一数据集中的暂时词汇记为目标词汇进行提取,得到目标词汇集,并对所述第三文件中的目标词汇进行遮盖处理,得到遮盖后的第四文
件;s6:对所述第四文件进行单个字符的提取,并判断是否属于所述第一数据集,将属于所述第一数据集中的字符记为目标字符进行提取,得到第一字符集,并将不属于所述第一数据集中的字符记为暂时字符进行提取,得到第二字符集;s7:根据所述目标短语集、所述目标词汇集以及所述第一字符集中的元素按照所述第一数据集中的标注进行编码,以及对所述第二字符集中的元素按照预设的汉字编码器进行编码,并基于所述第一文件的顺序对编码后的代码进行排序,得到第一代码;s8:将所述第一代码按照预设的加密算法进行加密,得到第二代码,将所述第二代码上传至第二云服务端进行存储。
22.如上述步骤s1所述,获取待存储的第一文件,其中,获取的方式为获取上传方上传的第一文件,需要说明的是该第一文件为文本,本技术只针对文本进行加密,至于其他的视频和图像数据则需要转化为对应的文本数据,若不能转化,或者转化后难以实现复原的情形,则不在本技术的保护范围内,另外,本技术的执行主体可以是企业内网中服务器,或者平台,在一些实施例中,也可以是其他的云服务端,但是为了保证数据的安全,优选使用内网的服务器。
23.如上述步骤s2所述,利用预设的文本相似度算法从第一云服务端找出与所述第一文件相近的第二文件,其中,预设的文本相似度算法,可以是任意的文本相似度算法,例如可以将第一文件和对比文件进行分词,并进行向量化,利用向量之间的相似度,来确定第一文件与第二文件的相似度,从而从对比文件中找出第二文件,在一个较优的实施例中,由于本技术只需要第二文件中尽可能包含有第一文件中的字符、词汇、短语等,所以对于语义的文本相似度算法反而不适用于本技术,本技术后续针对字符、词汇、短语设计了一套相关的算法,此处不再赘述,具体请参照后文。
24.如上述步骤s3-s5所述,对所述第二文件中的语句进行词汇、短语以及单个字符的提取,并基于各个元素在所述第二文件中的位置进行标注,得到第一数据集;所述元素为词汇、短语以及单个字符中的任意一种。其中,此处对第二文件的元素提取,需要对词汇,短语,以及单个字符的重复提取,位置标注的方式具体为对各个字符进行数字编号,例如“本合同为有固定期限的劳动合同。”,则短语“固定期限”的标注为[6,9],合同的标注为[2,3]和[13,14],需要特别说明的是,若第一文件中需要对“合同”进行位置的标注时,可以从上任意选取一个,选取的规则不作限定,优选可以更加复杂的选取方式,可以使同一个词在后续的加密文中具有多种的表达方式,从而可以加大破解的难度,提高安全性。另外,提取的方式可以是通过预先训练好的bert模型进行提取,即预先通过不同文件,以及对应的短语,词汇,字符,进行训练,从而得到预先训练好的bert模型。
[0025]
如上述步骤s4-s6所述,对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件;对所述第三文件进行词汇的识别,得到多个暂时词汇,并判断各个所述暂时词汇是否属于所述第一数据集,将属于所述第一数据集中的暂时词汇记为目标词汇进行提取,得到目标词汇集,并对所述第三文件中的目标词汇进行遮盖处理,得到遮盖后的第四文件,对所述第四文件进行单个字符的提取,并判断是否属于所述第一数据集,将属于
所述第一数据集中的字符记为目标字符进行提取,得到第一字符集,并将不属于所述第一数据集中的字符记为暂时字符进行提取,得到第二字符集。需要说明的是,为了便于数据的加密,也为了避免数据的重复提取,因此,需要对数据进行短语,词汇以及字符的依次提取,提取的方式与上述第二文件的提取方式相同,此处不再赘述,当然,也有可能存在一些字符在第二文件中没有,因此可以单独提取出来,另作处理。
[0026]
如上述步骤s7所述,根据所述目标短语集、所述目标词汇集以及所述第一字符集中的元素按照所述第一数据集中的标注进行编码,以及对所述第二字符集中的元素按照预设的汉字编码器进行编码,并基于所述第一文件的顺序对编码后的代码进行排序,得到第一代码。需要说明的是,汉字编码器为预先的设计的汉字编码器,其对应每个汉字都有具体的编码,因此,需要注意的是,为了避免与所述目标短语集、所述目标词汇集以及所述第一字符集中的元素的编码相冲突,此处应该设置与上述编码的方式不同的其他编码方式,具体的编码方式不作限定,然后基于所述第一文件的顺序对编码后的代码进行排序,得到第一代码。
[0027]
如上述步骤s8所述,将所述第一代码按照预设的加密算法进行加密,得到第二代码,将所述第二代码上传至第二云服务端进行存储。为了进一步提高数据的加密性能,此处还可以按照预设的加密算法进行二次加密,加密的方式不作限定,例如,可以采用对应的哈希加密,也可以采用其他的方式进行加密,从而实现了对重要文件的云服务加密存储,利用两个云服务端来实现对数据的共同加密,加密过程简单高效,加密的可靠性也得到了提高。
[0028]
在一个实施例中,所述利用预设的文本相似度算法从第一云服务端找出与所述第一文件相近的第二文件的步骤s2,包括:s201:对所述第一文件进行词汇、短语以及单个字符的提取并去重,得到第二数据集,其中,所述第二数据集中包括三个级别的元素,第一级别为单个字符,第二级别为词汇,第三个级别为短语;s202:设置所述第一文件中第一级别的权重,根据公式设置第二级别的权重以及第三级别的权重;其中,t=1或2,表示与t相关的预设参数,表示第t个级别的预设参数;s203:根据预设的文本相似度算法计算与多个对比文件的相似度值,其中,表示第二数据集中的第i个元素,n表示第二数据集中元素的个数总和,表示对比文件中对应的数量,表示对应级别的权重,i表示第一文件,r表示对比文件,表示相似度值;s204:根据所述相似度值的大小,选取相似度值最大的对比文件作为所述第二文件。
[0029]
如上述步骤s201-s204所述,实现了对第二文件的找取,即通过对所述第一文件进行词汇、短语以及单个字符的提取并去重,得到第二数据集,提取的方式和上述提取词汇、短语以及单个字符的方式相同,此处不再赘述,然后设置设置所述第一文件中第一级别的
权重,根据公式设置第二级别的权重以及第三级别的权重,其中,的权重最大,这是由于避免数据都是基于单个字符进行标记,而要尽可能采用更多的短语进行描述,一方面可以减小后续第一代码的复杂程度,第二也可以对于第一文件进行更好的加密,根据预设的文本相似度算法计算与多个对比文件的相似度值,其中,相似度值越高表示该对比文件含有第一文件中的元素越多,再根据相似度值的大小对第二文件的选取。
[0030]
在一个实施例中,所述将所述第一代码按照预设的加密算法进行加密,得到第二代码的步骤s8,包括:s801:根据所述第一代码的规模生成对应维数的可逆矩阵;s802:从预设的密钥集中筛选出与所述可逆矩阵维数相同的密钥矩阵;s803:通过所述密钥矩阵对所述可逆矩阵进行矩阵运算得到加密矩阵;其中,加密运算公式为:m=p
·
a,m为加密矩阵,p为可逆矩阵,a为密钥矩阵。
[0031]
如上述步骤s801-s803所述,具体的,对于第一代码的加密,可以利用可逆矩阵,根据第一代码的规模生成相应维数的可逆矩阵p,在密钥集中挑选矩阵维数相通的密钥矩阵a,然后对p进行矩阵运算,生成加密矩阵m,存储在数据表中,该数据表可以预存再本地,也可以上传至第三云服务端进行存储,从而避免了攻击者攻击单个云服务端可以得到完整的数据。
[0032]
在一个实施例中,所述对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件的步骤s4之前,还包括:s301:从预设的数据库中读取隐私词汇集;s302:根据预设的查询函数和所述隐私词汇集查询所述第一文件中的目标隐私词汇;s303:采用预设的非隐私词汇替换所述第一文件中的目标隐私词汇,得到替换后的第一文件用于执行对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件的步骤;s304:建立非隐私词汇与所述目标隐私词汇的对应表并上传至第三云服务端。
[0033]
如上述步骤s301-s304所述,实现了对第一文件中的敏感数据进行脱敏,即根据预设的查询函数和所述隐私词汇集查询所述第一文件中的目标隐私词汇。其中,查询函数为预先设定的函数,例如对于合同而言,其重要的是里面的数据,而对于模板式的文本则隐私性较低一些,因此可以根据语义的查询函数查询到里面的隐私词汇,然后通过预设的非隐私词汇替换所述第一文件中的目标隐私词汇,得到替换后的第一文件用于执行对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对
所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件的步骤;建立非隐私词汇与所述目标隐私词汇的对应表并上传至第三云服务端。从而避免了攻击者攻击单个云服务端可以得到完整的数据。
[0034]
在一个实施例中,所述将所述第一代码按照预设的加密算法进行加密,得到第二代码,将所述第二代码上传至第二云服务端进行存储的步骤s8之后,还包括:s901:判断是否接收到发起方获取所述第一文件的获取指令;s902:若接收到所述获取指令,则通过第一云服务端的第一验证方法向所述发起方进行第一次认证;s903:若第一次认证通过,则将所述第二文件发送给所述发起方;s904:基于所述第二文件触发所述第二云服务端的第二次认证;s905:若所述第二次认证通过,则将所述第二代码发送给所述发起方;s906:基于所述第二代码和所述第二文件执行解码指令,得到所述第一文件。
[0035]
如上述步骤s901-s906所述,实现了对第一文件的复原。本技术中在一般的攻击者在获取到第一云服务端中的第二文件,或者第二云服务端的第一代码是无法实现第一文件的复原的,在本技术中,需要通过获取第一云服务端的第二文件,并基于第二文件向第二云服务端发起二次验证,得到第二代码,并结合预存再本地的解码密文,才可以解锁到第一文件,即上述第二文件,第二代码,解码密文中缺一不可,从而使得对应第一文件的加密性能足够大,可以有效的避免攻击这获取到第一文件,保证了第一文件的安全性。
[0036]
本发明还提供了一种基于云服务的存储装置,包括:获取模块10,用于获取待存储的第一文件;寻找模块20,用于利用预设的文本相似度算法从第一云服务端找出与所述第一文件相近的第二文件;提取模块30,用于对所述第二文件中的语句进行词汇、短语以及单个字符的提取,并基于各个元素在所述第二文件中的位置进行标注,得到第一数据集;所述元素为词汇、短语以及单个字符中的任意一种;短语识别模块40,用于对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件;词汇识别模块50,用于对所述第三文件进行词汇的识别,得到多个暂时词汇,并判断各个所述暂时词汇是否属于所述第一数据集,将属于所述第一数据集中的暂时词汇记为目标词汇进行提取,得到目标词汇集,并对所述第三文件中的目标词汇进行遮盖处理,得到遮盖后的第四文件;字符提取模块60,用于对所述第四文件进行单个字符的提取,并判断是否属于所述第一数据集,将属于所述第一数据集中的字符记为目标字符进行提取,得到第一字符集,并将不属于所述第一数据集中的字符记为暂时字符进行提取,得到第二字符集;编码模块70,用于根据所述目标短语集、所述目标词汇集以及所述第一字符集中的元素按照所述第一数据集中的标注进行编码,以及对所述第二字符集中的元素按照预设的汉字编码器进行编码,并基于所述第一文件的顺序对编码后的代码进行排序,得到第一
代码;加密模块80,用于将所述第一代码按照预设的加密算法进行加密,得到第二代码,将所述第二代码上传至第二云服务端进行存储。
[0037]
在一个实施例中,所述寻找模块20,包括:去重子模块,用于对所述第一文件进行词汇、短语以及单个字符的提取并去重,得到第二数据集,其中,所述第二数据集中包括三个级别的元素,第一级别为单个字符,第二级别为词汇,第三个级别为短语;设置子模块,用于设置所述第一文件中第一级别的权重,根据公式设置第二级别的权重以及第三级别的权重;其中,t=1或2,表示与t相关的预设参数,表示第t个级别的预设参数;计算子模块,用于根据预设的文本相似度算法计算与多个对比文件的相似度值,其中,表示第二数据集中的第i个元素,n表示第二数据集中元素的个数总和,表示对比文件中对应的数量,表示对应级别的权重,i表示第一文件,r表示对比文件,表示相似度值;选取子模块,用于根据所述相似度值的大小,选取相似度值最大的对比文件作为所述第二文件。
[0038]
在一个实施例中,所述加密模块80,包括:生成子模块,用于根据所述第一代码的规模生成对应维数的可逆矩阵;筛选子模块,用于从预设的密钥集中筛选出与所述可逆矩阵维数相同的密钥矩阵;运算子模块,用于通过所述密钥矩阵对所述可逆矩阵进行矩阵运算得到加密矩阵;其中,加密运算公式为:m=p
·
a,m为加密矩阵,p为可逆矩阵,a为密钥矩阵。
[0039]
在一个实施例中,所述基于云服务的存储装置,还包括:读取模块,用于从预设的数据库中读取隐私词汇集;查询模块,用于根据预设的查询函数和所述隐私词汇集查询所述第一文件中的目标隐私词汇;替换模块,用于采用预设的非隐私词汇替换所述第一文件中的目标隐私词汇,得到替换后的第一文件用于执行对所述第一文件进行短语的识别,得到多个暂时短语,并判断各个所述暂时短语是否属于所述第一数据集,将属于所述第一数据集中的暂时短语记为目标短语进行提取,得到目标短语集,并对所述第一文件中的目标短语进行遮盖处理,得到遮盖后的第三文件的步骤;上传模块,用于建立非隐私词汇与所述目标隐私词汇的对应表并上传至第三云服务端。
[0040]
在一个实施例中,所述基于云服务的存储装置,还包括:判断模块,用于判断是否接收到发起方获取所述第一文件的获取指令;
第一认证模块,用于若接收到所述获取指令,则通过第一云服务端的第一验证方法向所述发起方进行第一次认证;第一发送模块,用于若第一次认证通过,则将所述第二文件发送给所述发起方;第二认证模块,用于基于所述第二文件触发所述第二云服务端的第二次认证;第二发送模块,用于若所述第二次认证通过,则将所述第二代码发送给所述发起方;解码模块,用于基于所述第二代码和所述第二文件执行解码指令,得到所述第一文件。
[0041]
本发明的有益效果:通过第一文件找取相似的第二文件,利用第二文件对第一文件进行加密,并将加密后的密文上传至第二云服务端,从而实现了对重要文件的云服务加密存储,利用两个云服务端来实现对数据的共同加密,加密过程简单高效,加密的可靠性得到了提高。
[0042]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0043]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0044]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1