专利名称:一种面向密文搜索的分词组织方法和聚类方法
技术领域:
本发明涉及应用于搜索引擎的一种面向密文搜索的分词组织方法和聚类方法,属于计算机科学技术领域。
背景技术:
目前互联网上的服务产生的数据量越来越大,典型的互联网服务(如微博、搜索引擎、社区网站、视频应用等)产生了超大规模的数据量,这样,大数据处理技术应运而生, 大数据处理技术其核心是一种数据密集型计算技术,典型的是云计算技术。伴随着云计算技术的出现,包括云存储技术、云搜索技术、虚拟机计算技术的出现,应用互联网云计算的服务全部集中于公共数据的服务,无论搜索引擎还是微博,在一定程度上公开的全是被认为不是太私密的数据。随着微博等实名制的出现,用户私有数据的保护提到日程上来了,而云计算是第三方提供的计算,这种计算的安全性受到用户及高端客户的质疑。云数据的安全成为最大的一个挑战,云计算中数据隐私保护技术成为第一需要解决的问题。计算资源、网络资源和存储资源的安全技术目前在各自的领域发展着。随着云计算的发展,人们对计算及存储的安全研究显得更加迫切。计算的安全性及可信计算方面研究方向很多,但针对云计算的加密计算是2010年以后发展起来的,目前主要有两个方向, 一个量子计算机安全计算方向,另一个是同态加密算法。这两个方向的研究成果目前还没有到达实际应用,主要是全同态加密算法和量子计算机技术都不是很成熟,部分技术和关键问题还在攻克。本发明提出一种面向密文搜索的分词组织方法和聚类方法,该发明通过内容理解和加密数据计算两种方法结合的策略,通过明文分词方法来理解文档内容,通过加密数据计算(聚类)来实现隐私保护及信息聚类。
发明内容
本发明“一种面向密文搜索的分词组织方法和聚类方法”包括两部分客户端文档分词组织方法、服务器端加密数据聚类方法。
_7] (I)客户端文档分词组织方法分词(如“中文分词”)是一种基于“语义”对文章、段落(这里称为“文档”)进行划分词组的技术,是搜索引擎中的一项重要的技术。目前中科院和复旦大学等都进行了研究,并取得了很好的效果。分词模块在搜索引擎中的组织是设置在服务器端的(如百度等云计算服务器,这里称为公有设备),也就是文档(包括HTML格式文档、微软的Word格式文档、PDF格式文档)从网络中获取后,服务器端马上对文档进行分词,由文档变成“词组”。 这一种在服务器端的分词组织方式是针对公共服务的一种分词组织方式。这一种组织方式的挑战是文档对服务器是透明的,不能保护文档的隐私。而面向非公共服务的系统中,如在公有云中建有私有云网络的应用,特别是用户私有信息或单位私有信息,这些信息的隐私性需要保护,不能被提供公共服务的服务器知道,所以需要设计出一种“新型的分词组织方式”。本专利提出的客户端文档分词组织方法是在客户端(包括人们的计算机、手机的私有接入设备)进行的一种分词组织方式,存在于客户端私有设备的分词模块中,以避免在分词的过程中泄露客户的隐私信息。为了保持原有的信息,必须对原文档进行特征抽取和分词。与公用搜索引擎(如百度)不同,私有文档的搜索的文档主要来自用户本身产生的文档,用户对这些文档在服务器端公用设备的存储存在戒心,所以这些文档的明文不可能存在服务器端,但为了在服务器端实现存储、搜索,客户端私有设备必须承担一部分计算任务客户端分词。客户端分词方法是一种新型的计算方法,客户端分词模块存在于如图I所示的结构中,该模块主要包括对文档进行分词、分词加密、文档特征向量的抽取、文档加密、文档概要加密五项功能。(I)文档分词。文档进行分词是指对原始文档按照语义进行分词,与通用的文档分词具有相同的功能。(2)分词加密。分词加密是指为了把分词存储到服务器上和为下一步的基于分词的聚类和搜索而进行的分词加密,加密后,存储到服务器上的分词为分词密文。(3)文档特征向量的抽取。文档特征向量的抽取是为了实现文档的聚类而实现的文档量化描述,这部分是基于明文抽取,在服务器上保存。(4)文档加密。文档加密是为了在服务器上保存文档数据而采取的加密算法。(5)文档概要。对用户的文档进行概要,有利于文档的搜索。表I描述了客户端分词模块的主要操作以及内容在客户端私有终端设备和服务器端公有设备之间存储的内容。可以看出,为了保护内容隐私,所有的分词活动和加密活动必须在客户端私有终端设备上完成。表I主要的操作和内容类型
权利要求
1.本发明提出一种面向密文搜索的分词组织方法和聚类方法,该发明在客户端对自己的私有文档进行分词、特征抽取、概要,并对分词、文档、概要进行加密;在服务器端对加密文档进行存储聚类和存储,并响应用户的搜索请求,实现密文的二次聚类。
本发明的主要特点有 (1)基于客户端的文档分词,传统文档分词是在服务器端,而本发明的分词方法可保证用户文档的私密性,不被服务器公用设备获知。
(2)基于密文的存储聚类,传统存储聚类方法是在服务器端实现明文的聚类,本发明可实现基于密文的存储聚类。
(3)基于密文的搜索二次聚类,传统搜索聚类方法是在服务器端实现明文的二次聚类,本发明可实现基于密文的搜索二次聚类。
全文摘要
本发明提出一种面向密文搜索的分词组织方法和聚类方法,该发明解决了用户私有文档在公用服务器上的索引和搜索问题,在客户端对自己的私有文档进行分词、特征抽取、概要,并对分词、文档、概要进行加密,保证了用户私有文档在服务器上的私密性;在服务器端对加密文档进行存储聚类和存储,建立索引和方便查找,并响应用户的搜索请求,实现密文的二次聚类。本发明具有基于客户端的文档分词、基于密文的存储聚类、基于密文的搜索聚类三个特点。
文档编号G06F17/30GK102708216SQ20121022278
公开日2012年10月3日 申请日期2012年6月28日 优先权日2012年6月28日
发明者袁玉宇, 陆月明, 马良 申请人:北京邮电大学