信息检索向量空间模型硬件化实现方法

文档序号:6460410阅读:259来源:国知局
专利名称:信息检索向量空间模型硬件化实现方法
技术领域
本发明涉及信息检索领域和定制化硬件领域,特别是涉及一种信息检索向 量空间模型硬件化实现方法。
技术背景在信息检索领域,信息检索服务系统的任务有(1)获取无结构化的文档, 做一定的标准化处理,(2)将获取的文档维护在一个海量文档库中,(3)响应 用户的查询请求,从文档库中找到与査询关键字匹配度最高的文档,返回给用户。这三个任务.中,其中(3)对效率的要求最高,要求系统能够在最短的时间内响应用户的请求。向量空间模型是信息检索业界最广泛使用的模型。该模型中,文档中有意 义的词条的字段被提取出来,文档库中的所有文档的所以字段的合集就构成了 向量空间,其中每个字段就是向量空间中的一维。 一个文档就是可以由其字段 确定为空间的一个向量,而一个查询也可以由其关键词字段确定为空间的一个 向量。在向量空间模型中,查询的过程就是寻找空间中与查询向量距离最近的文档向量。在向量空间模型中,计算文档与査询向量之间的距离, 一般采用权重的计 算方式,即对于查询中的每一个字段,计算每一个文档相对于该特定字段的权 重,然后找出权重最大的一部分文档返回。其权重计算公式如下-<formula>formula see original document page 3</formula>其中W表示一个文档对于特定字段的权重 TF表示特定字段在文档中出现的频率IDF表示逆文档频率,其计算公式中,N表示所以文档的总数,n表示所以 文档中,具有特定字段的文档的个数。然后进行自然对数操作。TF的意义在于,特定字段在一个文档中出现的频率越高,该文档相对于特 定字段的权重越大;IDF的意义在于,特定字段在所有其他文档中出现的频率越 低,说明在目标文档中该特定字段越具有代表性。然而,无论如何,计算一个 字段在一个文档中的出现频率在向量空间模型中占据了巨大的计算资源,这提 出了对次特定任务做硬件化加速的需求。在定制硬件领域,硬件化的任务可以由特定硬件部件或者硬件知识产权核 来完成,其优点是在硬件级别对特定任务做优化,在硬件级消除多余指令和操 作,加速系统的关键任务和操作,提高系统效率。其关键是提炼系统的关键任 务,加以硬件化实现。 发明内容本发明的目的在于提供一种信息检索向量空间模型硬件化实现方法。 本发明解决其技术问题所采用的技术方案如下1) 硬件化数据准备为了进行硬件化的操作,先要将査询的字段和文档的数据做处理以适应硬 件化处理的要求;字段和文档都被转化成二进制数据;其中,字段所需要的额外数据是字段 的长度以便硬件的处理;根据硬件处理的要求,文档会被划分成若干部分,每 部分都是一个字段的集合,同时包括每部分文档中的字段数量,各个字段在每 文档中的偏移量数组;2) 发送数据到本地存储设备数据准备完成之后,就可以把向量空间模型中字段在文档中出现频率统计 的计算在硬件上完成;为了进一步提高硬件效率,统计硬件需要有本地存储支持,把一个待比较 的目标字段同目标文档,以及字段的长度、文档字段数和文档字段偏移数据发 送到本地存储,这些数据被放到固定位置上,以便硬件上的处理;3) 字段的比较过程当数据被发送到本地存储之后,就开始了硬件化的字段比较过程,该过程 反复进行,直到本地存储中的文档字段全部完成比较;一次的比较过程是这样的目标字段被取到字段寄存器,同时有一个计数 器计数到当前处理到了文档中的字段,文档中的字段被取到文档寄存器,然后 开始硬件的比较过程;4) 字段超长的处理因为寄存器是定长的,不能设计成符合字段最长情况下的长度,这样会造 成硬件的浪费,而且字段的长度具有不可预料性,所以会出现字段长度超过字 段寄存器的情况;字段超长情况下,每次比较字段中的一部分数据,每次在字段内部进行偏 移,合成多次比较结果,完成一个字段的比较;5)相似度比较结果统计每完成一次文档中字段与目标字段的比较过程,就要进行一次基于相似度 的比较结果统计,该步骤是基于硬件并行完成的;本方法有一个相似度的阈值,超过这个阈值的相似度比较结果,可以被认 为是相同的字段,从而引发计数器,统计目标字段的出现频率。本发明与背景技术相比,具有的有益的效果是本发明对信息检索向量空间模型提供了硬件化的支持,通过特化硬件来进 行字段频率的统计操作,其好处在于硬件上并发字段比较过程;特化硬件具 有高计算密度,减小计算资源浪费;特化硬件本身可以并发,提高并发度;具 有硬件存储系统支持;均大幅度提高了信息检索系统的效率。


图l本发明中的存储系统图;图2本发明的流程图。
具体实施方式
在向量空间模型中,硬件化实现其中的最耗费计算资源的步骤,也就是统 计一个字段在一个文档中出现的过程,最大程度上提高信息检索系统向量空间模型的效率。信息检索向量空间模型硬件化实现方法具体实现流程如下。 1)硬件化数据准备为了进行硬件化的操作,先要将查询的字段和文档的数据做处理以适应硬 件化处理的要求。字段和文档都被转化成二进制数据;其中,字段所需要的额外数据是字段 的长度以便硬件的处理;根据硬件处理的要求,文档会被划分成若干部分,每 部分都是一个字段的集合,同时包括每部分文档中的字段数量,各个字段在每 文档中的偏移量数组;把查询分解为字段并添加其长度的过程是在线的,因为査询是由用户在线 发出的,但是査询的数据量很小,在线处理并不影响效率。而文档的划分、字 段化、统计数量和字段偏移数组计算都是离线的, 一个文档被处理一次以后, 所有的硬件化计算都可以在次基础上进行,所以这也不影响系统效率。而文档划分的大小会跟硬件系统的本地存储大小所耦合,本地存储系统如 图1所示,包括本地存储系统、字段寄存器、文档寄存器和比较单元。对于划 分过的各个文档的最后统计结果还需要累加,才得到原始值。2) 发送数据到本地存储设备数据准备完成之后,就可以把向量空间模型中字段在文档中出现频率统计 的计算在硬件上完成。为了进一步提高硬件效率,统计硬件需要有本地存储支持,如图1所示。 把一个待比较的字段同目标文档,以及字段的长度、文档字段数和文档字段偏 移数据发送到本地存储,这些数据被放到固定位置上,以便硬件上的处理。比较目标字段和文档中的字段的硬件过程并不是直接基于本地存储的,中 间还需要字段寄存器和文档寄存器的缓冲,基于寄存器的硬件化比较又会进一 步提高效率。3) 字段的比较过程当数据被发送到本地存储之后,就开始了硬件化的字段比较过程,该过程 反复进行,直到本地存储中的文档字段全部完成比较。一次的比较过程是这样的目标字段被取到字段寄存器,同时有一个计数 器计数到当前处理到了文档中的字段,文档中的字段被取到文档寄存器,然后 开始硬件的比较过程。取数据和比较过程都采用硬件布线完成,采用特化硬件完成信息检索系统 的关键计算,是效率的来源。因为寄存器是定长的,所以会有字段长度超长的情况,这中情况还需要特 殊处理。
一次比较过程完成之后,结果还需要进行统计。比较过程一直重复, 一直到计数器计数到文档中的字段数量为止,从而完成一个本地存储中的数据 比较。4) 字段超长的处理因为寄存器是定长的,不能设计成符合字段最长情况下的长度,这样会造 成硬件的浪费,而且字段的长度具有不可预料性,所以会出现字段长度超过字段寄存器的情况。字段超长情况下,每次比较字段中的一部分数据,每次在字段内部进行偏 移,合成多次比较结果,完成一个字段的比较。在进行超长字段的比较过程中,还需要有特殊的寄存器来保存每次比较在 字段中的偏移。另外,当两个字段长度不相等的时候,比较过程还是需要进行 的,这样是为了两个字段之间的相似度,并且,由于硬件上的并行,在字段不 超长的正常情况下在效率上并没有损失,而在字段超长的特殊情况下,才有小 部分损失。5)相似度比较结果统计每完成一次文档中字段与目标字段的比较过程,就要进行一次基于相似度 的比较结果统计,该步骤是基于硬件并行完成的。本方法有一个相似度的阈值,超过这个阈值的相似度比较结果,可以被认 为是相同的字段,从而引发计数器,统计目标字段的出现频率。与完全匹配方式相比,在硬件上实现基于相似度的比较方式,需要增加部 分部件。而相似度的阈值也是可以动态改变的,当设置为完全相似,也就是相 同的情况下,就是完全匹配方式了。支持向量空间模型的硬件流程图如图2所示。
权利要求
1.一种信息检索向量空间模型硬件化实现方法,其特征在于1)硬件化数据准备为了进行硬件化的操作,先要将查询的字段和文档的数据做处理以适应硬件化处理的要求;字段和文档都被转化成二进制数据;其中,字段所需要的额外数据是字段的长度以便硬件的处理;根据硬件处理的要求,文档会被划分成若干部分,每部分都是一个字段的集合,同时包括每部分文档中的字段数量,各个字段在每文档中的偏移量数组;2)发送数据到本地存储设备数据准备完成之后,就可以把向量空间模型中字段在文档中出现频率统计的计算在硬件上完成;为了进一步提高硬件效率,统计硬件需要有本地存储支持,把一个待比较的目标字段同目标文档,以及字段的长度、文档字段数和文档字段偏移数据发送到本地存储,这些数据被放到固定位置上,以便硬件上的处理;3)字段的比较过程当数据被发送到本地存储之后,就开始了硬件化的字段比较过程,该过程反复进行,直到本地存储中的文档字段全部完成比较;一次的比较过程是这样的目标字段被取到字段寄存器,同时有一个计数器计数到当前处理到了文档中的字段,文档中的字段被取到文档寄存器,然后开始硬件的比较过程;4)字段超长的处理因为寄存器是定长的,不能设计成符合字段最长情况下的长度,这样会造成硬件的浪费,而且字段的长度具有不可预料性,所以会出现字段长度超过字段寄存器的情况;字段超长情况下,每次比较字段中的一部分数据,每次在字段内部进行偏移,合成多次比较结果,完成一个字段的比较;5)相似度比较结果统计每完成一次文档中字段与目标字段的比较过程,就要进行一次基于相似度的比较结果统计,该步骤是基于硬件并行完成的;本方法有一个相似度的阈值,超过这个阈值的相似度比较结果,可以被认为是相同的字段,从而引发计数器,统计目标字段的出现频率。
全文摘要
本发明公开了一种信息检索向量空间模型硬件化实现方法。采用硬件化的实现方法来完成信息检索领域所广泛使用的向量空间模型的关键计算步骤—统计一个字段在文档中出现的频率,来提高信息检索系统的效率。通过特化硬件来实现硬件级的字段相似度比较和硬件级的结果统计,并且对这一过程提供存储系统的支持。本发明的好处在于硬件上并发字段比较过程;特化硬件具有高计算密度,减小计算资源浪费;特化硬件本身可以并发,提高并发度;具有硬件存储系统支持;均大幅度提高了信息检索系统的效率。
文档编号G06F17/30GK101271467SQ20081005985
公开日2008年9月24日 申请日期2008年2月22日 优先权日2008年2月22日
发明者施清松, 郑臻炜, 陈天洲, 黄江伟 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1