面向光盘库的全文检索系统的制作方法

文档序号:8512516阅读:422来源:国知局
面向光盘库的全文检索系统的制作方法
【技术领域】
[0001]本发明涉及一种面向光盘库的全文检索系统,属于计算机应用技术领域。
【背景技术】
[0002]日益增长的存储需要使得人们对超大容量存储设备的需求也相应的提高。目前基于光盘的存储设备有光盘塔、光盘库和光盘镜服务器,而其中光盘库显得尤为重要。光盘库是一种带有自动换盘机构(机械手)的光盘网络共享设备。光盘库一般由放置光盘的光盘架、自动换盘机构(机械手)和驱动器三部分组成。近年来,由于单张光盘的存储容量大大增加,光盘库相较于常见的存储设备如磁盘阵例、磁带库等其价格性能优势逐渐显露出来。目前关于光盘库的数据管理多是基于光盘库上的数据库来操作的,对于某些数据,通过光盘上的数据库进行管理确实比较方便。但是对于某些文件数据,特别是需要进行全文检索的文件数据,用光盘上的数据库来管理,就相当于在检索引擎和数据之间增加了一层数据,造成检索上的不方便。所以对于需要进行全文检索的数据,直接以文件形式存储在光盘库中是合理高效的,因而本发明以此形式实现光盘库的数据存储。
[0003]全文检索技术,就是以数据诸如文字,声音,图像等为主要内容,以检索文献资料的内容而不是外表特征的一种检索技术。与其他搜索引擎相比,全文搜索引擎的显著特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索。目前有许多高效的全文检索引擎,但是这些引擎基于的存储介质大多都是磁盘,而在大数据存储的今天,亟需一种由光盘库作为存储介质的检索引擎所构成的全文检索系统。本发明实现了面向光盘库的全文检索系统。
[0004]综上所述,本发明不仅在光盘库数据管理和全文检索数据存储介质上做了创新,还将两者结合,实现了基于光盘库的全文检索系统。

【发明内容】

[0005]本发明的目的是为了解决现有光盘库管理系统无法实现光盘库全文检索的问题,提出一种面向光盘库的全文检索系统。
[0006]本发明的目的是通过下述技术方案实现的。
[0007]一种面向光盘库的全文检索系统,包括文件数据存储模块、文件索引建立模块、关键词检索模块、文件信息读取模块。其中,
[0008]文件数据存储模块包含文件容量计算模块、光盘分配模块、数据存入模块;
[0009]文件索引建立模块包含文件读取模块、文件信息分词模块、磁盘索引文件建立模块;
[0010]关键词检索模块包括含关键词获取模块、关键词处理模块、磁盘检索模块、检索结果输出申吴块。
[0011]文件数据存储模块通过文件容量计算模块统计所要存入光盘库的总文件大小,以此确定分配光盘的数量。再通过光盘分配模块对文件进行分配,确定每个文件要存入的光盘编号,最后通过数据存入模块将文件存入对应的光盘中。
[0012]文件索引建立模块通过文件读取模块获得存入光盘库中的文件,再通过文件信息分词模块对文件内容进行分词处理,最后通过磁盘索引文件建立模块在磁盘上建立这些文件的索引文件。
[0013]关键词检索模块通过关键词获取模块获得用户输入的关键词,再利用关键词处理模块实现对关键词的识别和拆分处理,最后通过磁盘检索模块对各个关键词进行检索,获得关键词检索结果,并通过检索结果输出模块根据关键词在文件中出现频率的递减顺序输出文件路径。
[0014]文件信息读取模块根据关键词检索模块得到的文件路径,读取相应文件内容。
[0015]一种面向光盘库的全文检索方法,先将文件存入光盘库中,再通过读取光盘库文件的操作在磁盘上建立文件的索引信息。通过关键词检索时,只需对磁盘上的索引文件进行操作即可按照关键词出现频率递减的顺序显示相关的文件路径,并通过文件路径读取文件内容。
[0016]所述将文件数据存储到光盘库,步骤如下:
[0017]步骤I从磁盘或其它存储介质上读取要存入的文件数据。
[0018]步骤2计算这些将要存入的文件数据总的容量大小M0
[0019]步骤3将文件总容量除以每张光盘的总容量m,得到所需要的空白光盘数量η。
[0020]步骤4对于空白光盘数量η,在光盘库中找到η张空白光盘,若光盘库中没有足够的η张空白光盘,则提醒存储容量不足。
[0021]步骤5将文件总容量减去η张空白光盘的总容量,得到文件所需的剩余容量I。
[0022]步骤6搜索光盘库中已经写入数据但是未写满的光盘,查看是否有剩余容量大于文件所需的剩余容量I的光盘。
[0023]步骤7若找到剩余容量大于文件所需的剩余容量I的光盘,分配该光盘上的空间给文件,并更新该光盘的剩余容量;若没有,则分配一张新的空白光盘,并更新该光盘的剩余容量。若既没有剩余容量大于文件所需的剩余容量的光盘,也没有剩余的空白光盘,则提醒存储容量不足。
[0024]步骤8根据分配给文件的光盘编号,使用光盘库中的机械换盘器找到对应编号的光盘。
[0025]步骤9使用光盘库中的光盘驱动器驱动找到的光盘,为光盘数据的写入做准备。
[0026]步骤10将文件数据通过光驱写入到光盘中。
[0027]所述在磁盘上直接建立光盘文件的倒排索引,步骤如下:
[0028]步骤I在磁盘上存放索引文件的位置对索引文件执行读操作,以判断磁盘上的索引文件是否已经存在;
[0029]步骤2若磁盘上的索引文件不存在,则先在磁盘上指定位置建立磁盘索引文件的初始哈希表,索引文件内容为空。
[0030]步骤3读取新存入光盘的文件,获得文件的相关信息,这些信息包括文件存放的光盘编号、文件的编号、文件的内容。
[0031]步骤4对文件的内容进行分词处理,将文件的内容划分成单词的集合,保存每个单词的相关信息,包括单词在文件中出现的位置和频率。
[0032]步骤5将文件所包含的单词集合、各单词的相关信息以及为文件在光盘上的路径做为索引的内容链接到磁盘索弓I文件的哈希表上。
[0033]所述通过磁盘索引文件直接检索关键词所在文件信息,步骤如下:
[0034]步骤I获取用户输入的用于检索的关键词。
[0035]步骤2对关键词进行分词解析,得到多个关键词,确定用户要检索的信息。
[0036]步骤3对每个关键词采取同样的操作,依次通过磁盘上的索引文件检索包含该关键词的文件相关的索引信息。
[0037]步骤4文件的索引信息包含关键词出现的频度,依据关键词出现的频度将与关键词相关的多个文件路径输出,供用户选择。
[0038]所述根据检索结果读取光盘库信息文件,步骤如下:
[0039]步骤I用户选择检索到的文件路径用于读取。
[0040]步骤2使用光盘库的机械换盘器找到文件路径对应的光盘。
[0041]步骤3使用光盘库的光盘驱动器驱动光盘数据的读取。
[0042]有益效果
[0043]本发明实现面向光盘库的全文检索系统。该系统的实现方法是在文件数据存入后再建立相应的索引,节省了数据存入的时间,且只需在磁盘上建立索引而不需要在光盘上建立索引,节省了光盘的存储容量。在检索时只需操作磁盘上的索引文件,检索速度快。本发明直接以文件的形式将数据存入光盘库中,直接对光盘库的文件进行操作而并不是通过数据库文件进行存储和检索,降低了数据存储和光盘库操作的复杂性。
【附图说明】
[0044]图1是本发明利用磁盘索引文件实现的基于光盘库的全文检索系统的结构示意图;
[0045]图2是本发明利用基于光盘库的全文检索系统在磁盘上直接建立文件索引的方法流程图;
[0046]图3是本发明利用基于光盘库的全文检索系统通过磁盘索引文件直接查询与关键词相关的文件信息的方法流程图;
[0047]图中标号,100-全文检索系统、110-文件数据存储模块、120-文件索引建立模块、130-关键词检索模块、140-文件信息读取模块、ml-文件容量计算模块、m2-光盘分配模块、m3-数据存入模块、m4-文件读取模块、m5-文件信息分词模块、m6-磁盘索引文件建立模块、m7-关键词获取模块、m8-关键词处理模块、m9_磁盘检索模块、mlO-检索结果输出模块、200-光盘库、210-机械换盘器、220-光盘驱动器、230-光盘、240-光盘上的索引文件、300-磁盘存储器、310-磁盘上的索引文件、X-光盘库管理系统。
【具体实施方式】
[0048]下面结合附图和实施例对本发明做详细说明。
[0049]一种面向光盘库的全文检索系统,包括文件数据存储模块110、文件索引建立模块120、关键词检索模块130、文件信息读取模块140。
[0050]其中文件数据存储模110块包含文件容量计算模块ml、光盘分配模块m2、数据存入模块m3 ;
[0051]文件索引建立模块120包含文件读取模块m4、文件信息分词模块m5、磁盘索引文件建立模块m6 ;
[0052]关键词检索模块130包括关键词获取模块m7、关键词处理模块m8、磁盘检索模块m9、检索结果输出模块mlO。
[0053]文件数据存储模块110通过文件容量计算模块统计所要存入光盘库的总文件大小,以此确定分配光盘的数量。再通过光盘分配模块对文件进行分配,确定每个文件要存入的光盘编号,最后通过数据
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1