一种基于图像相似度快速匹配的学术论文搜索方法

文档序号:6626756阅读:825来源:国知局
一种基于图像相似度快速匹配的学术论文搜索方法
【专利摘要】本发明提供了一种基于图像相似度快速匹配的学术论文搜索方法,用于海量论文智能检索。本方法包括:从论文库中获取论文图像库,建立论文图像库的索引;获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵;根据源图像的图像关键词检索论文图像库索引,获取相关图像集;检索相关图像集,获取与源图像相似的图像,获得最终图像集;依据最终图像集,从论文库中获取相应的论文。本发明可利用图像及图像相关信息进行论文检索,图像特征采用更小的存储介质,且检索速度快,检索精准度高。
【专利说明】一种基于图像相似度快速匹配的学术论文搜索方法

【技术领域】
[0001]本发明涉及海量论文智能检索技术,具体设计一种基于图像相似度快速匹配的学术论文搜索方法。

【背景技术】
[0002]—般的论文检索方式是通过论文作者、论文题目等文字信息检索。但这种检索方法在很多学科存在很多局限性,并不能满足如在考古学科中,搜索关于某种文物研究现状的论文检索需求。而现有的图像匹配技术,由于是对完整图像的完整匹配,性能相对较低,利用目前现有的图像匹配技术无法满足快速论文检索需求。


【发明内容】

[0003]本发明针对现有论文检索中,由于图像的完整匹配,性能相对较低,无法满足快速论文检索需求的问题,提出一种基于图像相似度快速匹配的学术论文搜索方法。
[0004]本发明的一种基于图像相似度快速匹配算法的学术论文检索方法,包括如下步骤:
[0005]步骤1:从论文库中获取论文图像库,建立论文图像库的索引;
[0006]步骤2:获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵;所述的图像关键词包括图像所属的研究领域;
[0007]步骤3:根据源图像的信息关键词检索论文图像库索引,获取相关图像集;所述的相关图像集指源图像所属研究领域中的图像集合;
[0008]步骤4:检索相关图像集,获取与源图像相似的图像,获得最终图像集;所述的相似图像是指在形状上具有共性的图像;
[0009]步骤5:依据最终图像集,从论文库中获取相应的论文。
[0010]所述的步骤I中建立论文图像库索引,具体包含如下步骤:
[0011]步骤101:遍历库中论文,抽取其中图像及相关的图像信息,形成论文图像库;所述的图像信息包括:图像高、图像宽、图像标注、论文标识符GUID和论文题目字段;
[0012]步骤102:计算论文图像库中所有图像的特征矩阵,对论文图像库中的每个图像,建立图像索引数据;所述的图像索引数据包括图像的特征矩阵和图像信息;
[0013]步骤103:将图像索引数据放入XML文件中,形成论文图像库的索引文件。
[0014]所述的步骤4中,遍历相关图像集,依次将相关图像集中各图像的特征矩阵与源图像的特征矩阵进行比较;特征矩阵比较的方法是:首先,构建一个与特征矩阵相同大小的结果矩阵;然后,依次比较两个特征矩阵的对应元素,如果两个元素的差值小于16,则结果矩阵对应元素的值记为1,否则为O;最后,统计结果矩阵中值为I的元素的比例r,若r>80%,则认为两幅图像相似,否则认为两幅图像不相似。
[0015]本发明的优点和积极效果在于:本发明实现了一种基于索引的图像快速匹配和检索的方法,可全面利用图像以及图像相关信息进行论文检索;特别是为在野外工作的学科,例如考古学,提供了一种便利的查询相关研究论文的方法,且检索速度快,检索精准度高。

【专利附图】

【附图说明】
[0016]图1为本发明的学术论文检索方法的整体流程图;
[0017]图2是本发明实施例中用于搜索的源图片;
[0018]图3是本发明实施例搜索结果示意图。

【具体实施方式】
[0019]下面将结合附图对本发明的技术方案作进一步的详细说明。
[0020]本发明采用新的图像相似度快速匹配方法,并结合专有中文词库以及中文分词技术,完成了一种基于图像相似度快速匹配的学术论文检索方法。本发明的基于图像相似度快速匹配算法的学术论文检索方法,步骤如图1所示,下面进行详细说明。
[0021]步骤1:从论文中获取论文图像库,建立论文图像库的索引。具体地,建立图像及其相关信息的数据结构,抽取论文中的所有图像和相关信息,存储于该数据结构中,并形成论文图像库;然后根据图像特征矩阵计算方法,计算图像库中所有图像的特征矩阵;最后创建索引,并存储于XML文件中。具体步骤为:
[0022]步骤101:遍历库中论文,抽取其中图像及相关的图像信息,形成论文图像库。具体的,首先建立论文图像库中存储图像及其相关图像信息的数据结构,图像信息包括:图像高、图像宽、图像标注、论文GUID (全局唯一标识符)以及论文题目字段。然后从论文中抽取图像信息,存储在论文图像库中。其中,图像标注包括图像所属的研究领域等。
[0023]步骤102:计算论文图像库中所有图像的特征矩阵,形成图像索引数据,并通过图像索引数据结构存储。具体的,图像索引数据结构,包含图像特征矩阵、图像高、图像宽、图像标注、论文⑶ID,及论文题目字段。
[0024]遍历论文图像库的所有图像,采用图像特征值计算方法,计算图像的特征矩阵,并利用图像索引数据结构存储起来。
[0025]步骤103:将图像索引数据放入XML文件中,形成论文图像库的索引文件。具体的,根据图像索引数据结构,定义XML文档格式,并最终自动生成XML文档,建立论文图像库的索引文件,XML的索引文件的格式定义如下:
[0026]

【权利要求】
1.一种基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,包括如下步骤: 步骤1:从论文库中获取论文图像库,建立论文图像库的索引; 步骤2:获得要进行搜索的源图像以及图像关键词,并提取源图像的特征矩阵; 步骤3:根据源图像的图像关键词检索论文图像库索引,获取相关图像集; 步骤4:检索相关图像集,获取与源图像相似的图像,获得最终图像集; 步骤5:依据最终图像集,从论文库中获取相应的论文。
2.根据权利要求1所述的基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,所述的步骤I具体实现过程为: 步骤101:遍历库中的论文,抽取其中的图像及图像信息,建立论文图像库;所述的图像信息包括:图像高、图像宽、图像标注、论文标识符GUID和论文题目字段; 步骤102:提取论文图像库中的各图像的特征矩阵,对论文图像库中的每个图像,建立图像索引数据;所述的图像索引数据包括图像的特征矩阵和图像信息; 步骤103:将图像索引数据放入XML文件中,形成论文图像库的索引文件。
3.根据权利要求1或2所述的基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,所述的特征矩阵通过如下步骤获得: 步骤201:对图像进行二值化; 步骤202:对二值化图像进行边缘提取; 步骤203:计算步骤202处理后的图像的特征矩阵,具体是:将图像大小调整为128像素*128/n像素,η为图像的长宽比例;设定探测窗口大小为8像素*8/η像素,探测窗口内所有像素值的平均值作为该探测窗口的特征值,遍历整幅图像,得到图像的特征矩阵,特征矩阵大小为16*16。
4.根据权利要求1所述的基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,所述的图像关键词包括图像所属的研究领域,所述的相关图像集为源图像所属研究领域中的图像集合。
5.根据权利要求2或4所述的基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,所述的相关图像集,其获取方法是:首先,编写XML文档解析程序,从论文图像库索引文件中提取出图像标注和论文题目字段;然后,根据基于正向最长匹配策略的分词方法,提取出论文图像关键词;最后通过对源图像和论文图像关键词的比较,获取相关图像集。
6.根据权利要求1所述的基于图像相似度快速匹配算法的学术论文检索方法,其特征在于,所述的步骤4中,遍历相关图像集,依次将相关图像集中各图像的特征矩阵与源图像的特征矩阵进行比较;特征矩阵比较的方法是:首先,构建一个与特征矩阵相同大小的结果矩阵;然后,依次比较两个特征矩阵的对应元素,如果两个元素的差值小于16,则结果矩阵对应元素的值记为1,否则为O ;最后,统计结果矩阵中值为I的元素的比例r,若r>80%,则认为两幅图像相似,否则认为两幅图像不相似。
【文档编号】G06F17/30GK104199950SQ201410464732
【公开日】2014年12月10日 申请日期:2014年9月12日 优先权日:2014年9月12日
【发明者】邓攀, 袁伟, 闫碧莹, 赵鑫, 李玉成, 刘昊 申请人:中科嘉速(北京)并行软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1