检索辅助装置、方法

文档序号:9667332阅读:389来源:国知局
检索辅助装置、方法
【专利说明】检索辅助装置、方法
[0001]本申请以日本专利申请2014-188230(申请日期:2014年9月16日)为基础,根据该申请而享受优先权。本申请通过参考该申请而包含该申请的全部内容。
技术领域
[0002]本发明的实施方式涉及一种检索辅助装置、方法及程序。
【背景技术】
[0003]随着英特网的普及和个人电脑、智能手机及平板电脑终端等设备的多样化及商品化,容易通过Web文件获取信息。因此,实现了如下方法及应用程序:在Web文件等电子化文件中,实现相当于在作为纸质媒体的报纸或杂志中进行的“剪报”的操作。尤其是智能手机及平板电脑终端的普及,使得文件中句子的选择及移动操作变得简单,因此可容易地进行剪报。
[0004]在从以剪报形式存储的文件中检索与某一文件相关的相关文件时,在由系统提示相关文件的情况下,由于显示空间有限,通常而言,进行页面经过缩小的缩略显示的情况较多。但仅靠缩略显示的话,难以了解相关文件的内容,因此存在如下情况:提示文件的标题、创建时间及收集时间等属性信息,或者添加用户明确赋予的标记信息等来作为用户了解相关文件的概要的线索。此外,有这样一种技术:根据在所收集的多个剪报文件之间同时出现的关键词来提不相关文件。

【发明内容】

[0005]但即便提示在文件之间同时出现的关键词,所提示的关键词也未必有助于用户判断相关性,只有提取同时出现的关键词,才能提不相关文件。
[0006]本公开是为了解决上述问题而成,其目的在于提供一种可对扩展用户兴趣的关键词的提示进行辅助的检索辅助装置、方法及程序。
[0007]本实施方式的检索辅助装置包括第1解析部、第1获取部、测定部、提取部及存储部。第1解析部对作为经剪报而成的文件的剪报文件进行解析,获取表示作为该剪报文件的来源的原文件的位置的位置信息。第1获取部参考所述位置信息,在所述原文件有更新的情况下,获取作为已更新的所述原文件的更新文件。测定部测定所述原文件的第1更新频率。提取部从所述剪报文件中提取1个以上的第1关键词,并使用根据所述第1更新频率而设定的关键词提取方式从所述更新文件中提取1个以上的第2关键词。存储部对所述剪报文件分别关联所述1个以上的第1关键词、所述更新文件及所述1个以上的第2关键词并加以存储。
[0008]通过上述构成的检索辅助装置,可对扩展用户兴趣的关键词的提示进行辅助。
【附图说明】
[0009]图1为表示本实施方式的检索辅助装置的方块图。
[0010]图2为表示文件数据的更新处理的流程图。
[0011]图3为表示文件数据存储部中所存储的文件数据的一例之图。
[0012]图4为表示相关文件提示处理的流程图。
[0013]图5为表示关键词提取部的关键词提取处理的流程图。
[0014]图6为表示更新模式与关键词提取方式的关系的一例之图。
[0015]图7为表示相关文件检索部的相关文件判定处理的流程图。
[0016]图8为表示提示部中的相关文件及关键词的提示例之图。
【具体实施方式】
[0017]下面,一边参考附图,一边对本实施方式的检索辅助装置、方法及程序进行详细说明。再者,在以下的实施方式中,将标注同一参考符号的部分视为进行同样动作的部分,并酌情省略重复的说明。
[0018]参考图1的方块图,对本实施方式的检索辅助装置进行说明。
[0019]本实施方式的检索辅助装置100包括文件数据存储部101、剪报文件解析部102、更新文件获取部103、链接信息解析部104、链接目的地文件获取部105、更新频率测定部106、关键词提取部107、属性更新部108、查询文件解析部109、相关文件检索部110及提示部 111。
[0020]文件数据存储部101存储与1个以上的剪报文件相关的文件数据。剪报文件是表示经电子化的整个文件或部分区域的经用户剪报(剪切出来)的范围的文件。例如,若为触控面板式显示画面,则用户可利用触控笔或手指等通过画圈动作来指定文件中的区域,由此对指定的部分区域进行剪报,生成剪报文件。此外,也可通过在文件中画下划线或标记,或者对首行做标签等对文件附加注解的操作来进行剪报而生成剪报文件。关于文件数据存储部101,将参考图3而在后文中叙述。
[0021]剪报文件解析部102从文件数据存储部101接收剪报文件并对剪报文件进行解析,获取表示作为获取剪报文件时的原始文件的原文件的位置的位置信息。作为位置信息,例如可列举URL或IP地址。
[0022]更新文件获取部103从剪报文件解析部102接收原文件的位置信息,并且参考位置信息而检索WEB 150,从而判定在获取到文件数据存储部101中所存储的剪报文件的时间点之后原文件是否有更新。在原文件有更新的情况下,获取作为已更新的原文件的更新文件。
[0023]链接信息解析部104分别从剪报文件解析部102接收剪报文件、从更新文件获取部103接收更新文件,并对剪报文件及更新文件进行解析,获取剪报文件及更新文件中所包含的链接信息。链接信息是表示存在于文件中的超链接等通向其他文件的链接的信息。
[0024]链接目的地文件获取部105从链接信息解析部104接收链接信息,并从WEB 150中检索并获取作为链接目的地的文件的链接目的地文件。
[0025]更新频率测定部106分别从链接信息解析部104接收剪报文件及更新文件、从链接目的地文件获取部105接收链接目的地文件,并测定原文件的更新频率以及链接目的地文件的更新频率。
[0026]关键词提取部107从更新频率测定部106接收剪报文件、更新文件及链接目的地文件。关键词提取部107从剪报文件中提取1个以上的关键词,并使用与更新频率相符的关键词提取方式从更新文件及链接目的地文件中提取1个以上的关键词。关键词提取方式表示在提取关键词时以何种基准及何种算法进行提取。关于关键词提取部107的详情,将参考图5而在后文中叙述。
[0027]属性更新部108从关键词提取部107接收1个以上的关键词,并对文件数据存储部101中所存储的剪报文件的文件数据分别关联更新文件、链接目的地文件及1个以上的关键词,由此进行更新处理。
[0028]查询文件解析部109获取作为成为检索查询的文件的查询文件,并对查询文件进行解析而获取单词特征量。查询文件可通过用户指定剪报文件来确定,也可通过用户输入新文件来确定。
[0029]相关文件检索部110从查询文件解析部109接收查询文件及单词特征量,并以相关文件的形式从文件数据存储部101中检索并获取与查询文件的单词特征量的类似度为阈值以上的剪报文件。
[0030]提示部111例如为显示器,从相关文件检索部110接收并提示查询文件、相关文件以及与相关文件关联的更新文件、链接目的地文件及关键词。
[0031]接着,参考图2的流程图,对文件数据存储部101中所存储的剪报文件的文件数据的更新处理进行说明。
[0032]又,在本实施方式中,是假设将剪报文件未经处理地预先存储在文件数据存储部101中的情况,但也可为剪报文件解析部102在生成剪报文件的时间点获取剪报文件,并进行后续处理。
[0033]在步骤S201中,剪报文件解析部102从文件数据存储部101获取剪报文件。
[0034]在步骤S202中,剪报文件解析部102对剪报文件进行解析,获取原文件的位置信息。
[0035]在步骤S203中,剪报文件解析部102判定原文件是否有更新。关于更新的判定,若剪报文件解析部102中所存储的剪报文件与存在于位置信息所表示的位置的原文件之间存在差异,则只要判定原文件有更新即可。在原文件有更新的情况下,进入至步骤S204,在无更新的情况下,进入至步骤S205。
[0036]在步骤S204中
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1