自动收集网络信息的系统及其方法

文档序号:6564673阅读:257来源:国知局
专利名称:自动收集网络信息的系统及其方法
技术领域
本发明涉及一种自动收集网络信息的系统及其方法,特别是指一种自动分 析所得的使用者的兴趣及爱好,并以分析的结果收集网络信息的系统与方法。
背聚技术
随着网络的兴起,有越来越多的数据以网页的方式被发布在网络上,然而, 即使有那么多的数据被发布到了网络上,其它的使用者在没有网址的情况之 下,其它的使用者一样无法得到他们所需要的数据,因此,产生了只需要输入 关键字词便可以搜寻出相关网页的网址的搜寻网站,如此使用者便可以透过搜 寻所得的网址下载网页获得需要的数据。
以往数据都是由使用者手动收集的,虽然使用者手动可以收集到符合需要 的资料,但也因为是手动收集,因此收集到的数据量就比较少,并且使用者需 要特别使用额外的许多的时间进行收集。为了减少使用者收集数据的时间,开 始有收集数据的程序被使用,收集数据的程序通常是由使用者输入关键字词 后,以使用者输入的关键字词向特定的搜寻网站发出请求,使得搜寻网站搜寻 出与关键字词相关的链接,收集数据的程序在取得链接后,会下载链接对应的 网页以完成数据的收集。
综上分析,由于使用收集数据的程序需要使用者自行输入关键字词,因此 在使用者在希望收集目前尚未收集的数据时,必须要设定新的关键字词词,稍 嫌麻烦,另外,由于目前收集数据的程序使用特定的搜寻网站进行搜寻,因此 收集来的数据会随着搜寻网站的好坏而有不同程度的相关性,在收集来的数据 量大的情况下,使用者会对于不相关的数据产生困扰。

发明内容
本发明所要解决的技术问题在于提供一种自动收集网络信息的系统及其 方法,通过分析使用者储存的档案的内容或链接对应的网页的内容来产生对应 使用者的兴趣及爱好的关键字词,并使用与使用者的兴趣及爱好相关的搜寻网 站搜寻与关键字词相关的链接,如此便可以收集到与使用者的兴趣及爱好关联 度高的数据,藉以解决目前使用收集数据的程序收集数据的问题。
为达上述目的,本发明可以藉由系统与方法两方面达成,本发明所提供的 系统,包括有储存模块、分类模块、分析模块、搜寻模块、下载模块。
本发明所揭露的方法,包括有下列步骤储存至少一搜寻网站;分类搜寻 网站至各个兴趣及爱好对应的类别中;分析使用者储存的至少一数据以产生对 应使用者的兴趣及爱好的至少一关键字词;判断关键字词对应的类别;自关键 字词对应的类别所包含的搜寻网站中搜寻与关键字词相关的至少一链接;下载 链接对应的网页。
有关本发明的详细特征与实作,兹配合附图在实施方式中详细说明如下, 其内容足以使任何熟悉相关技术的人了解本发明的技术内容并据以实施,且根 据本说明书所揭露的内容及图式,任何熟悉相关技术的人可轻易地理解本发明 相关的目的及优点。


图1为本发明自动收集网络信息的系统架构图; 图2为本发明自动收集网络信息的方法流程图。 其中,附图标记为
100 电子装置 110 储存模块 120 分类模块 130 分析模块 140 搜寻模块 150 下载模块 190 检测模块 步骤210 储存并分类搜寻网站
步骤220 产生对应使用者兴趣及爱好的关键字词 步骤230 分类关键字词 步骤240 是否进行搜寻
步骤250 自关键字词对应的分类所包含的搜寻网站搜寻相关链接 步骤260 下载链接对应的网页
具体实施例方式
以下先以图1本发明自动收集网络信息的系统架构图来说明本发明的系 统运作。如图1所示,本发明的系统含有分类模块120、分析模块130、搜寻 模块140、下载模块150。其中储存模块110负责储存至少一个搜寻网站;分 类模块120负责将储存在储存模块中的搜寻网站分类至各种兴趣及爱好所对 应的类别中;分析模块130负责由使用者储存的至少一数据中分析出该使用者 的兴趣及爱好,以产生相对应的至少一关键字词,其中使用者储存的数据包含 档案或链接,并判断其产生出的关键字词对应的兴趣及爱好对应的分类;搜寻 模块140负责自关键字词对应的类别所包含的搜寻网站中搜寻与使用这的兴 趣及爱好相对应的关键字词相关的至少一链接;下载模块150负责下载该链接 对应的一网页。
接着以一个实施例来解说本发明的运作系统与方法,并请参照图2本发明 自动收集网络信息的方法流程图。
本发明在收集数据之前,必须要先对搜寻网站依据各种不同的兴趣及喜好 进行分类,其中,要被分类的搜寻网站可以是预先储存于本发明的储存模块 110中,也可以由使用者自行输入而存入储存模块110中。
若储存模块110中储存有第一搜寻网站与第二搜寻网站,则本发明的分类 模块120会将第一搜寻网站与第二搜寻网站分类至各种不同的兴趣及爱好所 对应的类别中(步骤210),分类的方法例如以特定的几个字词测试第一搜寻 网站与第二搜寻网站所搜寻到的结果来进行分类,但本发明提供的分类搜寻网 站的方法并不以此为限。在本实施例中,分类模块120将第一搜寻网站分类至 程序设计分类,而将第二搜寻网站分类为游戏分类,其中,上述的程序设计分 类及游戏分类便是不同的兴趣及爱好所产生的不同分类,由于兴趣及爱好可以 分出的类别相当多,且有何种类别可以被分类出来并非本发明的重点,故不多 加描述。
在使用者使用本发明来收集数据之后,本发明的分析模块130会对使用者 已储存的数据进行分析,以得出对应使用者的兴趣及爱好的关键字词(步骤220),其中使用者已储存的数据包含特定目录的档案、或是特定目录所储存 的链接,分析模块130会读取档案的内容或是链接所对应的网页中的内容进行 分析,分析的方法例如使用现有的文章分类器等,再分析之后便可以得到至少 一个关键字词,但本发明并不以使用文章分类器进行分析为限。
接着分析模块130会进一步建立分析所得的关键字词与各个兴趣与爱好 间的对应关系,也就是判断关键字词对应的类别(步骤230),例如分析模块 130分析使用者储存的游戏攻略档或由使用者的「我的最爱」目录中的大部份 储存的链接都对应到各个游戏讨论网站,因此分析模块130可以得出关键字词 且其对应的类别为「游戏」。由于分析模块130分析所得的关键字词是由使用 者的兴趣及爱好相关的文章中分析得出,因此关键字词便会与使用者的兴趣及 爱好有着相当程度的吻合,也就是说,关键字词对应的类别即为使用者的兴趣 及爱好对应的类别。
在分析并分类关键字词的步骤中(步骤220、步骤230),若使用者的兴 趣及喜好广泛,则会分析所得的关键字词会散布在各个不同的类别中。若使用 者仅仅加入了一两个最近才开始有兴趣的链接至「我的最爱」目录中,则分析 模块130也会因为少数的内容与其它内容的相异程度非常高,进而产生出相对
应的关键字词。
在分析并分类关键字词(步骤220、步骤230)之后,本发明的搜寻模块 140便会使用关键字词自与关键字词的类别「游戏」相对应的第二搜寻网站中 进行搜寻(步骤250),第二搜寻网站以关键字词搜寻后,会产生与关键字词 相关的链接,本发明的下载模块150便会下载与关键字词相关的链接对应的网 页的内容(步骤260),达成自动收集使用者兴趣及爱好的数据的目的。
为了避免本发明会在进行搜寻与下载数据时会占用大量的硬件资源或网 络频宽,因此本发明更包含有检测模块190,负责检测执行有本发明的电子装 置100的状态,当电子装置处于特定的状态时,才致能搜寻模块140搜寻与关 键字词相关的链接(步骤240),其中特定的状态例如没有资料被输入时、或 处理器的使用率低于一特定值时,但本发明所提的致能的条件并不以上述两个 状态为限。
当有数据被输入时,表示使用者正在操作执行有本发明的电子装置100, 因此为了不影响使用者正常使用电子装置100,因此检测模块190将暂停搜寻模块140的执行,直到没有数据被输入时,表示使用者暂时不使用电子装置 100,因此本发明的运作并不会影响使用者;而检测模块190在处理器使用率 较低的情况下致能搜寻模块也是基于相同的原因。
另外,为了避免相同的数据重复被收集,因此下载模块190在下载网页的 内容之前,会先比对被下载的网页的更新时间与前次下载的时间,当被下载的 网页的更新时间晚于前次被下载的时间时,表示网页做过更新,需要重新下载, 若被下載的网页的更新时间早于前次被下载的时间时,表示网页已下载过,不 需重复下载。
再者,本发明的自动收集网络信息的方法,可实现于硬件、软件或硬件与 软件的组合中,亦可在计算机系统中以集中方式实现或以不同组件散布于若干 互连的计算机系统的分散方式实现。
虽然本发明已以前述较佳实施例揭露如上,然其并非用以限定本发明,在 不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明 作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的 权利要求的保护范围。
权利要求
1. 一种自动收集网络信息的方法,应用于一电子装置上,其特征在于,该方法包含下列步骤储存至少一搜寻网站;分类该搜寻网站至各个兴趣及爱好对应的一类别中;分析一使用者储存的至少一数据以产生对应该使用者的兴趣及爱好的至少一关键字词;判断该关键字词对应该类别;自该类别包含的该搜寻网站中搜寻与该关键字词相关的至少一链接;及下载该链接对应的一网页。
2. 根据权利要求1所述的自动收集网络信息的方法,其特征在于,该搜寻 该链接的步骤还包含判断当未有数据被输入时,搜寻该链接的步骤。
3. 根据权利要求1所述的自动收集网络信息的方法,其特征在于,该搜寻 该链接的步骤还包含判断当该电子装置的一处理器使用率低于一特定值时,搜 寻该链接的步骤。
4. 根据权利要求1所述的自动收集网络信息的方法,其特征在于,该下载 该网页的步骤还包含判断该网页的更新时间晚于前次下载该网页的时间时,下 载该网页。
5. —种自动收集网络信息的系统,应用于一电子装置上,其特征在于,该 系统包含一储存模块,用以储存至少一搜寻网站;一分类模块,用以将该搜寻网站分类至各个兴趣及爱好对应的一类别中;一分析模块,用以由一使用者储存的至少一数据中分析出对应该使用者的 兴趣及爱好的至少一关键字词,并判断该关键字词对应的该类别;一搜寻模块,用以自该类别所包含的该搜寻网站中搜寻与该关键字词相关 的至少一链接;及一下载模块,用以下载该链接对应的一网页。
6. 根据权利要求5所述的自动收集网络信息的系统,其特征在于,该数据 包含至少一档案。
7. 根据权利要求5所述的自动收集网络信息的系统,其特征在于,该数据包含至少一链接对应的一 网页。
8. 根据权利要求5所述的自动收集网络信息的系统,其特征在于,该系统 还包含一检测模块,用以在检测出未有数据被输入时,致能该搜寻模块。
9. 根据权利要求5所述的自动收集网络信息的系统,其特征在于,该检测 模块还用以在检测出该电子装置的一处理器的使用率低于一特定值时,致能该 搜寻模块。
10. 根据权利要求5所述的自动收集网络信息的系统,其特征在于,该下 载模块还用以判断该网页的更新时间晚于前次下载该网页的时间时,下载该网 页。
全文摘要
本发明公开了一种自动收集网络信息的系统及其方法,该方法是分类搜寻网站至与各个兴趣及爱好对应的类别中,并分析使用者储存的档案内容或链接的网页内容以产生对应该使用者的兴趣及爱好的关键字词,在判断关键字词对应的类别后,使用关键字词对应的类别包含的搜寻网站搜寻与关键字词相关的链接,最后下载搜寻出的链接的网页。
文档编号G06F17/30GK101206653SQ20061017078
公开日2008年6月25日 申请日期2006年12月22日 优先权日2006年12月22日
发明者叶建华, 邱全成 申请人:英业达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1