基于膜计算的搜索方法
【专利摘要】本发明涉及网络搜索领域,其公开了一种基于膜计算的搜索方法,包括以下步骤:(A)获取最优加权因子;(B)获取文档主题相似度;(C)预测排序优先值。本发明的有益效果是:能够提高预测未访问URLs主题相似度的准确率,进一步提高主题爬虫的查全率和准确率,从而指导主题爬虫从互联网中采集的更多数量、更好质量的网页集,更有效地收集用户感兴趣的网页集。
【专利说明】基于膜计算的搜索方法
【技术领域】
[0001]本发明涉及网络搜索领域,尤其涉及一种基于膜计算的搜索方法。
【背景技术】
[0002]大多数主题爬行方法都是基于文本内容方法,在这些主题爬虫中比较典型的主题爬虫包括VSM主题爬虫和SSRM主题爬虫,VSM主题爬虫将未访问URLs的网页全文本和链接锚文本的两个文档的主题相关度与相应的两个加权因子整合为它们的优先值,并利用向量空间模型(Vector Space Model VSM)计算文档与主题的相似度;S.Chakrabarti, Μ.V.D.Berg, B.Dom, Focused crawling:a new approach for topic specific resourcediscovery, Computer Networks, 1999, 31:1623-1640.SSRM 主题爬虫也将未访问 URLs 的网页全文本和链接锚文本的两个文档的主题相关度与相应的两个加权因子整合为它们的优先值,并利用语义相似度检索模型(Semantic Similarity Retrieval Model SSRM)计算文档与主题的相似度;G.Varelas, E.Voutsakis, et al, Semantic similarity methodsin wordnet and their application to information retrieval on the web, SeventhACM International Workshop on Web Information and Data Management, BremenGermany, 2005.此两个主题爬虫的两个加权因子都被指定为0.5。此外,在优化参数或加权因子中,与遗传算法相比,CMCOA能获得更好的最优值和具有更快的收敛性。L.Huang, Research on membrane computing optimization methods,ZhejiangUniversity, Hangzhou, 2007.上述两个典型主题爬虫能够检索用户感兴趣的网页,但是它们仍然存在诸多问题:(I)未访问URLs优先值计算考虑因素不完善,此优先值可能受链接上下文段落、网页标题等相关因素影响;(2)文档和主题的相似度计算模型存在瑕疵,VSM模型未考虑到语义相似度,而SSRM模型未考虑到余弦相似度;(3)未访问URLs优先值算式的加权因子确定带有随意性,这些加权因子都是通过任意指定的。
【发明内容】
[0003]为了解决现有技术中的问题,本发明提供了一种基于膜计算的搜索方法,解决现有技术中在网络主体爬行中未访问URLs优先值计算考虑因素不完善和文档和主题的相似度计算模型存在瑕疵的问题。
[0004]本发明提供了一种基于膜计算的搜索方法,包括以下步骤:(A)获取最优加权因子;(B)获取文档主题相似度;(C)预测排序优先值。
[0005]作为本发明的进一步改进,所述步骤(A)进一步包括,获取训练数据;表层膜、中间膜和基本膜产生初始对象并设置相关参数;表层膜、中间膜和基本膜应用进化规则;表层膜、中间膜和基本膜应用交流规则;表层膜输出最好对象。
[0006]作为本发明的进一步改进,所述步骤(B)进一步包括,获取四个不同文档;计算四个文档的主题相似度;四个不同文档分别为网页全文本、链接锚文本、链接上下文和网页标题文档。
[0007]作为本发明的进一步改进,所述步骤(C)进一步包括:预测未访问URLs的排序优先值;遍历未访问URLs并下载相应的网页集。
[0008]作为本发明的进一步改进,所述训练数据包括与主题相关的训练URLs,其自身的主题相似度、其父网页的全文本、锚文本、标题文本、上下文文本的主题相似度;表层膜、中间膜和基本膜的初始对象都是随机产生的;表层膜、中间膜和基本膜中所有的膜都单独应用进化规则,此进化规则包括选择规则、交叉规则和变异规则,直到达到指定的代数;表层膜、中间膜和基本膜中所有膜都应用进化规则后,各膜应用交流规则将该膜内最好或者较好的对象送入包含该膜的外层膜,直到达到指定的交流代数。
[0009]作为本发明的进一步改进,所述表层膜、中间膜和基本膜的参数包括初始对象个数、最大进化代数、最大交流代数、最大及最小变异概率;所述最好对象指表层膜中适应度值最大的对象,此对象对应的训练URLs的主题相似度的训练值与估算值的均方根误差最小的对象。
[0010]作为本发明的进一步改进,所述步骤(B)中,从已下载的网页中,抽取未访问的URLs和网页全文本,并获取这些超链接的锚文本、上下文文本和标题文本;具体包括:抽取上述四个文档的词项,去除停用词并进行词干提取;统计所有词项的TF-1DF值,并计算主题词项与文档词项间语义相似度;利用模型计算四个文档与主题的相似度。
[0011]作为本发明的进一步改进,所述步骤(C)中进一步包括:预测未访问URLs的排序优先值;具体包括:(Cl)将每个未访问URL的四个文档的主题相似度与上述获得的最优四个加权因子进行线性 组合,将组合值作为此URL的排序优先值;(C2)遍历未访问URLs并下载相应的网页集;根据未访问URLs的排序优先值,按照降序依次遍历这些URLs,并下载相应的网页集;统计已下载的网页数量,判断该数量值是否达到用户给定的网页数,若满足要求,则程序结束,否则程序从(C2)继续运行。
[0012]本发明的有益效果是:能够提高预测未访问URLs主题相似度的准确率,进一步提高主题爬虫的查全率和准确率,从而指导主题爬虫从互联网中采集的更多数量、更好质量的网页集,更有效地收集用户感兴趣的网页集。
[0013]【【专利附图】
【附图说明】】
图1是本发明CMCOA的结构示意图。
[0014]图2是本发明所有主题爬虫的第一组爬行结果相关网页数量的对比图。
[0015]图3是本发明所有主题爬虫的第一组爬行结果获取率的对比图。
[0016]图4是本发明所有主题爬虫的第一组爬行结果平均相关度的对比图。
[0017]图5是本发明所有主题爬虫的第二组爬行结果相关网页数量的对比图。
[0018]图6是本发明所有主题爬虫的第二组爬行结果获取率的对比图。
[0019]图7是本发明所有主题爬虫的第二组爬行结果平均相关度的对比图。
[0020]图8是本发明所有主题爬虫的第三组爬行结果相关网页数量的对比图。
[0021]图9是本发明所有主题爬虫的第三组爬行结果获取率的对比图。
[0022]图10是本发明所有主题爬虫的第三组爬行结果平均相关度的对比图。
[0023]图11是本发明流程示意图。
[0024]【【具体实施方式】】 下面结合【专利附图】
【附图说明】及【具体实施方式】对本发明进一步说明。
[0025]一种基于膜计算的搜索方法,包括以下步骤:(A)获取最优加权因子;(B)获取文档主题相似度;(O预测排序优先值。
[0026]所述步骤(A)进一步包括,获取训练数据;表层膜、中间膜和基本膜产生初始对象并设置相关参数;表层膜、中间膜和基本膜应用进化规则;表层膜、中间膜和基本膜应用交流规则;表层膜输出最好对象。
[0027]所述步骤(B)进一步包括,获取四个不同文档;计算四个文档的主题相似度;四个不同文档分别为网页全文本、链接锚文本、链接上下文和网页标题文档。
[0028]所述步骤(C)进一步包括:预测未访问URLs的排序优先值;遍历未访问URLs并下载相应的网页集。
[0029]所述训练数据包括与主题相关的训练URLs,其自身的主题相似度、其父网页的全文本、锚文本、标题文本、上下文文本的主题相似度;表层膜、中间膜和基本膜的初始对象都是随机产生的;表层膜、中间膜和基本膜中所有的膜都单独应用进化规则,此进化规则包括选择规则、交叉规则和变异规则,直到达到指定的代数;表层膜、中间膜和基本膜中所有膜都应用进化规则后,各膜应用交流规则将该膜内最好或者较好的对象送入包含该膜的外层膜,直到达到指定的交流代数。
[0030]所述表层膜、中间膜和基本膜的参数包括初始对象个数、最大进化代数、最大交流代数、最大及最小变异概率;所述最好对象指表层膜中适应度值最大的对象,此对象对应的训练URLs的主题相似度的训练值与估算值的均方根误差最小的对象。
[0031 ] 所述步骤(B)中,从已下载的网页中,抽取未访问的URLs和网页全文本,并获取这些超链接的锚文本、上下文文本和标题文本;具体包括:抽取上述四个文档的词项,去除停用词并进行词干提取;统计所有词项的TF-1DF值,并计算主题词项与文档词项间语义相似度;利用模型计算四个文档与主题的相似度。
[0032]所述步骤(C)中进一步包括:预测未访问URLs的排序优先值;具体包括:(Cl)将每个未访问URL的四个文档的主题相似度与上述获得的最优四个加权因子进行线性组合,将组合值作为此URL的排序优先值;(C2)遍历未访问URLs并下载相应的网页集;根据未访问URLs的排序优先值,按照降序依次遍历这些URLs,并下载相应的网页集;统计已下载的网页数量,判断该数量值是否达到用户给定的网页数,若满足要求,则程序结束,否则程序从(C2)继续运行。
[0033]该方法基于膜计算优化算法的主题爬行策略,将未访问URLs的网页全文本、链接锚文本、链接上下文和网页标题的四个文档的主题相关度与相应的四个加权因子整合为它们的优先值。此四个文档的主题相关度通过语义相似度向量空间模型(SemanticSimilarity Vector Retrieval Model SSVSM)获得,而相应的四个加权因子通过细胞型膜计算优化算法(Cell-Like Membrane Computing Optimization Algorithm CMC0A)获得。
[0034]主题爬虫将网页全文本、链接锚文本、链接上下文和网页标题作为超链接的四个文档,该主题爬虫主要包括获取最优加权因子、获取文档主题相似度与预测排序优先值三个步骤。这些步骤具体描述如下:
(I)获取最优加权因子
CMCOA的结构是由8个不同膜相互嵌套组成,此结构主要包括表层膜、中间膜和基本膜,其中膜I是表层膜、膜2-3是中间膜、膜5-8是基本膜,CMCOA的结构如下图1所示。在图1中,表层膜主要与外界环境接触,同时将最优的对象输出到外部环境中;基本膜内部没有任何膜,基本膜之间是相互独立的;中间膜在结构上是位于表层膜和基本膜之间,其内部可由中间膜本身嵌套或者只有基本膜。各层膜可以包含不同的对象数目,同时不同类型膜之间可以通过交流规则交换对象,同类型膜可以通过进化规则选出该膜较优的对象。
[0035]CMCOA的对象是由四个加权因子构成的实数向量,即每个对象对应一个4维向量,相应的向量分值都在[0,1]内。每个对象都有一个适应度值,该适应度值是所有超链接的主题相似度的均方根误差的倒数,适应度值越大,则此对象就越好。CMCOA的对象以及适应度函数具体表示如下:
【权利要求】
1.一种基于膜计算的搜索方法,其特征在于:包括以下步骤:(A)获取最优加权因子;(B)获取文档主题相似度;(C)预测排序优先值。
2.根据权利要求1所述的基于膜计算的搜索方法,其特征在于:所述步骤(A)进一步包括,获取训练数据;表层膜、中间膜和基本膜产生初始对象并设置相关参数;表层膜、中间膜和基本膜应用进化规则;表层膜、中间膜和基本膜应用交流规则;表层膜输出最好对象。
3.根据权利要求1所述的基于膜计算的搜索方法,其特征在于:所述步骤(B)进一步包括,获取四个不同文档;计算四个文档的主题相似度;四个不同文档分别为网页全文本、链接锚文本、链接上下文和网页标题文档。
4.根据权利要求1所述的基于膜计算的搜索方法,其特征在于:所述步骤(C)进一步包括:预测未访问URLs的排序优先值;遍历未访问URLs并下载相应的网页集。
5.根据权利要求2所述的基于膜计算的搜索方法,其特征在于:所述训练数据包括与主题相关的训练URLs,其自身的主题相似度、其父网页的全文本、锚文本、标题文本、上下文文本的主题相似度;表层膜、中间膜和基本膜的初始对象都是随机产生的;表层膜、中间膜和基本膜中所有的膜都单独应用进化规则,此进化规则包括选择规则、交叉规则和变异规则,直到达到指定的代数;表层膜、中间膜和基本膜中所有膜都应用进化规则后,各膜应用交流规则将该膜内最好或者较好的对象送入包含该膜的外层膜,直到达到指定的交流代数。
6.根据权利要求5所述的基于膜计算的搜索方法,其特征在于:所述表层膜、中间膜和基本膜的参数包括初始对象个数、最大进化代数、最大交流代数、最大及最小变异概率;所述最好对象指表层膜中适应度值最大的对象,此对象对应的训练URLs的主题相似度的训练值与估算值的均方根误差最小的对象。
7.根据权利要求3所述的基于膜计算的搜索方法,其特征在于:所述步骤(B)中,从已下载的网页中,抽取未访问的URLs和网页全文本,并获取这些超链接的锚文本、上下文文本和标题文本;具体包括:抽取上述四个文档的词项,去除停用词并进行词干提取;统计所有词项的TF-1DF值,并计算主题词项与文档词项间语义相似度;利用模型计算四个文档与主题的相似度。
8.根据权利要求4所述的基于膜计算的搜索方法,其特征在于:所述步骤(C)中进一步包括:预测未访问URLs的排序优先值;具体包括:(Cl)将每个未访问URL的四个文档的主题相似度与上述获得的最优四个加权因子进行线性组合,将组合值作为此URL的排序优先值;(C2)遍历未访问URLs并下载相应的网页集;根据未访问URLs的排序优先值,按照降序依次遍历这些URLs,并下载相应的网页集;统计已下载的网页数量,判断该数量值是否达到用户给定的网页数,若满足要求,则程序结束,否则程序从(C2)继续运行。
【文档编号】G06F17/30GK103955460SQ201410026335
【公开日】2014年7月30日 申请日期:2014年1月20日 优先权日:2014年1月20日
【发明者】杜亚军, 刘文君, 孟庆瑞, 李曦, 王晓明 申请人:西华大学, 西藏飞跃智能科技有限公司