一种基于知识图谱的爬取种子列表更新方法及装置与流程

文档序号:11677627阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种基于知识图谱的爬取种子列表更新方法及装置,该方法从初始的爬取种子列表中选取一个种子,爬取该种子的网页,从该种子的网页中提取出所有链接的URL作为新种子,爬取新种子的网页,并基于知识图谱计算出新种子对应的网页内容与搜索主题的相似度,然后用新种子的相似度与设定的相似度阈值进行比对,如果新种子的相似度大于设定的相似度阈值,则将该新种子加入爬取种子列表中,否则直接丢弃该新种子。本发明的装置包括种子选取模块、新种子提取模块、相似度计算模块和相似度比对模块。本发明能有效过滤与搜索主题相似度不高的网页,逐步调整网页爬取的方向,提高了爬取网页的准确度以及爬取网页的效率。

技术研发人员:赵明;沈颂;林友勇;刘钊岐;张芬
受保护的技术使用者:中电海康集团有限公司
技术研发日:2017.03.02
技术公布日:2017.07.25
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1