支持用户策略配置的基于Web网络的非结构化文本获取方法与流程

文档序号:17358788发布日期:2019-04-09 21:55阅读:来源:国知局

技术特征:

技术总结
一种支持用户策略配置的基于Web网络的非结构化文本获取方法,包括文本采集器存储初始化步骤,文本采集器种子地址初始化步骤,文本采集器页面资源获取步骤,页面分析与存储步骤,页面文本内容层次聚类步骤,文本数据聚类情况反馈步骤,实时/准实时用户策略配置步骤,文本采集器响应用户反馈步骤。本发明能够对已爬取的资源的评估来动态地调整Web网络文本采集系统即网络爬虫的选择策略,实现在一个特定的组织内更好与更高效的文本数据采集与高质量的文本数据资源池的构建,实现在很短的时期内即可将具有丰富特征的文本数据建立起信息资源池,提高爬虫效率,节省信息采集的周期。

技术研发人员:张新阳;李辉;保富
受保护的技术使用者:云南电网有限责任公司信息中心
技术研发日:2018.12.05
技术公布日:2019.04.09
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1