1.一种模拟网页浏览的动态定制检索方法,其特征在于包括如下步骤:
1)用户输入查询所在的页面网址;
2)根据用户提供的检索页面的URL对页面解析,对解析出的检索框进行筛选或通过用户选择,确定用户需要的检索框;
3)根据批量查询的任务,确定准备的查询词集;输入检索词集或通过文件定位到检索词集;
4)允许用户逐级设计链接,每一级链接都是在上一级链接得到的基础上进行检索的链接,其中第一层链接的上一层是通过对检索词点击查询得到的页面;
5)对每个步骤3)中的检索词,根据步骤4)设计的链接进行检索,在分析页面查找链接时应采用一些字符串相似度匹配的算法或者使用这些关键词构建正则表达式来查找相应链接,如得到的链接有多个,允许用户限制关键词对应的链接数目;
6)通过步骤4)中逐级链接点击后,最后一级链接点击得到的链接即为检索结果。
2.根据权利要求1所述的模拟网页浏览的动态定制检索方法,其特征在于,所述根据用户提供的检索页面的URL对页面解析是通过页面开源分析工具进行,目的是查找出所有查询框的对象。
3.根据权利要求2所述的模拟网页浏览的动态定制检索方法,其特征在于,所述页面开源分析工具为jsoup。
4.根据权利要求1所述的模拟网页浏览的动态定制检索方法,其特征在于,步骤4)中,将通过关键词搜索进入的全体页面称为第0级页面,由第0级打开的页面都标记为第1级页面,在第1级的页面上通过对用户设计的第2级链接点击打开的页面标为第2级页面,以此类推。
5.根据权利要求1所述的模拟网页浏览的动态定制检索方法,其特征在于,步骤5)中,字符串相似度匹配通过机器学习的语义分析来匹配相似链接;该过程中所有的点击任务由具有JavaScript解析功能的工具HtmlUnit根据查到的链接进行模拟点击。
6.根据权利要求1所述的模拟网页浏览的动态定制检索方法,其特征在于,步骤6)中,中间过程中生成的页面或链接根据用户的需要返回给用户;所有返回的结果都经过查重处理。