网站错别字的识别方法及装置与流程

文档序号:11155073阅读:来源:国知局

技术特征:

1.一种网站错别字的识别方法,其特征在于,包括:

获取待检测网站内所有内容页面,并确定第一人物与职称关系,所述第一人物与职称关系为从所述待检测网站内所有内容页面中提取的人物与职称关系;

确定所述第一人物与职称关系与第二人物与职称关系是否一致,所述第二人物与职称关系存储于人物职称库中,所述人物职称库记录有预设官方媒体网站的页面内容中包含的人物与职称之间的对应关系;

若确定所述第一人物与职称关系与所述第二人物与职称关系不一致,则输出显示所述待检测网站中有错别字的提示信息。

2.根据权利要求1所述的方法,其特征在于,在确定所述第一人物与职称关系与第二人物与职称关系是否一致之前,所述方法还包括:

根据所述预设官方媒体网站的页面内容中包含的人物与职称关系生成所述人物职称库。

3.根据权利要求2所述的方法,其特征在于,在根据所述预设官方媒体网站的页面内容中包含的人物与职称关系生成所述人物职称库之后,所述方法还包括:

更新所述人物职称库中的人物与职称关系。

4.根据权利要求3所述的方法,其特征在于,所述更新所述人物职称库中的人物与职称关系包括:

基于爬虫程序获取所述预设官方媒体网站的页面内容;

对所述预设官方媒体网站的页面内容进行分析,并确定所述预设官方媒体网站的页面内容中的人物与职称关系;

基于确定后的所述人物与职称关系更新所述人物职称库。

5.根据权利要求4所述的方法,其特征在于,在确定所述预设官方媒体网站的页面内容中的人物与职称关系之前,所述方法还包括:

获取从不同预设官方媒体网站的页面内容中分析的人物与职称关系;

确定从不同预设官方媒体网站的页面内容中分析的人物与职称关系是 否存在差异;

所述确定所述预设官方媒体网站的页面内容中的人物与职称关系包括:

若确定从不同预设官方媒体网站的页面内容中分析的人物与职称关系未存在差异,则将从不同预设官方媒体网站的页面内容中分析的人物与职称关系进行合并,并确定所述人物与职称关系;

所述确定所述预设官方媒体网站的页面内容中的人物与职称关系还包括:

若确定从不同预设官方媒体网站的页面内容中分析的人物与职称关系存在差异,则基于权重值对不同预设官方媒体网站的页面内容中分析的人物与职称关系进行加权处理,并确定加权值最高的人物与职称关系为所述人物与职称关系;其中,所述权重值与不同预设官方媒体一一对应。

6.根据权利要求5所述的方法,其特征在于,基于确定后的所述人物与职称关系更新所述人物职称库包括:

将确定后的所述人物与职称关系与所述人物职称库已有的人物与职称关系进行归并。

7.一种网站错别字的识别装置,其特征在于,包括:

获取单元,用于获取待检测网站内所有内容页面;

第一确定单元,用于在所述获取单元获取待检测网站内所有内容页面之后,确定第一人物与职称关系,所述第一人物与职称关系为从所述待检测网站内所有内容页面中提取的人物与职称关系;

第二确定单元,用于确定所述第一确定单元确定的所述第一人物与职称关系与第二人物与职称关系是否一致,所述第二人物与职称关系存储于人物职称库中,所述人物职称库记录有预设官方媒体网站的页面内容中包含的人物与职称之间的对应关系;

显示单元,用于当所述第二确定单元确定所述第一人物与职称关系与所述第二人物与职称关系不一致时,输出显示所述待检测网站中有错别字的提示信息。

8.根据权利要求7所述的装置,其特征在于,所述装置还包括:

生成单元,用于在所述第一确定单元确定所述第一人物与职称关系与第二人物与职称关系是否一致之前,根据所述预设官方媒体网站的页面内容中包含的人物与职称关系生成所述人物职称库。

9.根据权利要求7所述的装置,其特征在于,所述装置还包括:

更新单元,用于在所述生成单元根据所述预设官方媒体网站的页面内容中包含的人物与职称关系生成所述人物职称库之后,更新所述人物职称库中的所述人物与职称关系。

10.根据权利要求9所述的装置,其特征在于,所述更新单元包括:

第一获取模块,用于基于爬虫程序获取所述预设官方媒体网站的页面内容;

分析模块,用于对所述第一获取模块获取的所述预设官方媒体网站的页面内容进行分析;

第一确定模块,用于确定所述分析模块分析的所述预设官方媒体网站的页面内容中的人物与职称关系;

更新模块,用于基于所述第一确定模块确定后的所述人物与职称关系更新所述人物职称库。

11.根据权利要求10所述的装置,其特征在于,所述更新单元还包括:

第二获取模块,用于在所述第一确定模块确定所述预设官方媒体网站的页面内容中的人物与职称关系之前,获取从不同预设官方媒体网站的页面内容中分析的人物与职称关系;

第二确定模块,用于确定所述第二获取模块获取的从不同预设官方媒体网站的页面内容中分析的人物与职称关系是否存在差异;

合并模块,当所述第二确定模块确定从不同预设官方媒体网站的页面内容中分析的人物与职称关系未存在差异时,将从不同预设官方媒体网站的页面内容中分析的人物与职称关系进行合并;

所述第一确定模块,还用于在所述第二确定模块将从不同预设官方媒体网站的页面内容中分析的人物与职称关系进行合并之后,确定所述人物与职称关系;

加权模块,用于当所述第二确定模块确定从不同预设官方媒体网站的 页面内容中分析的人物与职称关系存在差异时,基于权重值对不同预设官方媒体网站的页面内容中分析的人物与职称关系进行加权处理;其中,所述权重值与不同预设官方媒体一一对应;

所述第一确定模块,还用于确定所述加权模块中加权值最高的人物与职称关系为所述人物与职称关系。

12.根据权利要求11所述的装置,其特征在于,所述更新模块,还用于将确定后的所述人物与职称关系与所述人物职称库已有的人物与职称关系进行归并。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1