一种信息的筛选方法与流程

文档序号:35499855发布日期:2023-09-20 05:24阅读:50来源:国知局
一种信息的筛选方法与流程

本发明涉及信息筛选,特别是涉及一种信息的筛选方法。


背景技术:

1、随着互联网技术的飞速发展,互联网已经成为一个全球性的信息数据平台,同时越来越多的用户将互联网作为获取信息的主要来源。面对互联网上的海量网页信息资源,用户通常利用搜索引擎服务来获取所需信息。然而,尽管搜索引擎能够在一定程度上协助用户获取所需的相关网页信息资源,但是由于网页内容分布具有很大的自由度,再加上互联网的开放性、无界性等特点,人们难以对这些信息资源进行有效的质量控制和管理,导致获取大量的垃圾信息,也就是在搜索引擎提供的大量信息资源中,排名前列的信息并非都是高质量和高可信度的,甚至存在着各种各样虚假的、错误的或者过时的信息。

2、因此,本发明提供了一种信息的筛选方法。


技术实现思路

1、本发明提供了一种信息的筛选方法,通过对用户输入的检索内容进行分析,获取检索信息,并对检索信息的可靠性、时效性及相关性进行判断及筛选,保证用户获得高质量和高可信度的信息。

2、本发明提供一种信息的筛选方法,包括:

3、步骤1:获取并分析用户输入的检索内容,得到检索关键词;

4、步骤2:从信息数据平台中获取与检索关键词存在关联的第一信息,并对每个第一信息的时效性进行分析,筛选得到第二信息;

5、步骤3:基于每个第二信息对应的来源信息,对每个第二信息的可靠度进行加权计算,并筛选满足第一预设条件的第三信息;

6、步骤4:基于每个第三信息的页面布局情况,计算每个第三信息中内容与标题的相关度,并筛选满足第二预设条件的第四信息;

7、步骤5:对筛选出的第四信息进行相关度排序,作为最终筛选结果。

8、优选的,获取并分析用户输入的检索内容,得到检索关键词,包括:

9、获取用户输入的检索内容,对检索内容进行词性标注;

10、基于词性标注结果,使用关联词、停用词、数词+量词的组合以及标点符号对检索内容进行切分,生成检索关键词。

11、优选的,从信息数据平台中获取与检索关键词存在关联的第一信息,并对每个第一信息的时效性进行分析,筛选得到第二信息,包括:

12、从信息数据平台获取与检索关键词存在关联的第一信息,其中,信息数据平台中的信息包括非固定种类的信息和固定种类的信息;

13、对第一信息种类进行判断,若第一信息为固定种类,则将所述第一信息视为第二信息,其中,所述固定种类包括:固定信息种类、长期未变更信息种类、更新已完结或明确指向的信息种类;

14、若第一信息为非固定种类,则获取每个第一信息的发布时间,并按照年、月、日规则进行分类,确定同时间区间内发布的第一数量以及发布信息热度列表,其中,所述非固定种类包括:新闻事件种类、周期性更新信息种类以及持续更新信息种类;

15、基于确定结果,判断每个第一信息的时效性,基于判断结果筛选获得第二信息。

16、优选的,基于每个第二信息对应的来源信息,对每个第二信息的可靠度进行加权计算,并筛选满足第一预设条件的第三信息,包括:

17、溯源每个第二信息对应的来源信息,并获取网站域名、网络安全防护等级以及网站崩溃频率及网站备份信息进行第一评估;

18、获取来源信息对应网站的用户访问信息,并进行第二评估;

19、根据来源信息对应网站的历史广告承接数量和有效链接数量进行第三评估;

20、基于第一评估结果、第二评估结果以及第三评估结果,对相应第二信息的可靠度进行加权计算;

21、基于计算结果和第一预设条件对第二信息进行筛选,获得第三信息。

22、优选的,基于第一评估结果、第二评估结果以及第三评估结果,对相应第二信息的可靠度进行加权计算,包括:

23、yi=αp1+βp2+γp3

24、

25、

26、

27、其中,α表示第一评估结果对应的权重,p1表示第i个第二信息的第一评估结果,yi表示第i个第二信息对应网站的网站域名的评分,ymax表示网站域名的最大评分,pi表示第i个第二信息对应网站的网络安全防护等级,pmax表示网络安全防护的最高等级,ei表示第i个第二信息对应网站的网站崩溃频率,emax表示允许的网站崩溃频率最大值,zi表示第i个第二信息对应网站的网站备份信息的评分,zmax表示网站备份信息的最大评分,β表示第二评估结果对应的权重,p2表示第i个第二信息的第二评估结果,xi表示第i个第二信息对应网站的每日用户平均访问量,ti表示第i个第二信息对应网站的平均访问时间,xmax表示所有第二信息对应网站的每日用户平均访问量中的最大值,tmax表示所有第二信息对应网站的平均访问时间中的最大值,γ表示第三评估结果对应的权重,p3表示第i个第二信息的第三评估结果,cmax表示所有第二信息对应网站的最大历史广告承接数量,ci表示第i个第二信息对应网站的历史广告承接数量,lmax表示第二信息网站内设定的最大链接数量,li表示第i个第二信息对应的网站内的实际链接数量,且α+β+γ=1;cave表示所有第二信息对应网站的平均历史广告承接数量。

28、优选的,基于每个第三信息的页面布局情况,计算每个第三信息中内容与标题的相关度,并筛选满足第二预设条件的第四信息,包括:

29、基于每个第三信息的页面布局情况,获取每个第三信息对应的页面中的标题内容及文本内容,并进行词性标注;

30、对标题结构进行分析,确定标题中不同位置处词语的第一权重值;

31、基于词性标注结果,对标题内容进行切分,基于切分结果和预设的词性优先级顺序,确定切分结果中每个词语的第二权重值;

32、基于第一权重值和第二权重值,确定切分结果中每个词语的总权重值;

33、基于检索关键词和切分结果,确定切分结果中与检索关键词存在关联的匹配词语,获取每个匹配词语的总权重值,并确定所述匹配词语中的最低总权重值,将所述最低总权重值作为标题关键词获取标准;

34、基于获取标准,确定所述标题内容对应的第一关键词集合;

35、基于第一关键词集合中元素数量,向文本内容设定对应数量的第二关键词集合;

36、基于词性标注结果,确定文本内容中词性一致的词语出现频次,并提取前n1个词语出现频次对应词性的所有词语,并分别填充到对应的第二关键词集合中,其中,元素数量也为n1,每个第二关键词集合对应一个词性下的所有词语;

37、获取第一关键词集合与每个填充后的第二关键词集合的关键词交集,基于关键词交集的总权重值,确定对应关键词交集与第一关键词集合的第一相关度;

38、基于对应关键词交集中各关键词在相应填充后的第二关键词集合的词频,确定对应关键词交集与文本内容的第二相关度;

39、基于所有第一相关度和所有第二相关度,计算每个第三信息对应页面中标题与文本内容的相关度。

40、优选的,基于所有第一相关度和所有第二相关度,计算每个第三信息对应页面中标题与文本内容的相关度,包括:

41、

42、其中,pd表示第d个页面中所述标题与文本内容的相关度,qdk表示第d个页面中第k个关键词交集对应的总权重值,fd表示第d个页面对应的第一关键词集合对应的总权重值,s表示第d个页面中关键词交集的集合数,且与关键词交集的集合数一致,fdn表示第d个页面中第n个第二关键词集合中所有关键词在文本内容中的总词频,ddn表示第d个页面中与第n个第二关键词集合对应的关键词交集中所有关键词在文本内容中的总词频,n1表示第d个页面中第n个第二关键词集合的集合数,且与关键词交集的集合数一致,a1表示第一占比系数,a2表示第二占比系数。

43、优选的,对筛选出的第四信息进行相关度排序,作为最终筛选结果,包括:

44、获取每个第四信息中标题内容与文本内容的相关度,对每个第四信息对应的标题内容与文本内容的相关度大小进行比较;

45、基于比较结果,按照由大到小的规则进行排序,获得最终的排序结果并将其作为最终的筛选结果进行显示。

46、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书及附图中所特别指出的结构来实现和获得。

47、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1