一种资讯的筛选方法及装置与流程

文档序号:33035445发布日期:2023-01-24 19:34阅读:50来源:国知局
一种资讯的筛选方法及装置与流程

1.本发明涉及互联网技术领域,特别涉及一种资讯的筛选方法及装置。


背景技术:

2.随着互联网的不断发展和普及,如今人们越来越多通过网络资讯平台来了解各类新闻、资讯等,例如,通过终端登陆浏览资讯平台网站,或者通过终端上安装的资讯平台对应的app来获取所述资讯。
3.在这种信息泛滥的情况下,搜索准确的信息数据越来越难,特别是针对一些特定的需求,用户想要简单的通过搜索引擎检索到想要的资讯信息非常的难,需要花大量的时间去除非目标信息。


技术实现要素:

4.为了解决上述问题,本发明提供一种能够全面、精准的资讯的筛选方法及装置。
5.为了实现上述目的,本发明第一方面提供一种资讯的筛选方法,包括:
6.获取用户所需资讯内容,根据所述资讯内容确定预检索关键词;
7.对所述预检索关键词进行扩充得到最终关键词;
8.在搜索引擎中利用所述最终关键词进行搜索从而确定第一数据源;
9.对所述第一数据源进行扩充得到第二数据源;
10.在所述第二数据源中根据所述最终关键词确定所需的资讯内容。
11.在上述筛选方法中,优选的,对所述第一数据源进行扩充得到第二数据源,进一步包括:
12.在搜索引擎中输入所述最终关键词的一个或多个并在搜索引擎的搜索条件中选择资讯,从而得到第三数据源;
13.根据筛选条件对所述第三数据源进行筛选从而得到第四数据源;
14.将所述第四数据源与所述第一数据源进行合并得到第二数据源。
15.在上述筛选方法中,优选的,所述筛选条件为所述第三数据源中的网站是否满足资讯类网站、网站的日更新的资讯是否达到5条及以上、网站的每日浏览量是否达到5w,中的一项或多项。
16.在上述筛选方法中,优选的,对所述第一数据源进行扩充得到第二数据源,进一步包括:
17.获取所述第一数据源的网站类型;
18.根据所述网站类型扩充同类的网站或者竞争网站;
19.将同类的网站或者竞争网站与所述第一数数据源合并得到第二数据源。
20.在上述筛选方法中,优选的,所述在所述第二数据源中根据所述最终关键词确定所需的资讯内容,进一步包括:
21.获取所述第二数据源中的全部资讯信息;
22.获取所述全部资讯信息的标题信息或摘要信息;
23.在所述标题信息或摘要信息中通过检索所述最终关键词从而确定所需的资讯内容。
24.在上述筛选方法中,优选的,所述在所述第二数据源中根据所述最终关键词确定所需的资讯内容,进一步包括:
25.获取所述第二数据源中的全部栏目的主题信息;
26.在所述全部栏目的主题信息中确定目标栏目;
27.在所述目标栏目中通过检索所述最终关键词从而确定所需的资讯内容。
28.另一方面,本发明提供一种资讯的筛选装置,包括:
29.获取单元,用于获取用户所需资讯内容,根据所述资讯内容确定预检索关键词;
30.第一扩充单元,用于对所述预检索关键词进行扩充得到最终关键词;
31.第一确定单元,用于在搜索引擎中利用所述最终关键词进行搜索从而确定第一数据源;
32.第二扩充单元,用于对所述第一数据源进行扩充得到第二数据源;
33.第二确定单元,用于在所述第二数据源中根据所述最终关键词确定所需的资讯内容。
34.在上述筛选装置中,优选的,所述第二扩充单元包括:
35.搜索模块,用于在搜索引擎中输入所述最终关键词的一个或多个并在搜索引擎的搜索条件中选择资讯,从而得到第三数据源;
36.筛选模块,用于根据筛选条件对所述第三数据源进行筛选从而得到第四数据源;
37.合并模块,用于将所述第四数据源与所述第一数据源进行合并得到第二数据源。
38.在上述筛选装置中,优选的,所述筛选条件为所述第三数据源中的网站是否满足资讯类网站、网站的日更新的资讯是否达到5条及以上、网站的每日浏览量是否达到5w,中的一项或多项。
39.本发明相对于现有技术的有益效果是:本发明提供的资讯的筛选方法通过先根据资讯主题确定预检索关键词,并对预检索关键词进行扩充,再利用搜索引擎和扩充后的预检索关键词词确定第一数据源,同时还对第一数据源进行扩充,最后利用最终关键词得到所需的资讯内容,这样一方面能够帮助用户精确高效的得到所需要的资讯信息,另一方面,能够确保获得的资讯信息更加的丰富、全面而且有序。
附图说明
40.图1是本发明一实施例提供的一种资讯的筛选方法的流程图;
41.图2是本发明一实施例提供的一种资讯的筛选装置的结构图。
具体实施方式
42.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.如本技术和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
44.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本技术的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
45.此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本技术保护范围的限制。此外,尽管本技术中所使用的术语是从公知公用的术语中选择的,但是本技术说明书中所提及的一些术语可能是申请人按他或她的判断来选择的,其详细含义在本文的描述的相关部分中说明。此外,要求不仅仅通过所使用的实际术语,而是还要通过每个术语所蕴含的意义来理解本技术。
46.参照图1,本实施提供一种资讯的筛选方法,包括以下步骤:
47.s10:获取用户所需资讯内容,根据所述资讯内容确定预检索关键词;
48.具体的,先确定用户所需要的资讯包含的主题内容,再根据主题内容进行解析从而得到检索所需要的预检索关键词。
49.s20:对所述预检索关键词进行扩充得到最终关键词;
50.应当理解的是,扩充的方式包括但不限于预检索关键词的同义词、近义词、中外文翻译等等。
51.s30:在搜索引擎中利用所述最终关键词进行搜索从而确定第一数据源;
52.具体的,各大搜索引擎(百度搜索、搜狗搜索、360搜索等)中输入将所有的最终关键词,根据检索的资讯内容找到,资讯文章背后对应的网站(资讯必定有某个出处),根据搜索结果判断是否将该网站加入到第二数据源中。
53.根据检索可知所提供的是该类资讯的最终关键词以及该类资讯信息较多的网站(即第一数据源)。例如,需要找到网络中“商机”的相关资讯,产品提供的关键词即为“商机,风口”最终关键词以及几个最有可能出现此类资讯信息的目标网站如网站a、网站b、网站c。
54.s40:对所述第一数据源进行扩充得到第二数据源;
55.由于第一数据源的数据一般都不全面,所以我们需要对第一数据源进行扩充,在一些实施例中,采用的方法是将最终关键词依次输入到搜索引擎(例如百度搜索、搜狗搜索、360搜索),搜索条件选择资讯(即搜索引擎自带的筛选条件),这样搜索结果中就会出现很多可能是所需的资讯内容,现在要做的就是,从这些资讯内容中找到确实为目标资讯。并且,这篇资讯会显示出处(来源于某个网站)。还要判断该数据源是否能够加入到目标数据源中,判断标准有,1.网站是否为资讯类网站,即网站的主题是否符合要求,例如一个网站
为培训网站,或者招投标网站,则网站类型不符合要求,不能加入到目标数据源。2.网站每日更新的资讯是否达到5条及以上,如果网站更新数量较少,那么选择这个网站作为目标数据源,以后得到的"商机"资讯将会很少。3.网站的每日浏览量是否有5w,每日浏览量多代表着该网站资讯质量是否还不错。如果符合这三天条件中的一个或者都符合,则加入到第一数据源中最终得到第二数据源。
56.在另外一些实施例中,通过已有的目标数据源网站,扩充同类型的数据源网站。将扩充后的数据源网站作为第三数据源,将第三数据源与第一数据源合并从而得到第二数据源。
57.s50:在所述第二数据源中根据所述最终关键词确定所需的资讯内容。
58.具体的,有了最终关键词以及对应的资讯信息目标网站,需要从目标网站中确定我们需要的所需的资讯内容,但是目标网站中,资讯栏目较多。例如网站a有科技、生活、城市、创投、汽车、企服、创新等栏目,此时我们并不知道我们需要的所需的资讯内容会出现在网站中的哪一个栏目。
59.在一实施例中,可以先获取所述第二数据源中的全部资讯信息,即将该网站的所有栏目下的所有资讯都抓取下来;接着获取所述全部资讯信息的标题信息或摘要信息;最后在所述标题信息或摘要信息中通过检索所述最终关键词从而确定所需的资讯内容。该方法能够比较全的找到该第二数据源中的所需的资讯内容。
60.在另一实施例中,首先获取所述第二数据源中的全部栏目的主题信息;例如网站a有科技、生活、城市、创投、汽车、企服、创新等栏目;接着在所述全部栏目的主题信息中确定目标栏目,即在所有的栏目中获取最有可能出现所需的资讯内容的栏目作为抓取的目标,例如在网站a中选择创投、创新栏目作为抓取的栏目数据源,因为在调研中,所需的资讯内容在网站a中出现在创投、创新的数量较多;最后在所述目标栏目中通过检索所述最终关键词从而确定所需的资讯内容。这种方法能够相对精准的找到该网站中的商机资讯,爬虫所抓的资讯相对会减少,并且相对于方法一能够提升筛选的比例,减少整体运行时间。
61.在另一实施例中,利用所述第二数据源中的站内搜索功能检索所述最终关键词从而确定所需的资讯内容,即通过网站的站内搜索获取所需的资讯内容。调研发现,许多网站内有站内搜索,而我们正好有最终关键词(“商机”、“风口”),因此,通过在网站内部的搜索框中输入“商机”、“风口”最终关键词,然后抓取站内出现的结果。该方法能够较为精准的找到该网站中的“商机”资讯,资讯的筛选比例较高,整体运行时间大大减少
62.在另外一些实施例中,参照图2,本发明还提供一种资讯的筛选装置,包括:
63.获取单元100,用于获取用户所需资讯内容,根据所述资讯内容确定预检索关键词;在此需要说明的是,由于具体的获取方式以及过程在上述资讯的筛选方法的步骤s10中已经详细阐述,故在此不再赘述。
64.第一扩充单元200,用于对所述预检索关键词进行扩充得到最终关键词;在此需要说明的是,由于具体的获取方式以及过程在上述资讯的筛选方法的步骤s20中已经详细阐述,故在此不再赘述。
65.第一确定单元300,用于在搜索引擎中利用所述最终关键词进行搜索从而确定第一数据源;在此需要说明的是,由于具体的获取方式以及过程在上述资讯的筛选方法的步骤s30中已经详细阐述,故在此不再赘述。
66.第二扩充单元400,用于对所述第一数据源进行扩充得到第二数据源;在此需要说明的是,由于具体的获取方式以及过程在上述资讯的筛选方法的步骤s40中已经详细阐述,故在此不再赘述。
67.第二确定单元500,用于在所述第二数据源中根据所述最终关键词确定所需的资讯内容。在此需要说明的是,由于具体的获取方式以及过程在上述资讯的筛选方法的步骤s50中已经详细阐述,故在此不再赘述。
68.在另一实施例中,第二扩充单元400包括:
69.搜索模块,用于在搜索引擎中输入所述最终关键词的一个或多个并在搜索引擎的搜索条件中选择资讯,从而得到第三数据源;
70.筛选模块,用于根据筛选条件对所述第三数据源进行筛选从而得到第四数据源;
71.合并模块,用于将所述第四数据源与所述第一数据源进行合并得到第二数据源。
72.另外,本发明实施例还提供一种计算机可读存储介质,其中,该计算机可读存储介质可存储有程序,该程序执行时包括上述方法实施例中记载的任何一种资讯的筛选方法的部分或全部步骤。
73.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
74.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
75.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:read-only memory,简称:rom)、随机存取器(英文:random access memory,简称:ram)、磁盘或光盘等。
76.以上参照附图描述了根据本发明的实施例的用于资讯的筛选方法的示例性流程图。应指出的是,以上描述中包括的大量细节仅是对本发明的示例性说明,而不是对本发明的限制。在本发明的其他实施例中,该方法可具有更多、更少或不同的步骤,且各步骤之间的顺序、包含、功能等关系可以与所描述和图示的不同。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1