数据处理的方法及装置与流程

文档序号:21888603发布日期:2020-08-18 17:35阅读:172来源:国知局
数据处理的方法及装置与流程

本申请实施例涉及计算机技术中的智能搜索技术,尤其涉及一种数据处理的方法及装置。



背景技术:

随着互联网技术的不断发展,用户通过搜索引擎进行信息的搜索已经成为一种非常普遍的信息获取方式。

目前,在现有的搜索实现过程中,服务器通常是根据用户输入的搜索关键字,进行信息的匹配,从而向客户端返回相关性较高的内容,以实现搜索结果的展现。

然而,仅仅向客户端返回与搜索关键字相关性较高的内容,会导致提供给用户的内容信息过于单一。



技术实现要素:

提供了一种用于数据处理的方法及装置。

根据第一方面,提供了一种数据处理的方法,应用于服务器,包括:

当监听到打开第一网页的事件时,客户端向服务器发送所述第一网页的页面特征;

接收所述服务器返回的与所述第一网页关联的专题页面的推荐信息;

根据所述专题页面的推荐信息,在所述第一网页中显示所述专题页面的推荐信息。

根据第二方面,提供了一种数据处理的方法,应用于客户端,包括:

接收来自于客户端的第一网页的页面特征;

根据所述页面特征,获取所述第一网页关联的专题网页;

向所述客户端返回所述专题网页的推荐信息。

根据第三方面,提供了一种数据处理的装置,应用于服务器,包括:

发送模块,用于当监听到打开第一网页的事件时,客户端向服务器发送所述第一网页的页面特征;

接收模块,用于接收所述服务器返回的与所述第一网页关联的专题页面的推荐信息;

处理模块,用于根据所述专题页面的推荐信息,在所述第一网页中显示所述专题页面的推荐信息。

根据第四方面,提供了一种数据处理的装置,应用于客户端,包括:

接收模块,用于接收来自于客户端的第一网页的页面特征;

处理模块,用于根据所述页面特征,获取所述第一网页关联的专题网页;

发送模块,用于向所述客户端返回所述专题网页的推荐信息。

根据第五方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上第一方面所述的方法。

根据第六方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上第二方面所述的方法。

根据第七方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如上第一方面所述的方法。

根据第八方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行如上第二方面所述的方法。

根据本申请提供的数据处理的方法,通过根据第一网页的页面特征,确定与第一网页关联的专题网页,从而可以向客户端返回与第一网页关联的专题网页的推荐信息,从而能够有效提升向用户提供的信息的全面性和多样性。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1a为本申请实施例提供的现有技术的实现方式示意图一;

图1b为本申请实施例提供的现有技术的实现方式示意图二;

图2为本申请其中一实施例提供的数据处理的方法的信令流程图;

图3为本申请实施例提供的推荐信息的示意图;

图4为本申请另一实施例提供的数据处理的方法的流程图;

图5为本申请实施例提供的专题页面和子页面示意图;

图6为本申请实施例提供的页面引用关系示意图;

图7为本申请实施例提供的实现过程示意图一;

图8为本申请实施例提供的实现过程示意图二;

图9为本申请实施例提供的数据处理的方法的系统架构图;

图10为本申请其中一实施例的数据处理的装置的结构示意图;

图11为本申请另一实施例的数据处理的装置的结构示意图;

图12是用来实现本申请实施例的数据处理的的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在介绍本申请提供的数据处理的方法之前,首先对本申请所涉及的背景技术进行进一步地详细介绍:

在本申请中,用户可以通过搜索引擎进行信息的获取,在目前的信息获取过程中,搜索产品和网络中的各个站点具有以下特点:

搜索产品形态:搜索产品是先有用户需求,也就是说用户输入要搜索的关键字,接着再查看搜索的相关内容,是一个被动满足用户需求的场景。

搜索和内容来源:搜索的内容来自于互联网,每一个页面间的相互关系由每个站点决定,并自行组织,搜索引擎提供了对网页的搜索能力,和分发能力。

热点信息自行运营:对于一些较为热点的信息,比如说最近的社会热点信息,或者娱乐热点信息等,每个站点的处理方式也有所不同,例如某些站点对于热点信息对应有的统一入口(或专题);或者某些站点对于热点信息是按照零散的新闻信息处理的。

基于上述介绍的内容,首先对现有技术中的信息搜索的实现方式进行介绍:

随着互联网技术的不断发展,用户通过搜索引擎进行信息的搜索,已经成为一种非常普遍的信息获取方式。

目前,在现有的搜索实现过程中,通常是用户通过客户端输入搜索关键字,以及搜索引擎根据搜索关键字与入库的网页内容进行匹配,从而向客户端返回相关性较高的网页内容,并且根据网页的相关性进行搜索结果的排序。

例如可以参照图1a和图1b进行理解,图1a为本申请实施例提供的现有技术的实现方式示意图一,图1b为本申请实施例提供的现有技术的实现方式示意图二。

参见图1a,搜索引擎的客户端可以接收用户输入的检索关键字101,假设当前客户端接收到的检索关键字为“鞋子会把病毒带回家吗”,并且客户端在接收到用户对检索控件102的点击操作时,可以将搜索关键字发送给服务器。

接着服务器可以根据检索关键字与入库的网页内容进行匹配,从而得到与搜索关键字相关性较高的网页内容,并且将搜索到的网页内容发送给客户端。

在一种可能的实现方式中,客户端例如可以按照条目的方式显示搜索结果,如图1a所示,当前的客户端中例如显示有两个条目,其中,每一个条目对应一个搜索结果,该搜索结果可以为网页内容。

假设客户端接收到的用户对其中的条目103的点击操作,则可以在显示该条目103对

应的详细网页内容,其中,当前条目103的详细网页内容例如可以如图1b中所示。

基于上述介绍的内容,本领域技术人员可以确定的是,搜索引擎只是针对用户的搜索关键字进行匹配,并且返回相关性较高的内容,因此用户获取信息的准确性,取决于用户输入的检索关键字,这样会导致提供给用户的内容过于单一,因此在现有技术的实现方式中,若用户需要获取更多的有效信息,则用户就需要自行输入更多的关键字。

并且,以通过专题页面显示热点信息为例,网络中的每个站点会运行各自的专题页面,其中专题页面中可以包括多个子页面,其中各个页面间可以有联系,

并且有统一的专题页面的入口。然而,现有技术中针对热点事件对应的信息,通过搜索关键字仅仅能够确定搜索关键字对应的单一事件,会导致无法确定事件间的关联关系,因此无法向用户推荐更多的内容。

以及,在用户浏览搜索结果中的某一个网页内容时,通常看到的是单一的页面,例如上图1b中所展示的页面,这样会导致统一的入口信息缺失,从而导致用户无法有效的获取到当前的单一页面所对应的专题页面

针对现有技术中的问题,本申请提出如下技术构思:当用户打开并浏览搜索结果中的某一个网页内容时,可以将该网页内容所关联的专题页面推荐给用户,以提升提供给用户的内容的全面性和多样性。

基于上述介绍的技术背景和技术构思,下面对本申请所提供的数据处理的方法及装置进行详细介绍,可以理解的是,本申请中所提供的数据处理的方法涉及客户端的服务器之间的数据交互,因此下面以信令流程图的方式对本申请所提供的方法进行介绍:

首先结合图2和图3进行说明,图2为本申请其中一实施例提供的数据处理的方法的信令流程图,图3为本申请实施例提供的推荐信息的示意图。

s201、当监听到打开第一网页的事件时,客户端向服务器发送第一网页的页面特征。

在本实施例中,第一网页为当前需要打开的页面,例如客户端接收到服务器针对搜索关键字返回的若干个搜索结果,并且用户点击了其中的一个搜索结果,则用户点击的该搜索结果对应的网页就是本实施例中的第一网页,第一网页的具体确定取决于当前用户需要打开哪一个网页,本实施例对此不做特别限制。

在一种可能的实现方式中,当客户端监听到打开第一网页的事件时,可以提取第一网页的页面特征,并向服务器发送第一网页的页面特征,其中,第一网页的页面特征可以包括如下中的至少一种:第一网页的网址、第一网页的正文、第一网页的摘要、第一网页的标题。

或者,第一网页的页面特征还可以包括任意的第一网页的特征信息,如第一网页的创建时间等,本实施例对第一网页的页面特征的实现方式不做特别限制,只要其是第一网页的特征即可。

通过获取页面特征,以便后续根据页面特征进行专题页面的确定。

s202、服务器接收来自于客户端的第一网页的页面特征。

s203、服务器根据页面特征,获取第一网页关联的专题网页。

下面对s202和s203的实现方式一起进行说明,其中,服务器可以接收来自于客户端的第一网页的页面特征,本实施例为了提升提供给用户的信息的全面性和多样性,服务器可以根据接收到的页面特征,获取第一网页关联的专题网页。

其中,专题网页指的是针对热点信息的信息归纳网页,例如当前新冠状病毒是一个社会热点,则各个站点可以开发各自的、针对新冠状病毒的专题网页;或者例如当前篮球赛事是一个体育热点,则各个站点也可以开发各自的、针对篮球赛事的专题页面,本实施例对专题页面的具体实现形式不做限定。

在获取第一网页关联的专题网页时,在一种可能的实现方式中,例如可以通过第一网页和专题网页之间的页面引用关系,确定专题网页,例如第一网页是专题网页所引用的一个子页面,则可以通过页面引用关系,确定专题网页。

或者,还可以通过第一网页的标题、正文、摘要等信息和专题网页的标题、正文、摘要等信息进行匹配,从而确定第一网页关联的专题网页。

或者,还可以通过第一网页的标题、正文、摘要等信息和专题网页所引用的子页面的标题、正文、摘要等信息进行匹配,从而确定第一网页关联的专题网页。

s204、向客户端返回专题网页的推荐信息。

在本实施例中,专题网页的推荐信息可以包括如下中的至少一种:预设信息、所述专题网页的摘要、所述专题网页的标题。

其中,预设信息为用于提示当前第一网页存在关联网页的提示信息,例如可以为“当前网页存在关联的专题网页”等预设的信息,本实施例对预设信息的具体实现方式不做特别限制。

以及,专题网页的推荐信息还可以为专题网页的摘要、专题网页的标题等用于指示专题网页的信息,或者,专题网页的推荐信息还可以包括专题网页的网址,以使得用户可以通过点击可交互的元素,从第一网页跳转至专题网页,本实施例对专题网页的推荐信息的具体实现方式不做特别限制,只要其可以用于指示当前的打开的第一网页所关联的专题网页即可。

在本实施例中,服务器还会向客户端发送指示信息,其中,指示信息用于指示客户端在打开第一网页的同时,显示专题网页的推荐信息。

s205、接收服务器返回的与第一网页关联的专题页面的推荐信息。

s206、根据专题页面的推荐信息,在第一网页中显示专题页面的推荐信息。

下面对s205和s206一起进行介绍,客户端在接收到与第一网页关联的专题页面的推荐信息之后,可以在当前的第一网页中提供专题网页的推荐信息,以告知用户当前的第一网页存在关联的专题网页。

在一种可能的实现方式中,例如可以在第一网页的预设位置上显示专题网页的推荐信息。

下面结合图3对显示专题网页的推荐信息的可能的实现方式进行说明,如图3所示,在一种可能的实现方式中,例如可以参见301,假设第一网页是“鞋子会把病毒带回家吗”的网页,则当前显示有第一网页的详细内容。

其中,可以在当前第一网页的上方显示专题页面的标题和摘要;或者还可以参见302,在当前图形用户界面的中间位置以悬浮窗的形式显示专题页面的标题;或者还可以参见303,在当前图形用户界面的下方显示预设信息:当前网页存在关联的专题网页:网页标题。

在具体实现过程,例如可以在以上几种专题网页的推荐信息的实现方式中任选一种或者多种,或者还可以根据实际需求确定专题网页的推荐信息的实现方式,例如悬浮窗除了位于中间位置,还可以位于图形用户界面中的任意位置,本实施例对专题网页的推荐信息的显示方式不做特别限定。

本申请实施例提供的数据处理的方法,包括:当监听到打开第一网页的事件时,客户端向服务器发送第一网页的页面特征。服务器接收来自于客户端的第一网页的页面特征。服务器根据页面特征,获取第一网页关联的专题网页。向客户端返回专题网页的推荐信息。接收服务器返回的与第一网页关联的专题页面的推荐信息。根据专题页面的推荐信息,在第一网页中显示专题页面的推荐信息。通过根据第一网页的页面特征,确定与第一网页关联的专题网页,从而可以向客户端返回与第一网页关联的专题网页的推荐信息,从而能够有效提升向用户提供的信息的全面性和多样性。

在上述实施例的基础上,下面对服务器获取第一网页关联的专题网页的可能的实现方式进行介绍,结合图4至图6进行说明,图4为本申请另一实施例提供的数据处理的方法的流程图,图5为本申请实施例提供的专题页面和子页面示意图,图6为本申请实施例提供的页面引用关系示意图。

参见图4,该方法包括:

s401、获取至少一个专题网页。

在本实施例中,在获取第一网页关联的专题网页之前,首先需要获取至少一个专题网页,从而才可以在至少一个专题网页中确定第一网页关联的专题网页。

可以理解的是,本实施例中的服务器可以进行爬虫处理,从而从网络中获取至少一个第三网页,本实施例中的第三网页是通过爬虫处理获取的网页,其可以为网络中的任何一个网页,本实施例对此不做特别限制,则本申请可以根据至少一个第三网页获取专题网页。

在一种可能的实现方式中,可以通过人工标注的方式指定专题网页,从而为专题网页标注特定的标识,因此可以针对任一个第三网页,判断该第三网页是否对应有专题网页的标识,若是,则可以将该第三网页确定为专题网页,通过人工标注的方式确定专题网页,能够有效保证确定的网页的准确性。

在另一种可能的实现方式中,可以针对任一个第三网页,根据该第三网页的页面引用关系,将第三网页确定为专题网页,例如可以通过第三网页的历史引用关系,确定第三网页是否为专题网页,在当前的实现方式下,可以理解的是,搜索引擎第一次针对第三网页进行了爬取之后,在第二次针对第三网页进行爬取时,可以是通过获取第三网页的增量,因此通过分析第三网页的页面的历史引用关系,确定第三网页为专题网页,可以确定第三网页是可持续变更的专题网页。

在本实施例中,可以将获取的多个专题网页存储在数据库中,通过预先确定至少一个专题网页。

s402、提取各专题网页的网页信息,其中,专题网页的网页信息包括如下中的至少一种:专题网页的网址、专题网页的标题、专题网页的摘要。

针对获取的多个专题网站,需要对专题网站进行网页信息的提取,以便于后续进行网页的信息匹配,其中,专题网页的网页信息包括如下中的至少一种:专题网页的网址、专题网页的标题、专题网页的摘要,或者,专题网页的信息还可以根据实际需求包括其余信息,如专题网页的创建时间等,本实施例对此不做特别限制。

s403、获取各专题网页的页面引用关系。

下面结合图5和图6对专题网页的页面引用关系进行简单介绍,如图5所示,假设当前存在一组关于“新冠状病毒实时数据”专题网页,该专题网页的网址为:xxx.com/aaa.html,该专题网页中包括多个网页内容。

在一种可能的实现方式中,参见图5,该专题页面包括“鞋子会把病毒带回家吗”的网页,假设该网页的网址为:bbb.com/ccc.html,以及还包括“新型冠状病毒的特征”的网页,假设该网页的网址为:ccc.com/ddd.html,在图5的示例中,网址为xxx.com/aaa.html的专题网页,引用了网址为bbb.com/ccc.html的网页和网址为ccc.com/ddd.html的网页。

其中,该页面引用关系可以为图6所示,xxx.com/aaa.html的专题网页引用了网址为bbb.com/ccc.html的网页和网址为ccc.com/ddd.html的网页,也可以理解为网址为bbb.com/ccc.html的网页反向引用了xxx.com/aaa.html的专题网页,以及网址为ccc.com/ddd.html的网页反向引用了xxx.com/aaa.html的专题网页。

以及,上述图5介绍的专题网页还存在其余的页面引用关系,此次不再进行赘述。

在本实施例中,针对每一个专题网页均进行分析,从而可以得到各专题网页的页面引用关系。

s404、将各专题网页的网页信息和各专题网页的页面引用关系存储在数据库中。

在确定各专题网页的页面信息和各专题网页的页面引用关系之后,可以将上述内容存储在数据库中,从而可以在后续进行页面匹配时,直接从数据库中进行匹配,从而能够有效提升获取专题网页的效率。

s405、根据第一网页的页面特征和专题网页的网页信息进行匹配以及专题网页的页面引用关系进行匹配。

在本实施例中,在获取第一网页关联的专题网页时,可以根据第一网页的页面特征和各个专题网页的网页信息进行匹配,以及还可以根据第一网页的页面特征和各个网页的页面引用关系所对应的子网页的页面特征进行匹配。

在一种可能的实现方式中,可以根据第一网页的页面特征和专题网站的网页信息进行匹配,例如可以根据第一网页的网址和各个专题网页的网址进行匹配,在确定第一网页的网址和某个专题网页的网址之间存在引用关系时,可以确定该专题网页为第一网页所匹配的专题网页。

或者,还可以根据第一网页的标题和专题网页的标题进行匹配,例如第一网页的标题为“新型冠状病毒的特征”,则标题为“新型冠状病毒特征”,“新冠状病毒的特征”,“新型冠状病毒”的专题网页都可以确定为匹配的专题网页。

或者,还可以根据第一网页的摘要和专题网页的摘要进行匹配等,本实施例对根据专题网页的网页信息匹配的具体实现方式不做特别限定。

在另一种可能的实现方式中,还可以根据第一网页的页面特征和各个网页的页面引用关系所对应的子网页的页面特征进行匹配。

例如当前存在以专题网页引用了3个子网页,则可以根据第一网页的页面特征和这3个子网页的页面特征进行匹配。

s406、判断是否存在和第一网页的页面特征相匹配的第二网页,其中,第二网页为专题网页或者为专题网页引用的子网页,若是,则执行s407,若否,则执行s408。

在本实施例中,匹配的第二网页例如可以为专题网页,或者匹配的第二网页还可以为专题网页引用的子网页。

s407、将相匹配的第二网页所对应的专题网页确定为第一网页关联的专题网页。

在一种可能的情况下,若存在相匹配的第二网页,以第二网页是专题网页引用的子网页为例,例如当前存在一专题网页引用了网页a,则可以根据第一网页的页面特征和网页a的页面特征进行匹配。

假设第一网页的标题为“鞋子会把病毒带回家吗”,而网页a的标题为“辟谣!鞋子不会把病毒带回家”,则可以确定网页a的页面特征和第一网页的页面特征匹配成功。

在这种情况下,可以将网页a对应的专题网页推荐给客户端,从而可以实现有效推荐相关信息。

在当前的实现方式下,尽管第一网页和网页a的专题网页之间不存在关联关系,但是因为第一网页和网页a之间匹配成功,因此可以有效的将网页a的专题网页推荐给用户,以实现向用户推荐权威的有效的相关信息,实现用户的延伸阅读。

或者,以第二网页是专题网页为例,结合上述图5和图6介绍的示例,假设当前第一网页为“鞋子会把病毒带回家么”的网页,该第一网页的网址为:bbb.com/ccc.html,以及假设当前确定的相匹配的第二网页为“新冠状病毒实时数据”专题网页,该专题网页的网址为:xxx.com/aaa.html,结合上述图5和图6可以确定的是,第一网页bbb.com/ccc.html为专题网页xxx.com/aaa.html之间存在引用关系。

则可以将专题网页xxx.com/aaa.html确定为第一网页bbb.com/ccc.html关联的专题网页。

在一种可能的实现方式中,若第一网页存在多个关联的专题网页,则可以按照预设规则,在多个关联的专题网页中选择一个推荐给用户,其中预设规则例如可以为选择点击率最高的专题网页,或者还可以为选择权威性最高的专题网页,或者还可以为选择优先级最高的专题网页等,本实施例对此不做特别限制。

在本实施例中,通过根据第一网页的页面特征和专题网页的网页信息,以及页面引用关系对应的子页面的页面特征进行匹配,能够确定和第一网页存在引用关系的专题网页,或者能够和第一网页的内容存在关联的子网页所对应的专题网页,从而能够有效保证匹配到的内容的关联性和多样性。

s408、确定第一网页不存在关联的专题网页。

在另一种可能的情况下,若确定不存在相匹配的第二网页,则可以确定第一网页不存在关联的专题网页,

在本实施例中,若第一网页不存在关联的专题网页,则服务器可以仅不向客户端返回数据,或者返回用于指示没有专题网页的指示信息。

本申请实施例提供的数据处理的方法,包括:获取至少一个专题网页。提取各专题网页的网页信息,其中,专题网页的网页信息包括如下中的至少一种:专题网页的网址、专题网页的标题、专题网页的摘要。获取各专题网页的页面引用关系。将各专题网页的网页信息和各专题网页的页面引用关系存储在数据库中。根据第一网页的页面特征和专题网页的网页信息进行匹配以及专题网页的页面引用关系进行匹配。判断是否存在和第一网页的页面特征相匹配的第二网页,其中,第二网页为专题网页或者为专题网页引用的子网页,若是,则将相匹配的第二网页所对应的专题网页确定为第一网页关联的专题网页。若否,则确定第一网页不存在关联的专题网页。通过根据第一网页的页面特征进行匹配,从而确定和第一网页关联的专题网页,能够保证确定的专题网页的准确性,同时通过确定专题网页,能够有效实现将更加全面的信息推荐给用户,从而能够有效提升提供给用户的信息的全面性。

下面结合一个具体的实施例,对本申请提供的数据处理的方法的实现过程进行详细的介绍,结合图7至图8进行介绍,图7为本申请实施例提供的实现过程示意图一,图8为本申请实施例提供的实现过程示意图二。

参见图7,当用户点击第一网页701时,客户端监听到打开第一网页701的时间,此时客户端可以提取第一网页的页面特征,并将页面特征发送给服务器。

接着服务器在数据库中判断是否存在与第一网页关联的专题网页,例如当前第一网页的网址为bbb.com/ccc.html,以及假设服务器确定第一网页bbb.com/ccc.html存在关联的专题网页xxx.com/aaa.html,则服务器可以向客户端发送该专题网页的推荐信息。

参见图8,在一种可能的实现方式中,若确定第一网页bbb.com/ccc.html存在关联的专题网页xxx.com/aaa.html,则服务器可以向客户端发送专题网页的推荐信息。

接着客户端可以在第一网页中显示专题网页的推荐信息,在一种可能的实现方式中,可以通过可交互的第一控件显示专题网页的推荐信息,则用户可以通过点击第一控件跳转到专题页面查看详细信息;或者,还可以通过超链接等形式显示专题页面的推荐信息,则用户可以通过点击超链接跳转到专题页面,本实施例对专题网页的推荐信息的具体实现形式不做特别限定,只要能够实现对专题页面的推荐信息的显示即可。

在另一种可能的实现方式中,若确定第一网页不存在关联的专题网页,则服务器不会向客户端发送专题网页的推荐信息,则客户端直接显示第一网页的详细内容。

在上述实施例的基础上,下面结合图9对本申请中客户端和服务器的系统架构图进行介绍,图9为本申请实施例提供的数据处理的方法的系统架构图。

在本实施例中,服务器需要进行数据的抓取,下面对进行数据抓取的各单元进行说明:

专题管理页面单元:用于提供专题网页的根节点配置,其中根节点配置用于限定抓取专题网页的站点及路径,例如根节点配置可以包括:专题网站:https://news.sina.com.cn、或者专题网站:https://news.sina.cn/zt_d/yiqing0121、或者专题网站:https://voice.baidu.com/act/newpneumonia/newpneumonia等。

专题页面特征提取单元:用于对上述根节点配置中的站点中所包括的页面进行特征提取,其中提取的特征可以包括链接信息、标题、正文等。

专题页面关系分析单元:用于实现对配置的站点中的页面引用关系进行整理,比如当前存在一专题网站为:xxx.com/news.htm,其中该专题网站引用了xxx.com/news/news1.html,以及引用了xxx.com/news/news2.html,则可以将这个引用关系都保存到该节点中。

专题节点存储单元:用于实现将专题页面特征提取单元,及专题页面关系分析单元生成的数据,存储到数据库中。

以及,本实施例中的服务器还提供有专题节点信息检索单元:用于实现根据客户端上传的第一网页的页面特征,匹配出在专题节点信息中,对应的专题网页,从而将专题网页的推荐信息返回给客户端。

基于上述介绍的内容,本申请实施例可以作一组可能产生专题内容的页面(或站点),当搜索引擎爬虫在入库时,对于专题网页的站点,可以确定该专题网页的树型引用关系,并将相关的信息存储到数据库中,当接收到客户端发送的页面特征时,可以在数据库中查找是否存在于第一网页的页面特征相匹配的专题网页,若存在,则可以进行专题网页的推荐。

下面对客户端中的各个单元进行说明:

内容浏览单元:用于实现基础的网页浏览能力,或自定义内容浏览能力。

第一网页特征提取单元:用于实现对当前的第一网页的页面特征进行提取,页面特征例如可以包括正文,标题,统一资源定位符(uniformresourcelocator,url)等。

专题推荐单元:将当前浏览的第一网页的页面特征发送给服务器,从而获取服务器返回的专题网页的推荐信息,并进行专题网页的推荐信息的展现。

例如本实施例可以在第一网页中增加一个相关专题推荐的元素(比如超链接,或可交互的控制等)以实现,当用户浏览第一网页时,点击这个元素,从而可以进入相应的专题的页面。

综上所述,本申请实施例提供的数据处理的方法,能够在监听到打开第一网页的事件时,将第一网页的页面特征发送给服务器,以使得服务器可以根据页面特征查找第一网页关联的专题网页,并将专题网页的推荐信息返回给客户端,从而可以在第一网页中显示关联的专题网页的推荐信息,从而能够有效提升向用户提供的信息的全面性和多样性。

图10为本申请其中一实施例的数据处理的装置的结构示意图。如图10所示,本实施例的数据处理的装置100可以包括:发送模块1001、接收模块1002和处理模块1003。

发送模块1001,用于当监听到打开第一网页的事件时,客户端向服务器发送所述第一网页的页面特征;

接收模块1002,用于接收所述服务器返回的与所述第一网页关联的专题页面的推荐信息;

处理模块1003,用于根据所述专题页面的推荐信息,在所述第一网页中显示所述专题页面的推荐信息。

一种可能的实现方式中,所述处理模块1003具体用于:

根据所述专题页面的推荐信息,在所述第一网页的预设位置显示所述专题页面的推荐信息。

一种可能的实现方式中,所述处理模块1003还用于:

在所述客户端向服务器发送所述第一网页的页面特征之前,获取所述第一网页的页面特征,其中,所述页面特征包括如下中的至少一种:所述第一网页的网址、所述第一网页的正文、所述第一网页的摘要、所述第一网页的标题。

一种可能的实现方式中,所述专题网页的推荐信息包括如下中的至少一种:预设信息、所述专题网页的摘要、所述专题网页的标题。

本实施例提供的数据处理的装置,可用于执行上述任一方法实施例中的数据处理的方法,其实现原理和技术效果类似,此处不作赘述。

图11为本申请另一实施例的数据处理的装置的结构示意图。如图11所示,本实施例的信息处理的装置110可以包括:接收模块1101、处理模块1102和发送模块1103。

接收模块1101,用于接收来自于客户端的第一网页的页面特征;

处理模块1102,用于根据所述页面特征,获取所述第一网页关联的专题网页;

发送模块1103,用于向所述客户端返回所述专题网页的推荐信息。

一种可能的实现方式中,所述页面特征包括如下中的至少一种:所述第一网页的网址、所述第一网页的正文、所述第一网页的摘要、所述第一网页的标题。

一种可能的实现方式中,所述处理模块1102还用于:

在所述获取所述第一网页关联的专题网页之前,获取至少一个专题网页,并提取各所述专题网页的网页信息,其中,所述专题网页的网页信息包括如下中的至少一种:所述专题网页的网址、所述专题网页的标题、所述专题网页的摘要;

获取各所述专题网页的页面引用关系;

将各所述专题网页的网页信息和各所述专题网页的页面引用关系存储在数据库中。

一种可能的实现方式中,所述处理模块1102具体用于:

根据所述第一网页的页面特征和所述专题网页的网页信息进行匹配以及所述专题网页的页面引用关系进行匹配;

判断是否存在和所述第一网页的页面特征相匹配的第二网页,其中,所述第二网页为专题网页或者为专题网页引用的子网页;

若是,则将所述相匹配的第二网页所对应的专题网页确定为所述第一网页关联的专题网页。

一种可能的实现方式中,所述处理模块1102具体用于:

通过爬虫处理,获取至少一个第三网页;

针对任一个所述第三网页,若所述第三网页对应有专题网页的标识,则将所述第三网页确定为专题网页;或者

针对任一个所述第三网页,根据所述第三网页的页面引用关系,将所述第三网页确定为专题网页。

一种可能的实现方式中,所述专题网页的推荐信息包括如下中的至少一种:预设信息、所述专题网页的网址、所述专题网页的摘要、所述专题网页的标题。

本实施例提供的数据处理的装置,可用于执行上述任一方法实施例中的数据处理的方法,其实现原理和技术效果类似,此处不作赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图12所示,是根据本申请实施例的数据处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图12所示,该电子设备包括:一个或多个处理器1201、存储器1202,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1201为例。

存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的数据处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据处理的方法。

存储器1202作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据处理的方法对应的程序指令/模块(例如,附图10所示的发送模块1001、接收模块1002和处理模块1003;或者附图11所示的接收模块1101、处理模块1102和发送模块1103)。处理器1201通过运行存储在存储器1202中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据处理的方法。

存储器1202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据数据处理的电子设备的使用所创建的数据等。此外,存储器1202可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1202可选包括相对于处理器1201远程设置的存储器,这些远程存储器可以通过网络连接至数据处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

数据处理的方法的电子设备还可以包括:输入装置1203和输出装置1204。处理器1201、存储器1202、输入装置1203和输出装置1204可以通过总线或者其他方式连接,图12中以通过总线连接为例。

输入装置1203可接收输入的数字或字符信息,以及产生与数据处理的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1204可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案,可以有效提升提供给用户的信息的全面性和多样性,并且通过推荐专题网页能够保证推荐信息的权威性,保证信息的来源可靠。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1