一种个性化智能垂直搜索系统的制作方法

文档序号:6473787阅读:211来源:国知局
专利名称:一种个性化智能垂直搜索系统的制作方法
技术领域
本实用新型涉及一种个性化智能垂直搜索系统。
背景技术
目前,搜索引擎技术已经是人们从互联网上获得自己所需要信息的主要工 具,得到了广泛应用。但是,现有搜索引擎和搜索技术也存在着缺点和不足1、 网络上的海量信息还在急速膨胀,使得利用关键字搜索技术的传统的搜 索引擎返回的搜索结果数量巨大,其中非常多的信息其实对用户而言是毫无用 处的,用户不得不在这些庞大的信息集中寻找他们需要的信息。2、 现有的搜索技术不能主动地学习用户的偏好和习惯,无从了解用户的兴 趣点,从而无法使搜索的结果更加合乎用户的"口味",信息的筛选工作完全 由用户自己进行,耗费用户大量的时间和精力。3、 如今的搜索引擎不能反映用户对搜索结果的评价,也不能将这个主观的 评价融入搜索引擎中,从而修正搜索的过程,使得搜索结果更为精准。4、 传统的通用搜索引擎不能有效利用用户端自身的数字终端硬件资源,大 多数的功能执行由服务器来进行,使得服务器的压力过重,从而影响了功能程 序的高效执行。实用新型内容本实用新型为克服上述的不足之处,目的在于提供一种个性化智能垂直搜索 系统,该系统能主动地学习用户的偏好和习惯,从而使得搜索的结果更加合乎用户的"口味",而是完全由用户自己来判断搜索结果对其的价值,用户通过 这个系统用户可以从庞大的信息集中寻找他们需要的信息。本实用新型是通过以下技术方案达到上述目的 一种个性化智能垂直搜索 系统,该系统包括客户端I,客户端II,数字网络,外部数据源,服务器端系统,数据库;所述的客户端i,客户端n,外部数据源通过数字网络与服务器端系统相连,数据库与服务器端系统相连;客户端I包括本地网络、组群I和组群n,组群i和组群n通过本地网络联结为客户端i;客户端n用于向服务器端系统请求信息;数字网络用于传输数字网络的信息;服务器端系统包括网 络服务器,数据库服务器,应用程序服务器;网络服务器用于向客户端I ,客 户端n发送信息、接收信息,并执行相关联的任务;数据库服务器用于存储数 据库的所有电子信息并执行对数据库的访问;应用程序服务器用于存储、执行 应用程序的计算机程序。客户端II包括显示装置、音频输入和输出装置、用户输入单元、存储器以 及CPU,所述的显示装置、音频输入和输出装置、用户输入单元分别与CPU相 连,CPU与存储器相连。本实用新型的有益效果1、 用户可以从庞大的信息集中寻找他们需要的信息。2、 该系统能主动地学习用户的偏好和习惯,从而使得搜索的结果更加合乎 用户的"口味",而是完全由用户自己来判断搜索结果对其的价值。3、 能反映用户对搜索结果的评价,也能将这个主观的评价融入搜索引擎中, 从而修正搜索的过程,使得搜索结果更为精准。4、本系统可以利用的硬件资源比google、百度等通用搜索引擎要多,能有效利用用户自身数字终端的硬件资源,从而大大缓解服务器端的压力。


图1是本实用新型实施例1中一种个性化智能垂直搜索系统的系统结构图;具体实施方式
以下结合附图通过实施例对本实用新型作进一步阐述实施例l:如图1所示, 一种个性化智能垂直搜索系统,该系统包括客户端1100,客户端IIllO,数字网络120,外部数据源140,服务器端系统130,数 据库150;所述的客户端IIOO,客户端IIllO,外部数据源140通过数字网络 120与服务器端系统130相连,数据库150与服务器端系统130相连;客户端I 100包括本地网络103、组群I 101和组群II 102,组群I 101和组群II 102通过 本地网络103联结为客户端I 100;客户端II110用于向服务器端系统130请求 信息;数字网络120用于传输数字网络的信息;服务器端系统130包括数据库 服务器131,网络服务器132,应用程序服务器133;网络服务器132用于向客 户端IIOO,客户端II110发送信息、接收信息,并执行相关联的任务;数据库 服务器131用于存储数据库150的所有电子信息并执行对数据库150的访问; 应用程序服务器133用于存储、执行应用程序160的计算机程序。客户端II110包括显示装置、音频输入和输出装置、用户输入单元、存储器 以及CPU,所述的显示装置、音频输入和输出装置、用户输入单元分别与CPU 相连,CPU与存储器相连。用户输入单元可以是键盘、鼠标等等,输入单元可以配备光标控制键,如向左键、向右键、向上键和向下键。当然,显示装置和用户输入单元可以融合 为一体,如触摸屏。存储器该存储器可以理解为存储由CPU执行能够实现本实用新型所述系 统的应用程序,也可以存储文档,例如常规随机访问存储器(RAM)。CPU:该CPU可以是通用处理器单元,用以访问存储器中的文档,以进行搜 索,也可以是一个单独的通信单元,如调制解调器,这个通信单元的作用是从 外部获取文档。客户端本实用新型所述的客户端都可以通过通用数字终端来实现,用于执 行本实用新型所述处理过程的应用程序,但并不仅限于此。客户端可以是数字 终端或是连接到数字终端的终端。 一般地,在本实用新型中所指的数字终端需 要包括显示装置、用户输入单元、存储器以及CPU,并且被认为是可以执行能够实现本实用新型所述系统的应用程序,如网络浏览程序Internet Explorer。可以理解地,该客户机系统并不仅限于数字终端,也可以是手机等其他设备, 该领域的技术人员应该能很容易地理解这一点。客户端I 100:客户端I 100代表的是另一种访问数字网络120与服务器端系 统130进行通信活动的终端组成方式。客户端I 100包括了通过本地网络103连 接的组群1和组群2,组群1和组群2同样是两个不同的客户机系统。组群1和 组群2可以分布在同一个或不同的本地网络内。客户端II110:作为一个可以通过网络120来与服务器端系统130进行通信 活动的终端,它进行通信的目的在于向服务器端系统130请求信息。客户端II 110代表的是一个通过数字网络120和服务器端系统130进行通信的单独的客户 端II110。组群可以是通过个人、部门、商品、子公司、合作伙伴或其他方式进行联 合的集合,也可以代表为一个行业,如金融业、制造业。本地网络103:包括限制在有限地理区域的局域网LAN,以及不受限于有限地理区域的广域网WAN和城域网MAN。可以理解地,客户端也可能包含客户端I 100,客户端IIllO的其中一种或全 部终端结点形式,但客户端的组合形式不影响本实用新型所述系统的实现,该 领域的技术人员可以很容易地理解这一点。数字网络120:有线的或无线的数字网络信息或信号的传输网络,用来传输 数字网络的信息。可以理解为但不仅限于局域网LAN、广域网WAN、城域网 MAN、虚拟专用网VPN和因特网。终端结点i和终端结点ii以及其他网络终端 实体可以通过任何一种形式的网络连接到服务器端系统130,但它们不一定是通 过同一个网络连接到服务器端系统130上的。服务器端系统130:服务器端系统通过一个或多个服务器来实现,可以是数 据库服务器131、网络服务器132、应用程序服务器133的其中一个或多个服务 器联合,也可以是一个服务器中包含了其中一种或多种服务器的功能。服务器用于响应存储在服务器上的计算机程序操作。数据库服务器131:存储数据库150记录的所有电子信息并执行对数据库150 记录的访问。数据库记录150:存储与服务器端系统130有关的所有用户或客户机系统的 各种信息内容和数据,如关联词库151、搜索结果152、用户统计模型153。这 些信息内容和数据包括以下字段关联词库151包含了多个字段。其中相似的本地句词集代表了某个关键句/ 词的所有类似句/词的集合,这些类似句/词是存储在数据库服务器131中的。相 似的外部句词集代表了该关键句/词的所有类似句/词的集合,这些类似句/词是存储在连接在数字网络120上的外部数据源140中的,服务器端系统130在需要 时可以通过数字网络120向外部数据源140请求这些关键句/词并存储到本地数 据库服务器131中。相关的本地句词集代表了该关键句/词的所有相关句/词的集 合,这些相关句/词是存储在数据库服务器131中的。相关的外部句/词集代表了 该关键句/词的所有相关句/词的集合,这些相关句/词是存储在外部数据源140 中的,服务器端系统130在需要时可以通过数字网络120向外部数据源140请 求这些关键句/词并存储到本地数据库服务器131中。相似的用户历史关键句词 集是通过用户历史搜索结果统计得来的关于某个用户的该关键句/词的相似句/ 词集,这些关键句/词具有特定的用户特征,为该用户专有,服务器端系统130 对某个用户的历史搜索结果和评价信息进行统计后得出该句词集,在该用户登 陆系统进行搜索时,服务器端系统130自动调用该句词集加入到这个关键句/词 的关联词库中。相关的用户历史关键句词集是通过用户历史搜索结果统计得来 的关于该用户的该关键句/词的相关句词集,与上述相似的用户历史关键句词集 类似地,在该用户登陆系统进行搜索时,服务器端系统130自动调用该句词集 加入到这个关键句/词的关联词库中。相似在本实用新型中的"相似"指的是这样一种情况, 一个关键句/词有很 多其它不同的关键句/词与其意义相近,例如,"电脑"的相似关键词有"计算 机"、"computer" 、 "PC机"等,其中"计算机"可能是根据用户的历史搜 索结果统计得出的相似关键词。相关在本实用新型中的"相关"指的是这样一种情况, 一个关键句/词有很 多其它不同的关键句/词与其有着紧密地联系,该联系有着特定的时代和历史特 征,可以随着时代潮流的改变而改变,例如,"电脑"的相关关键词有"笔记本"、"键盘"、"鼠标"、"U盘"、"MP3"等,其中"MP3"可能就是根据用户的历史搜索结果统计得出的相关关键词。网络服务器132:与像客户端I 100和客户端II110这样的客户端系统进行通信,如向客户端i ioo和客户端niio发送信息、接收信息,并执行相关联的任务。应用程序服务器133:根据示例性实施例,应用程序服务器存储、执行诸如 应用程序160的计算机程序。外部数据源140:可以采用类似于服务器端系统130的一个或多个服务器来 实现,它的作用在于査询服务器端系统130之外的可用第三方信息源,并利用 这些信息源提供的相关信息内容通过应用程序160的访问和执行生成关联信息返回给客户端i ioo和客户端niio。应用程序160:在本说明中,把能够实现本实用新型所述系统和系统的一种 或多种计算机程序统称为应用程序,当然,应用程序中的某些处理可以通过客户端系统i ioo和客户端系统niio来实现。应用程序i6o包括了以下几个主要程序和模块表格化程序161、用户评价模块162、用户偏好学习模块163、并 发爬虫机器人程序164以及即时通讯程序165。表格化程序161:指的是这样一个程序,它将搜索结果152的内容结构化, 分解成显示页面需要的字段,如将一个专利信息分解成专利名称,发明人,专 利概要等字段,并将这些分解好的字段一一对应地存入相应地的表格单元中, 然后系统将这个表格调用出来,显示成用户看到的页面。用户评价模块162:用户通过对搜索结果的评价,将其认为比较符合搜索目 的和偏好的搜索结果挑选出来,系统根据这些选中的搜索结果的概要信息中的关键句/词,进行进一步的筛选,从而达到深化搜索的目的;另一方面,用户通 过对搜索结果的评价,修正系统偏好学习的错误和偏差,从而不断修正用户统计模型153。用户偏好学习模块163:服务器端系统130通过存储在数据库服务器131中 的用户统计模型153和关联词库151,将搜索结果与用户统计模型中的数据进行 关联度匹配,即在这些结果中根据用户偏好和习惯的关键句词集来再次筛选, 关联度越高表示用户对这个搜索结果越感兴趣,即兴趣越大。根据关联度,系 统对搜索结果进行删减和排序,关联度高的搜索结果最先显示。并发爬虫机器人程序164:系统响应用户的搜索请求,并把与关键句词集中 的所有关键句/词相关的信息从各个外部数据源140中抓取出来,实现这样一种 功能并能同时处理多并发请求的程序称为并发爬虫机器人程序。通过这个程序 采集得来的搜索结果经过分析,存入数据库中,并以此更新用户统计模型。在 本说明的示例性实施例中,并发爬虫机器人程序164运用了 HTTP协议、socket 技术、cookie线程池、dom4j、 XML、正则表达式等相关技术。即时通讯程序165:在搜索结果152中,专利信息、商机信息、公司信息都 涉及了公司的电话号码,即时通讯165是这样一个程序,用户通过客户端系统i ioo或客户端系统niio的用户输入装置,如鼠标,向系统请求与搜索结果中的某个公司进行通讯,系统启动即时通讯应用程序,将该用户与这个公司的固 定电话终端或网络电话终端接通,该公司人员拿起电话机话筒或启动网络电话 终端,即表示通讯连接成功,用户利用音频输入输出装置,如耳机和麦克风就 可以即时地向感兴趣的公司联系,而被呼叫的公司人员也可以利用固定电话机 或者是耳机和麦克风回答。这样,用户不需要在有疑问时,利用固定电话等通 讯设备呼叫对方,而是直接在网上完成咨询。应当理解,图1只是为了更清楚地说明本实用新型而示出其中一种示范系统, 但并不代表本实用新型就局限于此范围。本实用新型的工作过程如下首先用户通过客户端I IOO或客户端IIIIO登陆到系统网站,即通过数字网络120向服务器端系统130发送信息请求,服务器端系统130将初始页面信息返回给用户。初始页面包括以下几个部分搜索语句输入框在搜索语句输入框中,用户可以输入一条带有搜索目的的 完整语句,如"杭州8月份的硬盘价格如何?";也可以输入关键词,如"电 脑杭州"。关注模块定制按钮用来启动定制程序,用户点击该按钮后,系统自动调转 到定制页面,通过这个页面,用户可以定制自己感兴趣的内容,如特定的行业 和特定的地理位置等。当然,这个按钮有效的前提是该用户已经是注册用户且 已经登陆系统,这个前提在接下来的步骤中也有类似描述。用户登陆/注册按钮用户通过这个按钮可以注册为该系统的注册用户,也可 以通过这个按钮登陆到该系统,以便系统启动用户统计模型153,使得搜索结果 更精准。用户通过客户端I IOO或客户端IIIIO中的用户输入单元,如键盘,在搜索语句输入框中输入想要搜索的问题语句或关键词,如"杭州8月份的硬盘价格如何?"、"电脑杭州"等。服务器端系统130接收到搜索请求,首先对用户输入的问题语句或关键词 进行高速中文分词,将"杭州8月份的硬盘价格如何?"这个完整语句语义分 解为"杭州"、"硬盘价格"、"8月份"这几个关键句/词。接着,服务器端系统130在本地数据库服务器131中以及通过网络120和 并发爬虫机器人程序164在外部数据源140中检查该用户的关联词库151是否 包含这些关键句/词相似和相关的关键句/词。接着,系统将这些相似的和相关的关键句/词加上语义分解后的关键句/词一 起,从该用户的关联词库151中提取出来,生成一个新的关键句词集,这个关 键句词集包含了所有上述的关键句/词。然后,服务器端系统130访问本地数据库服务器131以及通过网络120和 并发爬虫机器人程序164从外部数据源140请求搜索包含这些关键句/词的信息。系统进行逻辑判断,如果用户登陆了该系统,通过了注册用户的身份认证, 则激发以下两个程序系统调用服务器端系统130存储的用户统计模型153,同 时,系统调用客户端I 100或客户端II110中储存的cookies文件。而如果用户 没有登陆该系统,则不管该用户是否注册用户,系统只调用客户端I 100或客户 端II110中储存的cookies文件。随后,系统启动用户偏好学习模块163,利用关联词库151以及特定用户的 用户统计模型153进行用户的偏好学习,得出哪些关键句/词是用户兴趣点或是 符合用户搜索习惯的,根据这些关键句/词来判断搜索来的结果对这个用户而言 是否有用,关联度较高,并根据这个思路继续执行。系统利用用户偏好学习的结果,对搜索结果进行删减、排序,把不相关的 信息从搜索结果中删除,把关联度较高的排列在前。随后,系统调用应用程序服务器133中的表格化程序161,将已经排序好的 搜索结果用结构化方式写到网页的表格中,使得各项内容一一对应、简洁有序。 接着系统将表格化的搜索结果展示给用户。并同时执行以下三个步骤。系统利用搜索结果更新服务器端系统130中的用户统计模型153,并存储到数据库服务 器131中。系统利用搜索结果更新客户端系统I IOO或客户端系统IIIIO中的 cookies文件。系统利用搜索结果的关键句/词更新该用户的关联词库。最后展示给用户的搜索结果包含了以下信息用户评价复选框在搜索结果描述前都有一个复选框,读者可以选中这个 复选框表示对这一条搜索结果的关注度比其他未选中的搜索结果高,从而使得服务器端系统130能够根据这些选中的搜索结果进行进一步的搜索,并同时依此更新用户统计模型。搜索结果描述简要地代表一个搜索结果,但是需要注意的是,搜索结果 描述有时候并不能完全或正确地反映搜索结果的内容。即时通讯按钮该按钮激发即时通讯程序165,目的是随时地和另一方取得语音联系,以便获得最新最准的资讯。用户通过输入单元如鼠标、键盘等选中评价复选框,表示对这个搜索结果较为满意、感兴趣。随后,用户点击再次搜索按钮,系统启动用户评价机制162,将选中的搜索结果重新进行高速中文分词,目的在于重新在整个网络数据而非 在第一次的搜索结果中搜索与选中搜索结果相关的信息,再次搜索得来的信息 可能会比第一次搜索得来的信息更多、更丰富,而不是越搜越少,所以也使得搜索结果更精准、更贴近用户的需要。这个过程也可以更新用户统计模型153, 从而使得用户偏好学习模块163的学习过程更准确。可以替代地,用户将鼠标移动到结果描述上。这时系统将这个结果信息的 概要展示给用户,用户通过这个信息概要,可以清晰地判断该信息对其是否有 用。可以替代地,用户用鼠标点击即时通讯按钮。系统接收到用户请求后,判 断用户是否已经将音频输入输出设备,如耳机、麦克风设备连接到计算机上。如果系统能检测到这些设备已经在运转,则提示用户戴上耳麦并确保麦克 风开启。这时对方拿起话筒,表示通讯已经建立成功。而如果系统监测到用户并没有把耳机和麦克风连接到计算机上,系统提示 用户将耳机和麦克风等设备与计算机连接好。待用户连接好通讯设备,系统继续执行后续步骤。可以替代地,用户执用鼠标或键盘点击搜索结果描述。随后,系统将链接的搜索结果网页显示给用户,并更新服务器端用户统计模型153、客户端cookies 文件以及该用户的关联词库151。用户可以定制自己感兴趣的内容,如特定的行业和地理位置,但这个功能 只对注册用户开放。用户点击关注模块定制按钮后,系统执行逻辑判断,判断 用户是否已经登陆了网站,如果用户已经登陆,则该用户必定是系统的注册用 户,则系统继续执行以下步骤。系统利用搜索结果更新服务器端系统130中的 用户统计模型153,并存储到数据库服务器131中。系统利用搜索结果更新客户 端系统I 100或客户端系统II 110中的cookies文件。系统利用搜索结果的关键 句/词更新关联词库151。如果系统的逻辑判断的结果为"否",即用户并没有登陆该系统,则系统 显示用户注册/登陆框。接着,如果该用户为该系统的注册用户,则用户可以选择输入用户名和密 码或只是密码,然后登陆到该系统网站。可以替代地,如果该用户尚未注册,则用户可以通过提交注册需要的信息 注册为该系统的注册用户。随后,服务器端系统130自动利用注册信息为该用户新建一个用户统计模型153并存储在数据库服务器131中。同时,服务器端 系统130更新客户端系统I 100或客户端系统II 110中的cookies文件。当然,可以很容易地看出,该过程并非一定按照如上所述的顺序进行,而 是一个不断循环反复的过程,步骤顺序的不同并不影响实现本实用新型所述的 系统,因此本实用新型也不受限于以上所书的过程步骤。除上述实施例外,本实用新型还可以有其他实施方式。凡采用等同替换或 等效变换形成的技术方案,均落在本实用新型要求的保护范围。
权利要求1、一种个性化智能垂直搜索系统,其特征在于,该系统包括客户端I(100),客户端II(110),数字网络(120),外部数据源(140),服务器端系统(130),数据库(150);所述的客户端I(100),客户端II(110),外部数据源(140)通过数字网络(120)与服务器端系统(130)相连,数据库(150)与服务器端系统(130)相连;客户端I(100)包括本地网络(103)、组群I(101)和组群II(102),组群I(101)和组群II(102)通过本地网络(103)联结为客户端I(100);客户端II(110)用于向服务器端系统(130)请求信息;数字网络(120)用于传输数字网络的信息;服务器端系统(130)包括数据库服务器(131),网络服务器(132),应用程序服务器(133);网络服务器(132)用于向客户端I(100),客户端II(110)发送信息、接收信息,并执行相关联的任务;数据库服务器(131)用于存储数据库(150)的所有电子信息并执行对数据库(150)的访问;应用程序服务器(133)用于存储、执行应用程序的计算机程序。
2、 根据权利要求1所述的统一种个性化智能垂直搜索系统,其特征在于客户 端II (110)包括显示装置、音频输入和输出装置、用户输入单元、存储器以及 CPU,所述的显示装置、音频输入和输出装置、用户输入单元分别与CPU相连, CPU与存储器相连。
专利摘要本实用新型公开了一种个性化智能垂直搜索系统,该系统包括客户端Ⅰ,客户端Ⅱ,数字网络,外部数据源,服务器端系统,数据库;所述的客户端Ⅰ,客户端Ⅱ,外部数据源通过数字网络与服务器端系统相连,数据库与服务器端系统相连;本实用新型的有益效果1.用户可以从庞大的信息集中寻找他们需要的信息。2.该系统能主动地学习用户的偏好和习惯,从而使得搜索的结果更加合乎用户的“口味”,而是完全由用户自己来判断搜索结果对其的价值。3.能反映用户对搜索结果的评价,也能将这个主观的评价融入搜索引擎中,从而修正搜索的过程,使得搜索结果更为精准。
文档编号G06F17/30GK201087865SQ200820082879
公开日2008年7月16日 申请日期2008年1月31日 优先权日2008年1月31日
发明者施侃晟, 施章祖 申请人:杭州经合易智控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1