专利名称:基于关注度的同源信息搜索引擎聚合显示方法的获取网页用户关注度PageFocus的系统的制作方法
技术领域:
本发明涉及计算机网络技术,特别是利用计算机在互联网或企业内部网上提供搜索服务的搜索引擎技术。本发明还涉及一种获取网页用户关注度的系统及网站内容风格自适应装置与方法。
背景技术:
目前在hternet上存在着大量的“相同(或类似)来源的网页或网络服务”,例如1由同一个人或组织写作的被大量复制的文章、观点、信息网页;2由同一个人或组织采访(或发布)的被大量复制的新闻报道网页;3由同一个人或组织在BBS论坛发言帖子的转贴;5由同一个人或组织产生的不同数据格式、压缩比例的多媒体文件;6由同一个人或组织产生的可执行程序、数据、设计文件;7其他方式产生的并被广泛复制的信息内容。这些“相同(或类似)来源的网页或网络服务”在目前的搜索引擎搜索结果中被一一列举,占据大量篇幅,内容却雷同,不便查询者的浏览。目前各种搜索引擎和网页排行服务系统,均仅仅采用了点击流量和网页停留时间的方式来衡量网页的热门程度,而采取的方法主要1)搜索引擎类依靠查询者对搜索结果的点击来计算网页的热门程度,例如google、百度。2)ALEXA网站排行类依靠内嵌在浏览器上的工具条软件,把用户对超级链接的点击和网页停留时间发送回服务器(参数包括当前网页地址、页面打开时间),但是不包含其他评估方法。Alexa工作原理可参见http://www. singtaonet. com/it/it sp/t20051110 43674. html,http://www. people, com. cn/GB/it/8219/41552/41597/3109586. html。目前各种网站可以划分为如下类别类别一全部网站内容对任何用户在同一时刻均具有同样风格与内容(例如新闻网站)。类别二可以根据用户的设定显示不同的风格与内容(例如g00gle的新闻网站)O但是这些网站不能在实时根据用户的不同状态给出不同的显示风格与内容。
发明内容
为了改进上述问题的不足,本发明提供这样一种搜索方法,其能把因内容相同而对搜索者具有相同使用价值的搜索结果聚合成一条记录,即标题搜索结果,根据需要再展开查看其他结果的装置和方法,从而避免“标题搜索结果”由于频繁被点击而导致目标服务器访问量过大而瘫痪的,把“标题搜索结果”点击自动分散到其他搜索结果目标上的装置与方法。本发明还提供了这样一种系统,其利用能够和网络上的统计服务器配合的网络浏览器,将用户的全部操作行为换算成对该网页的评分,并发送回统计服务器,作为对网页的关注程度的评分,从而可以作为搜索引擎的排名方法和工具。本发明还提供这样一种方法利用各种可能获得的、有助于判断用户所处环境和状态的信息,在同一时刻、同一个网站内、甚至时同一个页面内,向不同状态的用户提供不同的显示风格和内容。为了实现上述目的,一种将同源信息站点搜索引擎聚合显示的搜索方法,其包括下列步骤(1)查询者通过Web浏览器或应用软件访问搜索引擎,并输入需要查询的关键词;(2)由搜索引擎找到全部符合条件的目标站点作为原始搜索结果;(3)由“同源信息处理模块”查询“成为标题搜索结果”的权力采购者的账户信息, 并结合其他判断规则在原始搜索结果中选取用来作为“标题搜索结果”的对象;(4)由搜索引擎Web服务器或应用服务器只将选中的“标题搜索结果”作为搜索结果展示给查询者,并为其提供一个带有“展开查看细节或其他信息”含义的“按钮;(5)查询者还可按动与之对应的“按钮”,搜索引擎再向其展示在O)中找到的原始搜索结果。“同源信息处理模块”有多个“(相应信息种类的)同源信息处理模块”组成,例如 “同源网页处理模块”、“同源多媒体处理模块”、“同源图片处理模块”、“同源文档处理模块”、 “同源软件处理模块”、“同源数据或数据库处理模块”、“同源GIS信息处理模块”、“同价值网络服务处理模块”、“同价值商业信息处理模块”等。所述“同源信息处理模块”包括如下步骤(1)首先由“信息种类判断模块”对网络搜索器收到的信息进行种类判断;(2)将相同种类的信息集中发送到“(相应信息种类的)同源信息处理模块”;(3)将由“(相应信息种类的)同源信息处理模块”处理后的搜索信息归档进入“非同源(相应信息种类的)结果信息库”或“同源(相应信息种类的)结果信息库”。(4)由系统把“非同源(相应信息种类的)结果信息库”和“同源(相应信息种类的)结果信息库”发布到Web服务器上,供查询者查询。作为另一中实现方法,也可以根据这两个数据库直接向查询者提供基于动态网页的查询服务。所述由“同源网页处理模块”处理网页信息的步骤如下所示(1)在“搜索引擎搜索部分”接收需要查询的关键词的时候,首先由“搜索结果已经发布在Web服务器上的判决器”判断该关键词是否近期已经被其他人查询过,如果被查询过,并且结果已经在“搜索引擎搜索结果Web服务器”上发布,则直接返回搜索结果,该结果中已经将具有相同来源的网页聚合成一条搜索结果,点击“同源网页”按钮后,可以在“搜索引擎搜索结果Web服务器”上看到另一个包括全部搜索结果的搜索结果网页,完成整个查询过程;(2)如果在“搜索引擎搜索部分”接收需要查询的关键词的时候,由“搜索结果已经发布在Web服务器上的判决器”判断该关键词近期没有被其他人查询过,并且也没有相应的查询结果在“搜索引擎搜索结果Web服务器”上发布则A.启动“网页搜索器”搜索“非同源网页结果数据库”和“同源网页结果数据库” 找到符合搜索关键词的网页地址,并获取这些网页的内容;B.如果“网页搜索器”在“非同源网页结果数据库”和“同源网页结果数据库”中没有找到符合搜索关键词的网页地址,则返回查询者“没有符合条件网页”的结果,并且将该搜索关键词加入到下一轮更新“非同源网页结果数据库”和“同源网页结果数据库”的任务中,如果在更新过程中找到了符合条件的网页地址则根据其是否具有同源网页而选择入 “非同源网页结果数据库”或“同源网页结果数据库”,这样如果再有人搜索同样的关键词是就可以找到结果;(3)由“网页内容分离器”将找到的网页内容及超级链接目标分解成多媒体、图片、文字、超级链接等种类;(4)分别由各种内容判决器产生判决结果A.由“多媒体内容判决器”产生目标网页所含“相同多媒体文件程度SMS(Same Media Score)” ;B.由“图片内容判决器”产生目标网页所含“相同图片的程度SPS(Same Photo Score),,;C.由“文字内容判决器”产生目标网页所含“相同文字的程度STS(Same Text Score),,;D.由“链接内容判决器”产生目标网页所含“相同超级连接的程度SHS (Same Hyperlinks Score),,;(5)从“同源网页判决规则库”分别获取“多媒体判决权重SMP”、“图片判决权重 SPP”、“文字判决权重STP”、“链接判决权重SHP”并分别与第(4)步生成的“相同多媒体文件程度SMS”、“相同图片的程度SPS”、“相同文字的程度STS”、“相同超级连接的程度SHS” 做数学乘法;(6)将第(5)步获得的数学乘法结果做加法,获得网页的“同源程度SSS(SameSourc Score) ”,同源程度 SSS = (SMS*SMP) + (SPS*SPP) + (STS*STP) + (SHS*SHP);(7)判断该网页的“同源程度SSS”是否超出门限,如果超出门限则判定为与其它网页的“同源网页”,如果没有超出门限则判定为“非同源网页”;(8)将第(7)步产生的“非同源网页”由“非同源网页处理模块”入“非同源网页结果数据库”;将第(7)步产生的“同源网页”由“同源网页处理模块”入“同源网页结果数据库”;(9)由“搜索结果网页发布器”根据“同源网页结果数据库”和“非同源网页结果数据库”的内容动态生成搜索结果的静态网页,发布到“搜索引擎搜索结果Web服务器”,再通过浏览器呈现给查询用户;(10)作为第(9)步的另一种实现方法,也可以通过“动态网页Web服务器”直接通过浏览器呈现给查询用户。所述由“同源信息处理模块”也可包括如下步骤(1)在收到查询者的搜索关键词,并通过软件根据关键词内容和关键词语法判断需要查找的文件或网络服务;(2)判断“要搜索的内容已经发布在Web服务器上吗? ”,如果搜索的目标已经发布在“搜索引擎搜索结果Web服务器”上则直接返回搜索结果,该结果中已经将符合搜索条件并具有相同来源的文件或网络服务的获取入口聚合成一条“标题搜索结果”,点击“同源文件”按钮后,可以在“搜索引擎搜索结果Web服务器”上看到另一个包括全部搜索结果的网页,使查询者可以看到符合查询条件的全部搜索结果,完成搜索过程。如果搜索的目标没有发布在“搜索引擎搜索结果Web服务器”上则从第(3)步开始;
(3)返回查询者“没有符合条件的结果”的提示;(4)将该搜索关键词加入到下一轮更新“同源信息索引数据库”和“非同源信息索引数据库”的任务中,并定期启动两个数据库的更新过程;(5) “同源信息索引数据库”和“非同源信息索引数据库”的更新过程A.由搜索器搜索网页新出现的目标文件或服务入口,通过软件进入该入口获取该文件或网络服务;B.由“内容判决器”判断新找到的信息“与当前“同源信息索引数据库”的内容属于同一内容吗? ”如果“是”则将它作为一个新的元素归入“同源信息索引数据库”的该类别;如果“否”则由“内容判决器”判断它“与当前非同源信息索引数据库”的内容属于同一内容吗? ”C.如果“是”则“为当前的信息和与之同源的并已经存贮在‘非同源信息索引数据库’中的信息,新建一个类别并全部转移到‘同源信息索引数据库’”;D.如果“否”则“为当前的信息新建一个类别,并存入‘非同源信息索引数据库,”;(6)由“搜索结果网页发布器”根据“同源网页结果数据库”和“非同源网页结果数据库”的内容动态生成搜索结果的静态网页,发布到“搜索引擎搜索结果Web服务器”,再通过浏览器呈现给前来搜索的查询者;(7)作为第(6)步的另一种实现方法,也可以通过“动态网页Web服务器”直接通过浏览器呈现给查询用户。所述由同源信息处理模块处理文档时,“同源信息索引数据库”和“非同源信息索引数据库”的更新过程为A.由“文档搜索器”搜索网页新出现的文档文件或链接入口,通过软件进入该入口获取该文件或服务;B.由“文字内容判决器”和“图片内容判决器”判断新找到的文档内容“与当前‘同源文档索引数据库’的内容属于同一内容吗? ”如果“是”则将它作为一个新的元素归入“同源文档索引数据库”的该类别;如果“否”则由“文档内容判决器”判断它“与当前非同源文档索引数据库”的内容属于同一内容吗? ” ;C.如果“是”则“为当前的文档和与之同源的并已经存贮在‘非同源文档索引数据库’中的文档,新建一个类别并全部转移到‘同源文档索引数据库’”;如果“否”则“为当前的文档新建一个类别,并存入‘非同源文档索引数据库’,,;所述相关内容判决器模块包括如下步骤(1)接收“被判断对象”可以接收多个来源的多媒体,并记录被判断对象的数量 InputQuantity ;(2)查找“被判断对象”既定的可参与比对的属性,记录当前属性具有相同值的“被判断对象”的数量SameQuantity ;(3)输入当前属性在判断过程中的“权重”值Power ;(4)计算被全部“被判断对象”在当前属性上的吻合度PSame = SameQuant i ty^Power ;(5)返回(1)对下一个“属性”执行(1) (4),得到该属性的PSame,直至获得部属性的PSame值;(6)计算并返回“被判断对象”的相同内容程度值AameMediaPower =(全部 Psame值的数学累加值)/InputQuantity。内容判决器模块为文字内容判决器时,其包括如下步骤(1)找出文字内容中具有相同的单词或句子的部分的总计长度值SameLenth ;(2)找出输入的多个文字内容中,长度最短的输入文字的长度值MinLenth ;(3)返回文字相 1以程度值 SameTextPower = SameLenth/MinLentho内容判决器模块为链接内容判决器时,其包括如下步骤(1)接收“被判断对象”多个超级链接的URL地址;(2)统计“被判断对象”相似程度=SameURLPower =在被判断的每个超级链接所指向的页面上均出现过的目标URL地址数量;(3)返回 SameURLPower。内容判决器模块为商业信息内容判决器时,其包括如下步骤(1)比对参与比对的商业信息是否是相同的产品或服务,如果“不是”返回“不一致”,如果“是”进入第(2)步。(2)判断参与比对的商业信息是否具有地理位置敏感性,如果“不是”返回判断结果“一致”,如果“是”则进行第(3)步。(3)判断参与比对的商业信息的提供者是否处于相同的城市或区域,如果“不是” 返回判断结果“不一致”,如果是返回判断结果“一致”。“标题搜索结果”选择的具体实现方法如下(1)计算每个“同源搜索结果”成为“标题搜索结果”的概率权值PWn Pffn = TP^PageFocus/(RespDelay-K)η:该搜索结果为第η条当(RespDelay-K)小于等于零时,(RespDelay-K)应取值为1Pagei7Ocus 网页关注度值RespDelay 网页服务响应延迟K 服务响应常数,建议K设置为50毫秒(ms)。TP 标题搜索结果权力(2)统计求和全部原始“同源搜索结果”的概率权值PWn的总和=PWall全部概率权值;(3)计算每条“同源搜索结果”成为“标题搜索结果”的概率Pn = Pffn/Pwall ;(4)按照Pn值的概率,随着搜索者的访问动作,动态地随机选择“标题搜索结果”, 呈现给搜索者。所述“标题搜索结果”的概率权值PWn的计算方法还可以是a. PWn= (TP+PageFocus) / (RespDelay-K)或,b. Pffn = (TP+PageFocus)/RespDelay/K 或,c. Pffn = TP氺PageFocus/RespDelay/K。所述“同源信息处理模块”A.可以内嵌在搜索引擎中;
B.可以放置在“搜索引擎”和“搜索引擎搜索结果Web服务器”之间;C.也可以作为预处理模块放置在“搜索引擎”和被搜索站点之间。所述展开查看细节或其他信息含义的按钮可为超级连接或各种软件界面控件。—种获取网页用户搜索结果关注度的系统,包括I^gei^ocus网络服务器、 PageFocus网络浏览器及网页计分服务器,PageFocus网络服务器包括I^agei^cus浏览器ID注册服务器、 PageFocusAccServer网页关注统计服务器、PageFocus浏览器在线升级服务器及数据加解密模块;PageFocus网络浏览器包括I^agei^cus浏览器ID注册模块、关注分值I^agei^cus 计算模块。其工作步骤如下(1)"PageFocus网络浏览器”,每个浏览器均在安装时具备全球唯一的ID标识号, 或在使用时主动寻找网络上的“PageFocus浏览器ID注册服务器”以获得全球唯一的ID标识号;(2) "PageFocus网络浏览器”具备具有常规网络浏览器,并将用户对浏览器的操作和对网页的操作按照权重转换成网页的“关注分值I^agei^cus”并形成“PageFocus数据包”,以加密方式通过网络协议传递至本搜索引擎的“I^agei^cusAcckrver网页关注统计服务器”;GyTagei^cusAcckrVer网页关注统计服务器”在收到全球的每一个“PageFocus 网络浏览器”发来的“PageFocus数据包”后将其内部包含的“关注分值I^agei^cus”累加到相应的网页上;(4) "PageFocusAccServer网页关注统计服务器”上包含的全球每一个网页的“关注分值I^agei^cus”,这些信息可以通过各种处理方法形成搜索引擎对网页排行依据、搜索引擎在具有相同内容搜索结果中选择可以作为“标题搜索结果”的依据、也可以直接公布出来作为“网页热门程度排行榜”的服务。所述I^gei^cusAcckrver网页关注统计服务器可以采用数学对数或科学计数法记录得分。所述I^gei^ocus数据包可以在浏览器彻底关闭该网页时形成,也可以定时形成, 也可以累计到某个分值时再形成。所述关注分值I^agei^cus按照下表所列权重形成浏C^MHJ为k'j·.Il1Jii!打开网页1 (或 1.1、1.3、1.5)用户有兴趣打JT对网页在网页停留小于10秒-10 (或 7、8、9)另人讨厌的网页在网页停留小于30秒-3 (或-5、-4、-2)不兴趣或内容非常简单在网页停留小于1分钟-1 (或-3、-2、-1.5)没什么兴趣或内容非常简单在网贝停留超过1分钟3 (或 1、2、5)普通的浏览在网页停留超过5分钟5 (或 3、4、5)比较认真的浏览文字阅读速度100/文字阅读速度1.“文字阅读速度”可以通过判断用户使用键盘、鼠标滚轮、“滚动条拖动” 的操作幅度、频率和网页内容字体大小来计算。
2.“文字阅读逨度”=被滚动的文字数量/滚动时间间隔。
3.“文字阅读速度”的单位为字/每秒 4.说明1秒看100字说明很不认真, 得1分;1秒看一个字说明很认真,得 100 分。网页内容中的图片被点击,而图片1的超级链接指向一个图片3 (或 1、2、4)说明该图片可能提供了“放大图片”,代表该图片可能是网页的主体内容,并且用户点击了它,说明用户想仔细看看放大的图片。网页内容中的图片被点击,而图片上的超级链接指向网站内一个网页1 (或 0.1、0.2、0.9)很可能是个“广告”图片。网页内容中的图片被点击,而图片上的超级链接指向网站外一个网页0(或 0.1、0.2、0.3)很可能是个"广告”图片。网页内容中的超级链接被点击,而目标与当前网页处于同一目求下=2 (或 0.5、1、2.5)很可能是同一篇文章的网页连载,本网页和被点击超级链接指向的M页均可获得本“权重”的得分。例如 “ http:/www.yoogol.com/news/01.htm ” 禾口 "http:/www.yoogol.com/news/02.htm"网页内容中的超级链接被点击,而目标站外网页。0 (或-0.5、-0.3、-0.1)和本M页没什么关系网页内容中含有标题为 “1 2 3 4"等带有序号含i的文字,而目标均N本网页和标题为“丄2 3 4"等带有序号含义,并目.目标均指Slil—个URL目录的网贞通常为同一篇文章的分页显示。
权利要求
1.一种基于关注度的同源信息搜索引擎聚合显示方法的获取网页用户关注度 PageFocus的系统,所述系统包括I^agei^cus网络服务器、PageFocus网络浏览器,其特征在于(1)PageFocus网络服务器包括I^agei^cus浏览器ID注册服务器、PageFocusAccServer 网页关注统计服务器、PageFocus浏览器在线升级服务器和数据加解密模块;(2)PageFocus网络浏览器包括I^agei^cus浏览器ID注册模块、关注分值I^agei^cus计算模块;所述系统的工作步骤如下(1)"PageFocus网络浏览器”,每个I^agei^cus网络浏览器均在安装时具备全球唯一的 ID标识号,或在使用时主动寻找网络上的“PageFocus浏览器ID注册服务器”以获得全球唯一的ID标识号;(2)"PageFocus网络浏览器”具备具有常规网络浏览器,并将用户对I^agei^cus网络浏览器的操作和对网页的操作,以及网页内容特征按照权重转换成网页的“关注分值 f^geR)CUS”并形成“PageFocus数据包”,以加密方式通过网络协议传递至本搜索引擎的 "PageFocusAccServer网页关注统计服务器”;(3)"PageFocusAccServer网页关注统计服务器”在收到全球的每一个"I^agei7Ocus网络浏览器”发来的“PageFocus数据包”后将该“I^agei^cusAcckrver网页关注统计服务器” 内部包含的“关注分值I^agei^cus”累加到相应的网页上;(4)"PageFocusAccServer网页关注统计服务器”上包含的全球每一个网页的“关注分值f^geR)CUS”,这些信息可以通过各种处理方法形成搜索引擎对网页排行依据、搜索引擎在具有相同内容搜索结果中选择可以作为“标题搜索结果”的依据、也可以直接公布出来作为“网页热门程度排行榜”的服务。
2.根据权利要求1所述的系统,其特征在于,所述I^gei^ocus数据包可以在I^gei^ocus 网络浏览器彻底关闭该网页时形成,也可以定时形成,也可以累计到某个分值时再形成,以减少I^agei^cusAcckrver网页关注统计服务器的计算压力。
3.根据权利要求1所述的系统,其特征在于,所述关注分值I^gei^ocus按照下表所列权重形成
4.根据权利要求3所述的系统,其特征在于,所述文字阅读速度的计算步骤如下A.鼠标滚轮滚动文字阅读速度=(显示区宽度/字体宽度广每次滚动的文字行数/ 滚动时间间隔;B.键盘翻页文字阅读速度=(显示区宽度/字体宽度广每次翻页的文字行数/翻页时间间隔;C.窗体滚动条滚动文字阅读速度=(显示区宽度/字体宽度广每次滚动的文字行数 /滚动时间间隔。
5.根据权利要求3所述的系统,其特征在于,所述I^agei^cus数据包包括I^agei^cus浏览器ID、网页URL和网页I^agei^cus得分值字段。
6.根据权利要求1所述的系统,其特征在于,具备“同源网页”的每一个网页在参与搜索引擎提供的网页排名过程中,可以使用每一个“同源网页”获得的用户关注度PageFocus分值的总和作为排名的依据,即A在“同源网页”的“标题搜索结果”在参与搜索引擎结果排名时可以采用每一个“同源网页”获得的用户关注度I^gei^cus的总和作为排名依据; B “同源网页”内的每一个网页在参与搜索引擎结果排名时也可以采用其从属的“同源网页” 的每一个网页获得的用户关注度I^gei^ocus的总和作为排名依据。
7.根据权利要求1所述的系统,其特征在于,所述I^gei^cus网络浏览器还包括 PageFocus浏览器在线升级模块。
8.根据权利要求1 7任一所述的系统,其特征在于,所述系统还包括网页计分服务ο
全文摘要
本发明涉及一种基于关注度的同源信息搜索引擎聚合显示方法及系统。搜索引擎找到全部符合条件的目标站点作为原始搜索结果;依据内容质量、显示加权权力采购者的账户信息和服务质量等要素,将原始搜索结果聚合成一条标题搜索结果;只将标题搜索结果作为搜索结果展示给查询者,当其需要时才为其展开查看全部搜索结果。本系统采用统计服务器配合网络浏览器,将用户的全部操作行为换算成对该网页的关注程度评分值PageFocus,并发送回统计服务器来代表其内容质量,从而可以作为搜索引擎的选择“标题搜索结果”和进行结果显示排名的方法。本发明还涉及一种能够自动判断用户状态并提供恰当的网页风格与内容的方法。
文档编号G06F17/30GK102298621SQ20111022885
公开日2011年12月28日 申请日期2006年2月22日 优先权日2006年2月22日
发明者王东 申请人:王东