一种文档索引的建立方法和装置制造方法

文档序号:6639726阅读:192来源:国知局
一种文档索引的建立方法和装置制造方法
【专利摘要】本发明实施例提供了一种文档索引的建立方法和装置,所述方法包括:提取网页中的文本信息;判断所述文本信息中是否具有通讯特征信息;若是,则提取所述通讯特征信息;采用所述通讯特征信息和所述网页建立文档索引。本发明实施例将具有与该电话号码匹配的通讯特征信息的网页优先展示,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。
【专利说明】一种文档索引的建立方法和装置

【技术领域】
[0001]本发明涉及搜索【技术领域】,特别是涉及一种文档索引的建立方法和一种文档索引的建立装置。

【背景技术】
[0002]随着网络的迅速发展,网络上的信息急剧增加。用户为了在海量的信息中寻找所需的信息,通常使用搜索引擎进行搜索。
[0003]搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。
[0004]但是,如图1所示,用户在搜索常用电话号码(如2223256)时,搜索引擎仍按通用算法给出结果。由于标题和链接的权重较高,排在前面的结果往往在标题或链接中出现查询词,而这些结果有时并非用户所需,准确率低。用户在未搜索到所需的信息时,通常在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,操作麻烦,搜索引擎和本地系统的资源消耗大,带宽消耗大,搜索效率低。


【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文档索引的建立方法和相应的一种文档索引的建立装置。
[0006]依据本发明的一个方面,提供了一种文档索引的建立方法,包括:
[0007]提取网页中的文本信息;
[0008]判断所述文本信息中是否具有通讯特征信息;若是,则提取所述通讯特征信息;
[0009]采用所述通讯特征信息和所述网页建立文档索引。
[0010]可选地,所述网页包括页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域;
[0011]所述提取网页中的文本信息的步骤包括:
[0012]提取网页中页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域的文本信息。
[0013]可选地,所述通讯特征信息包括指定位数的电话号码;
[0014]所述判断所述文本信息中是否具有通讯特征信息的步骤包括:
[0015]对所述文本信息进行分词处理,获得一个或多个文本分词;
[0016]当所述文本分词与预设的通讯标识匹配时,判断第一目标文本分词是否为指定位数的数字序列;所述第一目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词;
[0017]若是,则判断所述第一目标文本分词为指定位数的电话号码。
[0018]可选地,所述通讯特征信息还包括电话区号;
[0019]所述判断所述文本信息中是否具有通讯特征信息的步骤还包括:
[0020]判断第二目标文本分词中是否具有区号标识;若是,则判断所述目标文本分词对应的文本分词为电话区号;所述第二目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词。
[0021]可选地,所述判断所述目标文本分词对应的文本分词为区号信息的步骤包括:
[0022]判断所述目标文本分词包含的文本分词为电话区号;
[0023]或者,
[0024]判断在所述目标文本分词之前的文本分词为电话区号。
[0025]可选地,所述指定位数为7位或8位。
[0026]可选地,所述采用所述通讯特征信息和所述网页建立文档索引的步骤包括:
[0027]记录出现的所述通讯特征信息在所述网页中出现的位置;
[0028]将所述通讯特征信息及所述出现的位置记录在文档索引中。
[0029]根据本发明的另一方面,提供了一种文档索引的建立装置,包括:
[0030]第一提取模块,适于提取网页中的文本信息;
[0031]判断模块,适于判断所述文本信息中是否具有通讯特征信息;若是,则调用第二提取丰吴块;
[0032]第二提取模块,适于提取所述通讯特征信息;
[0033]建立模块,适于采用所述通讯特征信息和所述网页建立文档索引。
[0034]可选地,所述网页包括页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域;
[0035]所述第一提取模块还适于:
[0036]提取网页中页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域的文本信息。
[0037]可选地,所述通讯特征信息包括指定位数的电话号码;所述判断模块还适于:
[0038]对所述文本信息进行分词处理,获得一个或多个文本分词;
[0039]当所述文本分词与预设的通讯标识匹配时,判断第一目标文本分词是否为指定位数的数字序列;所述第一目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词;
[0040]若是,则判断所述第一目标文本分词为指定位数的电话号码。
[0041]可选地,所述通讯特征信息还包括电话区号;所述判断模块还适于:
[0042]判断第二目标文本分词中是否具有区号标识;若是,则判断所述目标文本分词对应的文本分词为电话区号;所述第二目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词。
[0043]可选地,所述判断模块还适于:
[0044]判断所述目标文本分词包含的文本分词为电话区号;
[0045]或者,
[0046]判断在所述目标文本分词之前的文本分词为电话区号。
[0047]13、如权利要求10或11或12所述的装置,其特征在于,所述指定位数为7位或8位。
[0048]可选地,所述建立模块还适于:
[0049]记录出现的所述通讯特征信息在所述网页中出现的位置;
[0050]将所述通讯特征信息及所述出现的位置记录在文档索引中。
[0051 ] 本发明实施例在网页中的文本信息中具有通讯特征信息时,采用通讯特征信息和网页建立文档索引,通过标记通讯特征信息,以支持后续其他用户在搜索电话号码时,将具有与该电话号码匹配的通讯特征信息的网页优先展示,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。
[0052]本发明实施例中将通讯特征信息及出现的位置记录在文档索引中,可以在搜索结果项中的网页摘要信息获取到电话号码及其归属的信息,减少用户点击搜索结果的频次,减少网页服务器、当前电子设备的资源以及带宽的消耗。
[0053]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。

【专利附图】

【附图说明】
[0054]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0055]图1示出了一种搜索结果示例图;
[0056]图2示出了根据本发明一个实施例的一种文档索引的建立方法实施例的步骤流程图;
[0057]图3示出了根据本发明一个实施例的一种搜索结果示例图;
[0058]图4示出了根据本发明一个实施例的一种搜索的方法实施例1的步骤流程图;
[0059]图5示出了根据本发明一个实施例的一种搜索的方法实施例2方法实施例的步骤流程图;
[0060]图6不出了根据本发明一个实施例的一种搜索结果不例图;
[0061]图7示出了根据本发明一个实施例的一种文档索引的建立装置实施例的结构框图;以及
[0062]图8示出了根据本发明一个实施例的一种搜索的装置实施例的结构框图。

【具体实施方式】
[0063]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0064]参照图2,示出了根据本发明一个实施例的一种文档索引的建立方法实施例的步骤流程图,具体可以包括如下步骤:
[0065]步骤201,提取网页中的文本信息;
[0066]搜索引擎的处理流程一般可以分为二个部分,第一部分是前端用户请求,第二部分是后端制作数据。
[0067]一、前端用户请求处理过程可以包括:
[0068]1.用户输入关键字;
[0069]2.查询词分析,搜索引擎对关键字分词;
[0070]3.检索,根据分词结果,从事先制作的文档索引中,找出相关的网页集合;
[0071]4.排序,对候选的网页集合,根据内容相关性、时效性等维度进行排序;
[0072]5.展现:将排序后的网页进行展现。
[0073]二、后端制作数据过程可以包括:
[0074]1.网页抓取,爬虫通过网页间的链接关系,抓取互联网的网页并保存;
[0075]2.索引制作,对已抓取保存的网页进行分析,对网页标题和页面文本分词,根据分词结果制作文档索引,供前端检索使用。
[0076]爬虫抓取的网页可以保存在网页数据库中形成大量的搜索资源,而网页内容中可以包括大量的文本信息。则在本发明实施例中,可以从网页数据库中提取网页中的文本信息。
[0077]在本发明实施例的一种可选示例中,所述网页包括页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域;则在本发明实施例中,步骤201可以包括如下子步骤:
[0078]子步骤S11,提取网页中页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域的文本信息。
[0079]不同性质和类别的网站,网页的内容安排一般是不同的。但是一般的网页的基本内容包括标题、页眉、页脚、主体内容、功能区、导航区广告栏等。这些元素在网页的位置安排,就是网页的整体布局。
[0080]每个网页的最顶端都有一条信息,这条信息往往出现在浏览器的标题栏,而非网页中,但是这条信息也是网页布局中的一部分。这条信息是对这个网页中主要内容的提示,即标题。
[0081]LOGO是网站所有者对外宣传自身形象的工具。
[0082]网页的上端即是这个页面的页眉。页眉并不是在所有的网页中都有,其往往在一个页面中相当重要的位置,容易引起浏览者的注意,所以很多网站都会在页眉中设置宣传本网站的内容,如网站宗旨、网站LOGO等。
[0083]主体内容是网页中的最重要的元素。主体内容并不完整,往往由下一级内容的标题、内容提要、内容摘编的超链接构成。主体内容借助超链接,可以利用一个页面,高度概括几个页面所表达的内容,而首页的主体内容甚至能在一个页面中高度概括整个网站的内容。
[0084]网页的最底端部分被称为页脚,页脚部分通常被用来介绍网站所有者的具体信息和联络方式,如名称、地址、联系方式、版权信息等。其中一些内容被做成标题式的超链接,引导浏览者进一步了解详细的内容。
[0085]功能区是网站主要功能的集中表现。一般位于网页的右上方或右侧边栏。功能区包括:电子邮件、信息发布、用户名注册、登陆网站等内容。有些网站使用了 IP定位功能,定位浏览者所在地,然后可在功能区显示当地的天气、新闻等个性化信息。
[0086]导航区可以通过一定的技术手段,为网站的访问者提供一定的途径,时期可以方便地访问所需的内容,导航区一般分为4种位置,分别是左侧、右侧、顶部和底部。一般网站使用的导航区都是单一的,也可以多导航,如采用了左侧导航与底部导航相结合的方式。但是无论采用几个导航区,网站中的每个页面的导航区位置均是固定的。
[0087]广告区是网站实现赢利或自我展示的区域。一般位于网页的页眉、右侧和底部。广告区内容以文字、图像、Flash动画为主。通过吸引浏览者点击链接的方式达成广告效果。广告区设置要达到明显、合理、引人注目,这对整个网站的布局很重要。
[0088]需要说明的是,页脚在一般的文档索引中不会被收录,但是,由于页脚部分通常被用来介绍网站所有者的具体信息和联络方式,在用户搜索电话号码的情景中的地位较为重要,因此,本发明实施例中可以收录页脚部分。
[0089]步骤202,判断所述文本信息中是否具有通讯特征信息;若是,则执行步骤203 ;
[0090]通讯特征信息,可以为表征用于通信的信息。
[0091]在本发明的一种可选实施例中,所述通讯特征信息可以包括指定位数的电话号码;
[0092]电话号码是一连串数字的组合,一组号码对应一个电话线,如要拨打至另一方,可以拨对方的对应号码组合。在电话号码刚开始使用时,号码较短,大约只有两三个数字,也只能拨打给附近的电话用户,逐渐地,电话系统越趋发达,涵盖范围达全球,电话号码也相对增长。电话号码除了连接电话,也可连接电脑及传真机。电话管理部门为电话机设定的号码。一般7或8位数组成的(手机号码为11位),早期有过5或6位的情况。
[0093]则在本发明实施例中,步骤202可以包括如下子步骤:
[0094]子步骤S21,对所述文本信息进行分词处理,获得一个或多个文本分词;
[0095]下面介绍一些常用的分词方法:
[0096]1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词
[0097]2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
[0098]3、基于理解的分词方法:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
[0099]4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字Χ、γ的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法对语料中的字组频度进行统计,不需要切分词典。
[0100]子步骤S22,当所述文本分词与预设的通讯标识匹配时,判断第一目标文本分词是否为指定位数的数字序列;若是,则执行子步骤S23 ;
[0101]通讯标识,可以为标识电话号码的信息,例如,“请联系”、“电话”、“手机”、“Tel”、“Mobile” 等等。
[0102]其中,所述第一目标文本分词可以为与所述通讯标识匹配的文本分词之后的文本分词,例如,若文本分词“电话”与通讯标识匹配,则文本分词“电话”后的文本分词可以为第一目标文本分词。
[0103]子步骤S23,判断所述第一目标文本分词为指定位数的电话号码。
[0104]在本发明实施例中,在第一目标文本分词为指定位数的数字时,可以判断该指定位数的数字为指定位数的电话号码。
[0105]例如,若文本分词“电话”后的第一目标文本分词为“ 2223256 ”,由于“ 2223256 ”为7位的数字序列,则可以判断“2223256”为7位的电话号码。
[0106]在本发明的一种可选实施例中,所述通讯特征信息还可以包括电话区号;电话区号是指各行政区域常用电话区划号码,这些号码主要用于国内、国际长途电话接入。比如,中国大陆国际区号86,成都区号28。而在使用国内长途电话时,区号前要加拨O。
[0107]则在本发明实施例中,步骤202可以包括如下子步骤:
[0108]子步骤S24,判断第二目标文本分词中是否具有区号标识;若是,则执行子步骤S25 ;
[0109]区号标识,可以为标识电话区号的信息,例如,“(010)2223256”中的“O”为区号标识、“ 010-2223256 ”中的“”为区号标识等等。
[0110]其中,所述第二目标文本分词可以为与所述通讯标识匹配的文本分词之后的文本分词,例如,若文本分词“电话”与通讯标识匹配,则文本分词“电话”后的文本分词可以为第二目标文本分词。
[0111]子步骤S25,判断所述目标文本分词对应的文本分词为电话区号;
[0112]在本发明实施例中,在目标文本分词与通讯标识匹配时,可以判断该目标文本分词对应的为文本分词的电话号码。
[0113]在本发明实施例的一种可选示例中,子步骤S25可以包括如下子步骤:
[0114]子步骤S251,判断所述目标文本分词包含的文本分词为电话区号;
[0115]例如,“(010) 2223256”中的“ O ”为区号标识,则文本分词“010”可以为电话区号。
[0116]或者,
[0117]子步骤S252,判断在所述目标文本分词之前的文本分词为电话区号。
[0118]例如,“ 010-2223256 ”中的“”为区号标识,,则文本分词“ 010 ”可以为电话区号。
[0119]步骤204,提取所述通讯特征信息;
[0120]在本发明实施例中,若判断网页中的文本信息中具有通讯特征信息,则可以提取该通讯特征信息,例如指定位数的电话号码、电话区号等等,以建立文档索引。
[0121]步骤205,采用所述通讯特征信息和所述网页建立文档索引。
[0122]在具体实现中,文档索引可以包括倒排索引、正排索引等等,而文档索引可以由索引表和主文件两部分构成。
[0123]索引表可以是一张指示逻辑记录和物理记录之间对应关系的表。索引表中的每项称作索引项。索引项是按键(或逻辑记录号)顺序排列。
[0124]在本发明的一种可选实施例中,步骤205可以包括如下子步骤:
[0125]子步骤S31,记录出现的所述通讯特征信息在所述网页中出现的位置;
[0126]子步骤S32,将所述通讯特征信息及所述出现的位置记录在文档索引中。
[0127]本发明实施例中,可以将出现的位置记录写入倒排索引中,以在搜索结果项中作为网页摘要信息进行展示。
[0128]在很多情景中,用户搜索电话号码,需要获取的信息大多是确定这个是电话号码以及这个电话号码的归属,如公司、店铺等等。若用户在搜索结果项中的摘要信息获取到电话号码及其归属的信息,往往无需点击该搜索结果项进行详细的查询。
[0129]本发明实施例中将通讯特征信息及出现的位置记录在文档索引中,可以在搜索结果项中的网页摘要信息获取到电话号码及其归属的信息,减少用户点击搜索结果的频次,减少网页服务器、当前电子设备的资源以及带宽的消耗。
[0130]倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件称为倒排索引文件,简称倒排文件(inverted file)。
[0131]倒排文件(倒排索引),索引对象是文档或者文档集合(例如网页)中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种常用的索引机制。
[0132]在具体实现中,通讯特征信息的出现位置可以包括出现的网页、出现的网页及其在该网页中的位置。
[0133]以英文为例,以下为要被索引的网页中的文本信息:
[0134]Tl = "it is what it is";
[0135]T2 = "what is it";
[0136]? = 〃it is a banana";
[0137]以下为倒排索引:
[0138]"a": {(2,2)}
[0139]"banana": {(2, 3)}
[0140]〃is": {(0,I), (0, 4), (I, I), (2,I)}
[0141]〃it": {(0,0),(0, 3), (1,2), (2,0)}
[0142]"what": {(0,2),(1,0)}
[0143]其中,〃banana〃: {(2,3)}为〃banana〃在第三个网页(T3)的文本信息里,而且在第三个网页的位置是第四个单词(地址为3)。
[0144]一般的页面分析不对特别的点(如电话号码、电话区号)做标识,有可能主要针对标题或站长给出的关键字等重点部分做文档索引,在文档索引中可能会被忽略很多东西,用户有查询电话号码的需求时,返回不了用户所需的结果。
[0145]此外,银行、网上商城等各大商业机构,一般会设置5位的电话号码、400开头的电话号码,而这些电话号码,通常会被该商业机构通过竞价的方式优先提升到搜索结果的首页进行展示。
[0146]而7位或8位的电话号码为一般为小公司、小店铺等小型机构的电话号码,通常无力支付竞价所需的费用,一般设置低于标题、网址等的重要性,在搜索结果中通常被埋藏在很深的位置,甚至无法搜索到。
[0147]本发明实施例在网页中的文本信息中具有通讯特征信息时,采用通讯特征信息和网页建立文档索引,通过标记通讯特征信息,形象地可称为建立大范围内(如全国)的电话簿,以支持后续其他用户在搜索电话号码时,将具有与该电话号码匹配的通讯特征信息的网页优先展示,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。
[0148]参照图3,示出了根据本发明一个实施例的一种搜索方法实施例1的步骤流程图,具体可以包括如下步骤:
[0149]步骤301,接收用户的搜索关键词;
[0150]在具体实现中,用户可以从任何一种电子设备访问搜索引擎,例如手机、PDA (Personal Digital Assistant,个人数字助理)、膝上型计算机、掌上电脑等等,本发明实施例对此不加以限制。
[0151]这些电子设备可以支持包括Android (安卓)、1S、WindowsPhone或者windows等的操作系统,通常可以运行通过互联网访问网页的浏览器或内置微型浏览器的应用程序。
[0152]在本发明实施例的一种可选示例中,用户可以在浏览器或内置微型浏览器的应用程序中打开搜索引擎所在的网页,在该网页中通常会包括搜索框,用户可以在该搜索框中输入搜索关键词。
[0153]在本发明实施例的另一种可选示例中,浏览器或内置微型浏览器的应用程序中可以安装有搜索插件(plug-1ns,可以通过与搜索引擎进行交互,在浏览器或内置微型浏览器的应用程序中增加搜索功能),该搜索插件可以提供搜索框,用户可以在该搜索框中输入搜索关键词。
[0154]浏览器或内置微型浏览器的应用程序在用户输入的搜索关键词时,可以将其组装成搜索请求,向搜索引擎发送搜索请求,以请求搜索引擎搜索与该搜索关键词相关的信息。
[0155]在实际应用中,该搜索请求可以为HTTP (Hypertext transfer protocol,超文本传输协议)请求。其中,搜索请求的内容可以包括用户请求加载的网页的标识和/或网页的特征。网页标识可以是能够代表一个唯一确定的网页的信息,例如统一资源标识符(Uniform Resource Identifier, URI),统一资源标识符又具体可以包括统一资源定位符(Uniform Resource Locator,URL),或者统一资源名称(Uniform Resource Name, URN)等等。
[0156]浏览器或内置微型浏览器的应用程序可以通过DNS (Domain Name System,域名解析系统)解析查找该网页URL中的域名(Domain Name)所映射的IP(Internet Protocol,网络之间互连的协议)地址。在获取IP地址成功之后,浏览器或内置微型浏览器的应用程序可以向该IP地址所在的搜索引擎请求连接。在成功连接该IP地址所在的搜索引擎之后,浏览器或内置微型浏览器的应用程序可以将请求头信息通过HTTP协议向此IP地址所在的搜索引擎发起搜索请求。
[0157]搜索引擎接收到搜索请求,则可以从该搜索请求中提取搜索关键词,则可以根据该搜索关键词在文档索引中快速检出搜索结果,在该搜索结果中可以包括一个或多个搜索结果项。
[0158]步骤302,识别所述搜索关键词中的一个或多个搜索信息;
[0159]在本发明实施例中,可以通过分词处理等手段识别所述搜索关键词中的一个或多个搜索信息。
[0160]例如,若搜索关键词为“ 2223256 ”,则该搜索关键词包括一个搜索信息“ 2223256 ” ;若搜索关键词为“电话2223256”,则该搜索关键词包括搜索信息“电话”、“2223256”。
[0161]步骤303,当所述搜索信息包括指定位数的数字序列时,提高搜索结果中具有与所述指定位数的数字序列匹配的通讯特征信息的搜索结果项的权重。
[0162]在实际应用中,用户搜索指定位数(如7位或8位)的数字序列,则其查询目的可能为查询电话号码。
[0163]在搜索结果项中的通讯特征信息(如电话号码)与该指定位数(如7位或8位)的数字序列匹配时,可以提高该搜索结果项的权重,以提高该搜索结果项在搜索结果中的展示顺序。
[0164]例如,如图4所示,若用户搜索“2223256”,可以将包含电话“2223256”的搜索结果项的展示位置提升至搜索结果的前几项,方便用户快捷查询。
[0165]本发明实施例对于接收到的搜索关键词,识别其中的一个或多个搜索信息,在搜索信息包括指定位数的数字序列时,提高搜索结果中具有与指定位数的数字序列匹配的通讯特征信息的搜索结果项的权重,将具有与电话号码匹配的通讯特征信息的网页优先展示,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。
[0166]参照图5,示出了根据本发明一个实施例的一种搜索方法实施例2的步骤流程图,具体可以包括如下步骤:
[0167]步骤501,建立文档索引;
[0168]在本发明的一种可选实施例中,步骤501可以包括如下子步骤:
[0169]子步骤S41,提取网页中的文本信息;
[0170]在本发明实施例的一种可选示例中,所述网页可以包括页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域,则在本示例中,子步骤S41可以包括如下子步骤:
[0171]子步骤S411,提取网页中页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域的文本信息。
[0172]子步骤S42,判断所述文本信息中是否具有通讯特征信息;若是,则执行子步骤S43 ;
[0173]在本发明的一种可选实施例中,所述通讯特征信息可以包括指定位数的电话号码,所述指定位数可以为7位或8位。则在本发明实施例中,子步骤S42可以包括如下子步骤:
[0174]子步骤S421,对所述文本信息进行分词处理,获得一个或多个文本分词;
[0175]子步骤S422,当所述文本分词与预设的通讯标识匹配时,判断第一目标文本分词是否为指定位数的数字序列;若是,则执行子步骤S423 ;
[0176]所述第一目标文本分词可以为与所述通讯标识匹配的文本分词之后的文本分词;
[0177]子步骤S423,判断所述第一目标文本分词为指定位数的电话号码。
[0178]在本发明的一种可选实施例中,所述通讯特征信息还可以包括电话区号;则在本发明实施例中,子步骤S42还可以包括如下子步骤:
[0179]子步骤S424,判断第二目标文本分词中是否具有区号标识;若是,则执行子步骤S425 ;
[0180]所述第二目标文本分词可以为与所述通讯标识匹配的文本分词之后的文本分词;
[0181]子步骤S425,判断所述目标文本分词对应的文本分词为电话区号。
[0182]在本发明实施例的一种可选示例中,子步骤S425可以包括如下子步骤:
[0183]子步骤S4251,判断所述目标文本分词包含的文本分词为电话区号;
[0184]或者,
[0185]子步骤S4252,判断在所述目标文本分词之前的文本分词为电话区号。
[0186]子步骤S43,提取所述通讯特征信息;
[0187]子步骤S44,采用所述通讯特征信息和所述网页建立文档索引。
[0188]在本发明的一种可选实施例中,子步骤S44可以包括如下子步骤:
[0189]子步骤S441,记录出现的所述通讯特征信息在所述网页中出现的位置;
[0190]子步骤S442,将所述通讯特征信息及所述出现的位置记录在文档索引中。
[0191]在本发明实施例中,由于步骤501与方法实施例1的应用基本相似,所以描述的比较简单,相关之处参见方法实施例1的部分说明即可,本发明实施例在此不加以详述。
[0192]步骤502,接收用户的搜索关键词;
[0193]步骤503,识别所述搜索关键词中的一个或多个搜索信息;
[0194]步骤504,当所述搜索信息包括指定位数的数字序列时,提高搜索结果中具有与所述指定位数的数字序列匹配的通讯特征信息的搜索结果项的权重。
[0195]步骤505,当所述搜索信息包括通讯标识时,提高具有与所述通讯标识匹配的通讯特征信息的搜索结果项的权重;
[0196]在具体实现中,用户搜索与通讯特征词匹配的通讯标识,则其查询目的可能为查询电话号码,则可以提高包含该通讯特征词的搜索结果项的权重,以进一步提高该搜索结果项在搜索结果中的展示顺序。
[0197]本发明实施例当搜索信息包括通讯标识时,提高具有与通讯标识匹配的通讯特征信息的搜索结果项的权重,进一步提高了搜索的准确率。
[0198]步骤506,获取当前所在位置的电话区号;
[0199]在本发明实施例中,可以获取用户当前所在的位置,再查询该位置对应的电话区号。
[0200]若用户通过手机等移动设备提交搜索关键词时,可以定位当前的经玮度,通过逆地理编码等方式识别该经玮度所在的位置。
[0201]若用户通过电脑等固定设备提交搜索关键词时,可以查询当前的IP地址(Internet Protocol Address,又译为网际协议地址),再识别该IP地址所在的位置。
[0202]步骤507,当所述电话区号与所述通讯特征信息匹配时,提高具有所述通讯特征信息的搜索结果的权重。
[0203]在具体实现中,用户当前所在位置的区号与通讯特征词(如电话区号)匹配,则可以提高包含该通讯特征词(如电话区号)的搜索结果项的权重,以进一步提高该搜索结果项在搜索结果中的展示顺序。
[0204]本发明实施例在当前位置的电话区号与通讯特征信息匹配时,提高具有该通讯特征信息的搜索结果的权重,进一步提高了搜索的准确率。
[0205]在实际应用中,所述搜索结果项可以包括网页摘要信息,所述网页摘要信息可以包括所述通讯特征信息(如电话号码、电话区号)在网页中出现的位置对应的网页信息。
[0206]例如,如图6所示,若用户搜索“电话2223256”,可以将包含电话“电话”(通讯标识)、“2223256” (指定位数的数字序列)的搜索结果项的展示位置提升至搜索结果的前几项,方便用户快捷查询。
[0207]本发明实施例中将通讯特征信息及出现的位置制作网页摘要信息,可以在搜索结果项中的摘要信息获取到电话号码及其归属的信息,减少用户点击搜索结果的频次,减少网页服务器、当前电子设备的资源以及带宽的消耗。
[0208]步骤508,按照所述权重对所述一个或多个搜索结果项进行顺序排序;
[0209]本发明实施例中,可以按照权重对一个或多个搜索结果项进行顺序排序,权重越高的搜索结果项,排序越在前,权重越低的搜索结果项,排序越在后。
[0210]步骤509,将顺序排序后的搜索结果返回客户端进行展示。
[0211]在HTTP协议下,浏览器或内置微型浏览器的应用程序可以从搜索引擎所在的服务器接收到HTML (Hypertext Markup Language,超文本标记语言)类型的文档。
[0212]浏览器或内置微型浏览器的应用程序可以解析HTML文档,生成树状结构的对象,即DOM(Document Object Model,文件对象模型),每个对象是DOM上的一个结点,而这些对象可以代表文字、图片等网页资源。浏览器或内置微型浏览器的应用程序可以开始显示此HTML文档,并获取其中内嵌的网页资源的地址,然后浏览器再向服务器发起请求来获取这些网页资源,并在浏览器或内置微型浏览器的应用程序的HTML文档中显示搜索结果。
[0213]对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0214]参照图7,示出了根据本发明一个实施例的一种文档索引的建立装置实施例的结构框图,具体可以包括如下模块:
[0215]第一提取模块701,适于提取网页中的文本信息;
[0216]判断模块702,适于判断所述文本信息中是否具有通讯特征信息;若是,则调用第二提取模块703 ;
[0217]第二提取模块703,适于提取所述通讯特征信息;
[0218]建立模块704,适于采用所述通讯特征信息和所述网页建立文档索引。
[0219]在本发明实施例的一种可选示例中,所述网页可以包括页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域;
[0220]所述第一提取模块701还可以适于:
[0221]提取网页中页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域的文本信息。
[0222]在本发明的一种可选实施例中,所述通讯特征信息可以包括指定位数的电话号码;所述判断模块702还可以适于:
[0223]对所述文本信息进行分词处理,获得一个或多个文本分词;
[0224]当所述文本分词与预设的通讯标识匹配时,判断第一目标文本分词是否为指定位数的数字序列;所述第一目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词;
[0225]若是,则判断所述第一目标文本分词为指定位数的电话号码。
[0226]在本发明的一种可选实施例中,所述通讯特征信息还可以包括电话区号;所述判断模块702还可以适于:
[0227]判断第二目标文本分词中是否具有区号标识;若是,则判断所述目标文本分词对应的文本分词为电话区号;所述第二目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词。
[0228]在本发明实施例的一种可选示例中,所述判断模块702还可以适于:
[0229]判断所述目标文本分词包含的文本分词为电话区号;
[0230]或者,
[0231]判断在所述目标文本分词之前的文本分词为电话区号。
[0232]在本发明实施例的一种可选示例中,所述指定位数可以为7位或8位。
[0233]在本发明的一种可选实施例中,所述建立模块704还可以适于:
[0234]记录出现的所述通讯特征信息在所述网页中出现的位置;
[0235]将所述通讯特征信息及所述出现的位置记录在文档索引中。
[0236]参照图8,示出了根据本发明一个实施例的一种搜索的装置实施例的结构框图,具体可以包括如下模块:
[0237]接收模块801,适于接收用户的搜索关键词;
[0238]识别模块802,适于识别所述搜索关键词中的一个或多个搜索信息;
[0239]第一提高模块803,适于在所述搜索信息包括指定位数的数字序列时,提高搜索结果中具有与所述指定位数的数字序列匹配的通讯特征信息的搜索结果项的权重。
[0240]在本发明的一种可选实施例中,所述装置还可以包括如下模块:
[0241]第二提高模块,适于在所述搜索信息包括通讯标识时,提高具有与所述通讯标识匹配的通讯特征信息的搜索结果项的权重。
[0242]在本发明的一种可选实施例中,所述装置还可以包括如下模块:
[0243]获取模块,适于获取当前所在位置的电话区号;
[0244]第三提高模块,适于在所述电话区号与所述通讯特征信息匹配时,提高具有所述通讯特征信息的搜索结果的权重。
[0245]在本发明的一种可选实施例中,所述装置还可以包括如下模块:
[0246]排序模块,适于按照所述权重对所述一个或多个搜索结果项进行顺序排序;
[0247]返回模块,适于将顺序排序后的搜索结果返回客户端进行展示。
[0248]在本发明的一种可选实施例中,所述搜索结果项可以包括网页摘要信息,所述网页摘要信息可以包括所述通讯特征信息在网页中出现的位置对应的网页信息。
[0249]在本发明的一种可选实施例中,所述装置还可以包括如下模块:
[0250]文档索引建立模块,适于建立文档索引。
[0251]在本发明的一种可选实施例中,所述文档索引建立模块还可以适于:
[0252]提取网页中的文本信息;
[0253]判断所述文本信息中是否具有通讯特征信息;若是,则提取所述通讯特征信息;
[0254]采用所述通讯特征信息和所述网页建立文档索引。
[0255]在本发明实施例的一种可选示例中,所述网页可以包括页面标题、网页标识、页眉、页脚、导航、主体内容中的至少一个区域;
[0256]所述文档索引建立模块还可以适于:
[0257]提取网页中页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域的文本信息。
[0258]在本发明的一种可选实施例中,所述通讯特征信息可以包括指定位数的电话号码;所述文档索引建立模块还可以适于:
[0259]对所述文本信息进行分词处理,获得一个或多个文本分词;
[0260]当所述文本分词与预设的通讯标识匹配时,判断第一目标文本分词是否为指定位数的数字序列;所述第一目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词;
[0261]若是,则判断所述第一目标文本分词为指定位数的电话号码。
[0262]在本发明的一种可选实施例中,所述通讯特征信息还可以包括电话区号;所述文档索引建立模块还可以适于:
[0263]判断第二目标文本分词中是否具有区号标识;若是,则判断所述目标文本分词对应的文本分词为电话区号;所述第二目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词。
[0264]在本发明实施例的一种可选示例中,所述文档索引建立模块还可以适于:
[0265]判断所述目标文本分词包含的文本分词为电话区号;
[0266]或者,
[0267]判断在所述目标文本分词之前的文本分词为电话区号。
[0268]在本发明实施例的一种可选示例中,所述指定位数可以为7位或8位。
[0269]在本发明的一种可选实施例中,所述文档索引建立模块还可以适于:
[0270]记录出现的所述通讯特征信息在所述网页中出现的位置;
[0271]将所述通讯特征信息及所述出现的位置记录在文档索引中。
[0272]对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0273]在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0274]在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0275]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0276]本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0277]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0278]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的文档索引的建立设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0279]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
【权利要求】
1.一种文档索引的建立方法,包括: 提取网页中的文本信息; 判断所述文本信息中是否具有通讯特征信息;若是,则提取所述通讯特征信息; 采用所述通讯特征信息和所述网页建立文档索引。
2.如权利要求1所述的方法,其特征在于,所述网页包括页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域; 所述提取网页中的文本信息的步骤包括: 提取网页中页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域的文本信息。
3.如权利要求1-2任一项所述的方法,其特征在于,所述通讯特征信息包括指定位数的电话号码; 所述判断所述文本信息中是否具有通讯特征信息的步骤包括: 对所述文本信息进行分词处理,获得一个或多个文本分词; 当所述文本分词与预设的通讯标识匹配时,判断第一目标文本分词是否为指定位数的数字序列;所述第一目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词;若是,则判断所述第一目标文本分词为指定位数的电话号码。
4.如权利要求1-3任一项所述的方法,其特征在于,所述通讯特征信息还包括电话区号; 所述判断所述文本信息中是否具有通讯特征信息的步骤还包括: 判断第二目标文本分词中是否具有区号标识;若是,则判断所述目标文本分词对应的文本分词为电话区号;所述第二目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词。
5.如权利要去1-4任一项所述的方法,其特征在于,所述判断所述目标文本分词对应的文本分词为区号信息的步骤包括: 判断所述目标文本分词包含的文本分词为电话区号; 或者, 判断在所述目标文本分词之前的文本分词为电话区号。
6.如权利要求1-5任一项所述的方法,其特征在于,所述指定位数为7位或8位。
7.如权利要求1-6任一项所述的方法,其特征在于,所述采用所述通讯特征信息和所述网页建立文档索引的步骤包括: 记录出现的所述通讯特征信息在所述网页中出现的位置; 将所述通讯特征信息及所述出现的位置记录在文档索引中。
8.一种文档索引的建立装置,包括: 第一提取模块,适于提取网页中的文本信息; 判断模块,适于判断所述文本信息中是否具有通讯特征信息;若是,则调用第二提取模块; 第二提取模块,适于提取所述通讯特征信息; 建立模块,适于采用所述通讯特征信息和所述网页建立文档索引。
9.如权利要求8所述的装置,其特征在于,所述网页包括页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域; 所述第一提取模块还适于: 提取网页中页面标题、页眉、页脚、主体内容、功能区、导航区中的至少一个区域的文本信息。
10.如权利要求8-9任一项所述的装置,其特征在于,所述通讯特征信息包括指定位数的电话号码;所述判断模块还适于: 对所述文本信息进行分词处理,获得一个或多个文本分词; 当所述文本分词与预设的通讯标识匹配时,判断第一目标文本分词是否为指定位数的数字序列;所述第一目标文本分词为与所述通讯标识匹配的文本分词之后的文本分词;若是,则判断所述第一目标文本分词为指定位数的电话号码。
【文档编号】G06F17/30GK104504069SQ201410806931
【公开日】2015年4月8日 申请日期:2014年12月22日 优先权日:2014年12月22日
【发明者】王翀, 陈进平 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1