一种抽样分析方法、系统和设备的制作方法

文档序号:6480163阅读:212来源:国知局
专利名称:一种抽样分析方法、系统和设备的制作方法
技术领域
本申请涉及计算机网络技术领域,特别涉及一种抽样分析方法、系统和 设备。
背景技术
搜索引擎一般会记载用户的查询记录,对于大型搜索引擎,在一定时间 段内用户的查询记录是海量数据,而有很大比例的用户查询关键词是重复查 询,比如对于最近的热门事件,不同用户进行的查询是相近甚至相同的。搜
索引擎服务提供商为了提供更好的服务,会对用户的查询记录进行处理,而 一个基础的处理步骤就是将相同查询关键词进行合并,这样可以大量缩小数
据存储占用的内存或者^f兹盘空间。比如,最近有20oo个查询关^:词是"阿里
巴巴",那么经过合并后的数据形式是"阿里巴巴2000",其中"阿里巴巴" 代表用户查询关键词,2000代表该查询关键词在一段时期的Query Log (查询 日志)中出现的次数。但是对于这种已经初步经过整理的统计数据,如何进 行查询关键词抽样才能够使得其抽样数据接近于查询关4定词的真实分布就成 为一个需要解决的问题。
在现有4支术中,对于"查询关4建词PV (Page View,查询记录)"这种 格式的统计数据,首先要计算每个查询关键词在所有查询关键词中所占的比 例,其中PV代表查询关键词在搜索平台出现的次数的统计信息。比如说,对 于"阿里巴巴2000"这个查询数据,首先将查询关键词集合中的所有查询关 键词PV值之和统计出来,假设这个PV总值是100万,代表了所有用户查询关 键词数目是100万条,然后计算"阿里巴巴,,这个查询关键词在所有查询关键 词中的比例,可知这个比例为2000/1000000=0.0025,这个数据的含义是在 所有查询关键词中,"阿里巴巴"这个查询关键词被随机抽取到的概率是 0.0025。当所有查询关键词的抽取概率计算结果得到后,可以根据某个查询关键词的抽取概率在所有查询关键词组成的集合中进行查询关键词抽样,从而 获得相应查询关键词最终的抽样数据,通过对抽样数据的分析了解用户查询 关键词的分布情况。比如,在PV总值为100万的查询关键词集合中,预计抽取 1万条的查询记录作为查询关键词试样进行分析。具体查询关键词抽样过程如
下根据某个查询关键词的抽取概率确定该查询关键词的抽样数目,即[某 个查询关键词的抽样数目]=[预计抽样数目]* (该查询关键词的抽取概率),其 中,查询关键词的抽样数目和预计抽样数目均为正整数。比如,"阿里巴巴,, 这个查询关键词被随机抽到的概率是0.0025,则在"阿里巴巴2000"这个查 询记录中抽取10000*0.0025=25个"阿里巴巴"查询关4建词作为查询关4建词试 样;相同的,其他查询关键词被进行抽样分析的数目可以根据上述计算公式 得到;所有查询关键词的抽样数目之和为l万。相对于100万条查询记录来说, 对l万条抽样查询记录进行分析处理,数据分析师的工作量和运算步骤会大大 降低,提高了工作效率。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题 如果需要抽取的数据数目较大时,现有技术中的抽样分析方法能够在一
定程度上模拟真实的数据分布进行数据抽样,但是当需要抽取的数目是中等 或者小规模的情况,抽取结果会与数据真实分布有较大的失真。原因在于 在数据统计中,很多数据的统计分布都具有长尾的特性,所谓长尾,即出现 频率很低的实体或者数据个数非常多,具体在用户通过搜索引擎查询关键词 来说,就是很多用户查询的关键词只出现了很少的次数,比如某些查询的关 键词只出现了1次或者2次。虽然某个关键词出现概率很低,但是这些出现低 频的查询关键词总数在总的查询关键词个数中所占的比例却很大。对于这种 长尾分布的情况,如果采取上述现有技术中的抽样分析方法,会导致无法抽 取到低频查询关键词。比如某个应用的目标是需要抽取2000个查询关键词, 其中查询PV总数为100万,对于某个查询关键词,以"电子商务l"来说,其被 抽取到的概率仅为百万分之一 ,所以利用上述方法是抽取不到低频查询关键
同,从而无法根据搜索引擎中查询关键词的抽样分析准确了解用户需求信息和市场动态,也就不能很好的为用户提供方便、快捷的电子商务的网上交易 服务。

发明内容
本申请实施例提供一种抽样分析方法、系统和设备,用于对大规模搜索 引擎查询的数据分析,以实现在使用尽可能少的存储空间的情况下得到真实 的数据抽样,准确了解用户需求信息和市场动态,提高服务质量。
为达到上述目的,本申请实施例一方面提供了一种抽样分析方法,用于
对大规模搜索引擎查询的数据分析,包括以下步骤
根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查 询关键词子集;
计算所述查询关4定词子集的抽样数目;
根据所述抽样数目在所述查询关键词子集中抽取查询数据。
本申请实施例另一方面提供了一种抽样分析设备,用于对大规模搜索引 擎查询的数据分析,包括
划分模块,用于根据不同查询关键词的查询记录PV值将查询关键词划分 为至少 一个查询关4建词子集;
计算模块,用于计算通过所述划分模块划分的所述查询关键词子集的抽 样数目;
抽样模块,用于根据所述计算模块得到的抽样数目在所述划分模块划分 的所述查询关键词子集中抽取查询数据。
另一方面,本申请实施例还提供了一种抽样分析系统,用于对大规模搜 索引擎查询的数据分析,包括
搜索平台,用于为用户查询提供搜索服务,记录不同查询关键词的PV值;
抽样分析设备,用于根据所述搜索平台记录的不同查询关键词的PV值将 查询关键词划分为至少一个查询关键词子集,计算所述查询关键词子集的抽 样数目,根据所述抽样数目在所述查询关键词子集中抽取查询数据。
与现有技术相比,本申请实施例具有以下优点可以从海量的并且经过初步统计整理的查询关键词集合中随机抽取出所需的查询记录,既可以减少 后续计算所需的存储量,又能够解决现有抽样分析方法中小概率低频查询关 键词被低估的风险,有效地达到了随机抽取查询记录的目的,使得中等规模
或者小规模的抽样可以更逼近于数据的真实分布;搜索引擎服务提供商可以 根据抽样数据建立完善的数学模型,获取真实有效的数据分布信息,准确了 解用户需求和市场动态,适当调整搜索引擎的服务内容,从而更好的为用户 提供方便、快捷的电子商务网上交易平台,提高服务质量。


为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申 请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前 提下,还可以根据这些附图获得其他的附图。
图l是本申请实施例一中一种抽样分析方法流程图2是本申请实施例二中两阶段抽样分析方法流程图3是本申请实施例二中第一阶段抽样方法流程图4是本申请实施例二中第二阶段抽样方法流程图5是本申请实施例三中一种抽样分析系统结构示意图6是本申请实施例三中抽样分析设备结构示意图。
具体实施例方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例, 而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有 做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例一提供了一种抽样分析方法,用于对大规;漠搜索引擎查询 的数据分析,具体包括以下步骤步骤SlOl,根据不同查询关键词的PV值将查询关键词划分为至少一个
查询关键词子集。
其中,PV值具体为在一个预设的时间,爻内,至少一个查询关4建词在搜索
平台上出现的次数。在进行抽样分析前,首先对搜索平台在一个时间段内记
录的所有用户查询关键词的PV值进行存储,对这些不同查询关键词的PV值
进行排序,排序方式可以按照从小到大,也可以按照从大到小,然后将所述
PV值相同的查询关4建词归为 一个查询关键词子集。
步骤S102,计算所述查询关键词子集中查询关键词的抽样数目。 在对所有的查询关键词组成的集合进行查询关键词抽样前,首先要根据 应用需要确定抽样分析查询关键词的数目。具体的,先计算每个查询关键词 子集中PV值的总和SPV (SetPageView, —批查询记录)值,SPV指的是某 个查询关4A词子集的总PV数目;然后,将每个查询关4建词子集得到的SPV 值计算总和,得到查询关键词集合中所述查询记录的总次数TPV (Total Page View)值,即在一个预设的时间段内,所有用户查询关键词在搜索平台上出 现的总次数;根据得到的所述SPV值与所述TPV值的比值就可以计算得出所 述查询关键词子集被抽取到的概率。然后,根据预先确定的需要抽取的查询 关键词数目和每个查询关键词子集的抽取概率计算某个查询关键词子集的抽 样数目。
步骤S103,根据所述查询关键词的抽样数目在所述查询关键词子集中抽 取查询关4建词的查询凄t据。
通过随机采样法在查询关键词子集中抽取查询数据,其中随机采样法包 括抽签法和/或随机数法。采用随机抽取的查询关键词的查询数据,可以分析 在一段时间内用户搜索的不同查询关键词的分布情况,从而可以了解用户的 需求信息。
通过本申请实施例,可以从海量的并且经过初步统计整理的查询关4建词 集合中随机抽取出所需的查询数据,既可以减少后续计算所需的存储量,又 能够解决很多方法中小概率低频查询被低估的风险,有效地达到了随机抽取 查询记录的目的,使得中等规模或者小规模的抽样可以更逼近于数据的真实分布,从而为搜索引擎服务提供商提供准确的用户需求信息和市场动态,提 高服务质量。
对很多搜索引擎服务提供商来说,需要提供一个"目前网友正在搜索什 么,,的功能,目的是要实时输出网友向搜索引擎发出的查询请求。尤其对于 大型搜索引擎来说,很多用户都会利用其进行搜索查询,而且每个用户在该 搜索平台上一般会搜索多个查询关键词,因此,即使在很短的一段时间内, 搜索引擎所记录的用户查询都是海量数据,比如一天接受到上亿条搜索请求。 在记录的用户查询关4建词中,有^f艮大比例的用户查询的关4建词是重复的查询, 也就是说,不同用户发出的查询关键词是相近甚至是相同的,比如对于最近 的热门事件,可能会有成百上千万的用户在很短的一个时间段内集中发出同 一个查询请求查询该事件。搜索引擎服务提供商需要在一定的时间段内,对 海量的用户查询请求进行处理,以便为用户提供更好的服务,其中一个基础 的处理步骤就是将相同的用户查询关键词合并,这样,可以大大缩小数据存 储所占用的内存或者磁盘空间。为了了解用户需求,为用户提供更好、更便 利的服务,需要对一段时间内的用户查询关键词进行抽样分析和调查。当然,
确定抽样的查询关键词数目相对于总的所有用户查询关4A词来说,其比例是 很小的。如果直接对整理后的查询记录进行抽样分析的话,那些在该段时间 内查询频率较高的、大规模的用户查询关键词被抽到的概率就比较高,而那 些低频的、小规模的用户查询关键词被抽到的概率就非常低,因此不能达到 最初的抽样的目的。另外,由于网页显示空间有限,不可能把所有网友实时 的查询关键词都显示出来,所以只能通过对查询关键词进行抽样,建立小规 模查询记录的数学模型来显示,而为了能够准确反映用户的查询需求,要求 这种抽样和海量的用户查询的关键词分布是真实逼近的。
本申请实施例二针对带有部分统计信息的大规模搜索引擎查询的真实抽 样问题,提供了另一种抽样分析方法,采用两阶段的抽样方法,来解决现有 技术中存在的问题,使得其抽样数据接近于查询的真实分布。整体方法的流
程如图2所示。如果对某个查询应用已经确定需要抽取的查询数目M,在本申 请的第一阶段,首先根据每个搜索引擎查询关键词的PV值将查询关键词归类,并计算每个类别的抽取概率,由此可以计算得到从每个类别中抽取到的查询
关键词的数目;在本申请的第二阶^a,可以在查询关4定词组成的某个类别里 面采用随机抽样的方法抽取最终的查询数据。
在下面的实施例中,对第 一 阶段和第二阶段的抽样方法的流程作进一 步 详细描述。其中,在第一阶段计算每个查询关键词子集的抽样数目,其方法
流程如图3所示,包括以下步骤
步骤S301、将以"查询关键词PV,,格式存储的搜索引擎查询关键词集 合按照PV数值进行排序。排序可以是PV值由大到小的方式,也可以是PV 值由小到大的方式,其排序方式不影响后续步骤的冲喿作。例如,々i设在一个 时间段内,搜索引擎记录的所有用户查询关键词总数目TPV为IO万条,其中, 查询"阿里巴巴,,关键词的记录有2000条,存储为"阿里巴巴2000";查询
"电子商务"的记录有1800条,存储为"电子商务1800";查询"电脑"的 记录有500条,存储为"电脑500";查询"服饰"的记录500条,存储为"服 饰500";……;另外还有"水杯"查询60条,"铅笔"查询60条,"便奚本" 查询60条,等等,均按照上述的储存格式进行存储。然后,将上述查询集合 按照从小到大的顺序排列,即"水杯60","铅笔60","便笺本60",……,
"电脑500","服饰500","电子商务1800","阿里巴巴2000",……。 步骤S302、将PV值相同的查询关键词进行归并。
对于PV值相同的查询关键词,可以将所有这些查询关4定词看做一个查询 关键词集合的子集QuerySet,属于QuerySet集合的这些查询的共通属性是 每个查询关键词的PV值都相同;这样,可以根据不同的PV值得到不同的 QuerySet,假设PV值是从1到K ( K为大于1的自然数),那么可以据此得
到查询关键词子集合QuerySetl, QuerySet2, ......, QuerySetK。当然,在具
体情况下,对于不同的用户查询,搜索引擎在一个时间段内统计的每个查询 关键词的PV值也可能是不连续的。将步骤S301中PV值相同的查询关键词 进行合并,可以顺序得到多个查询关键词子集合,如QuerySet60, QuerySet500, QuerySet1800, QuerySet2000,等等。
步骤S303、计算每个查询关键词子集合的抽取概率。对于PV值为i的查询组成的查询关4定词子集合QuerySetI,统计计算得 到这个查询关键词子集合的总PV数目,即SPV值= / * , 其中,I代表PV值为I, |^^0^"/|代表这个查询关键词子集合的大小,也就 是说,有多少个PV值为i的查询关键词属于这个子集合,即对于步骤S302 中的查询关键词子集合QuerySet60来说,假设其中有30个"查询关4走词60" 的查询记录,Igweo;5W60l等于30,代表这个查询关键词子集合中有30个不 同的查询,则SPV值为60*30=1800。对于满足长尾分布的数据来说, 一般 PV数值越小,其组成的查询关键词子集合包含的查询关键词个数越多,所以 虽然对于单个查询关键词来说PV值很小,但是SPV作为统计信息其值并不 因单个查询关键词的PV值小而受影响。例如,对于"水杯60"查询数据来 说,其PV值相对于所有查询总和TPV值IO万,甚至相对于"阿里巴巴2000" 的PV值2000来说是很小的一个数字,但是,该"水杯60"查询数据所在的 查询关键词子集合QuerySet60,其SPV值为1800,与"阿里巴巴2000"所 在的查询关4建词子集合的SPV值2000 (假设只有1个"阿里巴巴2000"的 查询记录)非常4妄近。
为了计算每个查询关键词子集合的抽取概率,将所有查询关键词子集合 的SPV数目求和,得到所有查询关键词的PV总数,称之为TPV;有了 TPV, 就可以计算抽样过程中每个查询关键词子集合被抽取到的概率,例如对于PV 值为i的查询关4定词子集合来说,其被抽取到的概率为f =5PG/7Pr 。
经过如上步骤,每个查询关键词子集合都可以计算得到该集合被抽取到 的概率f。这个概率对于本抽样方法是很重要的,因为对于很多低频出现的 查询关键词来说,低频查询本身被抽取到的概率非常小。但是,对于由相同 PV值组成的查询关键词子集合来说,往往低频查询的关键词的个数会很多, 所以由低频查询关键词组成的查询关键词子集合SPV数目还是较大的,如此 一来,这些低频查询关^l建词作为一个整体被抽样,其被抽取到的概率就被有 效放大,使得最终抽样得出的数据更加符合数据的真实分布。如查询关键 词子集合QuerySet60被抽取到的概率为尸6。 =1800/100000 = 0.018 ,而 QuerySet2000净皮抽取到的概率为P2。。。 = 2000/100000 = 0.020 ,从得出的数据结果可以看出,查询关4建词子集合QuerySet60与QuerySet2000分别被抽取到的
概率是非常接近的。
在本申请的第一阶段,假设具体某个应用已经确定了抽样数目K,那么
可以根据每个查询关键词子集合被抽取到的概率计算应从本集合中抽取的查 询数目,比如确定K为5000,而PV=60的子集合抽取概率为0.018,那么需 要从QuerySet60中抽取的查询个数为5000*0.018=90个;假设PV:2的集合 抽取概率为0.010,那么需要从QuerySet2中抽取的查询个数为5000*0.010=50个。
在抽样的第二阶段,从每个查询关键词子集中抽取最终的查询关键词。 通过在第一阶段对不同的查询数据进行归类和统计,确定了从某个查询关4定 词子集合中需要抽取出的查询数目,第二阶段就从某个指定查询关键词子集 合中随机抽取某条查询关键词,其流程如图4所示。由于在第一阶段已经能 够确定在某个查询关键词子集合中需要抽取的查询数目N (N为自然数),所 以在第二阶段进行抽样查询时,需要对某个查询关键词子集合连续抽样N次, 每次从该查询关键词子集中随机抽取一条查询记录,直到取满N条为止。例 如,对于查询关键词子集合QuerySet60,在第一阶段步骤S303中,已经根据 该集合被抽取到的概率计算得出在该查询子集合中需要抽取的查询数目为90 条,因此,在进行最后查询关键词抽样时,要从该查询关键词子集合中连续 随机抽样90次,得到90条查询记录。
在某个查询关^^建词子集合抽取任意一条搜索引擎查询记录的时候,由于 在第一阶段对所有查询关键词归类时所遵循的原则是相同PV值的查询关键 词归为一类。因此,对于该查询关键词子集合中的每个查询关键词来说,其 被某次抽样抽取到的概率应该是等概率事件,即每个查询关键词被抽取到的 概率是相同的。例如,在查询关键词子集合QuerySet60中进行抽样时,抽取 到的90条记录中,可能包括"水杯,,查询记录2条,"铅笔"查询记录3条, 等等。这样,对低频查询进行抽样时,所得的抽样结果就可以逼近于数据的 真实分布,达到最初进行抽样分析的目的。
在本阶段对某个查询关键词子集合进行抽样,可以采用常用的随机采样方法,比如抽签法或者随机数法进行抽样。在本实施例中,采用随机数方法 对这个查询关键词子集合中的查询关键词进行抽样,其具体计算流程如算法1所示。
算法1:采用随机数法从查询子集中抽取任意一条查询记录
输入查询关4A词子集QuerySet
输出查询记录L
计算流程步骤1计算得到QeurySet集合的大小M;
步骤2顺序扫描QeurySet的每条查询记录,并依次编号,编号范围l-M;
步骤3产生一个随^i数K,其范围为l-M;
步骤4从QuerySet中找到编号为K的查询记录L;
步骤5丰叙出查询i己录L。
通过本申请实施例,采用两阶段抽样分析方法,从海量的并且经过初步 统计整理的搜索引擎查询关键词集合中随机抽取出所需的查询,抽样结果逼 近真实数据分布情况。釆用这种抽样方式,既可以通过保留并利用初步统计
数据,以减少后续计算所需的存储量,又能够解决很多方法中小概率低频查
询被低估的风险,有效地达到了随机抽取进行抽样分析的目标;根据抽样数 据获知的信息,搜索引擎服务提供商可以准确了解用户需求和市场动态,从 中发现一些商业机会,适当调整搜索引擎的服务内容,从而更好的为用户提 供方便、快捷的电子商务网上交易平台,提高服务质量。
本申请实施例三提供了 一种抽样分析系统,用于对大规模搜索引擎查询 的数据分析,其结构如图5所示,包括
搜索平台1,用于为用户查询提供搜索服务,记录不同查询关键词的PV
值;
抽样分析设备2,用于根据所述搜索平台1记录的不同查询关键词的PV值 将查询关键词集合划分为至少一个查询关键词子集,计算所述查询关键词子 集的抽样数目,根据所述抽样数目在所述查询关键词子集中抽取查询数据。
其中,抽样分析设备2的结构如图6所示,包括划分模块21,用于根据不同查询关键词的查询记录PV值将查询关键词 划分为至少 一个查询关^fc词子集;
计算模块22,用于计算通过划分模块21划分的所述查询关4定词子集的抽 样数目;
抽样模块23,用于根据计算模块22得到的抽样数目在划分模块21划分的 所述查询关键词子集中抽取查询数据。
另外,该抽样分析设备2还可以包括存储模块24,用于存储所述PV 值,所述PV值具体为在一个预设的时间段内,至少一个查询关键词出现的次数。
其中,
划分模块21还可以进一 步包括
排序子模块211,用于对存储模块24存储的所述不同查询关键词的PV 值进行排序;
归类子模块212,用于根据排序子模块211安排的顺序将所述PV值相同 的查询关键词归为 一个查询关4建词子集。 计算模块22还可以进一步包括
概率计算子模块221,用于计算所述查询关键词子集的抽取概率; 抽样计算子模块222,用于根据确定抽取的查询数目和概率计算子模块 221得到的抽取概率计算所述查询关键词子集的抽样数目。
通过本申请实施例提供的抽样分析系统和设备,可以从海量的并且经过
初步统计整理的查询关4建词集合中随机抽取出所需的查询数据,既可以减少 后续计算所需的存储量,又能够解决很多方法中小概率低频查询关键词被低 估的风险,有效地达到了随机抽取查询记录的目的,使得中等规模或者小规 模的抽样可以更逼近于数据的真实分布,从而为搜索引擎服务提供商提供准 确的用户需求信息和市场动态,提高服务质量。
为了描述的方便,以上所述系统的各部分以功能分为各种模块或设备分 别描述。当然,在实施本发明时可以把各模块或设备的功能在同一个或多个 软件或硬件中实现。上述模块可以分布于一个装置,也可以分布于多个装置。上述模块可以 合并为一个模块,也可以进一步拆分成多个子模块。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的 模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述 进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一 个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆 分成多个子模块。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申 请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。 基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软
件产品可以存储在一个非易失性存储介质(可以是CD-ROM, U盘,移动硬盘 等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务 器,或者网络设备等)执行本申请各个实施例所述的方法。
以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此, 任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
权利要求
1、一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,其特征在于,包括根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集;计算所述查询关键词子集的抽样数目;根据所述抽样数目在所述查询关键词子集中抽取查询数据。
2、 如权利要求1所述抽样分析方法,其特征在于,在所述根据不同查询关键词的查询记录PV值将查询关键词划分为至少 一个查询关键词子集之前,还包括存储所述PV值,所述PV值具体为在一个预设的时间段内,查询关键词在搜索平台出现的次数。
3、 如权利要求1所述抽样分析方法,其特征在于,所述根据不同查询关键词的PV值将查询关键词划分为至少一个查询关键词子集,包括对所述PV值进行排序;将所述PV值相同的查询关4建词归为 一个查询关#:词子集。
4、 如权利要求3所述抽样分析方法,其特征在于,所述对所述PV值进行排序,包括对所述PV值按照从小到大方式排序;或,对所述PV值按照从大到小方式排序。
5、 如权利要求1所述抽样分析方法,其特征在于,在所述计算所述查询关键词子集的抽样数目之前,还包括确定该次抽样分析所要抽取的查询关键词数目。
6、 如权利要求5所述抽样分析方法,其特征在于,所述计算所述查询关键词子集的抽样数目包括计算所述查询关键词子集的抽取概率;根据所述确定抽取的查询数目和所述抽取概率计算所述查询关键词子集的抽样数目。
7、 如权利要求6所述抽样分析方法,其特征在于,所述计算所述查询关 键词子集的抽取概率,包括计算所述查询关键词子集中所述PV值的总和SPV值;根据所述SPV值得到所述查询关键词集合中所述查询记录的总次数TPV值;根据所述SPV值与所述TPV值的比值获得所述查询关键词子集的抽取概率。
8、 如权利要求1所述抽样分析方法,其特征在于,所述根据所述抽样数 目在所述查询关键词子集中抽取查询数据通过随机采样法获得。
9、 如权利要求8所述抽样分析方法,其特征在于,所述随机采样法包括 抽签法和/或随机数法。
10、 一种抽样分析设备,用于对大规模搜索引擎查询的数据分析,其特 征在于,包括划分模块,用于根据不同查询关键词的查询记录PV值将查询关键词划分 为至少 一个查询关^t建词子集;计算模块,用于计算通过所述划分模块划分的所述查询关键词子集的抽 样数目;抽样模块,用于根据所述计算模块得到的抽样数目在所述划分模块划分 的所述查询关键词子集中抽取查询数据。
11、 如权利要求10所述抽样分析设备,其特征在于,还包括 存储模块,用于存储所述不同查询关键词的PV值,所述PV值具体为在一个预设的时间段内,至少一个查询关键词出现的次数。
12、 如权利要求IO所述抽样分析设备,其特征在于,所述划分模块包括 排序子模块,用于对所述存储模块存储的所述不同查询关键词的PV值进行排序;归类子模块,用于根据所述排序子模块安排的顺序将所述PV值相同的查 询关键词归为 一个查询关键词子集。
13、 如权利要求IO所述抽样分析设备,其特征在于,所述计算模块包括概率计算子模块,用于计算所述查询关键词子集的抽取概率;抽样计算子模块,用于根据确定抽取的查询数目和所述概率计算子模块得到的抽取概率计算所述查询关键词子集的抽样数目。
14、 一种抽样分析系统,用于对大规模搜索引擎查询的数据分析,其特征在于,包括搜索平台,用于为用户查询提供搜索服务,记录不同查询关4建词的PV值;抽样分析设备,用于根据所述搜索平台记录的不同查询关键词的PV值将查询关键词划分为至少一个查询关键词子集,计算所述查询关键词子集的抽样数目,根据所述抽样数目在所述查询关4建词子集中抽取查询数据。
全文摘要
本申请公开了一种抽样分析方法,用于对大规模搜索引擎查询的数据分析,该方法包括根据不同查询关键词的查询记录PV值将查询关键词划分为至少一个查询关键词子集;计算所述查询关键词子集的抽样数目;根据所述抽样数目在所述查询关键词子集中抽取查询数据。通过本申请的实施例,可以从海量的并且经过初步统计整理的查询关键词集合中随机抽取出所需的查询数据,既可以减少后续计算所需的存储量,又能够解决很多方法中小概率低频查询被低估的风险,有效地达到了随机抽取查询记录的目的,使得中等规模或者小规模的抽样可以更逼近于数据的真实分布,从而为搜索引擎服务提供商提供准确的用户查询需求和市场动态信息,提高服务质量。
文档编号G06F17/30GK101477542SQ20091000111
公开日2009年7月8日 申请日期2009年1月22日 优先权日2009年1月22日
发明者磊 侯, 健 孙, 勤 张, 张俊林 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1