浏览器收藏夹整理方法和装置的制造方法_2

文档序号:9471369阅读:来源:国知局
接地址基本上都进行了整理,同时,用户对浏览器收藏夹中的目录名称命名较规范。
[0034] 上述普通用户是指对其浏览器收藏夹中的链接地址的维护使用不符合预定要求 的用户,如不经常使用其浏览器收藏夹的用户(即在预定长时间内没有使用浏览器收藏夹 的用户),再如对其浏览器收藏夹中的链接地址的整理程度不够的用户或者对其浏览器收 藏夹中的目录名称命名不太规范的用户。上述普通用户也可以称为非专家用户。
[0035] 在对多个用户进行了专家用户和非专家用户的区分的情况下,在设置待整理浏览 器收藏夹中的链接地址的向量的过程中,可以为专家用户的浏览器收藏夹的非根目录设置 较高的权重值,为非专家用户的浏览器收藏夹的非根目录设置较低的权重值,这样,为链接 地址设置的向量会更多的参考了专家用户的浏览器收藏夹的链接地址所属的非根目录标 识的设置方式。
[0036] 本实施例可以采用计算两个链接地址的特征向量之间的余弦距离的方式来计算 链接地址之间的相似度。一个具体的例子,将根目录下的每一个链接地址的特征向量都与 非根目录下的每一个链接地址的特征向量进行余弦距离的计算,这样,会得出根目录下的 每一个链接地址与非根目录下的每一个链接地址的特征向量之间的余弦距离值,然后,判 断根目录下的每一个链接地址分别对应的一个或者多个相似度是否达到预先设定的第一 距离阈值,如果达到第一距离阈值,则确定出两链接地址相似,因此,可以将余弦距离达到 第一距离阈值的根目录下的链接地址调整到相应的非根目录下;例如,根目录下的链接地 址A与一级目录A下的链接地址B之间的余弦距离达到第一距离阈值,则将链接地址A调 整到一级目录A下。
[0037] 需要特别说明的是,在根目录下的一个链接地址的特征向量与多个不同的非根目 录下的链接地址的特征向量之间的余弦距离均达到第一距离阈值的情况下,本实施例可以 根据各余弦距离超出第一距离阈值的情况来为根目录下的链接地址选取相应的目标非根 目录,然后,将根目录下的该链接地址调整到目标非根目录下;一个具体的例子:根目录下 的链接地址A的特征向量与非根目录a下的链接地址B的特征向量之间的余弦距离为余弦 距离a,根目录下的链接地址A的特征向量与非根目录b下的链接地址C的特征向量之间的 余弦距离为余弦距离b,且余弦距离a>余弦距离b>第一距离阈值,则本实施例可以将根目 录下的链接地址A调整到非根目录a下。
[0038] 从上述描述可知,本实施例是针对网络中多个用户对浏览器收藏夹中的链接地址 的整理经验进行综合分析,从而可以获得多个用户对链接地址整理的经验数据,并依据这 些经验数据来设置待整理的浏览器收藏夹中的各链接地址间的相似度,以将链接地址调整 到相应的非根目录中。另外,在设置链接地址的向量过程中,在参考普通用户的浏览器收藏 夹中的非根目录信息与链接地址之间的对应关系的情况下,以专家用户的浏览器收藏夹中 的非根目录信息与链接地址之间的对应关系为重要参考依据,以使链接地址的向量设置以 及两链接地址之间的相似度计算结果更加合理。
[0039] 在本实施例中,将根目录下的与非根目录下的链接地址相似的链接地址调整到相 应的非根目录下可以具体为:修改链接地址与目录结构信息之间的对应关系;如删除根目 录下的与非根目录下的链接地址相同或相似的链接地址的原对应关系,并增加一条新的对 应关系,且该新的对应关系为根目录下的与非根目录下的链接地址相似的链接地址与相应 的非根目录结构信息的对应关系;再如,将根目录下的与非根目录下的链接地址相似的链 接地址的原对应关系中的目录结构信息由根目录结构信息修改为相应的非根目录结构信 息。续前例,在将链接地址A调整到相应的非根目录下之前,链接地址A与根目录结构信息 之间存在对应关系,而在将链接地址A调整到相应的非根目录下之后,链接地址A与一级目 录A结构信息之间存在对应关系。
[0040] S120、在待整理浏览器收藏夹的当前根目录下包含有多个链接地址的情况下,根 据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识确定待整理浏览器收 藏夹的当前根目录下的各链接地址之间的相似度,并根据各链接地址之间的相似度对当前 根目录下的各链接地址进行聚类。
[0041] 具体的,本实施例在进行了上述步骤SllO的调整操作后,待整理浏览器收藏夹的 当前根目录存在下述三种可能性:
[0042] A、待整理浏览器收藏夹的当前根目录下不存在链接地址;
[0043] B、待整理浏览器收藏夹的当前根目录下仅存在一个链接地址;
[0044] C、待整理浏览器收藏夹的当前根目录下存在多个链接地址。
[0045] 如果待整理浏览器收藏夹的当前根目录处于上述A和B的状态,则不需要再执行 本步骤S120中的聚类操作,本次浏览器收藏夹整理方法结束或者进行后续的建立多级目 录结构过程;如果待整理浏览器收藏夹的当前根目录处于上述C的状态,则应执行本步骤 S120中的聚类操作,然后,到步骤S130。
[0046] 另外,在上述步骤SllO中,如果根据目录信息在确定出浏览器收藏夹没有包含有 非根目录的情况下,会直接跳转到本步骤S120,此时,待整理浏览器收藏夹的当前根目录仍 然会存在上述三种可能性。
[0047] 本实施例可以利用链接地址之间的相似度对待整理浏览器收藏夹的当前根目录 下的所有链接地址进行聚类,具体的,本实施例可以在采集到的多个用户的浏览器收藏夹 的非根目录下的链接地址及其目录标识的基础上,针对待整理浏览器收藏夹的当前根目录 下的任意两链接地址计算其相似度,这样,可以获得当前根目录下的任一链接地址与其他 所有链接地址的相似度,如果两链接地址之间的相似度超过一定的阈值,则将这两个链接 地址归属到同一类中。本实施例利用两链接地址之间的相似度可以将当前根目录下的所有 链接地址划分为至少一类。
[0048] 本实施例可以采用计算链接地址的特征向量之间的余弦距离的方式来计算链接 地址之间的相似度。一个具体的例子,将待整理浏览器收藏夹的当前根目录下的一个链接 地址的特征向量与当前根目录下的其他所有链接地址的特征向量分别进行余弦距离的计 算,这样,可以得出当前根目录下的该链接地址的特征向量与当前根目录下的其他所有链 接地址的特征向量之间的余弦距离值,然后,判断当前根目录下的该链接地址的特征向量 与其他一个或者多个链接地址的特征向量之间的余弦距离是否达到预先设定的第二距离 阈值,如果达到第二距离阈值,则确定出两链接地址相似,从而可以将余弦距离达到第二距 离阈值的当前根目录下的两链接地址划分为同一类;例如,设定当前根目录下包含有链接 地址A、链接地址B、链接地址C、链接地址D以及链接地址E,经过计算可知,链接地址A的 特征向量与链接地址B的特征向量和链接地址C的特征向量之间的余弦距离均达到第二距 离阈值,同时,链接地址A的特征向量与链接地址D的特征向量和链接地址E的特征向量之 间的余弦距离均没有达到第二距离阈值,而链接地址D的特征向量和链接地址E的特征向 量之间的余弦距离达到第二距离阈值,则本实施例可以将上述链接地址A、链接地址B以及 链接地址C划分为同一类,同时,还应将链接地址D和链接地址E划分为另一类。
[0049] 本步骤中的链接地址的特征向量的具体设置方式可以参见上述SllO中的描述, 在此不再重复说明。
[0050] S130、根据多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识为上 述聚类获得的每一类链接地址设置非根目录标识,并将每一类链接地址调整到非根目录标 识所表示的非根目录下。
[0051] 具体的,本实施例是根据预先采集到的网络中的多个用户(如全网用户)的浏览 器收藏夹中的链接地址所属的非根目录的实际情况来设置上述聚类后的链接地址所对应 的非根目录信息的;也就是说,本实施例通过针对多个用户对浏览器收藏夹中的链接地址 的整理经验进行综合分析,可以获得链接地址整理的经验数据,之后,再利用预先综合分析 获得的经验数据来设置上述聚类后的链接地址的非根目录标识。换句话说,本实施例是根 据网络中多个用户的浏览器收藏夹的历史收藏行为来为聚类后的链接地址设置非根目录 标识的。
[0052] 本步骤中的多个用户(如全网用户)的浏览器收藏夹中的链接地址所属的非根目 录的实际情况可以为滤除了噪音数据后的实际情况,也就是说,本步骤可以将过滤后获得 的多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识作为基础数据,进行后 续的统计计算,从而为聚类后的每一类链接地址设置非根目录标识;例如,针对聚类后的一 类链接地址而言,可以以多个用户的浏览器收藏夹的非根目录下的链接地址及其目录标识 作为基础数据统计该聚类中的各链接地址所属的非根目录标识的分布情况,然后,根据统 计出的各链接地址所属的非根目录标识的分布情况为该类链接地址设置非根目录标识。上 述分布情况可以为一个聚类中的各链接地址属于某一个非根目录的次数与各链接地址属 于所有各非根目录的次数的比例。
[0053] 在对多个用户进行了专家用户和非专家用户的区分的情况下,在统计该聚类中的 各链接地址所属的非根目录标识的分布情况的过程中,可以为专家用户的浏览器收藏夹的 非根目录设置较高的权重值,为非专家用户的浏览器收藏夹的非根目录设置较低的权重 值,这样,计算出的该类中各链接地址所属的非根目录标识的分布情况会更多的参考了专 家用户的浏览器收藏夹的非根目录的设置方式;例如,在计算一个聚类中的各链接地址属 于某一个非根目录的次数与各链接地址属于所有各非根目录的次数的比例的过程中,如果 一个链接地址属于一个非根目录出现在专家用户的浏览器收藏夹中,则该链接地址属于该 非根目录的比重会高与该链接地址属于一个非专家用户的浏览器收藏夹中的非根目录的 比重。
[0054] 从上述描述可知,本实施例是针对网络中多个用户对浏览器收藏夹中的链接地址 的整理经验进行综合分析,从而可以获得多个用户对链接地址整理的经验数据,并依据这 些经验数据来设置待整理浏览器收藏夹中的链接地址和非根目录之间的对应关系。另外, 在设置该对应关系过程中,可以参考普通用户的浏览器收藏夹中的非根目录信息与链接地 址之间的对应关系的情况下,以专家用户的浏览器收藏夹中的非根目录信息与链接地址之 间的对应关系为重要参考依据,以使待整理浏览器收藏夹中的链接地址和非根目录之间的 对应关系设置的更加合理。
[0055] 在经过上述整理后,待整理浏览器收藏夹中通常不会有直接设置在根目录下的链 接地址,所有链接地址基本上都设置在相应的非根目录中。在待整理浏览器收藏夹中的非 根目录数量较多等情况下,为了使待整理浏览器收藏夹中的非根目录更具有层次和条理, 可以对上述整理后的待整理浏览器收藏夹的非根目录建立多级目录结构。
[0056] 本实施例可以根据上述多个用户的浏览器收藏夹的非根目录的父子关系为上述 整理后的浏览器收藏夹的非根目录建立多级目录结构。考虑到用户在通常情况下较少使用 二级以上的目录等因素,因此,本实施例中的多级目录结构通常为二级目录结构。
[0057] 建立二级目录结构的情况下,本实施例可以以上述多个用户的浏览器收藏夹的非 根目录的父子关系为基础数据来统计整理后的用户的浏览器收藏夹的各非根目录的父目 录的分布情况,然后,根据获得的父目录的分布情况为用户的浏览器收藏夹中的具有相同 父目录的多个非根目录设置父目录标识,从而建立二级目录结构;例如,针对经过上述整理 后的浏览器收藏夹的具有相同父目录的多个非根目录,可以根据上述基础数据计算出多个 非根目录属于不同父目录的比重值,然后,根据比重值来为非根目录设置父目录。
[0058] 需要说明的是,在针对父目录下只有一个非根子目录的情况,本实施例是不需要 为该非根子目录设置父目录的,该非根子目录的父目录是根目录。也就是说,本实施例设置 的父目录是为多个非根子目录而设置的。另外,如果需要建立高于二级目录的多级目录结 构,则可以采用与上述描述相似的方法来实现,在此不再详细说明。
[0059] 实施例二、浏览器收藏夹整理方法。该浏览器收藏夹整理方法的示意图如图2所 /Jn〇
[0060] 图2中包括两部分内容,第一部分为数据整理部分,第二部分为待整理的用户的 浏览器收藏夹中的链接地址的整理部分。
[0061] 在第一部分的数据整理部分中,首先,采集多个用户的浏览器收藏夹的目录结构 信息与链接地址之间的对应关系,并从采集到的对应关系中识别出专家用户的目录结构信 息与链接地址之间的对应关系以及普通用户的目录结构信息与链接地址之间的对应关系。
[0062] 具体的,本实施例在接收到采集的各用户的浏览器传输来的浏览器收藏夹的目录 结构信息与链接地址之间的对应关系后,可以先选择优质用户数据,一个具体的例子,对接 收到的对应关系进行过滤处理,滤除用户的浏览器收藏夹中的噪音数据,以避免这些噪音 数据对后续综合分析的干扰,然后,再针对滤除了噪音数据后的对应关系进行专家用户的
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1