专利名称:一种对文本进行分发的方法和装置的制作方法
一种对文本进行分发的方法和装置
技术领域:
本发明涉及互联网技术领域,特别涉及一种对文本进行分发的方法和装置。背景技术:
随着互联网在全球的普及,以及互联网应用的不断发展,网页上的文本信息呈爆 炸式增长,如何充分有效地利用网页上的文本信息,以及如何有效地组织这些文本信息并 提供给用户,已经渐渐成为数据挖掘领域中一个重要的研究方向且具有很高的行业价值。 目前,文本分类已经被应用到许多领域中,例如各栏目的新闻页面召回、分发电子邮件、生 成用户兴趣模式等等。文本分类就是将大量文本分发至不同的栏目下,其中栏目可以属于不同的分类, 也可以属于同一分类下的不同子类。现有文本的分发方式基于训练样本,即设置一个人工 分类处理过的文档集合,按照该训练样本进行训练来实现对文本的分发。但是,这种基于训 练样本的方式存在以下缺陷其一、训练样本的建立需要进行语料收集、训练模型建立等阶段,需要很大的工作 量,尤其是语料收集需要大量的专业领域的人工标注,造成文本分发的工作量和代价过大。其二、训练时长过长,训练样本的建立通常会带来周级别的分发时长。另外,由于训练样本是与栏目架构对应的,一旦栏目架构发生变化,就需要重新确 定训练样本,而训练样本是非常难以获取的且耗时很长,会更进一步带来文本分发的代价 过大、分发时长过长,不能够灵活地增减栏目。
发明内容本发明提供了一种对文本进行分发的方法和装置,以能够减小文本分发的代价, 缩短分发时长,以方便栏目的灵活增减。具体技术方案如下一种对文本进行分发的方法,应用于包含至少两级栏目的栏目框架,该方法包 括A、针对抓取的各文本分别执行下述分发步骤分发步骤将当前待分发文本的关键词与各栏目的中心向量进行相似度匹配,根 据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所述栏目的中心 向量基于预先为该栏目设置的种子词生成;B、按照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父 栏目或下一级子栏目。其中,栏目的所述分发匹配策略至少包括所述待分发文本的关键词与栏目的中 心向量之间的相似度超过针对该栏目设置的相似度阈值;或者,所述待分发文本的关键词与栏目的中心向量之间的相似度减去所述待分发文本 的关键词与同一栏目的反向向量之间的相似度后的结果超过针对该栏目设置的相似度阈值,其中所述栏目的反向向量基于预先为该栏目设置的反向词生成。较优地,所述步骤B具体包括以下方式中的一种或任意组合按照所述步骤A的方式被分发文本的栏目均为子栏目,将按照所述步骤A的方式 被分发文本的各子栏目下的所有文本或者排序在前附个的文本汇总至上一级父栏目,其 中附为预设的正整数;或者,按照所述步骤A的方式被分发文本的栏目均为父栏目,将按照所述步骤A的方式 被分发文本的父栏目下的所有文本分发至下一级子栏目;或者,按照所述步骤A的方式被分发文本的栏目包括父栏目和子栏目,将按照所述步骤 A的方式被分发文本的父栏目下的部分文本分发至未被分发文本的下一级子栏目。更进一步地,所述栏目可以包括具有展示文本属性的普通栏目以及具有不展示 文本属性的隐藏栏目。较优地,该方法进一步包括从设置了种子词的栏目下提取被分发文本的关键词, 将提取的关键词结合该栏目的种子词以形成该栏目新的中心向量。更进一步地,在所述步骤B之后,针对各栏目分别执行以下步骤C1、对栏目下的文本进行聚类,形成该栏目下一个以上的簇;C2、按照预设的头条选取策略,在各簇中分别选取头条文本作为各簇的表示。在所述步骤C2后还包括依据文本属性计算栏目下各文本的权重,利用簇内各文本的权重确定簇的权重, 依据簇的权重对栏目下的各簇进行排序;或者,按照预设的焦点文本选取策略,从各栏目下的文本中分别选取焦点文本并在各栏 目下展示。其中,所述头条选取策略包括以下策略中的一种或任意组合选取文本发布时间 在设定范围内的文本、选取标题满足设定要求的文本、选取与簇中心向量相似度在设定范 围内的文本、选取文本质量满足预设要求的文本。具体地,各文本的权重Wpage的计算公式为
(X
Wpase = --x 5{site) x (p(segcount).
s At + a其中,a为预设的反比衰减时间因子,At为文本发布时间距当前的时间差, 6 (site)为文本质量因子的计算函数, (segcount)为转载率因子的计算函数。一种对文本进行分发的装置,应用于包含至少两级栏目的栏目框架,该装置包括 文本获取单元、第一分发单元和第二分发单元;所述文本获取单元,用于将抓取的各文本分别作为待分发文本送至所述第一分发 单元;所述第一分发单元,用于将当前待分发文本的关键词与各栏目的中心向量进行相 似度匹配,根据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所 述栏目的中心向量基于预先为该栏目设置的种子词生成;所述第二分发单元,用于待所述第一分发单元完成对所有待分发文本的分发后, 按照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父栏目或下一 级子栏目。
其中,栏目的所述分发匹配策略至少包括所述待分发文本的关键词与栏目的中 心向量之间的相似度超过针对该栏目设置的相似度阈值;或者,所述待分发文本的关键词与栏目的中心向量之间的相似度减去所述待分发文本 的关键词与同一栏目的反向向量之间的相似度后的结果超过针对该栏目设置的相似度阈 值,其中所述栏目的反向向量基于预先为该栏目设置的反向词生成。所述第一分发单元分发的栏目均为子栏目,此时所述第二分发单元将所述第一分 发单元分发的各子栏目下的所有文本或排序在前m个的文本汇总至上一级父栏目,其中 N1为预设的正整数;或者,所述第一分发单元分发的栏目均为父栏目,此时所述第二分发单元将所述第一分 发单元分发的各子栏目下的所有文本分发至下一级子栏目;或者,所述第一分发单元分发的栏目包括父栏目和子栏目,此时所述第二分发单元将所 述第一分发单元分发的父栏目下的部分文本分发至未被分发文本的下一级子栏目。具体地,所述栏目包括具有展示文本属性的普通栏目以及具有不展示文本属性 的隐藏栏目。较优地,该装置还包括关键词提取单元,用于从设置了种子词的栏目下提取被分 发文本的关键词,将提取的关键词结合该栏目的种子词以形成该栏目新的中心向量并提供 给所述第一分发单元。更进一步地,该装置还包括文本聚类单元和头条选取单元;所述文本聚类单元,用于根据所述第一分发单元和所述第二分发单元的分发结 果,对栏目下的文本进行聚类,形成各栏目下一个以上的簇;所述头条选取单元,用于按照预设的头条选取策略,在各簇中分别选取头条文本 作为各簇的表示。较优地,该装置还包括簇排序单元或者焦点选取单元中的一种或全部;所述簇排序单元,用于依据文本属性计算栏目下各文本的权重,利用簇内各文本 的权重确定簇的权重,依据簇的权重对栏目下的各簇进行排序;所述焦点选取单元,用于根据所述第一分发单元和所述第二分法单元的分发结 果,按照预设的焦点文本选取策略,从各栏目下的文本中分别选取焦点文本并在各栏目下 展不。其中,所述头条选取策略包括以下策略中的一种或任意组合选取文本发布时间 在设定范围内的文本、选取标题满足设定要求的文本、选取与簇中心向量相似度在设定范 围内的文本、选取文本质量满足预设要求的文本。具体地,各文本的权重Wpage的计算公式为
(X
W = -X S(site) X <p{segcount).
At + a其中,a为预设的反比衰减时间因子,At为文本发布时间距当前的时间差, 6 (site)为文本质量因子的计算函数, (segcount)为转载率因子的计算函数。由以上技术方案可以看出,本发明采用基于栏目种子词生成的中心向量分发文本 给栏目并结合层级间的文本分发,将文本分发的时长控制在秒级,大大提高了文本分类的 效率。另外,采用本发明的方法和装置避免了复杂的训练样本建立过程,并且一旦栏目架构发生变化,仅需要针对增加的栏目设定合适的种子词和层级间的文本分发规则,针对删除 的栏目修改层级间的文本分发规则即可,显然相比较现有技术中需要重新确定训练样本的 方式,能够减小文本分发的代价,更加灵活地增减栏目。
图1为本发明提供的主要方法流程图;图2为本发明实施例一提供的各栏目的新闻分发流程图;图3a为本发明实施例一提供的第一种新闻页面分发方式;图3b为本发明实施例一提供的第二种新闻页面分发方式;图3c为本发明实施例一提供的第三种新闻页面分发方式;图4为本发明实施例一提供的采用混合新闻页面分发方式的示意图;图5为本发明实施例二提供的形成新闻簇的流程图;图6为本发明提供的装置结构示意图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。图1为本发明提供的主要方法流程图,如图1所示,可以主要包括以下步骤步骤101 针对抓取的各文本分别执行下述分发步骤分发步骤将当前待分发文本的关键词与各栏目的中心向量进行相似度匹配,根 据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中上述栏目的中心 向量基于预先为该栏目设置的种子词生成。在本步骤中,栏目的分发匹配策略可以灵活设置,至少包括待分发文本的关键词 与栏目的中心向量之间的相似度超过针对该栏目设置的相似度阈值。除此之外,栏目的分 发匹配策略还可以进一步包括但不限于以下策略中的一种或任意组合待分发文本的关键 词与栏目的中心向量之间的相似度最高,或者,待分发文本的站点来源符合栏目的站点要 求,或者,待分发文本的作者符合栏目的作者要求,或者,待分发文本符合栏目对于图片或 视频的要求,或者,待分发文本的标题正则表达式符合栏目对于标题正则表达式的要求,或 者,待分发文本的统一资源定位符(URL)类型符合栏目的URL类型要求。步骤102 按照各栏目之间的层级关系,将设定栏目下新闻的全部或部分分发至 上一级父栏目或下一级子栏目,以完成对栏目框架中各栏目的文本分发。在栏目框架中可以预先设定某些栏目在利用步骤101的方式或者其他现有方式 被分发文本后,将本栏目下的文本分发至上一级父栏目或下一级子栏目中。通过本步骤可 以对没有设置种子词的栏目分发新闻,该部分内容将在实施例一中进行详细描述。下面通过具体的实施例对本发明提供的上述方法进行描述,在下述的实施例中均 采用对新闻页面这种文本进行分发为例。首先采用实施例一对各栏目的新闻页面分发流程 进行详细描述。实施例一、图2为本发明实施例一提供的各栏目的新闻分发流程图,如图2所示,可以具体包括以下步骤步骤201 预先为栏目架构中的栏目设置种子词,并为设置了种子词的栏目形成 中心向量。在栏目架构中,种子词通常由人工设置,设置种子词的栏目可以是根栏目,也可以 是子栏目。针对一个栏目可以设置一个或多个种子词构成一组种子词。由于人工设置的种子词有限,不能穷举该栏目所有可能的关键词,因此单纯依赖 人工设置的种子词的中心向量可能导致部分新闻页面无法召回(召回指的是新闻页面被 分发至某个栏目下),因此,较优地,可以在栏目下被召回部分新闻页面时,利用被召回的新 闻页面提取关键词,并利用关键词结合该栏目的种子词形成该栏目新的中心向量,从而使 得形成的中心向量更准确地描述该栏目的内容导向,提高栏目召回的新闻的准确率和召回 率。对应下述步骤206,利用被召回新闻页面提取关键词的循环次数可以依据经验值设置, 例如设置为循环3次。步骤202 对抓取到的各新闻页面逐一执行步骤203至步骤204。搜索引擎抓取到批量的新闻页面后,可以将抓取的新闻页面逐一进行分发。较优地,在抓取到新闻页面后,可以首先对抓取到的新闻页面进行特征选择、去重 等处理,以首先过滤掉部分无用的或重复的新闻页面,从而提高新闻召回的效率。步骤203 提取当前待分发新闻页面的关键词,将提取的关键词与各待匹配栏目 的中心向量进行相似度匹配。步骤204 根据匹配结果,将当前待分发新闻页面分发至相似度最高,且超过栏目 相似度阈值的栏目下。在该实施例中,分发匹配策略以相似度最高且超过栏目相似度阈值为例,还可以 采用步骤101中所述的任意其他策略,在此不再重复赘述。另外,由于种子词的粒度通常较大,在进行栏目下新闻页面的召回时,通常会引入 噪声,因此,在各栏目下实现新闻页面的召回时,可以进一步针对栏目设置反向词,基于反 向词形成反向向量,在进行相似度匹配时,可以确定待分发新闻页面的关键词与中心向量 的相似度减去与反向向量的相似度后的结果,判断确定的结果是否满足分发匹配策略,即 至少包括判断确定的结果是否超过针对栏目设置的相似度阈值。在栏目框架中,各栏目的新闻分发方式可以在栏目属性中配置,具体可以在栏目 属性中配置基于种子词的中心向量方式获取新闻页面(这些栏目获取新闻页面的集合可 以为网络爬虫抓取到的全局新闻页面资源),或者从父栏目或子栏目中获取新闻页面(这 些栏目获取新闻页面的集合可以为其父栏目或子栏目获取的新闻页面集合),或者采用其 它方式获取新闻页面。例如,可以对于配置了种子词的栏目,采用步骤203至步骤205的方 式能够实现新闻页面的召回,对于没有配置种子词的栏目,则可以从其他栏目获得新闻页 面。从父栏目或子栏目中获取新闻页面的方式如下面步骤中所述。步骤205 按照各栏目之间的层级关系,将栏目下新闻的全部或部分分发至上一 级父栏目或下一级子栏目。通常各栏目之间存在一定的层级关系,在此可以采用但不限于以下三种新闻页面 的召回方式第一种方式各子栏目通过步骤203至步骤204的方式实现各子栏目新闻页面的召回,然后将各子栏目下的新闻页面汇总分发至上一级父栏目。如图3a所示,图3a中阴影 节点表示设置了种子词的栏目,箭头指向为新闻页面的分发方向。这种方式通常适合于各 子栏目差异较大,栏目之间的种子词相互重合度不高的情况。例如,父栏目为“娱乐”,子栏 目分别为“国内娱乐”、“港澳台娱乐”、“日韩娱乐”以及“欧美娱乐,,等,设置各子栏目的种 子词为对应地区的艺人名称,由于各子栏目之间的种子词相互重合度较低,因此,各子栏目 采用步骤203至步骤204的方式召回新闻页面,然后汇总至父栏目“娱乐”。其中,可以将各子栏目下的所有新闻页面都汇总分发至上一级父栏目,也可以将 各子栏目中排序在前若干个的新闻页面汇总至上一级父栏目。其中,各子栏目中新闻页面 可以按照新闻页面的关键词与栏目中心向量的相似度排序,也可以按照所在新闻簇的权重 值以及与所在新闻簇的相关度排序,具体排序准则可以灵活设置。其中栏目下新闻簇的形 成将在实施例二中进行描述。对于汇总分发至父栏目的新闻页面总量可以进行限制,例如,设置父栏目的新闻 总量为N,其子栏目数量为m,那么可以设置每个子栏目分发至父栏目的新闻页面数量不超 过 2XN/m。第二种方式父栏目通过步骤203至步骤204的方式实现父栏目新闻页面的召回, 然后将父栏目下的新闻页面分发至下一级子栏目。如图3b所示,图3b中阴影节点表示父 节点采用基于种子词形成的中心向量的相似度匹配方式召回新闻页面,箭头指向为新闻页 面的分发方向。这种方式通常适合于各子栏目的差异较小,栏目之间的种子词相互重合度 较高的情况。例如,父节点为“电子产品”,子栏目为“新产品”和“产品导购”,由于“新产品” 和“产品导购”之间的差异度比较小,栏目之间的种子词相互重合度较高,例如,可能都存在 “新款”、“电子”等种子词,因此,可以采用在父栏目上配置种子词,再向下一级子栏目分发 的方式。下一级子栏目也可以按照步骤203至步骤204所示的基于种子词形成的中心向量 的相似度匹配方式,从父栏目分发的新闻页面中召回部分新闻页面,此时,也可以采用其他 匹配方式,例如按照站点来源、作者、图片或视频要求或者新闻页面的URL类型进行匹配。如果父栏目下发的新闻页面不属于任何一个已有子栏目,可以将其分发至一个独 立的子栏目,假设已有子栏目m个,那么最终一共形成子栏目m+1个,如果父节点分发下来 的新闻页面为N个,那么可以限制进入每个子栏目的新闻页面数量不超过2XN/(m+l)个。第三种方式父栏目和部分子栏目通过步骤203至步骤204的方式实现各子栏目 新闻页面的召回,剩下一部分子栏目从父栏目中获取与该子栏目匹配的新闻页面。如图3c 所示,图3c中阴影节点表示设置了种子词的栏目,箭头指向为新闻页面的分发方向。这种 方式通常适合于父栏目下某些子栏目区分度小,而另一些子栏目区分度相对较大的情况。 例如,父栏目为“社会”,子栏目为“社会与法”和“社会万象”,由于子栏目“社会与法”具有 较高的区分度,而“社会万象”的区分度较小,因此,可以对父栏目“社会”以及子栏目“社会 与法”配置种子词,按照基于中心向量的方式召回新闻页面,而子栏目“社会万象”从父栏目 获取部分新闻页面。需要说明的是,由于栏目框架中可能包含多层级的栏目,可以采用上述 新闻获取方式中的一种以上的方式混合使用,甚至可以与现有召回方式在一个栏目框架中 混合使用。在此举一个例子,如图4所示,箭头指向为新闻分发的方向,虚线框为隐藏栏目 (隐藏栏目将在后续描述中涉及),实线框为非隐藏栏目(即普通栏目)。在该实例中,第一级栏目2、3、4和5以及第二级栏目a、b和e上均配置了种子词,采用基于中心向量的方式 被分发新闻页面。栏目a和栏目b将被分发的新闻页面汇合至其上一级父栏目即栏目1, 对应上述第一种方式;栏目2将被分发的新闻页面进一步分发给其下一级子栏目,即栏目c 和栏目d,对应上述第二种方式;栏目3将被分发的部分新闻页面分发给除了栏目e之外的 其他下一级子栏目,即栏目f和栏目g,对应上述第三种方式。由于栏目设置时可能存在不完备的因素,例如设置“大盘”栏目,该栏目需要的是 国内股市的大盘信息,但由于没有进行港股、美股等的区分,因此会引入一些港股和美股相 关新闻页面的噪声,此时可以设置港股和美股的隐藏栏目,该隐藏栏目不进行展示,从而过 滤掉港股和美股等相关新闻页面。再例如,可以在栏目架构下设置黄色或反动等隐藏栏目, 从抓取到的新闻中召回黄色或反动等新闻页面并隐藏不予显示。隐藏栏目也采用步骤203 至步骤204所述的基于种子词的中心向量的方式进行新闻页面的召回。同样地,针对隐藏 栏目也可以从已召回的新闻页面中提取关键词来扩充种子词,从而达到比配置反向词更好 的过滤效果。步骤206 从栏目下的新闻页面中提取关键词,将提取的关键词结合本栏目的种 子词形成新的中心向量,待对下一轮抓取到的新闻页面进行分发时,可以采用新的中心向量。在提取关键词时,可以依据词频、词义权重或词性权重等从新闻页面中提取关键 词,具体关键词的提取方式为已有技术,在此不再具体描述。通过上述流程可以看出,针对栏目框架中的各栏目节点,可以具体配置该栏目的 分发匹配策略、该栏目的节点结构(即上一级父节点和下一级子节点的信息)以及展示属 性(是否为隐藏栏目)等。至此,实施例一所示流程结束。在各栏目下被召回了大量的新闻页面,无法将其全 部展示在栏目下,这就需要选出焦点新闻进行展示,下面通过实施例二对这一过程进行具 体描述。实施例二、图5为本发明实施例二提供的形成新闻簇的流程图,如图4所示,针对每一栏目下 的新闻页面执行以下步骤步骤501 对栏目下的新闻页面进行聚类,形成一个以上的新闻簇。由于各栏目下召回了大量的新闻页面,且以栏目为新闻页面的分类粒度过大,因 此,可以将各栏目下的新闻页面通过聚类的方式划分为多个新闻簇,相同新闻簇中的新闻 页面具有较高的相似度。本发明实施例中可以采用但不限于层次聚类方式、凝聚聚类方式、划分式聚类方 式、基于密度的聚类方式、或者网格聚类方式等。具体地,如果本实施例采用层次聚类方式, 则可以设置聚类结束条件为小于预设的相似度阈值或者新闻簇数量小于预设的阈值。如果直接对各栏目下的新闻页面进行聚类,可能会带来较差的聚类效果由于同 一栏目下的新闻页面都是与同一个中心向量相似度很高的文档,可能造成大量新闻被聚为 一类,剩下的新闻又成为许多小类。因此,在对栏目下的新闻页面进行聚类时,可以首先降 低栏目中心向量在聚类计算中的权值,这样可以突出各新闻在中心向量之外的内容,并依 据这些内容的不同进行聚合。
较优地,在执行步骤501之前可以首先对各栏目下的新闻页面进行筛选,例如仅 保留与栏目的中心向量相似度最大的前M个新闻页面,其中M为预设的正整数。步骤502 按照预设的头条选取策略,在新闻簇中选取头条新闻作为该新闻簇的表不。新闻簇的头条选取策略可以灵活设置,可以包括但不限于以下策略中的一种或其 任意组合选取新闻发布时间在设定范围内的新闻页面、选取标题满足设定要求的新闻页 面、选取与新闻簇中心向量相似度在设定范围内的新闻页面、选取新闻质量满足预设要求 的新闻页面。例如,可以选取发布时间较新、标题较长并且与新闻簇的中心向量相似度较高 的新闻页面作为头条。其中,新闻质量可以取决于站点权重、新闻页面的流量、新闻页面的 响应速度、广告量等中的一种或任意组合。需要说明的是,由于本实施例中以新闻页面这种 文本为例,对于其他文本则可以采用与具体文本相适应的文本质量形式。举一个在某新闻簇中选取头条的实例获取该新闻簇中与新闻簇的中心向量相似 度最高的前3个新闻页面,然后从中选取一个标题可读性好的作为头条;如果可读性都不 好,则选取与新闻簇的中心向量相似度的下3个新闻页面,从中选取一个标题可读性好的 作为头条,依次类推直至选出一个可读性好的。步骤503 依据新闻页面的属性计算栏目下各新闻页面的权重,利用新闻簇内各 新闻页面的权重确定新闻簇的权重,依据新闻簇的权重对栏目下的各新闻簇进行排序。本步骤中提及的新闻页面的属性可以包括但不限于以下属性中的一种或任意组 合新闻发布时间、新闻质量、转载率。在此举一个计算新闻页面的权重的实例,例如可以采 用公式(1)计算新闻页面的权重Wpag…
(X
W = --x S(site) x <p{segcount)( 1 )
p 8 At+a其中,a为预设的反比衰减时间因子,At为新闻发布时间距当前的时间差, 6 (site)为新闻质量因子的计算函数, (segcount)为转载率因子的计算函数。在确定新闻簇的权重时,可以采用多种方式,例如直接将新闻簇内各新闻页面的 权重和作为新闻簇的权重,或者,将新闻簇内各新闻页面的权重均值作为新闻簇的权重等。步骤504:按照预设的焦点新闻选取策略,从栏目下的新闻页面中选取焦点新闻 在该栏目下展示。焦点新闻选取策略可以灵活设置,例如可以从各新闻簇中分别选取若干个新闻 页面作为该栏目的焦点新闻,或者,按照各新闻簇的排序状况,从排在前K1个新闻簇中分 别选取K2个新闻页面作为该栏目的焦点新闻,其中K1和K2为正整数,等等,在此不再穷举。步骤502、步骤503和步骤504没有固定的先后顺序,本流程仅为其中一种实施例。需要说明的是,在各栏目中是否显示焦点新闻,以及各新闻簇是否显示头条新闻 均是可配置的。也就是说,可以在栏目的显示属性中具体配置显示的文本内容以及具体方 式。至此实施例二所示流程结束。以上是对本发明所提供方法进行的描述,下面对本发明所提供的装置进行详细描
12述。如图6所示,该装置可以包括文本获取单元601、第一分发单元602和第二分发单元 603。文本获取单元601,用于将抓取的各文本分别作为待分发文本送至第一分发单元 602。第一分发单元602,用于将当前待分发文本的关键词与各栏目的中心向量进行相 似度匹配,根据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,栏 目的中心向量基于预先为该栏目设置的种子词生成。第二分发单元603,用于待第一分发单元602完成对所有待分发文本的分发后,按 照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父栏目或下一级 子栏目。其中,上述栏目的分发匹配策略至少包括待分发文本的关键词与栏目的中心向 量之间的相似度超过针对该栏目设置的相似度阈值;或者,待分发文本的关键词与栏目的 中心向量之间的相似度减去待分发文本的关键词与同一栏目的反向向量之间的相似度后 的结果超过针对该栏目设置的相似度阈值,其中栏目的反向向量基于预先为该栏目设置的 反向词生成。除此之外,分发匹配策略还可以进一步包括但不限于以下策略中的一种或任意组 合待分发文本的关键词与栏目的中心向量之间的相似度最高,或者,待分发文本的站点来 源符合栏目的站点要求,或者,待分发文本的作者符合栏目的作者要求,或者,待分发文本 符合栏目对于图片或视频的要求,或者,待分发文本的标题正则表达式符合栏目对于标题 正则表达式的要求,或者,待分发文本的URL类型符合栏目的URL类型要求。具体地,如果第一分发单元602分发的栏目均为子栏目,此时第二分发单元603可 以将第一分发单元602分发的各子栏目下的所有文本或排序在前m个的文本汇总至上一 级父栏目,其中m为预设的正整数。 如果第一分发单元602分发的栏目均为父栏目,此时第二分发单元603可以将第 一分发单元602分发的各子栏目下的所有文本分发至下一级子栏目。如果第一分发单元602分发的栏目包括父栏目和子栏目,此时第二分发单元603
可以将第一分发单元602分发的父栏目下的部分文本分发至未被分发文本的下一级子栏目。本发明所涉及的栏目可以包括具有展示文本属性的普通栏目以及具有不展示文 本属性的隐藏栏目。其中,隐藏栏目可以用于实现对文本的过滤功能。该装置还可以包括关键词提取单元604,用于从设置了种子词的栏目下提取被 分发文本的关键词,将提取的关键词结合该栏目的种子词以形成该栏目新的中心向量并提 供给第一分发单元602。通过该关键词提取单元604对栏目中心向量的更新,可以使得更新 的中心向量更加准确地描述该栏目的内容导向,提高栏目被分发文本的准确率。更进一步地,该装置还可以包括文本聚类单元605和头条选取单元606。文本聚类单元605,用于根据第一分发单元602和第二分发单元603的分发结果, 对栏目下的文本进行聚类,形成各栏目下一个以上的簇。头条选取单元606,用于按照预设的头条选取策略,在文本聚类单元605形成的各 簇中分别选取头条文本作为各簇的表示。
更优地,该装置还可以包括簇排序单元607或者焦点选取单元608中的一种或全 部(图6中以同时包含两个单元为例)。簇排序单元607,用于在文本聚类单元605形成各栏目下的簇后,依据文本属性计 算栏目下各文本的权重,利用簇内各文本的权重确定簇的权重,依据簇的权重对栏目下的 各簇进行排序。焦点选取单元608,用于根据第一分发单元602和第二分发单元603的分发结果, 按照预设的焦点文本选取策略,从各栏目下的文本中分别选取焦点文本并在各栏目下展示。其中,上述头条选取策略可以包括以下策略中的一种或任意组合选取文本发布 时间在设定范围内的文本、选取标题满足设定要求的文本、选取与簇中心向量相似度在设 定范围内的文本、选取文本质量满足预设要求的文本。较优地,各文本的权重1_可以采用如下计算公式
权利要求
一种对文本进行分发的方法,应用于包含至少两级栏目的栏目框架,其特征在于,该方法包括A、针对抓取的各文本分别执行下述分发步骤分发步骤将当前待分发文本的关键词与各栏目的中心向量进行相似度匹配,根据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所述栏目的中心向量基于预先为该栏目设置的种子词生成;B、按照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父栏目或下一级子栏目。
2.根据权利要求1所述的方法,其特征在于,栏目的所述分发匹配策略至少包括所述 待分发文本的关键词与栏目的中心向量之间的相似度超过针对该栏目设置的相似度阈值; 或者,所述待分发文本的关键词与栏目的中心向量之间的相似度减去所述待分发文本的关 键词与同一栏目的反向向量之间的相似度后的结果超过针对该栏目设置的相似度阈值,其 中所述栏目的反向向量基于预先为该栏目设置的反向词生成。
3.根据权利要求1所述的方法,其特征在于,所述步骤B具体包括以下方式中的一种或 任意组合按照所述步骤A的方式被分发文本的栏目均为子栏目,将按照所述步骤A的方式被分 发文本的各子栏目下的所有文本或者排序在前m个的文本汇总至上一级父栏目,其中m 为预设的正整数;或者,按照所述步骤A的方式被分发文本的栏目均为父栏目,将按照所述步骤A的方式被分 发文本的父栏目下的所有文本分发至下一级子栏目;或者,按照所述步骤A的方式被分发文本的栏目包括父栏目和子栏目,将按照所述步骤A的 方式被分发文本的父栏目下的部分文本分发至未被分发文本的下一级子栏目。
4.根据权利要求1所述的方法,其特征在于,所述栏目包括具有展示文本属性的普通 栏目以及具有不展示文本属性的隐藏栏目。
5.根据权利要求1至4任一权项所述的方法,其特征在于,该方法进一步包括从设置 了种子词的栏目下提取被分发文本的关键词,将提取的关键词结合该栏目的种子词以形成 该栏目新的中心向量。
6.根据权利要求1至4任一权项所述的方法,其特征在于,在所述步骤B之后,针对各 栏目分别执行以下步骤C1、对栏目下的文本进行聚类,形成该栏目下一个以上的簇;C2、按照预设的头条选取策略,在各簇中分别选取头条文本作为各簇的表示。
7.根据权利要求6所述的方法,其特征在于,在所述步骤C2后还包括依据文本属性计算栏目下各文本的权重,利用簇内各文本的权重确定簇的权重,依据 簇的权重对栏目下的各簇进行排序;或者,按照预设的焦点文本选取策略,从各栏目下的文本中分别选取焦点文本并在各栏目下 展不。
8.根据权利要求6所述的方法,其特征在于,所述头条选取策略包括以下策略中的一 种或任意组合选取文本发布时间在设定范围内的文本、选取标题满足设定要求的文本、选取与簇中心向量相似度在设定范围内的文本、选取文本质量满足预设要求的文本。
9.根据权利要求7所述的方法,其特征在于,各文本的权重Wpage的计算公式为
10.一种对文本进行分发的装置,应用于包含至少两级栏目的栏目框架,其特征在于, 该装置包括文本获取单元、第一分发单元和第二分发单元;所述文本获取单元,用于将抓取的各文本分别作为待分发文本送至所述第一分发单元;所述第一分发单元,用于将当前待分发文本的关键词与各栏目的中心向量进行相似度 匹配,根据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所述栏 目的中心向量基于预先为该栏目设置的种子词生成;所述第二分发单元,用于待所述第一分发单元完成对所有待分发文本的分发后,按照 各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父栏目或下一级子 栏目。
11.根据权利要求10所述的装置,其特征在于,栏目的所述分发匹配策略至少包括所 述待分发文本的关键词与栏目的中心向量之间的相似度超过针对该栏目设置的相似度阈 值;或者,所述待分发文本的关键词与栏目的中心向量之间的相似度减去所述待分发文本的关 键词与同一栏目的反向向量之间的相似度后的结果超过针对该栏目设置的相似度阈值,其 中所述栏目的反向向量基于预先为该栏目设置的反向词生成。
12.根据权利要求10所述的装置,其特征在于,所述第一分发单元分发的栏目均为子 栏目,此时所述第二分发单元将所述第一分发单元分发的各子栏目下的所有文本或排序在 前m个的文本汇总至上一级父栏目,其中m为预设的正整数;或者,所述第一分发单元分发的栏目均为父栏目,此时所述第二分发单元将所述第一分发单 元分发的各子栏目下的所有文本分发至下一级子栏目;或者,所述第一分发单元分发的栏目包括父栏目和子栏目,此时所述第二分发单元将所述第 一分发单元分发的父栏目下的部分文本分发至未被分发文本的下一级子栏目。
13.根据权利要求10所述的装置,其特征在于,所述栏目包括具有展示文本属性的普 通栏目以及具有不展示文本属性的隐藏栏目。
14.根据权利要求10至13任一权项所述的装置,其特征在于,该装置还包括关键词 提取单元,用于从设置了种子词的栏目下提取被分发文本的关键词,将提取的关键词结合 该栏目的种子词以形成该栏目新的中心向量并提供给所述第一分发单元。
15.根据权利要求10至13任一权项所述的装置,其特征在于,该装置还包括文本聚 类单元和头条选取单元;所述文本聚类单元,用于根据所述第一分发单元和所述第二分发单元的分发结果,对 栏目下的文本进行聚类,形成各栏目下一个以上的簇;所述头条选取单元,用于按照预设的头条选取策略,在各簇中分别选取头条文本作为各簇的表示。
16.根据权利要求15所述的装置,其特征在于,该装置还包括簇排序单元或者焦点选 取单元中的一种或全部;所述簇排序单元,用于依据文本属性计算栏目下各文本的权重,利用簇内各文本的权 重确定簇的权重,依据簇的权重对栏目下的各簇进行排序;所述焦点选取单元,用于根据所述第一分发单元和所述第二分法单元的分发结果,按 照预设的焦点文本选取策略,从各栏目下的文本中分别选取焦点文本并在各栏目下展示。
17.根据权利要求15所述的装置,其特征在于,所述头条选取策略包括以下策略中的 一种或任意组合选取文本发布时间在设定范围内的文本、选取标题满足设定要求的文本、 选取与簇中心向量相似度在设定范围内的文本、选取文本质量满足预设要求的文本。
18.根据权利要求16所述的装置,其特征在于,各文本的权重Wpage的计算公式为(XWpage = --x 8{site) x (p{segcount);Za^ H" GC其中,a为预设的反比衰减时间因子,At为文本发布时间距当前的时间差,6 (site) 为文本质量因子的计算函数, (segcount)为转载率因子的计算函数。
全文摘要
本发明提供了一种对文本进行分发的方法和装置,应用于包含至少两级栏目的栏目框架,其中方法包括A、针对抓取的各文本分别执行下述分发步骤,分发步骤将当前待分发文本的关键词与各栏目的中心向量进行相似度匹配,根据匹配结果,将当前待分发文本分发至满足分发匹配策略的栏目下;其中,所述栏目的中心向量基于预先为该栏目设置的种子词生成;B、按照各栏目之间的层级关系,将设定栏目下文本的全部或部分分发至上一级父栏目或下一级子栏目。通过本发明能够减小文本分发的工作量和代价,缩短文本分发的时长,以方便栏目的灵活增减。
文档编号G06F17/30GK101984435SQ20101054918
公开日2011年3月9日 申请日期2010年11月17日 优先权日2010年11月17日
发明者彭学政, 王广彬, 蔡勋梁 申请人:百度在线网络技术(北京)有限公司