专利名称:一种从网页中提取广告主信息的方法
技术领域:
本发明涉及互联网中文智能处理技术领域,尤其涉及一种从网页中提 取广告主信息的方法。
背景技术:
随着互联网的日益发展,中文网页的数量也在急剧增长。目前,以网 页数量排名来看,中文网页位居第四,仅次于英文、日文、德文。而这些 中文网页里面所包含的信息是多种多样的,随着电子商务的发展,从网页 中准确地提取出广告主信息显得越来越重要。
目前广告主信息主要包括广告主名称、产品、所属地区和电话。现 在主要采用人工录入,加入到广告主数据库中,再从网页中去匹配这些广 告主,这样做的缺点在发现未知广告主的时候,显得功能很弱,因为只有 在人工知道这个广告主的时候,才能录入到数据库中,从而获得这个广告 主的信息。
早期数据量小的时候,是可以这么做的,但是随着信息量的急剧膨胀, 这样做势必影响到效率。
发明内容
(一) 要解决的技术问题
有鉴于此,本发明的主要目的在于提供一种从网页中提取广告主信息 的方法,以提高获取广告主信息的效率。
(二) 技术方案
为达到上述目的,本发明提供了一种从网页中提取广告主信息的方 法,该方法包括
A、配置一个基本词库和一个行业词库;
B、 根据配置的两个词库,对目标网页上的文字信息进行分词,得到
一组文本向量;
C、 根据所述文本向量的特征,对所述文本向量进行向量加权或向量 减权;
D、 采用空间向量模型计算所述进行了向量加权或向量减权后的文本 向量的权重;
E、 对计算出来的文本向量的权重进行排序,并根据文本向量所在网 页中的上下文信息,从网页中提取出广告主信息。
上述方案中,步骤A中所述基本词库为常用词库,所述配置基本词库 包括根据搜索引擎检索词频,检索出至少十万条词频,然后将检索到的 词频收录到一起构成词库。
上述方案中,步骤A中所述配置行业词库包括采用网页抓取程序从 各个B2B网站上定向抓取行业信息,然后对抓取的行业信息进行统计分词 获取行业词汇,生成一个行业词库。
上述方案中,步骤B中所述分词包括将现代汉语的普通字序列文本 分解为词序列的文本。
上述方案中,所述步骤C包括对出现在标题中的文本向量,将向量 权重增至原来的5至IO倍;对出现在网页结构中content的简介,将向量 权重增至原来的2至3倍;对出现在网页内容中版权信息类的文本向量, 将向量权重增至原来的3至5倍;对出现在网页内容中与广告主信息有关 的文本向量,将向量权重增至原来的3至5倍;对出现的包含在停词表中 文本向量,将向量权重减至原来的1/5至1/10。
上述方案中,步骤D中所述空间向量模型采用以下公式来表征
其中,为词f在文本S中的权重,而为词f在文本 S中的词频,vV为训练文本的总数,",为训练文本集中出现f的文本数, 分母为归一化因子。
上述方案中,步骤E中所述对计算出来的文本向量的权重进行排序 时,首先设定一个阈值,将权重大于该阈值的文本向量挑选出来构成一个
集合,然后再根据所在网页中的上下文信息,从所述集合中提取出需要的 广告主信息。
(三)有益效果 从上述技术方案可以看出,本发明具有以下有益效果
1、 利用本发明,通过配置一个基本词库和一个行业词库,根据配置 的两个词库对目标网页上的文字信息进行分词,得到一组文本向量,然后 根据所述文本向量的特征,对所述文本向量进行向量加权或向量减权,采 用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权 重;最后对计算出来的文本向量的权重进行排序,并根据文本向量所在网 页中的上下文信息,从网页中提取出广告主信息,实现了从网页中迅速提 取出有效地广告主信息,大大提高了从网页中获取广告主信息的效率。
2、 利用本发明,能够对未收录的广告主进行智能提取,从而减少了 人工工作量,进一步提高了工作效率。
3、 利用本发明,还能够有效地对海量数据信息进行处理,实现对海 量数据信息的快速处理。
图1为本发明提供的从网页中提取广告主信息的方法流程图; 图2为本发明提供的从网页中提取广告主信息的示意图; 图3为依照本发明实施例提供的数据页的示意图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明进一步详细说明。
如图1所示,图1为本发明提供的从网页中提取广告主信息的方法流 程图,该方法包括以下步骤
步骤101:配置一个基本词库和一个行业词库。基本词库即常用词库, 根据搜索引擎检索词频,检索出至少十万条词频,然后将检索到的词频收 录到一起即可构成一个基本词库。行业词库收录的词则要偏一些,主要是
一些行业词汇。因为处理的是广告主信息,所以行业词库越全越好。这里
采用网页抓取程序从各个B2B网站上(例如阿里巴巴、慧聪等)定向抓取 行业信息,然后对抓取的行业信息进行统计分词获取行业词汇,生成一个 包含内容尽可能全面行业词库。为了准确提取广告主的地区、电话信息, 还要准备一个地区名称库,和电话区号库。
步骤102:根据配置的两个词库,对目标网页上的文字信息进行分词,
从而得到一组文本向量。所谓分词是将现代汉语的普通字序列文本分解为
词序列的文本;例如我们的祖国多美好,经过分词之后变为我们的祖 国多美好。
步骤103:根据所述文本向量的特征,对所述文本向量进行向量加权 或向量减权。具体说来,是根据特定规则,对文本向量进行适当的向量加 权和向量减权,具体规则有
a) 、对标题内容进行加权;即对出现在标题中的文本向量,将向量权 重增至原来的5至10倍;
b) 、对网页结构中content的简介进行加权;即对出现在网页结构中 content的简介的文本向量,将向量权重增至原来的2至3倍;
c) 、对网页内容里中的版权信息进行加权;即对出现在网页内容中版 权信息类的文本向量,将向量权重增至原来的3至5倍;
d) 、对网页特定正文进行加权;即对出现在网页内容中与广告主信息 有关的文本向量,将向量权重增至原来的3至5倍;此处网页特定正文主 要是指和广告主信息有关的正文,如"XX公司";
e) 、根据停词表(就是一些需要大幅减权的词,如我们、使用等) 做减权处理;即对出现的包含在停词表中文本向量,将向量权重减至原来 的1/5至1/10;所述停词表(stop word):在计算权重的时候,有一些词 过于常见,如"我们、是、 一些"等,需要减权,否则会影响计算的效果。
步骤104:采用空间向量模型计算所述进行了向量加权或向量减权后
的文本向量的权重。
在本步骤中,向量空间模型的基本思想是以向量来表示文本
(W1,W2,W3......Wn),其中Wi为第i个特征项的权重,那么选取什么
作为特征项呢, 一般可以选择字、词或词组,根据实验结果,普遍认为选 取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一 个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本,最 初的向量表示完全是0、 1形式,即,如果文本中出现了该词,那么文本 向量的该维为1,否则为0。这种方法无法体现这个词在文本中的作用程
度,所以逐渐0、 1被更精确的词频代替,词频分为绝对词频和相对词频,
绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的
词频,其计算方法主要运用TF-IDF公式,本发明采用了一种比较普遍的 TF-IDF公式
其中,『0,3)为词Z在文本S中的权重,而{/X/,》为词Z在文本 S中的词频,AA为训练文本的总数,n,为训练文本集中出现f的文本数, 分母为归一化因子。
步骤105:对计算出来的文本向量的权重进行排序,并根据文本向量 所在网页中的上下文信息,从网页中提取出广告主信息。
在本步骤中,对计算出来的文本向量的权重进行排序时,首先根据人 工多次核对结果数据设定一个阈值(大于该阈值的可认为是有用信息,小 于该阈值的则认为是无用信息),将权重大于该阈值的文本向量挑选出来 构成一个集合,然后再根据所在网页中的上下文信息,从所述集合中提取 出需要的广告主信息。
上述本发明提供的从网页中提取广告主信息的方法还可以进一步参 考图2,图2为本发明提供的从网页中提取广告主信息的示意图。
基于图1所示的从网页中提取广告主信息的方法流程图和图2所示的 从网页中提取广告主信息的示意图,以下结合具体的实施例对本发明提供 的从网页中提取广告主信息的方法进一步详细说明。
具体实施的时候,先要准备好词库,基本词库比较容易获得,而行业 词库需要从各个行业网站上来获取。本实施例采用的是网页抓取程序
实施例
(spider)抓取,然后统计分词获得。
获得这些原始数据之后,当需要分析某个页面的广告主信息的时候, 通过前述步骤101至步骤105来获取合适的广告主信息。
下面通过实例来具体看一看处理结果。在采集数据的时候,假如碰到 如图3所示的一个数据页,图3为依照本发明实施例提供的数据页的示意 图,其具体的处理流程如下
步骤l:准备词库。这是个一次性工作,不用每次分析网页前都准备
词库,刚开始准备好,以后定时更新就可以了;
步骤2:经过分词之后,得到这样一组向量(关键词,位置,次数)。 对于上面这个网页而言,就分析成如下的一组向量,(升降,标题,l),(升
降,描述,2),(升降,内容,8),(机械,标题,1),(机械,描述,2), (机械,内容,6)......;
步骤3:进行位置的加权操作后,得到这样的向量组(升降,26)、
(机械,16)......;
步骤4:采用空间向量模型来计算的权重。W (升降,改网页的文本
向量集合)-dl,W(机械,改网页的文本向量集合)=&......把dl,d2......
排序;
步骤5:设定一个阈值,取大于该阈值的关键词为我们需要的关键词。 如升降、机械......;
步骤6:根据这些词在网页中的位置,做一些扩展,得到广告主名称 和产品信息。同时对照地区和区号对照表,找到广告主相应的地区和电话 "f曰息;
通过上述6个步骤之后,将提到如下广告主信息。
广告主名称苏州美罗升降机械有限公司
经营产品自动式升降台、固定式升降平台、高空作业平台、液压 登车桥等
地区江苏
电话0512-65380328
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行
了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而 己,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1、一种从网页中提取广告主信息的方法,其特征在于,该方法包括A、配置一个基本词库和一个行业词库;B、根据配置的两个词库,对目标网页上的文字信息进行分词,得到一组文本向量;C、根据所述文本向量的特征,对所述文本向量进行向量加权或向量减权;D、采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重;E、对计算出来的文本向量的权重进行排序,并根据文本向量所在网页中的上下文信息,从网页中提取出广告主信息。
2、 根据权利要求1所述的从网页中提取广告主信息的方法,其特征 在于,步骤A中所述基本词库为常用词库,所述配置基本词库包括根据搜索引擎检索词频,检索出至少十万条词频,然后将检索到的词 频收录到一起构成词库。
3、 根据权利要求1所述的从网页中提取广告主信息的方法,其特征 在于,步骤A中所述配置行业词库包括采用网页抓取程序从各个B2B网站上定向抓取行业信息,然后对抓取 的行业信息进行统计分词获取行业词汇,生成一个行业词库。
4、 根据权利要求1所述的从网页中提取广告主信息的方法,其特征 在于,步骤B中所述分词包括将现代汉语的普通字序列文本分解为词序 列的文本。
5、 根据权利要求1所述的从网页中提取广告主信息的方法,其特征在于,所述步骤C包括对出现在标题中的文本向量,将向量权重增至原来的5至10倍;对出现在网页结构中content的简介,将向量权重增至原来的2至3倍;对出现在网页内容中版权信息类的文本向量,将向量权重增至原来的 3至5倍; 对出现在网页内容中与广告主信息有关的文本向量,将向量权重增至 原来的3至5倍;对出现的包含在停词表中文本向量,将向量权重减至原来的1/5至 1/10。
6、根据权利要求1所述的从网页中提取广告主信息的方法,其特征在于,步骤D中所述空间向量模型采用以下公式来表征其中,为词f在文本s中的权重,而为词f在文本S中的词频,iV为训练文本的总数,a为训练文本集中出现f的文本数,分母为归一化因子。
7、根据权利要求1所述的从网页中提取广告主信息的方法,其特征 在于,步骤E中所述对计算出来的文本向量的权重进行排序时,首先设定 一个阈值,将权重大于该阈值的文本向量挑选出来构成一个集合,然后再 根据所在网页中的上下文信息,从所述集合中提取出需要的广告主信息。
全文摘要
本发明涉及互联网中文智能处理技术领域,公开了一种从网页中提取广告主信息的方法,该方法包括A.配置一个基本词库和一个行业词库;B.根据配置的两个词库,对目标网页上的文字信息进行分词,得到一组文本向量;C.根据所述文本向量的特征,对所述文本向量进行向量加权或向量减权;D.采用空间向量模型计算所述进行了向量加权或向量减权后的文本向量的权重;E.对计算出来的文本向量的权重进行排序,并根据文本向量所在网页中的上下文信息,从网页中提取出广告主信息。利用本发明,实现了从网页中迅速提取出有效地广告主信息,大大提高了从网页中获取广告主信息的效率。
文档编号G06F17/30GK101101599SQ20071011760
公开日2008年1月9日 申请日期2007年6月20日 优先权日2007年6月20日
发明者峰 郑 申请人:精实万维软件(北京)有限公司