一种互联网广告信息处理方法

文档序号:6572798阅读:216来源:国知局
专利名称:一种互联网广告信息处理方法
技术领域
本发明涉及一种互联网信息的处理方法,尤其涉及一种互联网广告信息的分离、分析方法。
背景技术
互联网广告技术被誉为现今广告投放技术中最复杂的技术,与报刊、杂志等平面媒体和电视广告相比 较而言,互联网广告形式多样、投放来源复杂、技术方法多样,因此,广告投放者欲要决定釆取何种广告 模式或选择哪家提供广告的网站时,往往没有客观的标准。相应的,广告提供者们欲要说服广告投放者购 买自己的广告服务,也需要给出有说服力的、具有竞争性的证据,来说明自己提供的广告服务是最有效的。 这就是互联网广告的第三方监测技术的需求。
互联网广告的第三方监测技术实现相当困难。除高效率的网页抓取能力和海量数据存储以外,如何从 花样百出的网络媒体页面中高效率地分离出商业广告并提供客观分析是一个对于互联网广告的第三方监 测最关键的方法问题。
互联网广告信息分离方法主要用于互联网上基于WEB技术的媒体网站的商业广告情报收集分析工 作。获取的数据结果,主要服务于网络媒体、网络广告公司、网络广告主等与互联网商业广告行为相关的 各类企业。主要用于获得竞争媒体情报分析、广告主投放历史数据调查、国内网络广告市场动态走势分析 等,决策分析用数据。
互联网广告信息分离方法适用于第三方广告监测技术的各项需求,以广告实际投放为监测目标,能实 现跨媒体监测、兼容各种媒体的广告投放系统。
现有的广告信息分离方法是依靠广告投放的监测代码作为特征码,就是多数媒体(拥有成熟广告投放 系统的媒体)的每个页面的每个广告投放点都有一套固定的代码,可以在抓取系统中设定这些代码,来实 现广告的分离工作。简单来说就是特征码分离技术。
该方法在适应媒体变化和新型广告投放技术方面有一定差别,需要更多的人力去关注媒体的频道栏目 及广告投放技术的变化情况。
可见,业界存在着一种技术需求提供一种智能化的、准确的分离出页面中的广告内容,并且能帮助 广告分拣人员快速对广告内容确认分析,大大降低人工分拣工作量的方法。

发明内容
本发明的目的是提供一种互联网广告信息处理方法,解决现有技术的缺陷,能够智能、准确地分离出 互联网页面中的广告内容,并且帮助广告分拣人员快速对广告内容确认分析,大大降低人工分拣工作量。 本发明的技术方案如下
本发明提供了一种互联网广告信息的处理方法,该方法主要依赖各互联网媒体页面中对所有链接的统 一资源定位器(Uniform Resoure Locator,以下简称URL)地址进行分析,将链接到被监测媒体以外网站 的链接进行分析归类,能够非常智能准确的分离出页面中的广告内容,帮助广告分拣人员快速对广告内容 确认分析,大大降低人工分拣的工作量。
本发明的一个实施例提供了一种互联网广告信息处理方法,包括如下步骤
页面内容抓取步骤,从互联网中的网站上下载被监测网站页面的内容,并自动由正浏览器将其解释 为用户显示界面,得到原始超文本标志语言(Hyper Text Markup Language,以下简称为HTML)页面;
链接分离步骤,分离原始HTML页面中的全部链接信息,记录正浏览器中所有链接对象,得到页面 元素链接列表;
域名分析步骤,分析网页元素链接列表,'将链接中^F属于该网站的链接分离出来,得到非网站内链接 列表;
URL聚类分析步骤,对于所有分析出的非网站内链接列表中的每一个链接,进行4级聚类分析,得 到链接列表聚类分析表。
本发明方法还可以包括广告信息存储步骤,将原始URL保存到数据库内,并将此链接列表聚类分 析表作为索引信息保存在数据索引数据表中。 本发明的优点是
1. 兼容各种互联网媒体,可兼容所有使用WEB技术,支持IE浏览器的网络媒体。
2. 兼容各种互联网广告技术,主要有文字链接广告、图片广告、Flash广告三种,这些广告可以 放置在媒体页面的任何位置,可以显示或隐藏,可以跟随页面或用户操作进行变化。
3. 高自动分离识别率,平均页面商业广告自动分离识别率不低于90%。
4. 高分离识别效率,平均每1MB页面元素内容,分离识别时间小于20秒(未排除网络带宽因素)。
5. 兼容各种URL网络地址格式,主要有HTTP、 HTTPS、 FTP等可以用于IE浏览器的协议
6. 支持多窗口多实体技术,可分析多重框架页面、弹出窗口、内嵌页面的广告内容分析
7. 支持Flash广告链接提取,可以从Flash广告中提取点击URL链接,兼容压縮和非压縮格式的 Flash 。
8. 限于纯商业广告分离,即与网站无合作关系的,广告点击后,链接跳转到与该媒体无直接关系的 网站。
9. 无需广告特征数据库作引导,无需对被监测页面进行广告特征描述,对任何页面可直接进行抓取 分析。
10. 跨媒体广告数据聚合,可自动分析出, 一个广告活动投放在多个网络媒体上的投放之间的关系, 并进行数据聚合。
11. 广告投放位置信息完整,可记录广告出现的页面的完整URL,记录广告出现在页面的具体坐标位置。


下面结合附图,通过对本发明的具体实施方式
的详细描述,将使本发明的技术方案及其他有益效果显 而易见。
图l为本发明互联网广告信息处理方法示意图。
具体实施例方式
为了更进一步了解本发明的特征,请参阅以下有关本发明的详细说明与附图,然而所附图式仅提供参 考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,首先,执行页面内容抓取步骤101,该步骤从互联网下载被监测网站页面的内容,并自 动由正浏览器将其解释为用户显示界面,得到原始HTML页面111。
然后,执行链接分离步骤102,分离原始HTML页面111中的全部链接信息,记录正浏览器中所有 链接对象的链接,链接对象包括文字链接、图片链接、Flash链接等现存互联网的所有链接方式。对于Flash 链接形式,使用模拟点击的方式获得其链接。对于具有跳转功能的链接形式,采用HTTP协议访问的方 式获得其最终链接。得到页面元素链接列表112。
接下来,执行域名分析步骤103,分析上一步骤102所获得的网页元素链接列表112,将链接中不属 于该网站的链接分离出来。如果同一个网站有多个域名指向,则通过在设定监测对象时作多个设定来获取 此网站所对应的多个域名。由此,得到非网站内链接列表U3。
随后,执行URL聚类分析步骤104,:对于所有分析出的外网链接,即非网站内链接列表113中的每 一个链接,进行4级聚类分析。例如,此4级聚类分析可以表示为如下格式11 ://域名级/目录级/文件级?参数级 用此4级聚类分析方法表示的网站链接为 http:〃www.nikefootball.com.cn/wtn/index.php sn=l 1231 http:〃www.nikefootball.com.cn/wtn/index.php sn=3411 http:〃www.nikefootball.com.cn/wtn/news.php http:〃www.nikefootball.com.cn/ 由此得到链接列表聚类分析表114。
最后,执行广告信息存储步骤105,将原始URL保存到数据库内,并将此链接列表聚类分析表114作 为索引信息保存在数据索引数据表中。为后期的人工广告信息分拣提供数据支持。
用上述的互联网广告信息处理方法来分离、分析广告信息,以新浪(www.sina.com.cn)网站为例,效 果举例如下-
随机抽取其10个频道中100个页面,共发现521个商业广告。 广告分离准确性,商业广告分离准确性为93.5%。 广告分离遗漏率,商业广告分离遗漏率为3.1%。
广告分离时间效率,商业广告分离耗时为1653秒,平均16.5秒/页。(未排除带宽因素) 广告分离后聚合分析,521个广告中包含109个广告主题目标。
由上述数据可见,应用本发明方法进行广告信息分离、分析处理,具有准确性高、遗漏率低、分析时 间短、节省资源、节省人力的多重优点。
应当理解的是,上述对实施例的详细说明仅为了理解本发明,对本领域普通技术人员而言,可以根据 上述说明加以改进或变换。只要是达到此目的的所有改迸和变换都应属于本发明所附权利要求的保护范 围。
权利要求
1. 一种互联网广告信息处理方法,其特征在于,包含如下步骤页面内容抓取步骤,从互联网中的网站上下载被监测网站页面的内容,并自动由IE浏览器将该内容解释为用户显示界面,得到原始超文本标志语言页面;链接分离步骤,分离该原始超文本标志语言页面中的全部链接信息,记录IE浏览器中所有链接对象的链接,得到网页元素链接列表;域名分析步骤,分析该网页元素链接列表,将链接中不属于该网站的链接分离出来,得到非网站内链接列表;统一资源定位器聚类分析步骤,:对于该非网站内链接列表中的每一个链接,进行聚类分析,得到链接列表聚类分析表。
2. 根据权利要求1所述的互联网广告信息处理方法,其特征在于,还包括广告信息存储步骤,将该原始统一资源定位器保存到数据库内,并将该链接列表聚类分析表作为索引 信息保存在数据索引数据表中。
3. 根据权利要求1所述的互联网广告信息处理方法,其特征在于,所述的链接对象为如下形式之一文 字链接、图片链接和Flash链接。
4. 根据权利要求2所述的互联网广告信息处理方法,其特征在于,所述的链接对象为如下形式之一文 字链接、图片链接和Flash链接。
5. 根据权利要求3所述的互联网广告信息处理方法,其特征在于,当该链接对象为Flash链接形式时, 在该链接分离步骤中使用模拟点击的方式获得该链接。
6. 根据权利要求3所述的互联网广告信息处理方法,其特征在于,当该链接对象为具有跳转功能的链接 形式时,在该链接分离步骤中采用HTTP协议访问的方式获得该链接。
7. 根据权利要求2所述的互联网广告信息处理方法,其特征在于,该域名分析步骤还包括当该网站具有多个域名指向时,通过在设定监测对象时作多个设定来获取该网站所对应的多个域名。
8. 根据权利要求1或2所述的互联网广告信息处理方法,其特征在于,该聚类分析为4级聚类分析。
9. 根据权利要求8所述的互联网广告信息处理方法,其特征在于,该4级聚类分析为如下形式的表示http:/Z域名级/目录级/文件级?参数级。
10. 根据权利要求5所述的互联网广告信息处理方法,其特征在于,该聚类分析为4级聚类分析,该4级 聚类分析为如下形式的表示1 ://域名级/目录级/文件级?参数级。
全文摘要
一种互联网广告信息的分离、分析处理方法,该方法主要依赖各互联网媒体页面中对所有链接的URL地址进行分析,将链接到被监测媒体以外网站的链接进行分析归类,非常智能准确地分离出页面中的广告内容,帮助广告分拣人员快速对广告内容确认分析,大大降低人工分拣的工作量。
文档编号G06F17/30GK101383713SQ200710045620
公开日2009年3月11日 申请日期2007年9月6日 优先权日2007年9月6日
发明者杨伟庆 申请人:上海艾瑞市场咨询有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1