专利名称:评估盗版网站影响程度的方法及系统的制作方法
技术领域:
本发明涉及计算机网络技术领域,尤其涉及一种评估盗版网站影响程度的方法及系统。
背景技术:
随着Internet和数字化技术的快速发展,传统作品,如文学作品、漫画、录像、电影等,越来越多的被转化成数字内容放在网络上,然而,由于数字化信息很容易被复制、修改和传播,用户有意或无意地对网络信息进行任意的拷贝和粘贴,尤其是一些中小网站以非常低廉的成本获取网络上的各种内容和信息,并将之放置到自己的网站上,并通过发布未经授权的内容营利。
盗版作品即包括视频、音频、图片以及文字等形式,盗版网站是指发布未经授权的包括视频、音频、图片以及文字等形式作品的网站,即发布盗版作品的网站。盗版网站给版权所有人和相关版权的使用者带来经济损失,是因为盗版网站分享了浏览作品的用户,大大的减少了使用授权正版内容的用户量,从而窃取了版权所有人和相关版权使用者的利益。所以,对一个盗版网站来说,它的流行程度、流量、所拥有的用户量越大,它所造成的危害就越大;它包含的盗版链接越多,侵权的内容就越多,对版权所有人和相关版权使用者所造成的危害也就越大。
由于进入互联网产业的门槛非常低,从而滋生了大量的盗版网站,这种无所顾忌的二次传播(如网络共享等),以非常快的速度稀释了潜在的用户资源,给相关权利人造成巨大的经济损失。因此,面对如此众多的盗版网站,如何通过技术手段而不是人工方法找到危害指数最大的盗版网站,进而进行制止和打击,已成为近年来法律界和IT界所面临的一个重要问题。
传统的评估盗版网站影响程度的方式,一般是通过相关人员的举报,然后相关人员再去打击,这种方式,没有一种确定网站危害程度的方法,完全是靠人为感觉。如果运气够好的话,会发现被打击的网站是一个危害非常大的网站,运气不好的话,可能这个网站的访问量非常小,危害几乎可以忽略不计,特别是在盗版网站如此之多的情况下,盗版网站的打击效率非常低。
还有一种方式是通过相关人员根据该网站的流行程度去打击盗版网站。一个网站的流行程度,往往是根据网站的PageRank值、alexa排名、流量、访问量及搜索引擎的收录量等来决定的。其中,PageRank值(PR值,网页级别),取自Google的创始人LarryPage。它是Google排名运算法则(排名公式)的一部分,是Google用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的一项重要标准。网页级别从I到10级,10级为满分,PageRank值越高说明该网页越受欢迎(越重要);UV(Unique Visitor),即访问一个网站的一台电脑客户端为一个访客,00:00-24:00内相同的客户端只被计算一次,UV值即一个网站一天的访问量;PV(Page View),即页面浏览量或点击量,用户每次刷新即被计算一次。PV值即是网站的访问量;alexa排名是指网站的世界排名,主要分两种:综合排名和分类排名,alexa排名提供了包括综合排名、到访量排名、页面访问量排名等多个评价指标信息,大多数人把它当作每个较为权威的网站访问量评价指标。但是这种方式下,一些流行程度较高的网站往往是一些正规合法的网站,因此,这种方式的盗版网站打击效率也不高,不能满足人们对打击盗版网站的准确性和打击效率的要求。发明内容
本发明的目的在于提供一种评估盗版网站影响程度的方法及系统,基于网站信息的统计,可以对网站进行危害指数的计算,从而对其危害程度进行定量分析,来提高打击盗版网站的效率,为版权保护提供帮助。
为解决上述问题,本发明提供一种评估盗版网站影响程度的方法,包括以下步骤:
选择取样网站并收集所述取样网站中的每个网站的基本信息数据,所述基本信息包括网站排名和访问量,计算每个网站的各项基本信息比重;
查找每个网站的盗版作品,根据每个网站的盗版链接数量及盗版作品的热门指数计算每个网站的盗版链接比重和热门指数比重;
对所述取样网站中的每个网站依次进行其各项基本信息比重、盗版链接比重和热门指数比重的加权处理,得到所述每个网站的危害程度指数。
进一步的,所述基本信息还包括网站PageRank值、网站年龄及搜索引擎收录量中的至少一种,所述访问量包括网站日UV和/或网站日PV。
进一步的,计算每个网站的各项基本信息比重的步骤包括:
设定各项基本信息的归一化系数或归一化函数;
按照所述设定,对每个网站的各项基本信息数据进行处理,得到每个网站的各项基本信息比重。
进一步的,计算所述每个网站的盗版链接比重和热门指数比重的步骤包括:
通过匹配算法得到每个网站的盗版链接数量,归一化计算得到每个网站的盗版链接比重;以及
对每个盗版作品的热门指数进行统计和加权计算,得出所述每个网站的热门指数权重。
进一步的,所述归一化计算得到每个网站的盗版链接比重的公式为:
权利要求
1.一种评估盗版网站影响程度的方法,其特征在于,包括: 选择取样网站并收集所述取样网站中的每个网站的基本信息数据,所述基本信息包括网站排名和访问量,计算每个网站的各项基本信息比重; 查找每个网站的盗版作品,根据每个网站的盗版链接数量及盗版作品的热门指数计算每个网站的盗版链接比重和热门指数比重; 对所述取样网站中的每个网站依次进行其各项基本信息比重、盗版链接比重和热门指数比重的加权处理,得到所述每个网站的危害程度指数。
2.如权利要求1所述的评估盗版网站影响程度的方法,其特征在于,所述基本信息还包括网站PageRank值、网站年龄及搜索引擎收录量中的至少一种,所述访问量包括网站日UV和/或网站日PV。
3.如权利要求2所述的评估盗版网站影响程度的方法,其特征在于,计算每个网站的各项基本信息比重的步骤包括: 设定各项基本信息的归一化系数或归一化函数; 按照所述设定,对每个网站的各项基本信息数据进行处理,得到每个网站的各项基本信息比重。
4.如权利要求1所述的评估盗版网站影响程度的方法,其特征在于,计算所述每个网站的盗版链接比重和热门指数比重的步骤包括: 通过匹配算法得到每个网站的盗版链接数量,归一化计算得到每个网站的盗版链接比重;以及 对每个盗版作品的热门指数进行统计和加权计算,得出所述每个网站的热门指数权重。
5.如权利要求4所述的评估盗版网站影响程度的方法,其特征在于,所述归一化计算得到每个网站的盗版链接比重的公式为:
6.如权利要求1或4所述的评估盗版网站影响程度的方法,其特征在于,每个盗版作品的热门指数通过互联网上的排行榜得到,并定义没有进入排行榜的盗版作品的热门指数为O0
7.如权利要求1所述的评估盗版网站影响程度的方法,其特征在于,得出所述每个网站的热门指数权重的计算公式为:"V" {----1 *URLj +0.1 ,work rank < I work rank = j ^=0^ 5000 JJ -,其中,URLi 为第 i 个盗版作 1,work _ rank > I品的热门指数,η为每个网站所有盗版作品的个数。
8.一种评估盗版网站影响程度的系统,其特征在于,包括: 基本信息比重单元,用于选择取样网站并收集所述取样网站中的每个网站的基本信息数据,所述基本信息包括网站排名和访问量,计算每个网站的各项基本信息的比重; 盗版链接和热门指数比重单元,用于查找每个网站的盗版作品,根据每个网站的盗版链接数量及盗版作品的热门指数计算每个网站的盗版链接比重和热门指数比重; 危害程度指数单元,用于对所述取样网站中的每个网站依次进行其各项基本信息的比重、盗版链接比重和热门指数比重的加权处理,得到所述每个网站的危害程度指数。
9.如权利要求8所述的评估盗版网站影响程度的系统,其特征在于,所述基本信息还包括网站PageRank值、网站年龄及搜索引擎收录量中的至少一种;所述访问量包括网站日UV和/或网站日PV。
10.如权利要求8所述的评估盗版网站影响程度的系统,其特征在于,所述基本信息比重单元通过设定各项基本信息的归一化系数或归一化函数,并按照所述设定,对每个网站的各项基本信息数据进行处理,得到每个网站的各项基本信息比重。
11.如权利要求8所述的评估盗版网站影响程度的系统,其特征在于,所述盗版链接和热门指数比重单元计算所述每个网站的盗版链接比重和热门指数比重的步骤包括: 通过匹配算法得到每个网站的盗版链接数量,归一化计算得到每个网站的盗版链接比重; 对每个盗版作品的热门指数进行统计和加权计算,得出所述每个网站的热门指数权重。
12.如权利要求8或11所述的评估盗版网站影响程度的系统,其特征在于,每个盗版作品的热门指数通过互联网上的排行榜得到 ,并定义没有进入排行榜的盗版作品的热门指数为O。
全文摘要
本发明提供一种评估盗版网站影响程度的方法及系统,基于网站的各项基本信息数据、盗版链接数量以及盗版作品的热门指数信息数据的统计,对各网站进行危害程度指数计算,从而实现对网站的危害程度的定量分析和评估,依据得到的危害程度排行进行盗版网站打击,可极大地提高盗版网站的打击准确性和效率,为版权保护提供帮助。
文档编号G06F19/00GK103218505SQ201210017828
公开日2013年7月24日 申请日期2012年1月19日 优先权日2012年1月19日
发明者郑达韡, 李敏, 郑维智 申请人:盛乐信息技术(上海)有限公司