专利名称:基于视频网站的主题类视频自动采集方法
技术领域:
本发明涉及一种主题类视频自动采集方法,具体是一种基于视频网站的主题类视频自动采集方法。
背景技术:
现行的搜索引擎都是基于用户输入的关键字进行信息查询的文本搜索引擎。随着多媒体技术的飞速发展、网络通信能力的极大提高和计算机处理速度的不断增长,Internet上的信息除了文本之外,还有大量的图像、视频、音频、动画和图形等,对这些媒体类型的信息进行快速准确的检索已经成为人们的迫切需要。尤其是在Blog、TAG、SNS、RSS、 Wiki等社会软件应用为代表的Web2. O出现以后,网络视频大量出现,各大新闻网站纷纷建立在线新闻频道,如CNTV ;大量视频网站的出现,如优酷、酷6等。每天大量的视频被网友、新闻媒体上传,用户只能从视频网站中去搜索查看,但是如果想要收藏某一类的视频,那么如果只是人为的去操作下载,就会有很大的阻碍。
发明内容
本发明针对现有技术的不足,提供一种基于文本分析的面向视频网站的互联网视频搜索方法。本发明方法具体包括以下步骤
(I)提取视频网站主题框架。(2)选定主题及采集相应主题的视频播放URL。(3)视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列。(4)根据视频下载URL下载视频并存储。所述的提取视频网站主题框架,包括如下步骤
A)在数据库中建立一张表 WebsiteTree,包含 Id、Url> WebsiteName> ParentIcU Level这5个字段,其中Id为主键。B)分析视频网站首页源代码,利用正则表达式获取导航栏,包括URL、主题名;记录该主题属于哪一类别,属于第几级主题,并将信息存储于数据库表WebsiteTree。C)对于提取的主题相应页面的源码进行分析,如果还有小类,则跳转至步骤B),若没有,则执行步骤D)。D)根据WebsiteTree表中的信息构建视频网站主题框架。所述的选定主题及采集相应主题的视频播放URL,包括如下步骤
E)用户从主题框架中选择主题。F)分析该主题的页面源代码,利用正则表达式获取视频播放URL和普通页面URL,放入URL队列;队列的特点是先进先出,对于先放入队列的URL先进行分析。所述的视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列,包括如下步骤
G)设置一个最大分析页面线程并发数,开启线程,线程依次访问URL队列中的信息。H)线程从URL队列中获取一个URL,若该URL是视频播放URL,则将其与“http: //WWW. flvcd. com/parse. php kw=”字符串连接,并获取该地址的源代码;利用正则表达式从该源代码中获取该播放URL的下载地址。I)若是普通页面URL,则获取该页面源代码,分析并提取URL,如果该URL没有被提取过,则放入URL队列,否则将其丢弃。J)当H)中所获取的URL页面分析完成,线程自动释放,并再次从URL队列中获取一个URL进行重复H)、I)操作,直到URL队列分析完成停止。所述的根据视频下载URL下载视频并存储,包括如下步骤
K)在数据库中建立一张表 VideoInf,包含 Id、Url、Title、Tag、Comments、UploadUser、UploadTime> Clickrate、CommentCount> FileSize 这 10 个字段,其中 Id 为主键。L)设置一个最大下载线程并发数,开启线程,线程依次等待视频下载的命令。M)线程接受视频下载URL,截取下载URL字符串中最后一个’ /’之后的字符串作为文件名,并新建下载,将视频存储于磁盘。N)将视频的详细信息存储于数据库表VideoInf表中。O)当视频下载完成,线程释放,等待下一个视频下载的命令。本发明的有益效果
第一,由于本发明设计了视频网站的主题类提取及框架显示,所以能更容易解决用户需要下载的类别,提高下载的准确性。第二,由于本发明设计了多线程分析视频播放URL转化为视频下载URL并将视频进行下载,所以能更容易解决多个视频同时下载的问题。第三,由于本发明设计了获取视频下载URL后自动新建下载,不需要调用其他下载器进行人为的干预,所以能更容易解决自动下载视频的技术问题。
图1为视频米集流程 图2为多线程视频下载流程 图3为视频信息数据库记录 图4为优酷网站中一部分主题框架图。
具体实施例方式以下结合附图对本发明作进一步说明。下面结合附图,对本发明实现用户按所选主题下载视频所采取的技术方案做进一步说明
1、在数据库中建立一张表 WebsiteTree,包含 Id、Url、WebsiteName、ParentIcULevel这5个字段,用于保存视频网站的主题框架。其中Id(int)代表主题的编号并且是该表的主键,Url(varchar)代表主题的Url地址,WebsiteName (varchar)代表主题名,ParentId(int)代表该主题上一级主题的编号,Level (tinyint)代表该主题是哪一级主题。在数据库中建立一张新表 VideoInf,包含 Id、Url、Title、Tag、Comments、UploadUser、UpIoadTime>Clickrate>CommentCount>FileSize 这 10 个 字段,用于保存视频的详细信息。其中Id (int)代表下载视频的编号并且是该表的主键,Url (varchar)代表视频的Url地址,Title (varchar)代表视频的标题,Tag (varchar)代表视频的标签,Comments (varchar)代表视频的评论、UploadUser (varchar)代表视频的上传用户、UploadTime (datetime)代表视频的上传时间、Clickrate (int)代表视频的点击量、CommentCount (int)代表视频的评论数、FileSize (int)代表视频的文件大小。2、下面以优酷为例,获取优酷视频网站的一部分主题框架(如表I和图4所示)。根据首页URL页面源码,通过正则表达式可以获取导航栏信息,并将导航栏中的主题名、对应的URL,以及ParentId设为I, Level设为I,存储到WebsiteTree表中。再将这些Level为I的主题Url的页面重新分析,获取他们相应的子导航栏信息,并将Level进行加I操作,分析页面的URL的Id作为ParentId,存储到WebsiteTree表中。分析每一个主题URL页面,直到该URL页面是最后一级主题结束。表I优酷网站一部分主题信息表
权利要求
1.基于视频网站的主题类视频自动采集方法,通过对视频网站主题类的选取,并进行准确下载该主题视频,其特征在于包括如下步骤 (1)提取视频网站主题框架; (2)选定主题及采集相应主题的视频播放URL; (3)视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列; (4)根据视频下载URL下载视频并存储。
2.根据权利要求I所述的基于视频网站的主题类视频自动采集方法,其特征是提取视频网站主题框架,包括如下步骤 A)在数据库中建立一张表WebsiteTree,包含 Id、Url> WebsiteName> ParentIcU Level这5个字段,其中Id为主键; B)分析视频网站首页源代码,利用正则表达式获取导航栏,包括URL、主题名;记录该主题属于哪一类别,属于第几级主题,并将信息存储于数据库表WebsiteTree ; C)对于提取的主题相应页面的源码进行分析,如果还有小类,则跳转至步骤B),若没有,则执行步骤D ); D)根据WebsiteTree表中的信息构建视频网站主题框架。
3.根据权利要求I所述的基于视频网站的主题类视频自动采集方法,其特征是选定主题及采集相应主题的视频播放URL,包括如下步骤 E)用户从主题框架中选择主题; F)分析该主题的页面源代码,利用正则表达式获取视频播放URL和普通页面URL,放入URL队列;队列的特点是先进先出,对于先放入队列的URL先进行分析。
4.根据权利要求I所述的基于视频网站的主题类视频自动采集方法,其特征是视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列,包括如下步骤 G)设置一个最大分析页面线程并发数,开启线程,线程依次访问URL队列中的信息; H)线程从URL队列中获取一个URL,若该URL是视频播放URL,则将其与“http://www.flvcd. com/parse. php kw=”字符串连接,并获取该地址的源代码;利用正则表达式从该源代码中获取该播放URL的下载地址; I)若是普通页面URL,则获取该页面源代码,分析并提取URL,如果该URL没有被提取过,则放入URL队列,否则将其丢弃; J)当H)中所获取的URL页面分析完成,线程自动释放,并再次从URL队列中获取一个URL进行重复H)、I)操作,直到URL队列分析完成停止。
5.根据权利要求I所述的基于视频网站的主题类视频自动采集方法,其特征是根据视频下载URL下载视频并存储,包括如下步骤 K)在数据库中建立一张表 VideoInf,包含 Id、Url、Title、Tag、Comments、UploadUser、UploadTime、Clickrate、CommentCount> FileSize 这 10 个字段,其中 Id 为主键; L)设置一个最大下载线程并发数,开启线程,线程依次等待视频下载的命令; M)线程接受视频下载URL,截取下载URL字符串中最后一个’ Γ之后的字符串作为文件名,并新建下载,将视频存储于磁盘; N)将视频的详细信息存储于数据库表VideoInf表中; O)当视频下载完成,线程释放,等待下一个视频下载的命令。
全文摘要
本发明涉及一种基于视频网站的主题类视频自动采集方法。现行的搜索引擎都是基于用户输入的关键字进行信息查询的文本搜索引擎。本发明首先提取视频网站主题框架。然后选定主题及采集相应主题的视频播放URL。其次视频播放URL转化为视频下载URL,普通页面URL分析获取URL,将其放入队列。最后根据视频下载URL下载视频并存储。由于本发明设计了视频网站的主题类提取及框架显示,所以能更容易解决用户需要下载的类别,提高下载的准确性。
文档编号G06F17/30GK102880674SQ20121033252
公开日2013年1月16日 申请日期2012年9月10日 优先权日2012年9月10日
发明者姜明, 陈婵, 沈幸峰, 王兴起, 张旻, 汤景凡, 胡宏宇 申请人:杭州电子科技大学