专利名称:一种互联网影视内容搜索的方法及系统的制作方法
技术领域:
本发明涉及网络通信传输技术领域,更具体的说,涉及一种互联网影视内容搜索 的方法及系统。
背景技术:
随着国内外电信运营商对IPTV系统的建设和发展,Internet TV(称为网络电视) 也异军突起,初期只在运营商的夹缝中求生存,但随着P2P技术的日益发展,网络电视也得 到了快速的发展,其中以Vudu、Brightcove和Dave最有知名度。在中国,目前则以创维的 酷开电视、盛大易宝最出名。P2P (peer-to-peer),还有point to point点对点下载的意思,它是下载术语,意 思是在你自己下载的同时,自己的电脑还要继续做主机上传,这种下载方式,人越多速度越 快。互联网上近年来对等连接Peer to Peer (简称P2P)业务发展迅速,已经成为宽带互联 网业务的主流。网络电视和IPTV存在着一定差异,首先从服务内容来看,IPTV主要支持时移,直 播,点播等功能,在用户体验上和广电重合度较高,是电视模式;而网络电视则较多地采用 P2P技术,其基础服务是下载存储播放的应用模式,更加接近互联网化,其应用模式和DVD 较为接近,以替代DVD为其发展动力;其次从运营主体来看,因为IPTV的直播点播节目对带 宽和服务QOS保证要求很高,IPTV的运营主体一般是拥有基础骨干网络的运营商,而网络 电视业务的互联网程度高,对基础运营商依赖程度低,适合互联网公司或者传统的硬件制 造商来推广。随着信息技术的飞速发展、市场的开放以及用户对多种业务需求的与日俱增, IPTV、数字电视和InternetTV相互渗透和融合,在相当长的时间内,三者将发挥各自的优 势特点,共同发展,实现共赢,铸就一个更加融合的新娱乐产业,随着技术的发展,以上三种 终端功能将相互融合,如数字电视机顶盒目前已增加了 VOD功能,时移功能,以及IPTV相关 的互动增值业务。未来运营商为了更好地留住用户,在数字电视,IPTV机顶盒中增加P2P下 载功能也是大势所驱。也就是说,虽然这三类机顶盒所面对的客户群不同,但P2P下载功能 将是这三种机顶盒的可选功能。目前互联网电视(InternetTV)支持从互联网中获取内容,并播放互联网获取的 内容,如RMVB格式的内容,但目前互联网电视的产品获取内容的方法太复杂,目前的获取 内容的一般方法如下1、通过PC机上互联网上搜索内容,并通过下载工具将内容下载下来后拷贝到机 顶盒上播放,这种方法优点是内容非富;但缺点是需要在PC上下载后再进行拷贝,操作复
ο2、通过EPG (或RSS),在机顶盒上查找内容进行内容下载。该方法优点是通过EPG/ RSS可以简化操作;但缺点是EPG的信息有限,并且要不断去维护EPG。3、通过机顶盒上的TV浏览器直接访问互联网进行下载。缺点是在机顶盒上操作很复杂,且需要在机顶盒上移植TV浏览器,无形中也增加了机顶盒的成本。争对以上现有技术的不足和缺陷,迫切需要一种互联网影视内容搜索的方法及系 统,采用垂直搜索技术对互联网上的影视内容进行采集、分类,为互联网电视用户提供多种 检索方式,用户可以通过遥控器直接进行互联网影视内容的检索,方便用户对互联网上内 容的获取和下载。
发明内容
本发明要解决的技术问题在于,针对现有技术中获取互联网影视内容的方法太复 杂,不方便用户在终端的操作等缺陷,提供一种互联网影视内容搜索的方法及系统,使用户 可以通过遥控器直接进行互联网影视内容的检索,方便用户对互联网上内容的获取和下 载,增加了更好的用户体验。本发明的技术方案是提供一种互联网影视内容搜索的方法,包括以下步骤A、通过网页采集模块采用垂直搜索技术对互联网影视内容网站的网页进行分析 处理并根据网页采集模块从互联网上获取的影视内容信息建立内容信q息及管理数据库;B、根据内容信息及管理数据库建立索引信息及管理数据库,用于存放各种内容索 引信息;C、通过搜索引擎根据用户输入的内容搜索请求从索引信息及管理数据库和内容 信息及管理数据库内获取用户所需要的内容信息。在本发明所述的方法中,所述步骤A进一步包括Al、根据选取的互联网影视内容网站配置网站地址及采集规则;A2、网页采集模块周期性定时分析处理所述互联网影视内容网站的内容并更新内 容信息及管理数据库。在本发明所述的方法中,所述步骤A中所述分析处理包括对互联网影视内容网站 的内容信息进行抽取、去重、分类和分词,形成规则化的信息并进行审核。在本发明所述的方法中,所述步骤B进一步包括建立和维护一个分词数据库。在本发明所述的方法中,所述步骤C进一步包括Cl、用户通过遥控器在互联网电视设备的屏幕菜单上选择检索方式;C2、用户通过遥控器在互联网电视设备的屏幕菜单上输入搜索内容;C3、互联网电视设备解析所述搜索引擎获取的内容信息并在屏幕上展示给用户;C4、互联网电视设备根据用户的选择命令下载并播放内容信息所指定的影视内 容。在本发明所述的方法中,所述步骤C进一步包括所述搜索引擎记录用户的每次搜 索信息并进行统计和排序。本发明还提供了一种互联网影视内容搜索的系统,包括应用服务器、机顶盒和互 联网电视设备;所述应用服务器连接互联网并与所述机顶盒通信连接,所述机顶盒与所述 互联网电视设备通信连接;所述应用服务器进一步包括网页采集模块、内容信息及管理数据库和索引信息及 管理数据库;所述网页采集模块采用垂直搜索技术对互联网影视内容网站的网页进行分析 处理并根据网页采集模块从互联网上获取的影视内容信息建立内容信息及管理数据库,根据内容信息及管理数据库建立索引信息及管理数据库,用于存放各种内容索引信息;所述机顶盒进一步包括电视搜索引擎和内容下载模块;所述电视搜索引擎根据用 户输入的内容搜索请求从索引信息及管理数据库和内容信息及管理数据库内获取用户所 需要的内容信息;所述内容下载模块下载内容信息所指定的影视内容并在所述互联网电视 设备上播放。具体的,所述网页采集模块周期性定时分析处理所述互联网影视内容网站的内容 并更新内容信息及管理数据库。具体的,所述电视搜索引擎记录用户的每次搜索信息并进行统计和排序。具体的,所述内容下载模块采用P2P或FTP技术下载影视内容。本发明的有益效果是,本发明提供了一种互联网影视内容搜索的方法及系统,采 用垂直搜索技术对互联网上的影视内容进行采集、分类,为互联网电视用户提供多种检索 方式,使用户可以通过遥控器直接进行互联网影视内容的检索,方便用户对互联网上内容 的获取和下载,增加了更好的用户体验。
图1是依据本发明一较佳实施例的一种互联网影视内容搜索方法的流程图;图2是依据本发明一较佳实施例的一种互联网影视内容搜索系统的结构示意图。
具体实施例方式下面根据附图和具体实施例对本发明作进一步阐述。如图1所示,是本发明一种互联网影视内容搜索方法的流程图,包括以下步骤步骤SlOO中,通过网页采集模块采用垂直搜索技术对互联网影视内容网站的网 页进行分析处理。用户根据选取的互联网影视内容网站配置网站地址及采集规则,每个互 联网影视站点的信息提取规则可以分别进行配置;所述分析处理主要用于对互联网影视网 站的网页内容进行抽取,去重、分类和分词等分析;对于影视内容、音乐等内容进行分类处 理,将不规则的网页信息,通过抽取、分析形成规则化的信息;网页采集模块从互联网影视 网站内抽取出每个影视信息,包括该影视信息的各种描述,如演员、影视发布的年份、类另IJ、 频道、简介以及信息来源等。所述垂直搜索技术是针对某一个行业的专业搜索引擎,是搜索 引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需 要的数据进行处理后再以某种形式返回给用户。步骤S105中,根据网页采集模块从互联网上获取的影视内容信息建立内容信息 及管理数据库,用于存放从互联网上获取的影视内容信息,同时根据需要,可以将这些内容 信息及管理数据库中的内容信息进行审核处理;网页采集模块可以以周期性自动采集的方 式工作,实现周期性定时分析处理所述互联网影视内容网站的内容,当所述互联网影视内 容网站的内容发生变化时可以及时更新内容信息及管理数据库;网页采集模块也可以实现 用户手工触发的采集方式,网页采集模块可以智能分析出内容文件大小、解码格式和分辩 率,并与内容信息数据库记录的解码芯片进行匹配,从而生成影视内容与解码芯片的匹配 fn息ο步骤SllO中,根据内容信息及管理数据库建立索引信息及管理数据库,用于存放各种内容索引信息;能够对客户的搜索进行快速反应;可以对经过审核的影视内容信息建 立全文索引,在生成全文索引时,不同域的不同信息采用不同的切词技术,或称分词技术, 如节目名称采用以单个汉字为单位进行分词,而对于除节目名称外的中文信息,采用自然 语言处理的中文分词方法;全文索引生成模块还维护一个分词数据库,用户可以根据实际 情况进行分词调整,使系统在切词时更合理;全文索引生成模块将采集来的关键信息,如演 员名称、导演名称、节目的分类信息、发布年份等自动加入分词数据库,也可以将影视内容 信息与机顶盒解码芯片的匹配关系生成到索引内。步骤S115中,通过搜索引擎根据用户输入的内容搜索请求从索引信息及管理数 据库和内容信息及管理数据库内获取用户所需要的内容信息;系统提供多种快速检索方 式,如热门影视搜索、最新更新内容搜索、按内容分类搜索、按影视发布年份搜索、按内容 的每个汉字的拼音首字进行搜索等,用户可以通过遥控器在互联网电视设备的UI界面屏 幕菜单上选择检索方式并通过弹出的软键盘输入搜索请求的内容。所述搜索引擎记录用户 的每次搜索信息并进行统计和排序,与排序相关的信息包括■信息匹配度■信息匹配的位置(如在内容名称中的匹配、在内容描述信息内的匹配等)■该信息所对应内容被检索的次数■该信息所对应内容的点击次数将以上因素进行加权计算,得出其排列的顺序。步骤S120中,互联网电视设备解析所述搜索引擎获取的内容信息并在屏幕上展 示给用户并根据用户的选择命令下载并播放内容信息所指定的影视内容。所述搜索引擎检 索出来的内容信息被封装成XML数据格式并通过HTTP协议传送到互联网电视设备,用户在 互联网电视设备的屏幕上就可以看到自己搜索出来的影视内容信息,影视内容信息包括影 视内容的信息描术,如影片的海报、简介、主演等,也包括影视内容的下载或点播地址,当用 户选择播放时,用户终端将根据该内容的对外接口方式如点播、FTP下载、P2P下载等进行 相关的处理并播放。图2是依据本发明一较佳实施例的一种互联网影视内容搜索系统的结构示意图, 所述互联网影视内容搜索系统200包括应用服务器210、机顶盒220和互联网电视设备 230 ;所述应用服务器210连接互联网,所述互联网包括各种影视内容网站,所述应用服务 器210与所述机顶盒220通信连接,所述机顶盒220与所述互联网电视设备230通信连接 或采用视频接口连接;本领域的普通技术人员容易明白,所述通信连接可以是局域网连接、 广域网连接,也可以是无线连接,如WLAN(无线局域网)、WIMAX、3G等通信连接方式。所述应用服务器210进一步包括网页采集模块211、内容信息及管理数据库212和 索引信息及管理数据库213 ;所述网页采集模块211采用垂直搜索技术对互联网影视内容 网站的网页进行分析处理并根据网页采集模块211从互联网上获取的影视内容信息建立 内容信息及管理数据库212,根据内容信息及管理数据库212建立索引信息及管理数据库 213,用于存放各种内容索引信息;同时根据需要,可以将内容信息及管理数据库212中的 内容信息进行审核处理;网页采集模块211可以以周期性自动采集的方式工作,实现周期 性定时分析处理所述互联网影视内容网站的内容,当所述互联网影视内容网站的内容发生 变化时可以及时更新内容信息及管理数据库212 ;网页采集模块211也可以实现用户手工触发的采集方式,网页采集模块211可以智能分析出内容文件大小、解码格式和分辩率,并 与内容信息数据库记录的解码芯片进行匹配,从而生成影视内容与解码芯片的匹配信息。所述网页采集模块211、内容信息及管理数据库212和索引信息及管理数据库213 可以位于一台服务器上,也可以根据用户的数量及对系统性能的需要分布在多台服务器 上,所述索引信息及管理数据库213可以放到一个公共磁盘上如NAS、SAN等,可以由多个电 视搜索引擎进行检索;所述垂直搜索技术是针对某一个行业的专业搜索引擎,是搜索引擎 的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的 数据进行处理后再以某种形式返回给用户,垂直搜索引擎和普通的网页搜索引擎的最大区 别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构 化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最 小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一 步的加工处理,如去重、分类等,最后分词、索引再以搜索的方式满足用户的需求,整个过 程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和 结构化的方式返回给用户。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索 引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类 信息都可以进一步细化成各类的垂直搜索引擎,本发明中通过网页采集模块211抓取网页 后,对网页商品信息进行抽取,抽取出影片名称、导演、主演、简介等,甚至可以进一步将影 片类型进行细分,如动作、动画、言情、恐怖、家庭等,然后对信息进行清洗、去重、分类、分析 比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供各方面的影视内容。所述机顶盒220进一步包括电视搜索引擎221和内容下载模块222 ;所述电视搜 索引擎221根据用户输入的内容搜索请求从索引信息及管理数据库213和内容信息及管理 数据库212内获取用户所需要的内容信息;所述内容下载模块222下载内容信息所指定的 影视内容并在所述互联网电视设备230上播放;所述内容下载模块222下载的影视内容可 以在机顶盒220上暂时缓存,缓存的大小可以根据需要进行配置,所述机顶盒220与所述互 联网电视设备230通过各种常用的视频接口进行互联,当然,所述机顶盒220也可以嵌入到 所述互联网电视设备230中,形成一个独立的互联网电视设备终端,用户只要使用遥控器 就可以通过互联网电视设备230的UI界面屏幕菜单上选择检索方式并通过弹出的软键盘 输入搜索请求的内容,所述机顶盒220通过电视搜索引擎221根据用户输入的内容搜索请 求获取用户所需要的内容信息并在互联网电视设备230的UI界面屏幕上展示给用户,用户 只要使用遥控器选择具体的节目并发出播放命令,所述互联网电视设备230就可以播放所 述机顶盒220下载的互联网影视内容。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修 改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
权利要求
一种互联网影视内容搜索的方法,其特征在于,包括以下步骤A、通过网页采集模块采用垂直搜索技术对互联网影视内容网站的网页进行分析处理并根据网页采集模块从互联网上获取的影视内容信息建立内容信息及管理数据库;B、根据内容信息及管理数据库建立索引信息及管理数据库,用于存放各种内容索引信息;C、通过搜索引擎根据用户输入的内容搜索请求从索引信息及管理数据库和内容信息及管理数据库内获取用户所需要的内容信息。
2.根据权利要求1所述的互联网影视内容搜索的方法,其特征在于,所述步骤A进一步 包括Al、根据选取的互联网影视内容网站配置网站地址及采集规则;A2、网页采集模块周期性定时分析处理所述互联网影视内容网站的内容并更新内容信 息及管理数据库。
3.根据权利要求1所述的互联网影视内容搜索的方法,其特征在于所述步骤A中所 述分析处理包括对互联网影视内容网站的内容信息进行抽取、去重、分类和分词,形成规则 化的信息并进行审核。
4.根据权利要求1所述的互联网影视内容搜索的方法,其特征在于所述步骤B进一 步包括建立和维护一个分词数据库。
5.根据权利要求1所述的互联网影视内容搜索的方法,其特征在于,所述步骤C进一步 包括Cl、用户通过遥控器在互联网电视设备的屏幕菜单上选择检索方式;C2、用户通过遥控器在互联网电视设备的屏幕菜单上输入搜索内容;C3、互联网电视设备解析所述搜索引擎获取的内容信息并在屏幕上展示给用户;C4、互联网电视设备根据用户的选择命令下载并播放内容信息所指定的影视内容。
6.根据权利要求1所述的互联网影视内容搜索的方法,其特征在于所述步骤C进一 步包括所述搜索引擎记录用户的每次搜索信息并进行统计和排序。
7.—种互联网影视内容搜索的系统,其特征在于包括应用服务器、机顶盒和互联网 电视设备;所述应用服务器连接互联网并与所述机顶盒通信连接,所述机顶盒与所述互联 网电视设备通信连接;所述应用服务器进一步包括网页采集模块、内容信息及管理数据库和索引信息及管理 数据库;所述网页采集模块采用垂直搜索技术对互联网影视内容网站的网页进行分析处理 并根据网页采集模块从互联网上获取的影视内容信息建立内容信息及管理数据库,根据内 容信息及管理数据库建立索引信息及管理数据库,用于存放各种内容索引信息;所述机顶盒进一步包括电视搜索引擎和内容下载模块;所述电视搜索引擎根据用户输 入的内容搜索请求从索引信息及管理数据库和内容信息及管理数据库内获取用户所需要 的内容信息;所述内容下载模块下载内容信息所指定的影视内容并在所述互联网电视设备 上播放。
8.根据权利要求7所述的互联网影视内容搜索的系统,其特征在于所述网页采集模 块周期性定时分析处理所述互联网影视内容网站的内容并更新内容信息及管理数据库。
9.根据权利要求7所述的互联网影视内容搜索的系统,其特征在于所述电视搜索引擎记录用户的每次搜索信息并进行统计和排序。
10.根据权利要求7所述的互联网影视内容搜索的系统,其特征在于所述内容下载模 块采用P2P或FTP技术下载影视内容。全文摘要
本发明公开了一种互联网影视内容搜索的方法,包括以下步骤A、通过网页采集模块采用垂直搜索技术对互联网影视内容网站的网页进行分析处理并根据网页采集模块从互联网上获取的影视内容信息建立内容信息及管理数据库;B、根据内容信息及管理数据库建立索引信息及管理数据库,用于存放各种内容索引信息;C、通过搜索引擎根据用户输入的内容搜索请求从索引信息及管理数据库和内容信息及管理数据库内获取用户所需要的内容信息。通过本发明提供的互联网影视内容搜索的方法及系统,简化了从互联网上获取影视内容的方法和操作。
文档编号H04N7/173GK101908048SQ200910107670
公开日2010年12月8日 申请日期2009年6月4日 优先权日2009年6月4日
发明者范正海, 郑仁圳 申请人:深圳市彪骐数码科技有限公司