一种基于文本的农业视频智能分类方法及装置的制造方法
【技术领域】
[0001]本发明涉及农业视频分类技术领域,尤其涉及一种基于文本的农业视频智能分类方法及装置。
【背景技术】
[0002]近年来,随着计算机网络和多媒体技术的高速发展,各种多媒体信息蜂拥而至。视频作为一种常见的多媒体形式,是声音、图像和文字等信息的载体,成为广大网络用户喜爱的交流媒介,与人类的日常生活息息相关。由于其种类和数量与日俱增,所以如何对这些海量的视频进行分类整理并且从中找到人们感兴趣的内容已经成为一个重要的课题。为此,视频的自动分析系统便应运而生。视频的自动分类检测算法研宄也成为一个热点。
[0003]常见的基于视觉特性的视频分类方法,不仅耗时长、效率低且代价昂贵,而文本信息常常见于用户对视频信息的描述、评论、以及所提供的个性化标签数据中,成为一种应用广泛的媒介。加之文本处理技术相对成熟、高效,因此与视频相关的文本信息成为对视频数据分类中最直接,最可行且最有效的特征。
[0004]农业视频具有其特殊性,其文本信息中含有农业相关专有名词的信息。这些专有名词既包括普通的专有名词,又涵盖农业领域的专业术语。农业视频的文本信息是一种非正式的简短文本,往往不能提供很好的上下文信息,且存在各式拼写错误和多种表达方式,这为农业视频分类提出了较大挑战,如何对海量农业视频数据进行自动分类成为了极具挑战性的前沿课题。
【发明内容】
[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的基于文本的农业视频智能分类方法及相应的基于文本的农业视频智能分类装置。
[0006]根据本发明的一个方面,提供了一种基于文本的农业视频智能分类方法,该方法包括:
[0007]构建农业相关信息的本体库;
[0008]获取待分类的视频的文本信息;
[0009]将所述文本信息划分为属性标签和数据元素,并对所述数据元素进行标注;
[0010]将标注后的数据元素进行打包,生成所述待分类的视频的特征信息;
[0011]利用所述农业相关信息的本体库与所述待分类的视频的特征信息进行比对,根据比对结果对所述待分类的视频进行分类。
[0012]优选地,所述构建农业相关信息的本体库,具体包括:
[0013]从互联网数据中抓取涉农网站的初始URL ;
[0014]根据所述初始URL,采用爬虫引擎处理技术搜索所述初始URL对应的网页上的所有链接,下载搜索到的链接对应的URL得到网址集合;
[0015]利用责任链模式,对所述网址集合中的URL进行过滤,得到与农业相关的网站对应的URL ;
[0016]解析所述过滤得到的URL对应的农业相关网站,得到与农业相关的特征词;
[0017]根据所述与农业相关的特征词构建农业相关信息的本体库。
[0018]优选地,采用爬虫引擎处理技术搜索所述初始URL对应的网页上的所有链接,具体包括:
[0019]将所述初始URL交付网页爬虫算法;
[0020]所述网页爬虫算法以广度优先的方式不断爬行,搜索所述初始URL对应的网页上的所有链接。
[0021]优选地,所述将所述文本信息划分为属性标签和数据元素,并对所述数据元素进行标注,具体包括:
[0022]将所述文本信息划分为属性标签和数据元素;
[0023]提取所述数据元素的至少一个关键词;
[0024]根据所述数据元素的至少一个关键词对该数据元素进行标注。
[0025]优选地,所述利用所述农业相关信息的本体库与所述待分类的视频的特征信息进行比对,根据比对结果对所述待分类的视频进行分类,具体包括:
[0026]解析所述待分类的视频的特征信息,得到所述待分类的视频的数据元素的至少一个关键词;
[0027]将所述至少一个关键词与所述农业相关信息的本体库中的与农业相关的特征词进行比对;
[0028]如果所述农业相关信息的本体库中存在与所述至少一个关键词相同或满足预设相似度阈值的特征词,则根据所述特征词为所述待分类的视频添加一个类别标签。
[0029]根据本发明的另一个方面,提供了一种基于文本的农业视频智能分类装置,该装置包括:
[0030]本体库构建模块,用于构建农业相关信息的本体库;
[0031]文本信息获取模块,用于获取待分类的视频的文本信息;
[0032]标注模块,用于将所述文本信息划分为属性标签和数据元素,并对所述数据元素进行标注;
[0033]特征信息生成模块,用于将标注后的数据元素进行打包,生成所述待分类的视频的特征信息;
[0034]比对分类模块,用于利用所述农业相关信息的本体库与所述待分类的视频的特征信息进行比对,根据比对结果对所述待分类的视频进行分类。
[0035]优选地,所述本体库构建模块,具体包括:
[0036]URL抓取单元,用于从互联网数据中抓取涉农网站的初始URL ;
[0037]URL搜索单元,用于根据所述初始URL,采用爬虫引擎处理技术搜索所述初始URL对应的网页上的所有链接,下载搜索到的链接对应的URL得到网址集合;
[0038]URL过滤单元,用于利用责任链模式,对所述网址集合中的URL进行过滤,得到与农业相关的网站对应的URL ;
[0039]数据解析单元,用于解析所述过滤得到的URL对应的农业相关网站,得到与农业相关的特征词;
[0040]本体库构建单元,用于根据所述与农业相关的特征词构建农业相关信息的本体库。
[0041]优选地,所述标注模块,具体包括:
[0042]划分单元,用于将所述文本信息划分为属性标签和数据元素;
[0043]提取单元,用于提取所述数据元素的至少一个关键词;
[0044]标注单元,用于根据所述数据元素的至少一个关键词对该数据元素进行标注。
[0045]优选地,所述比对分类模块,具体包括:
[0046]解析单元,用于解析所述待分类的视频的特征信息,得到所述待分类的视频的数据元素的至少一个关键词;
[0047]比对单元,用于将所述至少一个关键词与所述农业相关信息的本体库中的与农业相关的特征词进行比对;
[0048]类别确定单元,用于如果所述农业相关信息的本体库中存在与所述至少一个关键词相同或满足预设相似度阈值的特征词,则根据所述特征词为所述待分类的视频添加一个类别标签。
[0049]本发明的有益效果为:
[0050]本发明依托农业视频文本信息的特性,针对农业视频文本信息的分词、专有名词等,根据互联网涉农网站数据构建互联网涉农中文本体库,以本体库为依据,采用标注的方式提取信息,实现农业视频的分类,从而方便用户快速预览视频内容,定位其感兴趣的信息,提高了用户浏览和搜索的效率。
[0051]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0052]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0053]图1示意性示出了本发明一个实施例的基于文本的农业视频智能分类方法的流程图;以及
[0054]图2示意性示出了本发明一个实施例的基于文本的农业视频智能分类装置的结构框图。
【具体实施方式】
[0055]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类