基于自定义规则的台风实时采集方法

文档序号:6016862阅读:339来源:国知局
专利名称:基于自定义规则的台风实时采集方法
技术领域
本发明涉及台风信息专业采集应用领域,特别是一种基于自定义规则的台风实时采集方法。
背景技术
我国是世界上遭受台风影响最严重的国家之一,近几年台风活动频繁,2005年 “龙王”、“海棠”、“泰利”、“麦莎”、2006年“桑美”、2009年“莫拉克”等台风相继都对福建、广东、浙江等省造成了重大影响。在灾害性天气期间,台风分析应用系统的运行需要数据的实时、稳定。当前该类数据只有各大气象信息网才进行发布,灾害期间网络的不稳定、数据的跳变等问题大大影响其数据采集的稳定性。为此,申请人通过深入研究设计出一套自定义规则多特征的台风实时采集机制,从技术上对台风气象数据的采集方式进行突破,解决了各大气象网站中台风路径及预报信息内容复杂,数据源格式不一、发布数据不一等问题,通过自定义规则的方法,实时采集所需要的台风路径数据,从而保障了灾害性天气期间信息源的稳定问题。

发明内容
本发明的目的在于克服现有技术的不足,提供一种基于自定义规则的台风实时采集方法,该方法有利于在灾害期间保障台风路径数据的稳定性,提供稳定的信息源保障方案。为实现上述之目的,本发明采用的技术方案是这种自定义规则的台风实时采集方法,其特征在于包括以下步骤
(1)实现不同气象网站自定义的规则配置;
(2)对网站内容实现多线程的采集控制处理;
(3)针对数据格式规则对台风路径数据及预报数据进行规则识别;
(4)对所需台风数据的准确性及完整性进行判定;
(5)根据规则内容实现数据缓存、存储入库操作。本发明的有益效果是通过对台风关注信息内容的总结,沉淀出的特征属性进行配置,如台风的特征信息有台风编号、台风名称、台风位置、台风强度、台风速度、影响范围以及未来趋势信息;每个特征都具有一定的取值范围。系统中通过对不同气象网发布的台风数据进行特征提取,再经过特征模式匹配,并根据特征的范围对匹配出来的数据进行校验, 最终解析出真实的台风数据,为应用系统所使用。下面结合附图及具体实施例对本发明作进一步的详细说明。


图1是本发明方法流程图。
具体实施例方式为使本发明的目的、技术方案及优点更加清楚明白,以下将通过具体实施例和相关附图,对本发明作进一步详细说明。请参考图1,为本发明方法流程图。本发明的基于自定义规则的台风实时采集方法,包括以下步骤
(1)实现不同气象网站自定义的规则配置;
(2)对网站内容实现多线程的采集控制处理;
(3)针对数据格式规则对台风路径数据及预报数据进行规则识别;
(4)对所需台风数据的准确性及完整性进行判定;
(5)根据规则内容实现数据缓存、存储入库操作。步骤(1)的实现方法是对不同气象网站的数据格式规则配置是对台风路径数据及预报数据进行数据的格式化操作,利用INI存储方式对所需要的操作进行参数预配置, 并就所需要采集的数据进行数据格式定义,形式数据格式文件。每次采集时都需要对格式配置文件进行预加载,从而根据采集的页面内容进行逐一格式匹配,最终获取到需要的文字和图片的结果信息。如台风数据格式串文件配置如下2011$*$ $1 8璐号$*$($1 皿$) $匪$月$DD$日$HH$时(北京时间)中心位置在北纬$WD$度,东经$JD$度,中心气压 $ZXQY$百帕,近中心最大风速$ZXFS$米/秒,移向$YDFX$,移速$YDSD$公里/小时, 七级大风圈半径$RADIUS7$公里。格式符采用“$”进行标识,各格式符可以方便的进行填加及调整。步骤(2)的实现方法是多线程的采集控制在于将不同气象网站的内容采集工作都启用新线程的方式进行处理。在采集服务运行中,通过判断线程的状态是否正常运行, 来进行线程的控制操作。如当前采集的线程不存在,则通过线程的ThreacKtart操作启动新的线程,进行网站内容的采集识别;如当前采集线程已运行且无反应时,进行状态尝试标识,当尝试三次未能正确返回正常状态时,服务则通过线程的Abort操作进行中断,并重新启用新线程进行操作。整个过程中,采集服务起到了控制中心的作用,协调调度好各采集线程的工作,确保采集的持续、稳定。步骤(3)的实现方法是数据的规则识别是通过格式配置文件获取到当前需要内容的远程地址,并通过地址获取到所需要区域的台风页面内容。由于页面的内容的字符格式不一致,有繁体、英文、中文等字符码,因此要进行统一的编码处理。同时在数据解析时, 需要考虑从页面顶端或从页面底部来进行获取所需要的信息,减少数据遍历时间。在台风路径数据及预报数据格式规则识别时,通过“$$”符号遍历识别,获取各个关键字段,并对关键字段所对应的网页具体内容进行匹配,将匹配内容存储于结构体中。步骤(4)的实现方法是台风数据的准确性及完整性判定是将匹配完数据格式串后,需要对结构体的数据进行有效的校验,确保数据是准确、完整、有效的。重点是对数据时间、数据内容、边界判断等验证。在数据时间上,确保最新的数据时间跟数据库存储的数据时间差别不大,避免出现大范围的时间跨度;在数据内容上,需要针对文字型数据、数字型数据、时间型数据、布尔型数据及图片型数据进行类型上的判断,确保入库数据是合法的; 在边界判断上,针对每个数据的有效范围进行判别,如同一台风路径时间上下相差不能超过12小时,经纬度数据跨度不能超过5度,中心气压跨度必须是正值,速度数值必须是正值等判定,确保入库数据不存在大的歧义。步骤(5)的实现方法是针对台风路径及预报数据存在着不同的存储表结构及入库方式,首先,需要根据数据类型(包括实时数据、历史数据及预报数据等)进行数据入库。 其次,在数据入库上,服务需要考虑当前入库操作是新数据的新增方式还是旧数据的处理方式,因为旧数据的存在是否是覆盖入库还是进行数据的丢弃操作,决定了服务运行的操作步骤。所以,这就需要事先判别数据库已存在的存储数据是否各字段都完整,如果进行更新覆盖操作,就需要剔除空数据的字段,尽量确保数据库存储的数据内容最全,每个远程数据来源都有自己的入库权限级别,从而保障数据的权威性。上列较佳实施例,对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种基于自定义规则的台风实时采集方法,其特征在于,包括以下步骤(1)实现不同气象网站自定义的规则配置;(2)对网站内容实现多线程的采集控制处理;(3)针对数据格式规则对台风路径数据及预报数据进行规则识别;(4)对所需台风数据的准确性及完整性进行判定;(5)根据规则内容实现数据缓存、存储入库操作。
2.根据权利要求1所述的基于自定义规则的台风实时采集方法,其特征在于步骤(1) 的实现方法是建立不同气象网站的规则配置项,将所需要访问的网站地址、关键字、数据格式、解析方式、字符编码、过期时间、数据入库方式等内容进行配置,支持不同的网站内容采用多种地址、多种格式的进行访问识别。
3.根据权利要求1所述的基于自定义规则的台风实时采集方法,其特征在于步骤(2) 的实现方法是不同的网站在采集处理时采用不同的进程进行控制,主线程实现各线程的调度作用,当采集线程出现无响应情况,主线程对其进行线程消除,并重新启用新线程进行操作;当主线程无响应时,则重新启动采集服务,确保台风采集操作的稳定性。
4.根据权利要求1所述的基于自定义规则的台风实时采集方法,其特征在于步骤(3) 中,首先,加载气象网站对应的格式配置项,将不同格式内容进行统一解析;其次,将下载的网页内容进行逐一分解、识别;最后,将识别到的台风路径数据及预报数据统一存储于台风结构体中,用于数据完整性判定需要及存储入库的基础。
5.根据权利要求1所述的基于自定义规则的台风实时采集方法,其特征在于步骤(4) 中,对存储于结构体中的台风路径数据及预报数据进行数据时间及数据范围的判定,确保数据的准确性,以及针对每个数据进行完整性分析,确保数据入库的格式、长度等都符合要求。
6.根据权利要求1所述的基于自定义规则的台风实时采集方法,其特征在于步骤(5) 中,首先判定数据库的连接状态,对新的台风路径数据及预报数据进行增加入库的操作方式,当数据库中已经存在数据,采集服务根据数据的字段内容需要进行更新操作。
全文摘要
本发明公开一种基于自定义规则的台风实时采集方法,包括以下步骤(1)实现不同气象网站自定义的规则配置;(2)对网站内容实现多线程的采集控制处理;(3)针对数据格式规则对台风路径数据及预报数据进行规则识别;(4)对所需台风数据的准确性及完整性进行判定;(5)根据规则内容实现数据缓存、存储入库操作。本发明从技术上对台风气象数据的采集方式进行突破,解决了各大气象网站中台风路径及预报信息内容复杂,数据源格式不一、发布数据不一等问题,通过自定义规则的方法,实时采集所需要的台风路径数据,从而保障了灾害性天气期间信息源的稳定问题。
文档编号G01W1/00GK102354003SQ201110253560
公开日2012年2月15日 申请日期2011年8月31日 优先权日2011年8月31日
发明者汤成锋 申请人:福建四创软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1