数据提取方法及装置的制造方法_2

文档序号:9887632阅读:来源:国知局
设置接口,其中,该动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。
[0043]本发明实施例还提供了一种数据提取装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0044]图2是根据本发明实施例的数据提取装置的框图,如图2所示,包括:确定模块22、匹配模块24和提取模块26,下面对各个模块进行简要说明。
[0045]确定模块22,用于依据数据报文确定提取的目标数据;
[0046]匹配模块24,用于根据预定的正则表达式对该报文数据中的内容进行匹配;
[0047]提取模块26,用于在该报文数据中存在至少两个目标数据的情况下,对该至少两个目标数据进行提取。
[0048]图3是根据本发明优选实施例的数据提取装置的框图一,如图3所示,该匹配模块24包括:
[0049]匹配单元32,用于在该报文数据中具有字符串特征的情况下,根据预定的字符正则表达式对该报文数据中的内容进行匹配。
[0050]图4是根据本发明优选实施例的数据提取装置的框图二,如图4所示,该匹配模块24包括:
[0051]解析单元42,用于在该报文数据中不具有字符特征的情况下,采用预定函数解析的方式解析该报文数据,解码得到该目标数据。
[0052]图5是根据本发明优选实施例的数据提取装置的框图三,如图5所示,该提取模块26包括:
[0053]提取单元52,用于在对不同的该报文数据中提取该至少两个目标数据的情况下,通过预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对该目标数据进行提取。
[0054]进一步地,该提取模块26还可以包括:第二提取单元,用于在一个报文数据有两个提取目标的情况下,对该报文数据中的内容进行多次匹配后对两个目标数据进行提取;和/或,第三提取单元,用于在不同报文数据有两个提取目标的情况下,采用预先配置的用于记录提取成功的提取次数和/或用于记录提取失败的尝试提取次数对两个目标数据进行提取。
[0055]图6是根据本发明优选实施例的数据提取装置的框图四,如图6所示,该装置还包括:
[0056]配置单元62,用于配置动态设置接口,其中,该动态设置接口用于接收针对不同提取类型设置的不同提取次数和尝试提取次数。
[0057]下面结合可选实施方式对本发明实施例进行进一步说明。
[0058]为了更好的提升网络服务,本发明实施例提供了一种元数据提取的方法,首先需要分析报文中的内容,找到所需要的目标数据,当报文数据内容具有字符串特征时,根据预先定义的正则表达式,对报文中的内容进行匹配,匹配成功后进行目标数据的提取。如果一个报文数据中传输多个提取目标都需要提取,而正则规则一般只能匹配出一个结果,本发明采用多次匹配扩展功能,可以通过配置多次匹配扩展属性实现全部提取。比如一个报文中存在多处hello,如果只配置基本的提取配置,只能提取出该报文中首次出现位置的内容,为保证全部提取,增加配置多次提取扩展配置,多次匹配的开始位置是首次匹配的结束位置(只有首次匹配满足,才会进行多次匹配)。图7是根据本发明优选实施例的数据提取方法的流程图一,如图7所示,包括以下步骤:
[0059]步骤S702,分析到一个报文有多个提取目标;
[0060]步骤S704,书写正则表达式;
[0061]步骤S706,报文匹配正则表达式;
[0062]步骤S708,匹配成功提取到第一个;
[0063]步骤S710,配置多次匹配扩展属性;
[0064]步骤S712,从上次匹配的结束位置开始继续匹配,直到提取结束。
[0065]当不同报文数据中传输多个提取目标都需要提取,本发明提供配置提取次数和尝试提取次数。用户可以指定任意的提取次数,每提取到一次计数加1,当达到提取次数后,就不再进行提取。有些情况下,有可能配置了提取正则,但是却迟迟不能提取到待提取的信息,例如可能是加密报文或者是下一条目标出现较晚,这时可以指定尝试提取次数来避免白白的性能损失。尝试提取次数的累加方法:连续未提取到则加1,如果提取到则重新清
V=J=,
O
[0066]不同提取类型的提取次数和尝试提取次数有着不同的配置需求,元数据提取提供一个动态设置接口接收用户修改参数。用户可针对不同提取类型设置不同的提取次数和尝试提取次数,实时动态修改提取数据。图8是根据本发明优选实施例的数据提取方法的流程图二,如图8所示,包括以下步骤:
[0067]步骤S802,某提取类型提取次数和尝试提取次数采用默认值;
[0068]步骤S804,用户(产品)调用参数配置接口动态修改;
[0069]步骤S806,按照新的参数进行元数据提取。
[0070]当从报文中无法找到特征字串时,采用函数解析的方式分析应用层数据,直接解码得到提取目标。图9是根据本发明优选实施例的数据提取方法的流程图三,如图9所示,包括以下步骤:
[0071]步骤S902,函数解析应用层数据;
[0072]步骤S904,解码得到提取目标。
[0073]在某些情况下,只有报文满足了某个特征说明了是特定的报文数据时(定义切入规则)才能进行提取,或者是由于正则特征较弱或者提取较多不需要的内容(定义排除规贝U )而影响性能时,可以采用表达式辅助信息提取。定义变量,将报文内容中数据赋值到变量,用于表达式运算。表达式形式类似如:(a+6)> = b&&(c ! = d |e>>2〈8)),支持逻辑表达式,数学表达式以及两者组合的表达式。只有表达式为真时,才能进行提取动作。图10是根据本发明优选实施例的数据提取方法的流程图四,如图10所示,包括以下步骤:
[0074]步骤S1002,定义变量;
[0075]步骤S1004,提取报文中的数据,赋值给变量;
[0076]步骤S1006,变量参与表达式计算
[0077]步骤S1008,判断表达式成立,在判断结果为是的情况下。执行步骤S1010,在判断结果为否的情况下,执行步骤S1012 ;
[0078]步骤S1010,进行提取;
[0079]步骤S1012,不提取,返回。
[0080]相关实施例中,以一个报文有多个提取目标来说明多次匹配扩展属性提取的过程,以多个报文有多个提取目标来说明元数据提取次数和尝试提取次数的使用方法,下面以QQ登陆和退出事件来说明表达式辅助元数据提取的过程,但元数据提取的机制及方法不仅限于上述几种情况。
[0081]关于多次匹配扩展属性提取的功能描述。利用本发明,从报文载荷内容abcdefghijkdeflmn中需要提取出def。这个报文中存在两个提取目标def,配置多次匹配扩展属性进行提取。配置正则表达式Rl = abc,R2 = ghi。匹配到Rl表达式之后,匹配到的结束位置加I或者匹配到的开始位置加3就是提取目标的起始位置;匹配到R2表达式之后,匹配到的开始位置减I或者匹配到的结束位置减3就是提取目标的结束位置。继续进行第二次匹配,从第一次匹配的结束位置i开始,配置正则表达式R3 = jk,R4 = lmn。匹配到R3表达式之后,匹配到的结束位置加I或者匹配到的开始位置加2就是提取目标的起始位置;匹配到R4表达式之后,匹配到的开始位置减I或者匹配到的结束位置减3就是提取目标的结束位置。多次匹配扩展属性提取到两个结果,提取结束。图11是根据本发明优选实施例的数据提取方法的流程图五,如图11所示,包括以下步骤:
[0082]步骤S1102,需要从abcdefghi jkdeflmn中提取出def,报文中存在两个提取目标def,配置多次匹配扩展属性进行提取;
[0083]步骤SI 104,配置正则表达式Rl = abc, R2 = ghi,报文匹配成功;
[0084]步骤SI 106,计算起始位置:R1的结尾位置加I或Rl的开始位置加3 ;
[0085]步骤SI 108,计算结束位置:R2的开始位置减I或R2的结尾位置减3 ;
[0086]步骤SI 110,继续进行第二次匹配,从第一次匹配的结束位置i开始,配置正则表达式R3 = jk, R4 = lmn,报文匹配成功;
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1