数据分析方法、系统及服务器的制作方法

文档序号:6605639阅读:295来源:国知局
专利名称:数据分析方法、系统及服务器的制作方法
技术领域
本申请涉及通信和计算机技术领域,特别涉及一种数据分析方法、系统及服务器。
背景技术
随着《吐2.0技术的发展,互联网应用或者互联网平台中的业务数据,如用户行为数据和平台系统数据,都呈现出海量增长的趋势。为了便于海量业务数据的处理,挖掘其内在价值,通常采用一种并行的数据处理架构来支撑海量数据的处理工作,即利用多个分布式的计算机相互协作工作,共同完成对海量数据的处理。当前,在大型的互联网网站平台中,应用最为广泛的一种并行的数据处理架构为 Hadoop系统框架。在Hadoop的系统架构中包括有一个主服务器和多个从服务器组成的集群,主服务器将海量数据分割成多个数据块,再将分割后的数据块分配给多个并行的从服务器,由每个从服务器处理各自的数据块,并将处理的结果发送至主服务器,主服务器将处理的结果合并后输出。此外,当前阶段主服务器输出的合并结果又可以作为下一阶段主服务器进行数据处理的一个输入,得到下一阶段的合并结果。这种并行和串行相结合的处理方式可以使并行的数据处理系统高效地处理海量数据。目前,对于数据的分析方法主要为基于关系型数据库的数据分析方法,然而,这种方法很难基于并行的数据处理架构对关系型数据库的数据进行分析,特别是在需要进行归类、报表生成等复杂的数据分析处理工作时,难以满足实际需要。因此,基于关系型数据库的数据分析方法并不适用于对并行的数据处理架构中的海量数据进行分析。

发明内容
为了解决上述技术问题,本申请实施例提供了一种数据分析方法、系统及服务器, 以实现对并行的数据处理架构中的海量数据进行分析。本申请实施例公开公开了如下技术方案一种数据分析方法,包括从服务器接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式, 所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;从服务器根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;从服务器根据所述分割标识将获取的原始数据切割成数据元素;从服务器按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;从服务器按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。本申请还提供另一种数据分析方法,包括多线程中子线程接收主线程发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程对待分析的原始数据进行归类的方式,所述预置值定义了子线程对归类后的原始数据进行分析处理的方式;子线程根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;子线程根据所述分割标识将获取的原始数据切割成数据元素;子线程按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;子线程按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程。本申请还提供一种数据分析系统,包括一主服务器和至少两个从服务器,其中, 所述主服务器,用于向从服务器发送文件,并对接收到的分析处理结果进行合并,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;所述从服务器,用于接收主服务器发送的文件,根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离,根据所述分割标识将获取的原始数据切割成数据元素,按照预置键中对数据元素的定义方式,对获取的原始数据进行归类,按照预置值的定义,对归类后的原始数据进行分析处理, 并将分析处理结果反馈给主服务器。本申请还提供另一数据分析系统,包括一主线程模块和至少两个子线程模块,其中,所述主线程模块,用于向子线程模块发送文件,并对接收到的分析处理结果进行合并, 其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程模块对待分析的原始数据进行归类的方式,所述预置值定义了子线程模块对归类后的原始数据进行分析处理的方式;所述子线程模块,用于接收主线程模块发送的文件,根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离,根据所述分割标识将获取的原始数据切割成数据元素,按照预置键中对数据元素的定义方式,对获取的原始数据进行归类,按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程模块。本申请还提供一种从服务器,包括第一文件接收模块,用于接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;第一数据获取模块,用于根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;第一数据切割模块,用于根据所述分割标识将获取的原始数据切割成数据元素;第一数据归类模块,用于按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;第一数据计算模块, 用于按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。本申请还提供另一种服务器,包括第二文件接收模块,用于接收主线程发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程对待分析的原始数据进行归类的方式,所述预置值定义了子线程对归类后的原始数据进行分析处理的方式;第二数据获取模块,用于根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;第二数据切割模块,用于根据所述分割标识将获取的原始数据切割成数据元素;第二数据归类模块,用于按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;第二数据计算模块,用于按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程。由上述实施例可以看出,首先从数据源中获取待分析的原始数据,然后按照分割标识将原始数据切割成数据元素,并将切割得到的数据元素作为键值对中的键,再从切割得到的数据元素中,提取出符合预置键值对中的键定义的数据元素,最后按照预置键值对中的值定义,对提取出的数据元素进行分析处理,并将分析处理结果反馈给主服务器,以便主服务器对接收到的分析处理结果进行合并。因此,为并行的数据处理架构中的海量数据进行分析提供了具体的实现方案。


为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一种数据分析方法的一个实施例的流程图;图2为本申请一种数据分析方法的另一个实施例的流程图;图3为本申请一种从服务器的一个实施例的结构图;图4为本申请一种从服务器的另一个实施例的结构图;图5为本申请一种从服务器的另一个实施例的结构图;图6为本申请一种服务器的一个实施例的结构图;图7为本申请一种数据分析系统的一个实施例的结构图;图8为本申请一种数据分析系统的另一个实施例的结构图。
具体实施例方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例进行详细描述。本申请实施例中的数据分析方法可以对任何并行的数据处理架构中的海量数据进行分析,例如,Hadoop系统框架中的海量数据。本申请实施例对并行的数据处理架构并不进行限定。实施例一请参阅图1,其为本申请一种数据分析方法的一个实施例的流程图,其应用于包括一个主服务器和多个从服务器组成的集群系统中,该方法包括以下步骤步骤101 从服务器接收主服务器发送的文件,其中,所述文件中携带从服务器待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;例如,在一个并行的数据处理架构中,主服务器向各个从服务器发送一个文件,在文件中携带有数据标识和预置键值对,其中的预置键值对可以有多个。其中,所述数据标识指示了对应的从服务器需要获取的待分析的原始数据,例如,数据的地址信息等可以作为数据标识,指示对应的从服务器待分析的原始数据。所述预置键值对包括预置键和预置值, 预置键定义了从服务器对待分析的原始数据进行归类的方式;预置值定义了从服务器对归类后的原始数据进行分析处理的方式。例如,假设一预置键值对中,预置键为key=“l,2,
73”,预置值为=Value = max($a$+$b$+$c$)。则该预置键值对具体定义了从服务器需要对待分析的原始数据按照第1至3列数据元素进行归类,并按照预置值的定义,对归类后的原始数据中第a列、第b列和第c列的数据元素的分析处理方法为求和后再取最大值。需要说明的是,预置值定义的分析处理方法可以包括但不限于统计最小值 (min)、统计最大值(max)、计算平均值(average)、计数(count)、求和(sum)及直接显示 (plain)等,直接显示(plain) —般用于主键列的显示。当然,分析处理过程也可以包括其他的计算方法,本申请实施例对分析处理的方式并不进行限定。步骤102 从服务器根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;例如,各个从服务器根据自身接收的数据标识,从数据源处获取数据标识所指示的待分析的原始数据,如,数据源可以是FTP服务器、数据库(DB)或文件系统,具体数据的格式可以是数据表、记录、日志等。并且,在本申请的原始数据中,各个数据元素之间以分割标识进行隔离。该分割标识可以是逗号、分号、空格、冒号等。本申请实施例中以逗号作为数据元素之间的分割标识进行举例说明。例如,以下为一段从数据源处获取原始数据,该原始数据为日志片段。在这个日志片段中,每个数据元素之间以逗号隔离。并且,在这个日志片段中,共有两段记录,每个记录以回车换行符作为记录的结束。0, 203. 171. 227. 1 17,null, xml, 12005554,taobao. user, get, 0, 0, 0, 172. 24. 14. 65,小郭 cc, 1. 0,null,3,null,0,1274803197776,0,0,0,1,0,0,0,0,8,0,0,0,90,97. 74. 215. Ill, null, xml, 12028711, taobao. taobaoke. items, detail. get,0, 0,null, 172. 24. 14. 65,null, 2. 0,md5,4,null, 221000,1274803197765,0,2,-1,1,0,0,0, 0,23,0,0,0,26步骤103 :从服务器根据所述分割标识将获取的原始数据切割成数据元素;例如,如果各个数据元素之间以逗号隔离,则可以按照逗号将第一条记录切割成以下共30个数据元素第一个数据元素为0,第二数据元素为203. 171. 227. 117,第三个数据元素为皿11,第四个数据元素为xml,第五个数据元素为12005554,第六个数据元素为 taobao. user, get,......,第 30 个数据元素为 9。同样,可以按照上述方式将第二条记录切割成30个数据元素。步骤104 从服务器按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;仍以上述第一条记录为例,如果在预置键值对中定义的预置键为key =“1,2, 3”,则从切割得到的数据元素中提取出的符合预置键值对中预置对应的数据元素,即原始数据中的第1至3列数据元素0,203. 171. 227. 117和null。例如,仍旧以预置键为:key=“ 1,2,3”,预置值为:value = max ($a$+$b$+$c$)例来说明上述预置键值对的作用。如,对于一个从服务器上的10个待分析的原始数据而言, 当通过预置键的归类后,发现在10个待分析的原始数据中,有7个原始数据中的第1至3 列数据元素相同,另外3个原始数据中的第1至3列的数据元素相同,则分别对7个原始数据中第a列、第b列和第c列的数据元素求和,再取最大值,并且分别对另外3个原始数据中第a列、第b列和第c列的数据元素求和,再取最大值。
但是,当记录中的数据元素较多时,或者数据元素在原始数据中的顺序发生变化时,容易发生数据元素操作错误的现象。例如,当数据元素在原始数据中的顺序发生变化, 相应地,该数据元素对应的预置键的定义也会发生变化。如,假设数据元素0对应的预置键的定义为key =“1”,当其在原始数据中的顺序向右移动一位后,其对应的预置键的定义变为key =“2”。此时,如果要提取数据元素0,必须修改其在预置键值对中的预置键的定义,即由key = 1修改为key = 2,否则就会提取错误的数据元素。为了保证当数据元素移位时,不必重新修改其在预置键值对中的预置键的定义,优选地,为每个数据元素设定-别名,如下所示,每个数据元素都对应一个别名。〈aliases〉
<alias name =’ appStatus/rkey =“1〃 /
<alias name =’ remotelp"key =“2〃 1、
<alias name =‘partnerld〃key =“3" /
<alias name =’ format" key=" 4"/>
<alias name =’ appKey" key=" 5"/>
<alias name =,apiName" key=" 6“/>
<alias name =’ readBytes"key =“7〃 /
<alias name =‘errorCode〃key =“8〃 /
<alias name =’ subErrorCode!f key =="9
<alias name ='localIp" key=" 10" /)
<alias name =’ nick〃 key="11"/>
<alias name =’ version" key=" 12" /)
<aliasname = 〃signMethod"key =“13"
<aliasname = 〃tag〃 key =〃 14〃 /X>
<aliasname = 〃id" key="15" />
<aliasname = 〃responseMappingTime‘‘key
<aliasname = 〃timestamp0〃key = 〃17"
<aliasname = 〃timestampl〃key = 〃18"
<aliasname = 〃timestamp2〃key = 〃19"
<aliasname = 〃timestamp3〃key = 〃20"
<aliasname = 〃timestamp4〃key =“21"
<aliasname = 〃timestamp5〃key =“22"
<aliasname = 〃timestamp6〃key =“23"
<aliasname = 〃timestamp7〃key =“24"
<aliasname = 〃timestamp8"key = 〃25"
<aliasname = 〃timestamp9"key =“26"
<aliasname = 〃timestamplO“key='27"
<aliasname = 〃timestampl1“key='28"
<aliasname = 〃timestampl2“key='29"
<aliasname = 〃timestampl3'key='30"
〈/aliases〉由上述内容可知,在一个记录中,第一个数据元素的别名为"appStatus",第二
个数据元素的别名为〃 remotelp",......,依此类推。此时,上述预置键值对中定义的
预置键相应地被别名替换为:key = "appStatus, remotelp, partnerld”。可见,即使第一个数据元素0在记录中向右移动一位后,其在记录中的顺序发生变化,但是其别名仍为 “appStatus”,因此,不必修改预置键值对中的预置键的定义。步骤105 从服务器按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器,主服务器对接收到的分析处理结果进行汇总。并且还可以进一步执行对应的分析处理工作,例如采用与从服务器相同的处理方式,对收到的分析结果进行分析、合并等工作。例如,如果在预置键值对中定义的预置键为key = 〃 version,apiName, format",定义的预置值为value = 〃 average ($responseMappingTime$) 〃,当从服务器按照预置键的定义从获取的原始数据中提取出数据元素version、apiName和format相同的原始数据(记录)后,即,对原始数据进行归类后,按照预置值的定义,从服务器对提取出的原始数据中的数据元素responseMappingTime进行求平均计算。以下为一个文件中的预置键值对中对预置键和预置值的定义。<entryList>〈entry name = 〃 月艮务名称“key = “ version, apiName, format “ value
=“plain($apiName$) <entry name =“片反本号〃 key = " version, apiName, format " value
="plain ($version$)<entry name =“返回格式〃 key = " version, apiName, format " value =〃 plain ($format$) " />〈entry name =" Mapping 时间〃 key=" version, apiName, format" value ="average ($responseMappingTime$)" />〈entry name = " Mapping 时间最大"key = " version, apiName, format" value =" max($responseMappingTime$)" />〈entry name =“业务平均消耗时间(ms) ‘‘ key = ‘‘ version, apiName, format" value = " average($timestamp9$)" /><entry name =“处 ;总、数"key = " version, apiName, format " value =〃 count ()〃 /></entryList>其中,在第一条预置键值对中,预置键定义了从服务器对数据元素version、 apiName和format相同的原始数据进行归类,预置值定义了从服务器对归类后的原始数据中的数据元素apiName进行显示;在第二条预置键值对中,预置键定义了从服务器对数据元素version、apiName和 format相同的原始数据进行归类,预置值定义了从服务器对归类后的原始数据中的数据元素version进行显示;
在第三条键值对中,预置键定义了从服务器对数据元素version、apiName和 format相同的原始数据进行归类,预置值定义了从服务器对归类后的原始数据中的数据元素format进行显示;在第四条键值对中,预置键定义了从服务器对数据元素version、apiName和 format相同的原始数据进行归类,预置值定义了从服务器对归类后的原始数据中的数据元素responseMappingTime进行求平均计算;在第五条键值对中,预置键定义了从服务器对数据元素version、apiName和 format相同的原始数据进行归类,预置值定义了对归类后的原始数据中的数据元素 responseMappingTime 求最大值;在第六条键值对中,预置键定义了从服务器对数据元素version、apiName和 format相同的原始数据进行归类,预置值定义了从服务器对归类后的原始数据中的数据元素timestamp9进行求平均计算;在第七条键值对中,预置键定义了从服务器对数据元素version、apiName和 format相同的原始数据进行归类,预置值定义了从服务器统计(count)归类后预置键相同的的原始数据(记录)的数量。另外,上述七条键值对中还指定了预置值结果的显示名称,如,“服务名称”、“版本号”、“返回格式”、“Mapping时间”、“Mapping时间最大”、“业务平均消耗时间(ms) ”和“处
理总数”等。经过上述数据分析处理后,下面为数据分析处理结果的一个数据片段。
1权利要求
1.一种数据分析方法,其特征在于,包括从服务器接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;从服务器根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;从服务器根据所述分割标识将获取的原始数据切割成数据元素; 从服务器按照预置键中对数据元素的定义方式,对获取的原始数据进行归类; 从服务器按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
2.根据权利要求1所述的数据分析方法,其特征在于,所述从服务器按照预置键中对数据元素的定义方式,对获取的原始数据进行归类之后,还包括从服务器从归类后的原始数据中筛选出符合第一预置过滤条件的原始数据; 则按照预置值的定义,对归类后的原始数据键进行分析处理为按照预置值的定义,对筛选出的原始数据进行分析处理。
3.根据权利要求1所述的数据分析方法,其特征在于,所述从服务器按照预置值的定义,对归类后的原始数据进行分析处理之后,还包括从服务器从分析处理得到的分析处理结果中筛选出符合第二预置过滤条件的分析处理结果;则所述将分析处理结果反馈给主服务器为将筛选出的分析处理结果反馈给主服务ο
4.根据权利要求1-3中任意一项所述的数据分析方法,其特征在于,所述方法还包括 当主服务器对接收到的分析处理结果进行合并处理后,将得到的合并处理结果与同一时间下的历史合并结果进行对比分析,根据对比分析的结果产生预警信号。
5.一种数据分析方法,其特征在于,包括多线程中子线程接收主线程发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程对待分析的原始数据进行归类的方式,所述预置值定义了子线程对归类后的原始数据进行分析处理的方式;子线程根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;子线程根据所述分割标识将获取的原始数据切割成数据元素; 子线程按照预置键中对数据元素的定义方式,对获取的原始数据进行归类; 子线程按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程。
6.一种数据分析系统,其特征在于,包括一主服务器和至少两个从服务器,其中,所述主服务器,用于向从服务器发送文件,并对接收到的分析处理结果进行合并,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;所述从服务器,用于接收主服务器发送的文件,根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离,根据所述分割标识将获取的原始数据切割成数据元素,按照预置键中对数据元素的定义方式,对获取的原始数据进行归类,按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
7.根据权利要求6所述的数据分析系统,其特征在于,当所述主服务器对接收到的分析处理结果进行合并后,所述主服务器还用于将得到的分析处理结果与同一时间下的历史合并结果进行对比分析,根据对比分析的结果产生预警信号。
8.一种数据分析系统,其特征在于,包括一主线程模块和至少两个子线程模块,其中,所述主线程模块,用于向子线程模块发送文件,并对接收到的分析处理结果进行合并, 其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程模块对待分析的原始数据进行归类的方式,所述预置值定义了子线程模块对归类后的原始数据进行分析处理的方式;所述子线程模块,用于接收主线程模块发送的文件,根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离,根据所述分割标识将获取的原始数据切割成数据元素,按照预置键中对数据元素的定义方式,对获取的原始数据进行归类,按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程模块。
9.一种从服务器,其特征在于,包括第一文件接收模块,用于接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式,所述预置值定义了从服务器对归类后的原始数据进行分析处理的方式;第一数据获取模块,用于根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;第一数据切割模块,用于根据所述分割标识将获取的原始数据切割成数据元素; 第一数据归类模块,用于按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;第一数据计算模块,用于按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。
10.根据权利要求9所述的从服务器,其特征在于,还包括第一过滤模块,用于从归类后的原始数据中筛选出符合第一预置过滤条件的原始数据;则所述第一数据计算模块按照预置值的定义,对筛选出的原始数据进行分析处理。
11.根据权利要求9所述的从服务器,其特征在于,还包括第二过滤模块,用于从分析处理得到的分析处理结果中筛选出符合第二预置过滤条件的分析处理结果;则所述第一数据计算模块将筛选出的分析处理结果反馈给主服务器。
12.一种服务器,其特征在于,包括第二文件接收模块,用于接收主线程发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了子线程对待分析的原始数据进行归类的方式,所述预置值定义了子线程对归类后的原始数据进行分析处理的方式;第二数据获取模块,用于根据所述数据标识,从数据源中获取待分析的原始数据,其中,所述原始数据中数据元素之间以分割标识进行隔离;第二数据切割模块,用于根据所述分割标识将获取的原始数据切割成数据元素; 第二数据归类模块,用于按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;第二数据计算模块,用于按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主线程。
全文摘要
本申请实施例公开了一种数据分析方法、系统及服务器。其中,所述方法包括从服务器接收主服务器发送的文件,其中,所述文件携带待分析的原始数据的数据标识和预置键值对,所述预置键定义了从服务器对待分析的原始数据进行归类的方式;从服务器根据所述数据标识,从数据源中获取待分析的原始数据;从服务器根据所述分割标识将获取的原始数据切割成数据元素;从服务器按照预置键中对数据元素的定义方式,对获取的原始数据进行归类;从服务器按照预置值的定义,对归类后的原始数据进行分析处理,并将分析处理结果反馈给主服务器。根据本申请实施例,可以实现对并行的数据处理架构中的海量数据进行分析。
文档编号G06F17/30GK102314460SQ20101022260
公开日2012年1月11日 申请日期2010年7月7日 优先权日2010年7月7日
发明者岑文初 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1