一种基于社交网络的人员地理信息挖掘模型的制作方法

文档序号:6505834阅读:205来源:国知局
一种基于社交网络的人员地理信息挖掘模型的制作方法
【专利摘要】本发明涉及大数据并行数据挖掘,尤其是一种基于社交网络海量的数据信息挖掘兴趣人员的地理信息的模型。该模型包括海量数据存储与挖掘模块和软件功能模块,所述的数据存储与挖掘模块由前端服务器、地理信息位置配置库、数据预处理、大数据处理平台构成,软件功能模块加载在地理信息挖掘模型上。前端服务器用于抓取网络信息,数据预处理包含日志搜集和格式清洗两步,用于去掉一些记录不完全的坏数据,保证数据的格式统一,信息完整。大数据处理平台包含有1个名称节点处理单元和2个数据流多重处理器,进行快速、并行的数据挖掘,使数据信息在极短的时间内展现在用户面前。本发明将社交网络与大数据处理相结合,有效提高了地理信息提取的可靠性和速度。
【专利说明】一种基于社交网络的人员地理信息挖掘模型
所属【技术领域】
[0001]本发明涉及数据挖掘模型,尤其是一种基于社交网络海量的数据信息挖掘兴趣人员的地理信息的模型。

【背景技术】
[0002]随着网络技术的迅速发展,网络用户和产生的数据量呈现爆炸增长的态势,同时用户的网络行为与现实社会中行为的复杂性和多样性相映射,形成一个庞大的数据资源池。为挖掘社交网络中积累的海量数据信息,恰当的对网络和现实行为进行分析、管理和预警,建立海量信息的分布式网络存储以及数据发掘平台就显得尤为重要。
[0003]当前,全球的各种分布式计算平台已有约百种,这些计算大多互无关联、独立管理、独立使用自己的一套软件。目前的这种分布式计算互相割据的格局很不利于发展的需要。并且这些计算平台运用范围较窄,并没有涉及通过挖掘社交网络海量数据对人员的行为轨迹的分析。


【发明内容】

[0004]为了克服现有的数据挖掘平台应用上的不足,本发明提供一种基于社交网络的人员行为轨迹分析系统,它通过挖掘人员主动在社交平台上标定自己的位置信息,获取当前人员的行为轨迹。
[0005]本系统着重体现在基于地理信息的数据挖掘系统,如对于一个用户,查询其地理位置等。此类查询可以满足一些日常生活场景中用户的需求。比如,用户在户外时需要寻求一些帮助,即可通过该系统找到离自己最近的好友,解决问题。同时,在公安和交通系统在查询人员信息时,个人发表的位置信息同样为侦查提供帮助。
[0006]为解决上述技术问题,本发明采用如下的技术方案:一种基于社交网络的人员轨迹分析系统,包括:海量数据存储与挖掘模块和软件功能模块。
[0007]海量数据存储与挖掘模块用于存储和挖掘海量的社交网络信息,这些信息是整个系统的构成基础,系统平台包含日志搜集、格式清洗、导入DFS、规则计算、导出DFS、清理历史数据六步信息处理过程。
[0008]软件功能模块包含数据采集模块,数据挖掘模块和数据索引模块。
[0009]前述的一种海量数据存储与挖掘模块日志搜集过程中,主要负责从各产品的前端机上收集获取原始的Web访问日志。为保证及时进行信息处理,需要建立轮转机制。所谓轮转机制,即每天I点、7点和19点会自动启动远程SCP程序,以期避开不同产品一天日志同一时间收集造成网路堵塞。所谓SCP,即决定呼叫如何处理的智能网络程序。
[0010]前述的一种海量数据存储与挖掘技术格式清洗过程中即对原始日志中多种产品不同的配置格式进行统一,包括定义每个字段的含义和位置以及统一分隔符,同时还去掉一些记录不完全的坏数据。保证数据的格式统一,信息完整。
[0011]前述的一种海量数据存储与挖掘模块导入DFS过程,是启动Hadoop分布式文件系统规则计算的前提必要工作。Hadoop的分布式文件系统被设计为将海量文件遍布存储在一个大集群的多台计算机上,每一个文件以分块序列的形式进行存储,一个文件的所有分块除去最后一个分块外都是等大小的。为了实现容错将文件分块进行自动复制。文件分块的块大小和复制比例都是可以按照单个文件进行配置的。
[0012]前述的一种海量数据存储与挖掘模块规则计算过程,是MapReduce计算模型的核心,主要完成事务逻辑的规则设计和计算功能。MapReduce并行计算模型,即包含映射、混合和规约三个步骤。通过映射输入文件集合会先被划分为几个“文件片断”,每个“文件片段”将会对应的创建一个新的映射任务。当映射操作输出了它的键值对后它们就会在内存中驻留,通过混合,提供一个执行规约类型功能类,映射过程产生的键值对就不会立刻写到输出。当一个规约任务开始时,它的输入来源于分散在多个节点上的映射任务所产生的许多文件。
[0013]前述的一种海量数据存储与挖掘模块导出DFS过程,即将计算结果从DFS中导出,存放到指定的NFS或者大型数据库中。
[0014]前述的一种海量数据存储与挖掘模块清理历史数据过程,即垃圾数据或文件的清理工作,及时的清理出空闲磁盘,有利于下一次操作。
[0015]前述的软件功能模块的采集模块过程中,就是从微博网站中获取所有有用信息的页面,并对获取页面进行解析,将页面半结构化的信息转换成系统所识别的格式化的信息(用户、博文、发表时间、发布网站、发布地点等),并去除所有无关信息,作为模块的输入。
[0016]前述的软件功能模块的数据索引模块过程中,其中包含内容信息实体的定位,海量数据的各类统计分析,以及即时查询等。
[0017]前述的软件功能模块的数据挖掘模块过程中,主要是针对基于微博垂直搜索的互联网定位系统的关键词挖掘。
[0018]本发明的有益效果是,针对复杂异构的数据环境,提供社交网络海量数据的地理位置挖掘技术,有效解决当前互联网网络监测和分析领域的技术瓶颈。通过对海量数据的数据清理,保留有效数据,通过对数据库进行关联规则挖掘,发现有效关联并提供决策支持。

【专利附图】

【附图说明】
[0019]下面结合附图和实施例对本发明进一步说明。
[0020]图1是本发明所述基于社交网络的人员地理信息数据挖掘模型结构示意方框图;
[0021]图2是本发明的一种实施例的体系架构及其功能模块。

【具体实施方式】
[0022]下面结合附图和【具体实施方式】对本发明作进一步说明:
[0023]在图1中,本发明所述的一种基于社交网络的人员地理信息数据挖掘模型包括前段服务器、地理信息位置配置库、大数据平台名称节点服务器、大数据平台数据节点服务器、大型数据库等构成。所述的前段服务器即为爬虫服务器,根据设定的抓取范围自动在社交网络上搜寻相关信息。这些信息通过所述的地理信息位置配置库进行地理位置的匹配,将匹配后的信息录入日志,进行日志搜集工作。所搜集的日志格式具备异构性,所以需要进行格式清洗。所述的大数据平台名称节点服务器、大数据平台数据节点服务器、大型数据库构成Hadoop数据存储平台。
[0024]海量数据在抓取后需要进行数据预处理,数据预处理包括日志搜集和格式清洗。
[0025]海量数据存储与挖掘技术日志搜集,主要从各产品的前端服务器上收集获取原始的Web访问日志。为保证及时进行信息处理,需要建立轮转机制。所谓轮转机制,即每天I点、7点和19点(或者自由设定)会自动启动远程SCP程序,以期避开不同产品一天日志同一时间收集造成网路堵塞。所谓SCP,即决定呼叫如何处理的智能网络程序,这里就是启动搜集程序。
[0026]格式清洗即对原始日志中多种产品不同的配置格式进行统一,包括定义每个字段的含义和位置以及统一分隔符,同时还会去掉一些记录不完全的坏数据,保证数据的格式统一,信息完整。
[0027]预处理后的数据导入Hadoop数据处理平台。Hadoop数据处理平台包括大数据平台名称节点服务器、大数据平台数据节点服务器和大型数据库。
[0028]导入DFS过程即将数据导入到大数据平台名称节点服务器,名称节点服务器一般运行着一个GNU/Linux操作系统。在一个集群中一个专门的机器仅仅用于运行名称节点软件。集群中的其他机器则被当做数据节点服务器。数据节点服务器可以互相共享数据。导入DFS过程,是启动Hadoop分布式文件系统规则计算的前提必要工作。Hadoop的分布式文件系统被设计为将海量文件遍布存储在一个大集群的多台计算机上,每一个文件以分块序列的形式存储到大数据平台数据节点服务器上,一个文件的所有分块除去最后一个分块外都是等大小的。为了实现容错将文件分块进行自动复制。
[0029]规则计算过程,是MapReduce计算模型的核心,运行在名称节点服务器上。主要完成事务逻辑的规则设计和计算功能。MapReduce并行计算模型,即包含映射、混合和规约三个步骤。通过映射输入文件集合会先被划分为几个“文件片断”,每个“文件片段”将会对应的创建一个新的映射任务。当映射操作输出了它的键值对后它们就会在内存中驻留,通过混合,提供一个执行规约类型功能类,映射过程产生的键值对就不会立刻写到输出。当一个规约任务开始时,它的输入来源于分散在多个节点上的映射任务所产生的许多文件。
[0030]前述的一种海量数据存储与挖掘模型导出DFS过程,即将计算结果从DFS中导出,存放到指定的大型数据库中。
[0031]在图2所示实施例的体系架构及其功能模块包含数据采集模块、数据索引模块和数据挖掘模块。
[0032]数据采集模块包括从各类社交网络、微博和论坛上搜集到信息进行个人状态文字分析、地理位置挖掘和基础数据采集。即从微博、社交网站中获取所有有用信息的页面,并对获取页面进行解析,将页面半结构化的信息转换成系统所识别的格式化的信息(用户、博文、发表时间、发布网站、发布地点等),并去除所有无关信息,作为模块的输入。
[0033]数据索引模块主要用于信息筛选,其中包含内容信息实体的定位,海量数据的各类统计分析,以及即时查询等。
[0034]数据挖掘模块主要是针对基于微博垂直搜索的互联网定位系统的关键词挖掘。
【权利要求】
1.一种基于社交网络的人员地理信息数据挖掘模型,其特征在于,包括: 海量数据存储与挖掘模块; 地理信息位置配置库,其设置在海量数据存储与挖掘模块内,查找对应地理信息,与前端服务器相连; 日志搜集装置,其设置在海量数据存储与挖掘模块内,根据对应地理位置搜集在社交网络上人员的地理信息,与所述的地理信息配置库相连; 格式清洗装置,其设置在海量数据存储与挖掘模块内,统一原始日志中不同的配置格式,包括定义字段的含义和位置以及统一分隔符,删除记录不完全的坏数据,保证信息的完整性。 大数据存储挖掘平台,其设置在海量数据存储与挖掘模块内,与格式清洗装置相连。 软件功能模块; 数据采集模块,其设置在软件功能模块内,从各类社交网络、微博和论坛上搜集信息进行处理。 数据索引模块,其设置在软件功能模块内,采用并行处理方式从大量数据中提取可用数据。 数据挖掘模块,其设置在软件功能模块内,根据用户需求施行发掘任务。
2.根据权利要求1所述的一种基于社交网络的人员地理信息数据挖掘模型,其特征在于:大数据存储挖掘平台上包含导入DFS和导出DFS模块。
3.根据权利要求1所述的一种基于社交网络的人员地理信息数据挖掘模型,其特征在于:大数据存储挖掘平台上包含设置有I个名称节点处理单元和2个数据流多重处理器。
4.根据权利要求3所述的I个名称节点处理单元和2个数据流多重处理器,其特征在于:数据在名称节点处理单元进行分割,利用规则计算过程进行并行数据的处理。
5.根据权利要求1所述的一种基于社交网络的人员地理信息数据挖掘模型,其特征在于:所述的数据采集模块包含个人状态文字、地理信息和基础数据采集三个部分。
6.根据权利要求1所述的一种基于社交网络的人员地理信息数据挖掘模型,其特征在于:所述的数据索引模块包含信息筛选部分。
7.根据权利要求1所述的一种基于社交网络的人员地理信息数据挖掘模型,其特征在于:数据挖掘模块包含地理信息位置数据库和用户关系数据库。
8.根据权利要求7所述的地理信息位置数据库和用户关系数据库,其特征在于:利用敏感区域、热点聚合和用户关系进行数据挖掘。
【文档编号】G06F17/30GK104298669SQ201310295894
【公开日】2015年1月21日 申请日期:2013年7月16日 优先权日:2013年7月16日
【发明者】汪思敏 申请人:江苏宏联物联网信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1