微博数据的地理位置信息提取方法

文档序号：9350003阅读：5122来源：国知局

微博数据的地理位置信息提取方法
【技术领域】
[0001] 本发明属于信息检索技术领域，具体涉及一种微博数据的地理位置信息提取方法。
【背景技术】
[0002] 随着社交网络的发展，社交用户产生的数据也在以惊人的速度增多。例如， Twitter有1亿4千万的活跃用户，他们每天可以产生大约4亿的微博。Foursquare有两千五百万的用户和30亿的check-in。大量的应用都可以从这些用户产生的数据中受益。特别地，根据社交用户的微博去鉴定用户的地理位置信息，可以使得更高效地进行广告的投放和推荐。比如，某一个用户的微博中出现了"Olympia Theater，Broadway Manhattan"，广告商就可以在用户发出这条微博后快速地向他发送相关的广告。更加重要的是，如果我们基于用户发送的所有微博推测出他所有感兴趣的地点，比如"Manhattan"，我们就可以提供位置相关的推荐，比如新闻、产品、餐馆等。

【发明内容】

[0003] 本发明旨在至少解决上述技术问题之一。
[0004] 为此，本发明的一个目的在于提出一种微博数据的地理位置信息提取方法。
[0005] 为了实现上述目的，本发明的实施例公开了一种微博数据的地理位置信息提取方法，包括以下步骤：Sl :获取地理位置信息集合和微博数据文本集合，其中，所述地理位置信息集合中的地理位置按照行政区域逐级划分形成地理位置信息树，将每条微博与博主一一对应的存储在所述微博数据文本集合上；S2 :从所述微博数据文本集合中的每条微博中抽取位置信息与所述地理位置信息树中的节点进行比较，如果抽取的位置信息与所述地理位置信息树中的某个节点的位置信息相同，将抽取的信息作为精确匹配节点，将所述精确匹配点和所述位置信息对应的加入到候选集合中，如果收取的位置信息与所述地理位置信息树中的某个节点的位置信息不同，则进行相似性匹配，从所述地理位置信息树找到匹配程度最高的节点作为模糊匹配节点，将所述模糊匹配节点和所述位置信息对应的加入到所述候选集合中；S3 :将所述候选集合进行聚合，推测在所述地理位置信息树同一层级第一预设值数量的地理位置，推测在所述地理位置信息树不同层级第一预设值数量的地理位置；S4 :对聚合后的所述候选集合进行信息提纯，得到精确的所述第一预设值数量的地理位置。
[0006] 根据本发明实施例的微博数据的地理位置信息提取方法，在博主的微博信息抽取地理位置信息，将地理位置信息与分层次的行政区划信息进行对比，根据对比结果，针对性的为博主提供广告服务。
[0007] 另外，根据本发明上述实施例的微博数据的地理位置信息提取方法，还可以具有如下附加的技术特征：
[0008] 进一步地，还包括步骤：S5 :当所述博主的微博内容更新或所述地理位置信息树的节点更新时，将更新的内容相应的加入到所述微博数据文本集合或所述地理位置信息树，并根据更新后的所述微博数据文本集合和更新后所述地理位置信息树重新计算所述第一预设值数量的地理位置。
[0009] 进一步地，所述步骤Sl进一步包括：Sll :对所述地理位置信息树从上往下给每一个节点赋了一个Dewey码，其中根节点的Dewey码是1，对于每一个节点，不断地把父亲节点的Dewey码附加在自己的Dewey码后面得到最后一串Dewey码，比较两个节点n;，Ii j的 Dewey码，如果叫的Dewey码是n 的Dewey码的子串，那么n ;就是n 的祖先，其中i和j均为自然数；S12 :建立倒排索引，对于地理位置，由于同名的情况，可以对应到所述地理位置信息树上的多个Dewey码，建立倒排索引；S13 :每一条数据包含微博的文本和发送微博的博主对应存储，每个博主对应多条微博文本。
[0010] 进一步地，所述步骤S2进一步包括：S211 :定义精确匹配和所述精确匹配节点：从所述微博数据文本集合选取一条微博和所述地理位置信息树进行比较，如果所述地位位置信息树的某个节点和所述微博的所述子串精确匹配，定义所述地理位置为精确匹配实体，定义所述节点为所述精确匹配节点；S212 :定义相似性：从所述微博数据文本集合选取一条微博m，用E(m)表示所述精确匹配实体的集合，给定一个候选的位置节点n，用E(n)来表示从根节点到所述节点n之间的所有位置节点，在E(m)和E(n)之间利用第一相似性
其中|E(m) n E(n) I是两个集合的交集，|E(m) U E(n) I是两个集合E(m)的并集；S213 : 找到精确匹配节点：对于每一个地位位置e，利用所述倒排列表枚举所述微博的子串，对于每一个所述子串，检测是否出现在所述倒排索引里，如果出现在所述倒排列表中，取出所述倒排索引对应的节点，所述节点为候选的所述精确匹配节点，根据所述第一相似性函数计算出第一相似值，将所述第一相似值和所述精确匹配节点对应存储在所述候选集合中；S221 :定义模糊匹配和所述模糊匹配节点：从所述微博数据文本集合选取一条微博，给定第二相似性函数和阈值，如果所述地理位置信息树中的某个节点和所述微博的一个子串之间根据所述第二相似函数计算出的相似值不大于所述阈值，把所述地理位置定义为模糊匹配实体，在所述地理位置信息树中，把所有标记为模糊匹配实体对应的节点定义为所述模糊匹配节点；S222 :定义相似性：首先定义标准化之后的编辑距离，表示
地理位置相似，给定一个地理位置，所述地理位置也可能有多个相似的子串，保留最相似的一个，用E' (m)来表示所有<s，e>的集合，其中s是一个子串，e是一个位置实体，并且满足不存在以下情况：有一对〈8,6'>，使得￡03(8,6')>￡03(8, 6)，有一对〈8'， e>，使得EDS (s'，e) > EDS (s，e)，得到所述E' (m)后，用所述第二相似性函数衡量所
在位置实体上的投影；S223 :找到模糊匹配的节点：把相似性进行转换可以得到，两个地理位置是相似的等价于它们的编辑距离不大于所述阈值T，把每个地理位置分成了 T +1个片段，基于鸽巢原理，如果所述微博中的一个子串和一个所述位置实体相似，所述子串包含所述分割后的片段之中的一个，根据所述倒排索引，对于给定一个微博，枚举所述微博的子串，检查所述微博的子串是否出现在所述倒排索引中，如果有一个子串出现在所述倒排索引之中，检查所述倒排索引中每个地理位置是否和所述子串相似得到第二相似值，如果相似，把所述地理位置对应的模糊匹配节点和相似值加入到所述候选集合。
[0011] 进一步地，所述步骤S3进一步包括：S31 :把用户发的微博集合，记为M = {nv m2, ...，m|M|}，每一条微博叫有一个候选位置的集合，其中包括了所述精确匹配和所述模糊匹配的位置节点，把这个集合记为N(Hl1)，所述N(Hl1)中的每一个候选的位置都和Hl 1有所述第一相似值和所述第二相似值；S32 :推测用户在同一层级的所述第一预设值数量的地理位置：s321 :定义覆盖值：一个节点的覆盖值指的是所有它覆盖的微博的相似值的总和，定义如下：C(n) = E |M|C(n，IHi)，其中C(n，IHi)是指所述节点n对微博IH i的覆盖，表
节点的集合；S323 :找到所述Ntest集合：利用贪心的算法，具体按照如下规则迭代地选择节点：找到覆盖值最大的节点n ;从剩下的微博里面找到覆盖值最大的下一个节点；使用了区间最值查询算法RMQ来计算C (n，Hi1);进行迭代，得到所述第一预设值数数量的节点；S33 : 推测不同层次的top-k位置：S331 :定义概率Pq.，给定一个节点n和它的子节点集合，记
述界?大，选择所述节点n选择所述第一预设值数量的地理位置，如果所述节点n的信息熵比所述界S小，检查所述节点n的孩子节点选择所述第一预设值数量的地理位置；S334 :定义第二Ntest集合：在所述信息熵H(n)的限制下，从不同层次的地点中选出所述第一预设值数量的地理位置，使得覆盖值达到最大，所述第二N test如下定义：第二
H(n) >B ;S335 :找到第二Nbest集合，利用了一种优先最佳的贪心算法，具体如下：S3351 :检查根节点，计算所述根节点的覆盖值和信息熵，并把所述根节点加入到一个优先队列0中； 53352 :弹出优先队列g中覆盖值最大的节点：如果所述优先队列g的节点的信息熵的值大于所述界值:B，把所述节点加入到结果集合R u中，如果结果所述集合R u中已经有了第一预设值数量的地理位置，结束算法，如果所述节点的信息熵不大于所述界值?，考查所述节点的孩子节点，计算所述孩子节点的覆盖值并把所述孩子节点插入到所述优先队列g中去； 53353 :重复步骤S3352,直到我们找到了所述第一预设值数量的节点，作为不同层次的所述第一预设值数量的地理位置。

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李国良;冯建华;胡骏;
技术所有人：清华大学;
我是此专利的发明人

上一篇：基于情感分析的混合用户评分信息推荐方法及其推荐装置的制造方法
上一篇：一种客户网上咨询的管理系统及其方法

该领域下的技术专家

如您需求助技术专家，请点此查看客服电话进行咨询。

1、李老师：1.计算力学 2.无损检测

2、毕老师：机构动力学与控制

3、袁老师：1.计算机视觉 2.无线网络及物联网

4、王老师：1.计算机网络安全 2.计算机仿真技术

5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用

如您是高校老师，可以点此联系我们加入专家库。

相关技术

一种客户网上咨询的管理系统及...
一种多个统计报表快捷关联方法
一种基于分布式内存中计算的大...
一种改进的Canopy并行算...
基于大数据平台的节能减排监控...
一种文件监控方法及系统的制作...
词汇的获取方法及装置、推送方...
图片搜索方法及装置的制造方法
一种视频信息的处理方法及装置...
历史浏览记录中网页的加载方法...

网友询问留言已有0条留言

还没有人留言评论。精彩留言会获得点赞！

1

精彩留言，会给你点赞！

表示地理位置的方法相关技术
提供地理位置信息的方法及装置的制造方法
地理位置监测方法及设备的制造方法
终端设备地理位置的可信验证方法
地理位置监测方法及地理位置监测设备的制造方法
地理位置信息识别方法及装置的制造方法
地理位置监测方法及设备的制造方法
地理位置监测方法及设备的制造方法
一种路由器地理位置的判断方法
一种确定移动终端地理位置的方法及装置的制造方法
微博数据的地理位置信息提取方法
描述地理位置的方法相关技术
地理位置监测方法及设备的制造方法
终端设备地理位置的可信验证方法
地理位置监测方法及地理位置监测设备的制造方法
地理位置信息识别方法及装置的制造方法
地理位置监测方法及设备的制造方法
地理位置监测方法及设备的制造方法
一种路由器地理位置的判断方法
一种确定移动终端地理位置的方法及装置的制造方法
微博数据的地理位置信息提取方法
地理位置展示方法及装置的制造方法
地理位置评价方法相关技术
地理位置信息识别方法及装置的制造方法
微博数据的地理位置信息提取方法
利用地理位置信息进行汽车间通信的方法
地理位置的确定方法及装置制造方法
一种基于地理位置信息的移动传感器网络分簇方法
记录地理位置的方法和装置制造方法
提示联系人地理位置的方法及移动终端的制作方法
一种地理位置的分时占用方法
地理位置名称的快速输入方法和装置的制作方法
地理位置信息估算方法、修复方法和显示方法
地理位置相关技术
一种给通用数据模型绑定地理位置信息的方法与流程
推荐方法及装置与流程
一种基于深度表达的图片素材推荐方法与流程
一种锂电池数据采集装置及系统的制造方法
一种风电场集电线路单相接地故障测距方法与流程
一种基于非编码平行多线的稳定实时激光测量方法与流程
一种便携式小型水库生态取水装置的制造方法
一种矿山法深埋水下交通隧道废水分段收集分级提升构造的制造方法与工艺
微生物及其用途的制造方法与工艺
一种悬挂式列车在车辆段内位置的自动追踪系统及方法与流程