糊匹配中用到的分段倒排列表。
[0088] 步骤(5. 2. I. 1.):如果一个POI是新插入的,则从根节点开始,把POI从上往下加 入到树形结构中。
[0089] 步骤(5. 2. 1. 2.):如果这样的更新带入了新的节点,则要给这个节点分配相应的 Dewey 码。
[0090] 步骤(5. 2. 1. 3.):如果有新的位置实体加入进来,则要把它们加入到倒排列表 中,如果是模糊匹配,添加到分段索引中,分段索引的结果参见图5。
[0091] 实施例:
[0092] 首先,在有了地理位置信息以后,需要建立一个树形结构来表示,如图1所示。其 中叶子节点是具体的POI(pointsofinterest)。由叶子节点往上,依次是街道、区域、城市、 州、国家。下一步将这个树进行Dewey编码。
[0093] 请参考图1至图3。图1展现出了由POI所建立起来的基于位置信息的树形结 构(这个图中我们只展现了 "California"及一下的子树)。考虑图3中POI中p3的位 置"SunsetBlvd,Hollywood,LosAngeles,California",将其分成几个位置实体如下: "California","LosAngeles","Hollywood","SunsetBlvd"。它们对应的Dewey码分别 是1,1. 1,I. I. 1和I. I. 1. 2。其中节点I. 1是节点I. I. 1. 2的祖先。节点I. I. 1代表的地 址是"Hollywood,LosAngeles,California',。
[0094] 在抽取的匹配过程中,利用精确匹配和模糊匹配找到候选节点。
[0095] 对于精确匹配:考虑微博 m3= "I was able to get a tour at Film School, Sunset blvd",其中 "Film School" 和 "Sunset blvd" 是两个精确匹配实体,即 E(m3) ={Film School,Sunset blvd}。从它们的倒排列表中,找到树上精确匹配的节点 I. I. L 2. 2,1. L 2. 2. 2,1. I. L 2 和 L 2. 3. 2。考虑"Film School",在倒排列表中的精确 匹配节点有{1. I. 1. 2. 2,1. 1. 2. 2. 2}。E(I. I. I. 2. 2) = {Film School,SunsetBlvd,
[0096] 对于模糊匹配:考虑微博m12,如果使用精确匹配,不能抽取出所有的候选节点。 如果使用基于模糊匹配的方法,"FilmSchool"可以和"Film School"模糊匹配,"Sunsat blvd"可以和"Sunset blvd"模糊匹配。这样,通过基于模糊匹配的方法,可以从这条微博 中找到两个模糊匹配实体。从它们的倒排索引中,可以获得四个模糊匹配节点:1.I. 1. 2, I. I. I. 2. 2,1. I. 2. 2. 2,1. 2. 3. 2。在计算相似性时,E ' (m12) = {〈FiImSchool,film School〉,〈Sunsat blvd, Sunset blvd>} 〇 E(l. L 1.2.2) = {Film School,Sunset Blvd,
置时,把根节点加入到优先队列g Ii去,并首先弹出这个根节点。由于它的信息熵要比界? 小,所以我们就把它的孩子节点i. i和1. 2加入到优先队列g中。此时,队列中节点1. 2有 最大的覆盖值,继续弹出节点1. 2并计算它的信息熵。由于节点1. 2的信息熵要比界S还 要大,将其选择为一个top-k的地点,加入到结果集合中去。接着,弹出节点1. 1,由于它的 信息熵要比界S小,所以继续把它的孩子节点I. I. 1和I. 1. 2加入到优先队列g中。此时, 节点I. I. 1有最大的覆盖值,于是弹出了节点I. 1. 1。由于它的信息熵要比界?还要大,所 以节点I. I. 1也被选择为一个top-k的地点。如果想找的目标就是top-2的地点,节点1. 2 和节点I. I. 1就是结果了。此时,聚合算法结束。
[0098] 在优化步骤中,考虑微博ms,它的候选节点是I. I. 2. I. 1和节点1. 2. 3. 1. 1。 E(m8) = "Sports Shop Center",用户的 top-2 位置是"Hollywood"(I. I. 1)和"San Diego"(l. 2)。对于节点I. 2. 3. I. I来说,节点I. 2是它的祖先,把相应的实体加入到E(ms) 中。这样,更新后的集合为Eu (ms) = {Sports Shop Center,San Diego}。计算ms和节点
top-1的位置,节点I. 2. 3. I. I是最后的答案。
[0099] 另外,本发明实施例的微博数据的地理位置信息提取方法的其它构成以及作用对 于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
[0100] 在本说明书的描述中,参考术语"一个实施例"、"一些实施例"、"示例"、"具体示 例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不 一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何 的一个或多个实施例或示例中以合适的方式结合。
[0101] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不 脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本 发明的范围由权利要求及其等同限定。
【主权项】
1. 一种微博数据的地理位置信息提取方法,其特征在于,包括以下步骤: Sl :获取地理位置信息集合和微博数据文本集合,其中,所述地理位置信息集合中的地 理位置按照行政区域逐级划分形成地理位置信息树,将每条微博与博主一一对应的存储在 所述微博数据文本集合上; S2:从所述微博数据文本集合中的每条微博中抽取位置信息与所述地理位置信息树中 的节点进行比较, 如果抽取的位置信息与所述地理位置信息树中的某个节点的位置信息相同,将抽取的 信息作为精确匹配节点,将所述精确匹配点和所述位置信息对应的加入到候选集合中, 如果收取的位置信息与所述地理位置信息树中的某个节点的位置信息不同,则进行相 似性匹配,从所述地理位置信息树找到匹配程度最高的节点作为模糊匹配节点,将所述模 糊匹配节点和所述位置信息对应的加入到所述候选集合中; S3 :将所述候选集合进行聚合,推测在所述地理位置信息树同一层级第一预设值数量 的地理位置,推测在所述地理位置信息树不同层级第一预设值数量的地理位置; S4:对聚合后的所述候选集合进行信息提纯,得到精确的所述第一预设值数量的地理 位置。2. 根据权利要求1所述的微博数据的地理位置信息提取方法,其特征在于,还包括步 骤: S5:当所述博主的微博内容更新或所述地理位置信息树的节点更新时,将更新的内容 相应的加入到所述微博数据文本集合或所述地理位置信息树,并根据更新后的所述微博数 据文本集合和更新后所述地理位置信息树重新计算所述第一预设值数量的地理位置。3. 根据权利要求1所述的微博数据的地理位置信息提取方法,其特征在于,所述步骤 Sl进一步包括: 511 :对所述地理位置信息树从上往下给每一个节点赋了一个Dewey码,其中根节点的 Dewey码是1,对于每一个节点,不断地把父亲节点的Dewey码附加在自己的Dewey码后面 得到最后一串Dewey码,比较两个节点Ivn j的Dewey码,如果η ;的Dewey码是η」的Dewey 码的子串,那么IV就是η ,的祖先,其中i和j均为自然数; 512 :建立倒排索引,对于地理位置,由于同名的情况,可以对应到所述地理位置信息树 上的多个Dewey码,建立倒排索引; 513 :每一条数据包含微博的文本和发送微博的博主对应存储,每个博主对应多条微博 文本。4. 根据权利要求3所述的微博数据的地理位置信息提取方法,其特征在于,所述步骤 S2进一步包括: 5211 :定义精确匹配和所述精确匹配节点:从所述微博数据文本集合选取一条微博和 所述地理位置信息树进行比较,如果所述地位位置信息树的某个节点和所述微博的所述子 串精确匹配,定义所述地理位置为精确匹配实体,定义所述节点为所述精确匹配节点; 5212 :定义相似性:从所述微博数据文本集合选取一条微博m,用E (m)表示所述精确匹 配实体的集合,给定一个候选的位置节点n,用E (η)来表示从根节点到所述节点η之间的 所有位置节点,在E (m)和E (η)之间利用第一相似性函数,计算出微博m和节点η之间的相 似性,具体定义如下:I其中|E(m) n E(n) I是两个集合的交集, E (m) U E