基于文本中地理实体重要性的地图符号显示方法与装置与流程

文档序号:21001556发布日期:2020-06-05 22:44阅读:429来源:国知局
基于文本中地理实体重要性的地图符号显示方法与装置与流程

本发明涉及自然语言文图转换技术,具体涉及基于文本中地理实体重要性的地图符号显示方法与装置,属于地理信息处理技术领域。



背景技术:

在自然语言文图转换过程中,通过文本中地理实体形态信息如形状、颜色、尺寸等信息辅助地理实体的符号化,有助于读者将地图符号与现实地理环境互联,提高认知效率。目前自然语言文图转换过程中地图符号表达采用统一的符号视觉变量,即通过确定地理命名实体的形状、颜色、尺寸和方向四个视觉变量,此方法存在以下缺点:没有详略,地理场景中,相对重要的地理实体无法突出,次要的地理实体也无法略化,对读图者的认知效率产生影响。



技术实现要素:

发明目的:针对上述现有技术的不足,本发明目的在于提供一种基于文本中地理实体重要性的地图符号显示方法与装置,采用科学有效的方法分析文本中地理命名实体重要性,根据重要级别选取不同的符号设计视觉变量,改善现有的地理命名实体单一的符号表达方式,提高读图效率,提升地图美观度。

技术方案:为实现上述发明目的,本发明采用如下技术方案:

一种基于文本中地理实体重要性的地图符号显示方法,其特征在于,包括如下步骤:

(1)获取与地图展示区域相关的描述文本,对文本进行分词,选取名词构成集合;

(2)从选取的名词集合中根据建立的地理命名实体命名规则库筛选出地理命名实体集合;

(3)至少统计每个地理命名实体的频率特征值和集聚特征值,再将各特征值进行加权求和得到每个地理命名实体的重要性值;

(4)根据重要性值对地理命名实体排序,通过自然间断点法分级;

(5)根据不同的级别设置符号视觉变量,其中一级符号视觉变量包括形状、尺寸、颜色、明度、方向、纹理、结构,二级符号视觉变量包括形状、尺寸、颜色、方向、纹理、结构,三级符号视觉变量包括形状、尺寸、颜色、方向;

(6)根据设置的符号视觉变量值将地理命名实体对应的地图符号显示在地图上。

作为优选,所述频率特征值为归一化的每个地理命名实体的出现频率;所述出现频率根据每个地理命名实体出现的次数与所有地理命名实体出现的总次数相除得到。

作为优选,所述集聚特征值为归一化的每个地理命名实体的在文本中出现的相邻位置的距离差的平均距离;只出现过一次的地理命名实体平均距离为空。

作为优选,所述描述文本为导游词文本。

作为优选,所述地理命名实体的重要性值计算公式为:qi=w1*xi+w2*yi;其中xi、yi、qi分别表示第i个地理命名实体的频率特征值、集聚特征值和重要性;w1、w2为权重。

一种基于文本中地理实体重要性的地图符号显示装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于文本中地理实体重要性的地图符号显示方法。

有益效果:本发明公开的一种基于文本中地理实体重要性的地图符号显示方法,通过与地图关联的描述文本获取涉及的地理实体的重要性,根据不同地理实体的重要性不同,展示的形态信息的丰富度也不同,通过地理实体的重要性对其进行排序与分类,不同类别采取不同的视觉变量,使得设计的地图符号能有效提高符号的认知效率。与现有技术相比,本发明可以快速、科学地计算导游词中各地理命名实体的重要性,根据重要级别选取不同的符号设计视觉变量,改善现有的地理命名实体单一的符号表达方式,提高读图效率,提升地图美观度。

附图说明

图1为本发明实施例的方法流程图。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

本发明实施例公开的一种基于文本中地理实体重要性的地图符号显示方法,首先获取与地图展示区域相关的描述文本,对文本进行分词,选取名词构成集合,并从选取的名词集合中根据建立的地理命名实体命名规则库筛选出地理命名实体集合;然后至少统计每个地理命名实体的频率特征值和集聚特征值,再将各特征值进行加权求和得到每个地理命名实体的重要性值;再根据重要性值对地理命名实体排序,通过自然间断点法分级,根据不同的级别设置符号视觉变量;最后根据设置的符号视觉变量值将地理命名实体对应的地图符号显示在地图上。下面以基于导游词的文图转换显示为例,详细说明各个步骤的实施过程:

(1)导入地图展示区域相关的导游词文本数据,采用jieba分词对文本进行分词,选取名词,作为集合;

(2)根据建立的导游词地理命名实体命名规则库(如园、桥、殿、山等地理命名实体名称的最后一个字),通过名词后缀模式匹配,筛选名词集合中的地理命名实体s;

(3)计算每个地理命名实体出现的次数ni,以及所有地理命名实体出现的总次数n;

(4)计算每个地理命名实体出现的频率pi,即pi=ni/n,频率值最大的记为pmax;

(5)计算地理命名实体si名称在文本中依次出现的位置sij(即前文的字数+1),然后计算该地理命名实体的连续位置距离sij+1–sij,最后计算距离总和di及平均距离diavg;逐一计算每个地理实体的平均距离,其中平均距离的最大值记为davgmax;此外,只出现过一次的地理命名实体平均距离为空;

(6)对每个地理命名实体的频率和平均距离进行归一化处理,得到频率和集聚程度的特征值xi和yi,其中xi=pi/pmax,yi=diavg/davgmax;只出现过一次的地理命名实体集聚程度为0;

(7)取频率和集聚程度的权重分别为w1和w2,计算每个地理实体的重要性值qi=w1*xi+w2*yi,权重根据导游词的写作特点确定,针对大部分导游词的特点,w1和w2均取0.5;

(8)根据重要性值对地理命名实体排序,通过自然间断点法(自然断点法基于数据中固有的自然分组。将对分类间隔加以识别,可对相似值进行最恰当地分组,并可使各个类之间的差异最大化。)分级,按级别从高到低分别将地理命名实体划分为一级,二级和三级。

(9)根据不同的级别设置符号视觉变量。符号视觉变量分为三级,一级符号视觉变量包括形状、尺寸、颜色、明度、方向、纹理、结构,二级符号视觉变量包括形状、尺寸、颜色、方向、纹理、结构,三级符号视觉变量包括形状、尺寸、颜色、方向。

(10)根据设置的符号视觉变量值将地理命名实体对应的地图符号显示在地图上,一级地理命名实体使用一级符号视觉变量,二级地理命名实体使用二级符号视觉变量,三级地理命名实体使用三级符号视觉变量。

表1给出了依据如下导游词得到的其中各地理命名实体重要性及其排名与分类。

尊敬的各位游客,你们好,我叫xxx,是你们今天的导游,现在我们将要游览的是颐和园。颐和园是清代皇家园林和行宫,是我国重点保护单位。

我们现在即将前往的就是颐和园,我向大家介绍一下颐和园的历史:最早在辽金时代的时候,皇帝就已经开始在北京修建皇家园林了。当时在今天的万寿山昆明湖一带修建了金山行宫,将这里称为金山、金山泊。到了元朝,将这里改名为翁山、翁山泊。而明代初期则改称西湖,并修建了圆静寺,命名为好山园。到了1588年,这里已经有一定的园林规模,享有“十里青山行画里,双飞白鸟似江南”的美誉。然而让这里真正成为一处皇家园林的是清代。在康熙年间就曾在此修建行宫,1749~1764年,就在原来的基础上修建了清逸园,扩湖,推山,将湖称为昆明湖,山叫做万寿山。过了一些年,慈禧太后挪用了海军经费对这里进行了重建,而且光绪皇帝下令将这里改名为颐和园。

我们首先来到颐和园最有名的长廊。看,绿漆的柱子,红漆的栏杆,多美啊!这长廊有七百多米,共有273间。每一间的横件上都有五彩的画。几千幅画没有哪两幅是相同的。

走完长廊,就来到了万寿山脚下,抬头一看,一座八角宝塔形的三形建筑耸立在半山腰上,黄色的琉璃瓦闪闪发光。那就是佛香阁。下面的一排排金碧辉煌的宫殿,就是排云殿。

现在我们已经登上万寿山山顶,这里是欣赏颐和园的最佳位置。正前面就是昆明湖,它像镜子,又像碧玉,下面我们就去昆明湖边仔细游赏。

看,昆明湖多大,它周围的堤岸更长。看见湖中心那个小岛了吗?走过这个石桥就可以去小岛上游玩。请仔细看这个石桥,它就叫十七孔桥,桥栏杆上有上百根石柱,柱子上都雕刻这小狮子,这些狮子姿态各异,没有哪两只是相同的。

颐和园到处都有美丽的景色,说也说不尽,剩下的时间就请大家自己细细游赏吧,在四点半来这里集合。

表1导游词中地理命名实体重要性排名及类别

基于相同的发明构思,本发明公开的一种基于文本中地理实体重要性的地图符号显示装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现所述的基于文本中地理实体重要性的地图符号显示方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1