poi分类方法、电子设备及计算机存储介质
技术领域
1.本公开实施例涉及电子地图领域,更具体地,涉及一种poi分类方法、电子设备及计算机存储介质。
背景技术:2.兴趣点(point of interest,简称poi)是地理信息系统中最基础也是最重要的元素,是将现实中的地标反映到电子地图上的手段。例如,在地理信息系统中,一个poi可以是一个地铁站、一个公交站、一个公园、一栋大楼、一个餐厅、一个酒店或者一个超市等等,每个poi反映在电子地图上都对应一个现实中的地标。每个poi的poi信息包含名称、地址、类别、坐标(例如经纬度)。
3.对poi进行分类,可以得到该poi的poi信息的类别(即poi信息中所包含的类别)。poi的poi信息的类别都有相应的行业代码和行业名称,以描述poi对应行业的服务类别信息。例如,poi的poi信息的类别可以是党政机关、餐饮住宿、观光旅游、交通服务、或者商业机构等等。对于具有导航功能的电子地图而言,poi信息的类别对电子地图的检索和前端展示十分重要。例如,对用户展示用户所在位置周边的行业地标,或者根据用户输入的行业信息查找用户所在位置对应的行业地标,能够方便用户快速查找并确定自己想要达到的目的地。
4.目前,互联网生活服务类平台都有自己的数据库,其中的数据包括与平台强相关的poi,比如酒店、餐厅、旅游景点等。为了更好地服务大众,这些平台都会和电子导航地图结合,将poi加载到电子地图上,并可以自动更新poi,保证poi的时效性和正确性。这种模式下,可以通过数据挖掘来得到更多实际地标对应的poi。poi是有分类的,例如有一级类和下属于各一级类下的二级类,每个类别都有相应的类别代码和名称对应,方便信息采集的记录和区分。
5.实际情况中,通过数据挖掘得到的poi在分类是存在分类准确性偏低的问题,严重影响用户体验。
技术实现要素:6.本公开实施例的一个目的是提供一种poi分类的新的技术方案。
7.根据本公开的第一方面,提供了一种poi分类方法,包括:根据预设词汇库对poi信息的poi名称进行分词处理,得到分词结果;其中,分词结果包括至少一个词汇和与至少一个词汇一一对应的至少一个词汇信息,词汇信息包括对应于poi分类集的第一poi分类信息和对应于词性分类集的词汇类别,词性分类集包括poi类别;根据至少一个词汇的词汇信息,按照至少一个词汇在poi名称中的排列顺序进行相邻词汇组合,得到至少一个具有语义的短语;其中,任意词汇属于且仅属于至少一个具有语义的短语中的一个短语;获取至少一个具有语义的短语中每一短语对应于poi分类集的第二poi分类信息和对应于词性分类集的短语类别;按照至少一个词汇在poi名称中的排列顺序从至少一个词汇的尾词开始向前
遍历至少一个短语,获得遍历到的首个poi短语;其中,poi短语为短语类别为poi类别的短语;根据首个poi短语的第二poi分类信息,确定poi信息的类别。
8.可选地,获取至少一个具有语义的短语中每一短语对应于词性分类集的短语类别,包括:对于每一短语,将对应短语末尾的词汇的词汇类别作为该短语的短语类别。
9.可选地,词性分类集还包括区域类别、专有名词类别、分店类别和门点类别;根据至少一个词汇的词汇信息,按照至少一个词汇在poi名称中的排列顺序进行相邻词汇组合,得到至少一个具有语义的短语,包括:将相邻的词汇类别为区域类别的区域词汇进行组合,得到的短语类别为区域类别的区域短语;将相邻的词汇类别为专有名词类别的专有名词和词汇类别为poi类别的poi词汇进行组合,得到短语类别为poi类别的poi短语;将词汇类别为分店类别的分店词汇和位于该分店词汇之前的第一待组合信息进行组合,得到短语类别为分店类别的分店短语;其中,第一待组合信息包括:专有名词或poi短语;将词汇类别为门点类别的门点词汇和位于该门点词汇之前的第二待组合信息进行组合,得到短语类别为门点类别的门点短语;其中,第二待组合信息包括:专有名词或poi短语。
10.可选地,词汇类别还包括:道路类别;将相邻的词汇类别为区域类别的区域词汇进行组合,得到的短语类别为区域类别的区域短语之前,该方法还包括:将词汇类别为道路类别的道路词汇和位于该道路词汇之前的区域词汇、门点词汇或者专有名词进行组合,得到短语类别为道路类别的道路短语。
11.可选地,将词汇类别为道路类别的道路词汇和位于该道路词汇之前的区域词汇、门点词汇或者专有名词进行组合,得到短语类别为道路类别的道路短语之后,该方法还包括:在道路短语之前的词汇的词汇类别为专有名词或者道路短语之前的短语为poi短语的情况下,将道路短语的短路类别修改为分店类别。
12.可选地,专有名词包括:品牌词和/或单字;将相邻的词汇类别为专有名词类别的专有名词和词汇类别为poi类别的poi词汇进行组合,得到短语类别为poi类别的poi短语,包括:将相邻的品牌词和词汇类别为poi类别的poi词汇进行组合,得到短语类别为poi类别的poi短语;和/或,将相邻的单字进行组合,得到词汇类别为专有名词类别的专有名词;将相邻的专有名词和词汇类别为poi类别的poi词汇进行组合,得到短语类别为poi类别的poi短语。
13.可选地,将相邻的词汇类别为专有名词类别的专有名词和词汇类别为poi类别的poi词汇进行组合,得到短语类别为poi类别的poi短语之后,该方法还包括:将相邻的poi短语进行组合,得到短语类别为poi类别的poi短语。
14.可选地,根据预设词汇库对poi信息的poi名称进行分词处理,得到分词结果之前,该方法还包括:获取多个样本poi信息中每个样本poi信息中的名称和类别;对多个样本poi信息中每个样本poi信息的名称进行分词处理,得到多个样本词汇;根据每个样本词汇对应的样本poi信息的类别确定该样本词汇对应的词汇poi分类信息和词汇类别;为多个样本词汇中的每个样本词汇添加该样本词汇对应的词汇poi分类信息和词汇类别,得到预设词汇库。
15.可选地,根据至少一个词汇的词汇信息,按照至少一个词汇在poi名称中的排列顺序进行相邻词汇组合,得到至少一个具有语义的短语之前,该方法还包括:将分词结果输入预设的poi分类模型,获得预设的poi分类模型输出的poi信息的待定类别和该待定类别的
置信度;在置信度大于或等于预设阈值的情况下,确定poi信息的待定类别作为poi信息的类别;在置信度小于预设阈值的情况下,执行按照至少一个词汇在poi名称中的排列顺序进行相邻词汇组合,得到至少一个具有语义的短语及其后续步骤。
16.可选地,将分词结果输入预设的poi分类模型之前,该方法还包括:根据预设的卷积神经网络训练n个poi分类样本,得到poi分类模型;n为自然数且n》0;其中,通过如下公式获得预设的卷积神经网络在前向传播过程中的激活函数:σ(z2)=σ(a*w2+b2);其中,σ为激活函数,a为预设的卷积神经网络的输出结果,z为缓存变量,w为张量,b为预设的卷积神经网络的输出误差;通过如下公式获得预设的卷积神经网络在反向传播过程中的误差梯度:其中,en为第n个训练样本的训练误差,c为预设的卷积神经网络的输出层的节点个数,t为第n个训练样本的正确结果,y为预设的卷积神经网络的输出结果。
17.根据本公开的第二方面,还提供了一种电子设备,包括存储器和处理器,存储器用于存储计算机程序;处理器用于执行计算机程序,以实现根据本公开第一方面的方法。
18.根据本公开的第三方面,还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序在被处理器执行时实现根据本公开的第一方面的方法。
19.本公开实施例的一个有益效果在于,能够根据预设词汇库对poi信息的poi名称进行分词,得到分词结果;分词结果包括至少一个词汇和与至少一个词汇一一对应的至少一个词汇信息,词汇信息包括对应于poi分类集的第一poi分类信息和对应于词性分类集的词汇类别,词性分类集包括poi类别;然后根据词汇信息中的poi分类集和词性分类集,从poi分类集和词性分类集两个方面对上述分词后得到的至少一个词汇进行组合,得到至少一个具有语义的短语,根据每一短语对应于poi分类集的第二poi分类信息和对应于词性分类集的短语类别,按照至少一个词汇在poi名称中的排列顺序从至少一个词汇的尾词开始向前遍历至少一个短语,获得遍历到的首个poi短语,poi短语的短语类别为poi类别,最后根据首个poi短语的第二poi分类信息,确定poi信息的类别。本技术能够在确定poi信息的类别过程中,结合poi名称中各词汇的词汇信息,从基于词汇组合后是否具有语义的角度出发,得到至少一个具有语义的短语,并获取每一短语对应于poi分类集的第二poi分类信息和对应于词性分类集的短语类别,最后将最靠近poi名称的尾部的poi短语的第二poi分类信息确定为poi信息的类别,有效提高了poi分类的准确性。
20.通过以下参照附图对本公开的示例性实施例的详细描述,本公开实施例的其它特征及其优点将会变得清楚。
附图说明
21.被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开实施例的原理。
22.图1为根据本公开一些实施例的poi分类方法的方法流程图;
23.图2为根据本公开另一些实施例的poi分类方法的方法流程图;
24.图3为根据本公开再一些实施例的poi分类方法的方法流程图;
25.图4为根据本公开又一些实施例的poi分类方法的方法流程图;
26.图5为根据本公开又一些实施例的poi分类方法的方法流程图;
27.图6为根据本公开一些实施例的poi分类装置的功能结构框图;
28.图7是根据本公开一些实施例的电子设备的方框原理图。
具体实施方式
29.现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
30.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
31.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
32.在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
33.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
34.poi信息的类别是poi信息中一个很重要的属性。使用该属性可以对poi进行分类管理,提升poi搜索结果正确率/召回率、改善智能推荐引擎命中率、优化电子地图可视化效果等。
35.目前,通过数据挖掘得到的poi存在poi信息部分或全部信息缺失、poi信息不规范等问题。比如poi信息中名称不规范、地址不规范;又如poi信息中缺少地址、缺少经纬度、缺少类别信息等。通常情况下,poi信息的名称、地址、经纬度这些信息由全国统一标准来规范,但是poi信息的类别是由使用者决定的,比如“肯德基”,不同使用者对其类别的描述可能是“餐厅”、“快餐”、“西式快餐”等。如果要将通过数据挖掘得到poi用于搜索、导航服务中,必须要将相同poi的poi信息的类别进行统一化描述,即实现poi类别标准化,保证poi分类的准确性。
36.由于通过数据挖掘得到的poi的数据量较大,因此产生了自动对poi信息的类别进行标准化的需求。
37.相关技术中,通过获取待poi信息的poi名称,对poi名称进行分词处理得到与尾词相关的分词;将与尾词相关的分词作为特征输入到训练完成的分类模型中;根据分类模型的输出结果确定待分类poi信息的所属类别。然而,实际情况中,上述方案在对poi名称分词后,分词的结果并没有做进一步语义解析,而是直接和分类尾词表进行匹配得到poi信息的类别,这种方式存在歧义,会造成结果误判。上述歧义是由于分词的结果没有结合词汇上下文的语境,不带任何语义而造成的。比如在分类尾词表中有一个分类尾词是“火车站”,其poi信息的类别是“交通服务-火车站”。在下面两个案例中的poi信息的类别获取结果如下:
38.a.假设poi a的名称是“上海虹桥火车站”,分词后的结果是“上海/虹桥/火车站”,分词结果从后往前遍历得到火车站是分类尾词,则poi a的类别是“交通服务-火车站”,类别判断正确;
39.b.假设poi b的名称是“肯德基上海虹桥火车站店”,分词后的结果是“肯德基/上
海/虹桥/火车站/店”,分词结果从后往前遍历得到火车站是分类尾词(分类尾词表中没有“店”),则poi b的类别是“交通服务-火车站”,而poi b的类别实际上应该为“餐饮住宿-餐厅”,类别判断错误。
40.针对以上实施方式存在的技术问题,本公开实施例提出了一种poi分类方法。
41.下面,参照附图描述根据本公开的各个实施例和例子。
42.《方法实施例》
43.图1为根据一个实施例的poi分类方法的流程示意图。如图1所示,该方法包括如下步骤s110~s150。
44.步骤s110:根据预设词汇库对poi信息的poi名称进行分词处理,得到分词结果。
45.每个poi的poi信息包含名称、地址、类别、经纬度。在本步骤中,poi名称为poi信息中的名称。
46.分词结果包括至少一个词汇和与该至少一个词汇一一对应的词汇信息。其中,词汇信息包括:对应于poi分类集的第一poi分类信息和对应于词性分类集的词汇类别,词性分类集包括poi类别。在一些示例中,可以首先采用mmseg分词算法对poi名称进行分词,得到至少一个词汇。
47.poi分类集包括多种类别,该类别即上述poi信息中的类别。第一poi分类信息为poi分类集中的一种类别。例如,poi分类集的类别包括党政机关、餐饮住宿、观光旅游、交通服务和商业机构等等,第一poi分类信息可以是党政机关、餐饮住宿、观光旅游、交通服务或商业机构。
48.词性分类集包括多种类别,词汇类别为词性分类集中的一种类别。例如,词性分类集的类别包括区域类别(例如词汇“xx区”的类别为区域类别)、专有名词类别(例如词汇“xx银行”的类别为专有名词类别)、分店类别(例如词汇“分店”的类别为分店类别)、门点类别(例如词汇“北门”的类别为门点类别)、道路类别(例如词汇“街”的类别为道路类别)等。词汇类别可以是区域类别、专有名词类别、分店类别、门点类别或者道路类别。
49.本公开实施例中,词性分类集至少包括poi类别,对于词汇类别为poi类别的词汇,该词汇的词义与poi相关,例如“大厦”、“超市”等。
50.当然,可以理解的是,上述所列举的词汇类别仅仅是示例性的。词汇分类集包括但不限于上述所列举的类别。例如,词汇分类集还可以包括交叉点类别(例如词汇“交叉口”的类别为交叉点类别)、方向前缀类别(例如词汇“往”的类别为方向前缀类别)、方向类别(例如词汇“东”、“南”、“西”、“北”、“东南”、“东北”的类别为方向类别)、方向后缀类别(例如词汇“侧”的类别为方向后缀类别),等等。
51.预设词汇库中存储有多个预设词汇以及与每个预设词汇对应的词汇类别。
52.示例地,如图2所示,预设词汇库的获取过程可以包括如下步骤s210~s240:
53.步骤s210:获取多个样本poi信息中每个样本poi信息中的名称和类别。
54.从样本数据库中获取预设数量的poi信息作为样本poi信息,从每个样本poi信息中提取出名称和类别。
55.预设数量可以由本领域技术人员根据实际情况进行设置,本公开实施例对此不作限定。例如预设数量为7000万。
56.样本数据库包括存放用于电子导航地图的poi信息、路网数据等,样本数据库中的
poi信息(如名称、地址、类别、坐标)可以自动更新,以保证poi信息的正确性和时效性。
57.步骤s220:对多个样本poi信息中每个样本poi信息的名称进行分词处理,得到多个样本词汇。
58.示例地,可以使用mmseg分词算法对每个样本poi信息中的名称进行分词,将该名称拆分为多个样本词汇,并将该poi信息的类别作为该多个样本词汇对应的poi信息的类别。
59.在一些示例中对于每个样本词汇,将该样本词汇对应的poi信息的类别的类别代码赋值给该样本词汇,以便将每个样本词汇和与该样本词汇对应的poi信息的类别进行关联。
60.步骤s230:根据每个样本词汇对应的样本poi信息的类别确定该样本词汇对应的词汇poi分类信息和词汇类别。
61.对所有样本词汇进行统计,统计出每个样本词汇出现的总次数。每个样本词汇可能对应的多个poi信息的类别,在此情况下,统计该样本词汇对应的多个poi信息的类别中目标poi信息的类别出现的次数以及该样本词汇出现总次数,获取该样本词汇对应的多个poi信息的类别中目标poi信息的类别出现的次数与该多个poi信息的类别出现的总次数的比值,将该比值作为目标poi信息的类别的出现频率。其中,目标poi信息的类别为该多个poi信息的类别中任一。
62.筛选出出现次数在n(n为自然数且n≥10)次以上的目标样本词汇进行标注。标注过程可以如下:对于一个目标样本词汇,在该目标样本词汇对应的多个poi信息的类别中,获取每个poi信息的类别的出现频率,并根据获取结果确定出现频率最高的poi信息的类别,若该类别的出现频率大于或等于95%,则将该类别确定为目标样本词汇对应的词汇poi分类信息,以便于在后续步骤(对应步骤s240)为目标样本词汇添加对应的词汇poi分类信息;若该类别的出现频率小于95%,将该目标样本词汇作为待确认样本词汇,以便进行人工确认。
63.人工确认过程例如可以是:从待确认样本词汇的poi信息的类别中选择出现频率最高的m个类别(m为自然数且m≥5),将该m个类别展示在用于进行人工确认的显示界面中,以便工作人员从该m个类别中选择一个类别,将工作人员所选择的类别作为目标样本词汇对应的词汇poi分类信息。
64.确定样本词汇对应的词汇类别的过程与确定本词汇对应的poi分类信息方式类似,具有可以参见上述关于确定本词汇对应的poi分类信息的过程的对应介绍,此处不再赘述。
65.步骤s240:为多个样本词汇中的每个样本词汇添加该样本词汇对应的词汇poi分类信息和词汇词性,得到预设词汇库。
66.例如,将每个样本词汇对应的词汇poi分类信息所对应的代码(例如上述poi信息的类别的类别代码)和词汇类别(例如词汇类别对应的代码)赋值给该样本词汇,得到得到预设词汇库。
67.步骤s120:根据至少一个词汇的词汇信息,按照至少一个词汇在poi名称中的排列顺序进行相邻词汇组合,得到至少一个具有语义的短语;其中,任意词汇属于且仅属于至少一个具有语义的短语中的一个短语。
68.在一些示例中,如图3所示,步骤s120的执行过程可以包括如下步骤s310~s340:
69.步骤s310:将相邻的词汇类别为区域类别的区域词汇进行组合,得到的短语类别为区域类别的区域短语。
70.例如,“北京市朝阳区”在经过分词处理后的分词结果为“北京市|朝阳区”,词汇“北京市”和词汇“朝阳区”相邻且的词汇类别都为区域类别,则将“北京市”和“朝阳区”进行组合,得到短语“北京市朝阳区”,“北京市朝阳区”是区域短语,短语类别为区域类别。
71.步骤s320:将相邻的词汇类别为专有名词类别的专有名词和词汇类别为poi类别的poi词汇进行组合,得到短语类别为poi类别的poi短语。
72.在一些示例中,专有名词包括单字。在此情况下,如图4所示,步骤s320的执行过程可以包括如下步骤s410~s420:
73.步骤s410:将相邻的单字进行组合,得到词汇类别为专有名词类别的专有名词。
74.例如,“新福华餐饮有限公司”在经过分词处理后的分词结果为“新|福|华|餐饮|有限公司”。“新”、“福”、“华”相邻且为单字,将“新”、“福”、“华”进行组合,得到词汇“新福华”,“新福华”为专有名词。
75.步骤s420:将相邻的专有名词和词汇类别为poi类别的poi词汇进行组合,得到短语类别为poi类别的poi短语。
76.例如,步骤s410中得到“新福华|餐饮|有限公司”,“餐饮”为词汇类别为poi类别的poi词汇,专有名词“新福华”和poi词汇“餐饮”相邻,将专有名词“新福华”和poi词汇“餐饮”进行组合,得到短语“新福华餐饮”是poi短语,短语类别为poi类别。
77.在一些示例中,专有名词包括品牌词,步骤s320的执行过程可以包括:将相邻的品牌词和词汇类别为poi类别的poi词汇进行组合,得到短语类别为poi类别的poi短语。
78.在一些实施例中,在执行步骤s420之后,还可以将相邻的poi短语进行组合,得到短语类别为poi类别的poi短语。
79.例如,步骤s420中得到“新福华餐饮|有限公司”,短语“新福华餐饮”和短语“有限公司”相邻且的短语类别都为poi类别,则将“新福华餐饮”和“有限公司”进行组合,得到短语“新福华餐饮有限公司”,“新福华餐饮有限公司”是poi短语,短语类别为poi类别。
80.步骤s330:将词汇类别为分店类别的分店词汇和位于该分店词汇之前的第一待组合信息进行组合,得到短语类别为分店类别的分店短语;其中,第一待组合信息包括:专有名词或poi短语。
81.分店词汇例如可以是分公司、分店等。
82.以第一待组合信息为专有名词为例,“第一分公司”在经过分词处理后的分词结果为“第一|分公司”,“第一”为专有名词,“分公司”为分店词汇,且专有名词“第一”和分店词汇“分公司”相邻,则将“第一”和“分公司”进行组合,得到短语“第一分公司”,“第一分公司”是分店短语,短语类别为分店类别。
83.可以理解的是,第一待组合信息为poi短语的情况下,将词汇类别为分店类别的分店词汇和位于该分店词汇之前的poi短语进行组合的方式,与上述将词汇类别为分店类别的分店词汇和位于该分店词汇之前的专有名词进行组合的方式相同,具体可以参见上述示例中对应描述,此处不再赘述。
84.步骤s340:将词汇类别为门点类别的门点词汇和位于该门点词汇之前的第二待组
合信息进行组合,得到短语类别为门点类别的门点短语;其中,第二待组合信息包括:专有名词或poi短语。
85.门点词汇可以是包含“门”的词汇。例如“北门”、“东门”等。
86.以第二待组合信息为poi短语为例,对于“北京大学|北门”,“北京大学”为poi短语,“北门”为门点信息,且poi短语“北京大学”和门点信息“北门”相邻,则将“北京大学”和“北门”进行组合,得到短语“北京大学北门”,“北京大学北门”是门点短语,短语类别为门点类别。
87.可以理解的是,第二待组合信息为专有名词的情况下,将词汇类别为门点类别的门点词汇和位于该门点词汇之前的专有名词进行组合的方式,与上述将词汇类别为门点类别的门点词汇和位于该门点词汇之前的poi短语进行组合的方式相同,具体可以参见上述示例中对应描述,此处不再赘述。
88.步骤s130:获取至少一个具有语义的短语中每一短语对应于poi分类集的第二poi分类信息和对应于词性分类集的短语类别。
89.对于每一短语,可以将对应短语末尾的词汇的词汇类别作为对应短语的短语类别。
90.例如,对于短语“北京市朝阳区”,该短语的末尾的词汇为“朝阳区”,“朝阳区”的词汇类别为区域类别,则将“北京市朝阳区”的短语类别确定为“朝阳区”的词汇类别,即将“北京市朝阳区”的短语类别确定为区域类别。
91.又如,对于短语“新福华餐饮有限公司”,该短语的末尾的词汇为“有限公司”,“有限公司”的词汇类别为poi类别,则将“新福华餐饮有限公司”的短语类别确定为“有限公司”的词汇类别,即将“新福华餐饮有限公司”的短语类别确定为poi类别。
92.又如,对于短语“第一分公司”该短语的末尾的词汇为“分公司”,“分公司”的词汇类别为分店类别,则将“第一分公司”的短语类别确定为“分公司”的词汇类别,即将“第一分公司”的短语类别确定为分店类别。
93.又如,对于短语“北京大学北门”该短语的末尾的词汇为“北门”,“北门”的词汇类别为门点类别,则将“北京大学北门”的短语类别确定为“北门”的词汇类别,即将“北京大学北门”的短语类别确定为门点类别。
94.步骤s140:按照至少一个词汇在poi名称中的排列顺序从至少一个词汇的尾词开始向前遍历至少一个短语,获得遍历到的首个poi短语;其中,poi短语为短语类别为poi类别的短语。
95.例如,“北京市朝阳区新福华餐饮有限公司第一分公司”,经过分词和组合短语后,得到如下至少一个短语“北京市朝阳区|新福华餐饮有限公司|第一分公司”,按照至少一个词汇在poi名称中的排列顺序从至少一个词汇的尾词开始向前遍历至少一个短语,获得遍历到的首个poi短语为“新福华餐饮有限公司”。
96.步骤s150:根据首个poi短语的第二poi分类信息,确定poi信息的类别。
97.例如,步骤s140中,“新福华餐饮有限公司”的第二poi分类信息为公司,在步骤s150中,确定poi名称为“北京市朝阳区新福华餐饮有限公司第一分公司”的poi信息的类别为公司。
98.在一些实施例中,词汇类别还包括:道路类别。在执行步骤s310之前,还可以将词
汇类别为道路类别的道路词汇和位于该道路词汇之前的区域词汇、门点词汇或者专有名词进行组合,得到短语类别为道路类别的道路短语。
99.例如,“肯德基仓里路”,分词结果为“肯德基|仓|里|路”,“路”为道路词汇,将单字“仓”和“里”进行组合,得到专有名词,将道路词汇“路”和位于该道路词汇之前的专有名词“仓里”进行组合,得到道路短语“仓里路”。
100.在一些实施例中,在得到短语类别为道路类别的道路短语之后,在道路短语之前的词汇的词汇类别为专有名词或者道路短语之前的短语为poi短语的情况下,将道路短语的短路类别修改为分店类别。
101.例如,“肯德基仓里路”,分词结果为“肯德基|仓|里|路”,合并道路短语结果为“肯德基|仓里路”,其中道路短语是“仓里路”,而位于道路短语之前的“肯德基”为品牌词(专有名词),将“仓里路”的短语类别由道路类别修改为分店类别。
102.本公开实施例的一个有益效果在于,能够根据预设词汇库对poi信息的poi名称进行分词,得到分词结果;分词结果包括至少一个词汇和与至少一个词汇一一对应的至少一个词汇信息,词汇信息包括对应于poi分类集的第一poi分类信息和对应于词性分类集的词汇类别,词性分类集包括poi类别;然后根据词汇信息中的poi分类集和词性分类集,从poi分类集和词性分类集两个方面对上述分词后得到的至少一个词汇进行组合,得到至少一个具有语义的短语,根据每一短语对应于poi分类集的第二poi分类信息和对应于词性分类集的短语类别,按照至少一个词汇在poi名称中的排列顺序从至少一个词汇的尾词开始向前遍历至少一个短语,获得遍历到的首个poi短语,poi短语的短语类别为poi类别,最后根据首个poi短语的第二poi分类信息,确定poi信息的类别。本技术能够在确定poi信息的类别过程中,结合poi名称中各词汇的词汇信息,从基于词汇组合后是否具有语义的角度出发,得到至少一个具有语义的短语,并获取每一短语对应于poi分类集的第二poi分类信息和对应于词性分类集的短语类别,最后将最靠近poi名称的尾部的poi短语的第二poi分类信息确定为poi信息的类别,有效提高了poi分类的准确性。
103.在一些实施例中,在执行步骤s120之前,如图5所示,本公开实施里还可以执行步骤s510~s530:
104.步骤s510:将分词结果输入预设的poi分类模型,获得预设的poi分类模型输出的poi信息的待定类别和该待定类别的置信度。
105.可以根据预设的机器学习算法训练n(例如7000万)个poi分类样本,得到poi分类模型。其中,n为自然数且n》0;
106.例如,可以根据预设的卷积神经网络(convolutional neural networks,cnn)训练n个poi分类样本,得到poi分类模型。
107.示例地,该poi分类模型包括输入层、卷积层、激励层、全连接层和输出层。输入数据依次通过输入层、卷积层、激励层、全连接层和输出层进行前向传播,得到实际输出值与目标值的误差(即:输出误差)。在输出误差大于最大允许误差的情况下,进行反向传播依次求得全连接层、激励层、卷积层和输入层中每层的误差,根据各层的误差得到误差梯度,并根据误差梯度更新各层的权重,然后重新执行上述前向传播得到输出误差及其后续步骤。在输出误差小于或等于最大允许误差的情况下,结束训练。
108.输入层用于接收用于训练数据(例如n个poi分类样本),对训练数据进行例如均值
化(例如对于给定数据的每个特征减去该特征的均值)、归一化(例如在均值化的基础上再除以该特征的方差)等预处理;卷积层用于接收输入层的处理结果,从该结果中提取训练数据的特征向量,输出特征向量至激励层,激励层通过激励函数对卷积层输出的特征向量进行非线性映射,全连接层将激励层输出的结果中的特征重新组合成得到上述实际输出值,输出层用于输出实际输出值。
109.其中,通过如下公式获得所述预设的卷积神经网络在前向传播过程中的激活函数:
110.σ(z2)=σ(a*w2+b2);
111.其中,σ为激活函数,a为预设的卷积神经网络的输出结果,z为缓存变量,w为张量,b为预设的卷积神经网络的输出误差;
112.通过如下公式获得所述预设的卷积神经网络在反向传播过程中的误差梯度:
[0113][0114]
其中,en为第n个训练样本的训练误差,c为预设的卷积神经网络的输出层的节点个数,t为第n个训练样本的正确结果,y为预设的卷积神经网络的输出结果。
[0115]
示例地,根据预设词汇库对预设数量(例如7000万)的样本poi信息中的名称进行分词处理,得到分词结果。将一个样本poi信息对应的分词结果和该poi信息中的类别作为一个样本数据(即:poi分类样本)。根据预设的卷积神经网络训练n个poi分类样本过程如下:将所有样本数据分为10等份,其中的9份作为训练数据,剩下的1份作为验证数据。将每个训练数据中的分词结果作为输入,每个训练数据中的poi信息中的类别作为输出,采用上述卷积神经网络对训练数据进行训练,得到待调整poi分类模型,并根据验证数据对该待调整poi分类模型进行调整,使得该poi分类模型返回的poi信息的类别的置信度在0.98以上,得到预设的poi分类模型。在步骤s510中,将步骤s110中得到的分词结果输入预设的poi分类模型,然后获得预设的poi分类模型输出的poi信息的待定类别和该待定类别的置信度。
[0116]
步骤s520:在置信度大于或等于预设阈值的情况下,确定poi信息的待定类别作为poi信息的类别。
[0117]
具体地,在置信度大于或等于预设阈值的情况下,直接将设的poi分类模型输出的poi信息的待定类别作为poi信息的类别。
[0118]
预设阈值可以由本领域技术人员根据实际情况进行设置,例如预设阈值为0.98。
[0119]
步骤s530:在置信度小于预设阈值的情况下,执行步骤s130~150。
[0120]
在置信度小于预设阈值的情况下,说明预设的poi分类模型输出的poi信息的待定类别的准确性较低,则执行步骤s130~150,以便根据分词结果重新确定poi信息的类别。
[0121]
《设备实施例》
[0122]
图6是根据本公开一些实施例的poi分类装置的功能结构框图。如图6所示,该poi分类装置60可以包括分词模块61、短语组合模块62、短语信息模块63、遍历模块64和确定模块65。
[0123]
分词模块61,用于根据预设词汇库对poi信息的poi名称进行分词处理,得到分词结果;分词结果包括至少一个词汇和与至少一个词汇一一对应的至少一个词汇信息;词汇信息包括对应于poi分类集的第一poi分类信息和对应于词性分类集的词汇类别,词性分类
集包括poi类别。
[0124]
短语组合模块62,用于根据分词模块61中获得的至少一个词汇的词汇信息,按照至少一个词汇在poi名称中的排列顺序进行相邻词汇组合,得到至少一个具有语义的短语;其中,任意词汇属于且仅属于至少一个具有语义的短语中的一个短语。
[0125]
短语信息模块63,用于获取短语组合模块62中获得的至少一个具有语义的短语中每一短语对应于poi分类集的第二poi分类信息和对应于词性分类集的短语类别。
[0126]
遍历模块64,用于按照至少一个词汇在poi名称中的排列顺序从至少一个词汇的尾词开始向前遍历至少一个短语,根据短语信息模块63中获得的每一短语对应于词性分类集的短语类别获得遍历到的首个poi短语;其中,poi短语为短语类别为poi类别的短语。
[0127]
确定模块65,用于根据遍历模块64获得的首个poi短语的第二poi分类信息,确定poi信息的类别。
[0128]
poi分类装置60可以设置在具有地图显示功能和/或导航功能的电子设备中。
[0129]
图7是根据本公开一些实施例的电子设备的功能结构框图。
[0130]
如图7所示,该电子设备700包括处理器710和存储器720,该存储器720用于存储可执行的计算机程序,该处理器710用于根据该计算机程序的控制,执行如以上任意方法实施例的方法。
[0131]
该电子设备700可以是具有地图显示功能和/或导航功能的设备,例如车载导航、手机。
[0132]
以上电子设备700的各模块可以由本实施例中的处理器710执行存储器720存储的计算机程序实现,也可以通过其他电路结构实现,在此不做限定。
[0133]
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
[0134]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0135]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0136]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、
机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
[0137]
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0138]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0139]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0140]
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
[0141]
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其
它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。