一种基于多源数据的poi分类方法及相关装置
技术领域
1.本发明涉及电子地图技术领域,特别涉及一种基于多源数据的poi分类方法及装置。
背景技术:2.poi(point of interest,兴趣点),泛指互联网电子地图中的点类数据,基本包含名称、地址、坐标、类别四个属性;由于poi涵盖众多信息,比如地址、经纬度、联系方式、名称等;随着电子地图的高速发展,poi数据也出现了图片数据,评论数据和评分等数据,由于poi数据来源众多,且所有的维度和数据也大不相同,各个平台的poi分类也不尽相同,如此,对poi进行大数据分析时运用兴趣点名称对poi分类,存在精度不足的问题。
技术实现要素:3.鉴于以上所述现有技术的不足,本发明的目在于:一种基于多源数据的poi分类方法,通过结合文本编辑距离、离散度机制和自然语言处理,进行poi分类,可减少人工标注的成本,并提高分类的精度。
4.为实现上述发明目的,本发明提供以下技术方案:
5.一种基于多源数据的poi分类方法,其包括以下步骤:
6.s1:获取互联网平台提供的poi数据,并对获取到的poi数据的文本信息进行分词处理,得到每条poi数据对应的特征词;
7.s2:计算每条poi数据的特征词与目标分类的特征词之间的编辑距离,当计算出的编辑距离得分达到预设阈值时,将所述目标分类对应的分类类别作为该poi数据的分类类别;
8.s3:将已确定分类类别的poi数据作为训练集,计算每条poi数据对应特征词的先验概率,再根据未确定分类类别的poi数据,计算对应每个分类类别的后验概率,将最大后验概率的分类类别作为该poi数据的分类类别;
9.s4:根据已确定分类类别的poi数据的特征词,并利用均值偏移聚类算法,判断每个分类类别中是否存在离群度超过预设阈值的poi数据,若存在,则将其标记为异常数据,并进入步骤s5;若不存在,则输出对全部poi数据对应的分类类别;
10.s5:将未标记为异常数据的poi数据作为机器学习模型的训练集,训练所述机器学习模型,并在训练成功后,将标记为异常数据的poi数据输入至所述机器学习模型中,输出对应的分类类别,以及将输出的分类类别重新确定为该poi数据的分类类别,并重新进入步骤s4。
11.根据一种具体的实施方式,本发明基于多源数据的poi分类方法的步骤s1中,在进行所述分词处理之前,还根据poi数据中poi附属信息的相似度,将相似度较高的poi数据融合为一个poi数据;其中,所述poi附属信息包括poi的名称、地址、联系方式、经纬度。
12.根据一种具体的实施方式,本发明基于多源数据的poi分类方法的步骤s1中,对获
取到的poi数据的文本信息进行分词处理,包括:
13.对每条poi数据进行首次分词处理后,计算该poi数据的特征词与poi数据的文本信息的初始编辑距离,若所述初始编辑距离低于预设阈值,则调整分词处理方式重新对该poi数据进行分词处理,直到所述初始编辑距离不低于预设阈值。
14.根据一种具体的实施方式,本发明基于多源数据的poi分类方法的步骤s3中,将每个特征词出现的概率作为先验概率,并将所述先验概率以及每个特征次在对应分类类别的概率代入贝叶斯公式,计算出所述后验概率。
15.根据一种具体的实施方式,本发明基于多源数据的poi分类方法的步骤s5中,训练所述机器学习模型前,将未标记为异常数据的每条poi数据构建为包含三个通道特征编码的训练特征;其中,对每条poi数据中的poi名称、特征词和评论数据进行特征编码化处理,而得到三通道特征编码。
16.进一步地,构建所述训练特征时,通过加入特征词的近义词对特征词进行增强。
17.在具体实施的另一方面,本发明还提供一种电子装置,其包括:
18.数据获取模块,用于获取互联网平台提供的poi数据;
19.分词处理模块,用于对获取到的poi数据的文本信息进行分词处理,得到每条poi数据对应的特征词;
20.第一分类模块,用于计算每条poi数据的特征词与目标分类的特征词之间的编辑距离,当计算出的编辑距离得分达到预设阈值时,将所述目标分类对应的分类类别作为该poi数据的分类类别;
21.第二分类模块,用于将所述第一分类模块中已确定分类类别的poi数据作为训练集,计算每条poi数据对应特征词的先验概率,再根据未确定分类类别的poi数据,计算对应每个分类类别的后验概率,将最大后验概率的分类类别作为该poi数据的分类类别;
22.异常分析模块,用于根据已确定分类类别的poi数据的特征词,并利用均值偏移聚类算法,判断每个分类类别中是否存在离群度超过预设阈值的poi数据,若存在,则将其标记为异常数据,并进入机器学习模型中处理;若不存在,则输出对全部poi数据对应的分类类别;
23.机器学习模块,用于将未标记为异常数据的poi数据作为机器学习模型的训练集,训练所述机器学习模型,并在训练成功后,将标记为异常数据的poi数据输入至所述机器学习模型中,输出对应的分类类别,以及将输出的分类类别重新确定为该poi数据的分类类别,并重新进入所述异常分析模块中进行处理。
24.根据一种具体的实施方式,本发明的一种电子装置中,所述分词处理模块,用于在进入所述分词处理模块进行所述分词处理之前,还根据poi数据中poi附属信息的相似度,将相似度较高的poi数据融合为一个poi数据;其中,所述poi附属信息包括poi的名称、地址、联系方式、经纬度。
25.根据一种具体的实施方式,本发明的一种电子装置中,所述分词处理模块,用于对每条poi数据进行首次分词处理后,计算该poi数据的特征词与poi数据的文本信息的初始编辑距离,若所述初始编辑距离低于预设阈值,则调整分词处理方式重新对该poi数据进行分词处理,直到所述初始编辑距离不低于预设阈值。
26.根据一种具体的实施方式,本发明的一种电子装置中,所述机器学习模块,用于训
练所述机器学习模型前,将未标记为异常数据的每条poi数据构建为包含三个通道特征编码的训练特征;其中,对每条poi数据中的poi名称、特征词和评论数据进行特征编码化处理,而得到三通道特征编码。
27.与现有技术相比,本发明的有益效果:
28.本发明的基于多源数据的poi分类方法,通过结合文本编辑距离、离散度机制和自然语言处理,进行poi分类,可减少人工标注的成本,并提高分类的精度。
附图说明:
29.图1为本发明方法的流程示意图;
30.图2为本发明电子装置的结构示意图。
具体实施方式
31.下面结合附图及具体实施例对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
32.如图1所示的一种基于多源数据的poi分类方法,其包括以下步骤:
33.s1:获取互联网平台提供的poi数据,并对获取到的poi数据的文本信息进行分词处理,得到每条poi数据对应的特征词;
34.s2:计算每条poi数据的特征词与目标分类的特征词之间的编辑距离,当计算出的编辑距离得分达到预设阈值时,将所述目标分类对应的分类类别作为该poi数据的分类类别;
35.s3:将已确定分类类别的poi数据作为训练集,计算每条poi数据对应特征词的先验概率,再根据未确定分类类别的poi数据,计算对应每个分类类别的后验概率,将最大后验概率的分类类别作为该poi数据的分类类别;具体的,将每个特征词出现的概率作为先验概率,并将所述先验概率以及每个特征次在对应分类类别的概率代入贝叶斯公式,计算出所述后验概率。
36.s4:根据已确定分类类别的poi数据的特征词,并利用均值偏移聚类算法,判断每个分类类别中是否存在离群度超过预设阈值的poi数据,若存在,则将其标记为异常数据,并进入步骤s5;若不存在,则输出对全部poi数据对应的分类类别;
37.s5:将未标记为异常数据的poi数据作为机器学习模型的训练集,训练所述机器学习模型,并在训练成功后,将标记为异常数据的poi数据输入至所述机器学习模型中,输出对应的分类类别,以及将输出的分类类别重新确定为该poi数据的分类类别,并重新进入步骤s4。
38.在一个实施例中,本发明基于多源数据的poi分类方法的步骤s1中,在进行所述分词处理之前,还根据poi数据中poi附属信息的相似度,将相似度较高的poi数据融合为一个poi数据;其中,所述poi附属信息包括poi的名称、地址、联系方式、经纬度。具体的,本发明基于多源数据的poi分类方法的步骤s1中,对获取到的poi数据的文本信息进行分词处理,包括:
39.对每条poi数据进行首次分词处理后,计算该poi数据的特征词与poi数据的文本
信息的初始编辑距离,若所述初始编辑距离低于预设阈值,则调整分词处理方式重新对该poi数据进行分词处理,直到所述初始编辑距离不低于预设阈值。
40.在一个实施例中,本发明基于多源数据的poi分类方法的步骤s5中,训练所述机器学习模型前,将未标记为异常数据的每条poi数据构建为包含三个通道特征编码的训练特征;其中,对每条poi数据中的poi名称、特征词和评论数据进行特征编码化处理,而得到三通道特征编码。进一步地,构建所述训练特征时,通过加入特征词的近义词对特征词进行增强。
41.如图2所示,本发明还提供一种电子装置,其包括:
42.数据获取模块,用于获取互联网平台提供的poi数据;
43.分词处理模块,用于对获取到的poi数据的文本信息进行分词处理,得到每条poi数据对应的特征词;
44.第一分类模块,用于计算每条poi数据的特征词与目标分类的特征词之间的编辑距离,当计算出的编辑距离得分达到预设阈值时,将所述目标分类对应的分类类别作为该poi数据的分类类别;
45.第二分类模块,用于将所述第一分类模块中已确定分类类别的poi数据作为训练集,计算每条poi数据对应特征词的先验概率,再根据未确定分类类别的poi数据,计算对应每个分类类别的后验概率,将最大后验概率的分类类别作为该poi数据的分类类别;
46.异常分析模块,用于根据已确定分类类别的poi数据的特征词,并利用均值偏移聚类算法,判断每个分类类别中是否存在离群度超过预设阈值的poi数据,若存在,则将其标记为异常数据,并进入机器学习模型中处理;若不存在,则输出对全部poi数据对应的分类类别;
47.机器学习模块,用于将未标记为异常数据的poi数据作为机器学习模型的训练集,训练所述机器学习模型,并在训练成功后,将标记为异常数据的poi数据输入至所述机器学习模型中,输出对应的分类类别,以及将输出的分类类别重新确定为该poi数据的分类类别,并重新进入所述异常分析模块中进行处理。
48.在一些实施例中,本发明的一种电子装置,所述分词处理模块,用于在进入所述分词处理模块进行所述分词处理之前,还根据poi数据中poi附属信息的相似度,将相似度较高的poi数据融合为一个poi数据;其中,所述poi附属信息包括poi的名称、地址、联系方式、经纬度。
49.在一些实施例中,本发明的一种电子装置中,所述分词处理模块,用于对每条poi数据进行首次分词处理后,计算该poi数据的特征词与poi数据的文本信息的初始编辑距离,若所述初始编辑距离低于预设阈值,则调整分词处理方式重新对该poi数据进行分词处理,直到所述初始编辑距离不低于预设阈值。
50.具体的,所述机器学习模块,用于训练所述机器学习模型前,将未标记为异常数据的每条poi数据构建为包含三个通道特征编码的训练特征;其中,对每条poi数据中的poi名称、特征词和评论数据进行特征编码化处理,而得到三通道特征编码。
51.应该理解到,本发明所揭露的装置,可通过其它的方式实现。例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,模块之间的
通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
52.另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
53.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
54.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。