兴趣点挖掘方法、装置、电子设备及存储介质与流程

文档序号:22545508发布日期:2020-10-17 02:14阅读:168来源:国知局
兴趣点挖掘方法、装置、电子设备及存储介质与流程

本发明涉及数据处理技术领域,特别是涉及一种兴趣点挖掘方法、装置、电子设备及存储介质。



背景技术:

poi(pointofinterest,兴趣点)是地理信息系统发展到一定阶段后,随着用户的个性化服务需求而出现的。全面的poi讯息是丰富导航地图的条件,及时的poi能提醒用户路况的分支及周边建筑的详尽信息,也能方便导航中查到你所需要的各个地方,选择最为便捷和通畅的道路来进行路径规划。

目前,挖掘poi的方法主要是,基于已有的商户数据进行挖掘。但是,一方面商户数据的覆盖率较低,因此挖掘出的poi信息不全面;另一方面商户数据中提供的位置可能与实际位置存在一定的偏差,因此挖掘出的poi信息不准确。



技术实现要素:

鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种兴趣点挖掘方法、装置、电子设备及存储介质。

第一方面,本发明实施例公开了一种兴趣点挖掘方法,包括:

获取多个历史订单信息,所述历史订单信息包括订单地址、下单时的第一定位位置和交接时的第二定位位置;

针对每个订单地址,对所述订单地址进行切词得到切词结果,从所述切词结果中提取兴趣点poi名称;

依据所述poi名称所属的订单地址对应的第一定位位置和第二定位位置,确定所述poi名称对应的poi位置;

依据所述poi名称和所述poi位置的对应关系,进行poi判重,得到各poi的名称和位置。

可选地,所述对所述订单地址进行切词得到切词结果,包括:将所述订单地址输入预先训练的切词模型,得到所述切词模型输出的,各分词及所述各分词的属性标签,将所述各分词及所述各分词的属性标签作为所述切词结果;其中,所述切词模型依据多个第一样本数据训练得到,所述第一样本数据包括样本分词和所述样本分词的标注属性标签。

可选地,所述历史订单信息还包括手选地址类型;所述从所述切词结果中提取poi名称,包括:从预设的地址类型与属性标签的对应关系中,查询所述手选地址类型对应的目标属性标签;从所述切词结果中提取属性标签为所述目标属性标签的分词,将提取出的分词作为所述poi名称。

可选地,所述依据所述poi名称所属的订单地址对应的第一定位位置和第二定位位置,确定所述poi名称对应的poi位置,包括:针对同一poi名称,将所述同一poi名称所属的各订单地址对应的第一定位位置和第二定位位置进行密度聚类,得到至少一个第一聚类簇;选取量级最大的第一聚类簇,对选取的第一聚类簇进行k-means聚类,得到至少一个第二聚类簇;选取两级最大的第二聚类簇,将选取的第二聚类簇的质心作为所述同一poi名称对应的poi位置。

可选地,所述依据所述poi名称和所述poi位置的对应关系,进行poi判重,得到各poi的名称和位置,包括:针对每个poi位置,计算所述poi位置对应的哈希索引;从哈希索引相同的poi位置对应的poi名称中,确定代表同一poi的poi名称;依据所述代表同一poi的poi名称,以及所述代表同一poi的poi名称对应的poi位置,确定所述同一poi的名称和位置。

可选地,所述从哈希索引相同的poi位置对应的poi名称中,确定代表同一poi的poi名称,包括:将所述哈希索引相同的poi位置对应的poi名称中任意两个poi名称,输入预先训练的判重模型,得到所述判重模型输出的,所述任意两个poi名称是否代表同一poi的结果;其中,所述判重模型通过多个第二样本数据训练得到,所述第二样本数据包括两个样本poi名称,以及所述两个样本poi名称是否代表同一poi的标注信息。

可选地,在所述从所述切词结果中提取兴趣点poi名称之后,还包括:将所述poi名称输入预先训练的poi分类模型,得到所述poi分类模型输出的,所述poi名称对应的poi类型;其中,所述poi分类模型通过多个第三样本数据训练得到,所述第三样本数据包括样本poi名称和所述样本poi名称的标注类型。

第二方面,本发明实施例公开了一种兴趣点挖掘装置,包括:

获取模块,用于获取多个历史订单信息,所述历史订单信息包括订单地址、下单时的第一定位位置和交接时的第二定位位置;

提取模块,用于针对每个订单地址,对所述订单地址进行切词得到切词结果,从所述切词结果中提取兴趣点poi名称;

位置确定模块,用于依据所述poi名称所属的订单地址对应的第一定位位置和第二定位位置,确定所述poi名称对应的poi位置;

判重模块,用于依据所述poi名称和所述poi位置的对应关系,进行poi判重,得到各poi的名称和位置。

可选地,所述提取模块包括:切词单元,用于将所述订单地址输入预先训练的切词模型,得到所述切词模型输出的,各分词及所述各分词的属性标签,将所述各分词及所述各分词的属性标签作为所述切词结果;其中,所述切词模型依据多个第一样本数据训练得到,所述第一样本数据包括样本分词和所述样本分词的标注属性标签。

可选地,所述历史订单信息还包括手选地址类型;所述提取模块包括:查询单元,用于从预设的地址类型与属性标签的对应关系中,查询所述手选地址类型对应的目标属性标签;分词提取单元,用于从所述切词结果中提取属性标签为所述目标属性标签的分词,将提取出的分词作为所述poi名称。

可选地,所述位置确定模块包括:第一聚类单元,用于针对同一poi名称,将所述同一poi名称所属的各订单地址对应的第一定位位置和第二定位位置进行密度聚类,得到至少一个第一聚类簇;第二聚类单元,用于选取量级最大的第一聚类簇,对选取的第一聚类簇进行k-means聚类,得到至少一个第二聚类簇;确定单元,用于选取两级最大的第二聚类簇,将选取的第二聚类簇的质心作为所述同一poi名称对应的poi位置。

可选地,所述判重模块包括:计算单元,用于针对每个poi位置,计算所述poi位置对应的哈希索引;名称确定单元,用于从哈希索引相同的poi位置对应的poi名称中,确定代表同一poi的poi名称;poi确定单元,用于依据所述代表同一poi的poi名称,以及所述代表同一poi的poi名称对应的poi位置,确定所述同一poi的名称和位置。

可选地,所述名称确定单元,具体用于将所述哈希索引相同的poi位置对应的poi名称中任意两个poi名称,输入预先训练的判重模型,得到所述判重模型输出的,所述任意两个poi名称是否代表同一poi的结果;其中,所述判重模型通过多个第二样本数据训练得到,所述第二样本数据包括两个样本poi名称,以及所述两个样本poi名称是否代表同一poi的标注信息。

可选地,所述装置还包括:类型确定模块,用于将所述poi名称输入预先训练的poi分类模型,得到所述poi分类模型输出的,所述poi名称对应的poi类型;其中,所述poi分类模型通过多个第三样本数据训练得到,所述第三样本数据包括样本poi名称和所述样本poi名称的标注类型。

第三方面,本发明实施例公开了一种电子设备,包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质;当所述指令由所述一个或多个处理器执行时,使得所述处理器执行如上任一项所述兴趣点挖掘方法。

第四方面,本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一项所述的兴趣点挖掘方法。

本发明实施例中,获取多个历史订单信息,所述历史订单信息包括订单地址、下单时的第一定位位置和交接时的第二定位位置;针对每个订单地址,对所述订单地址进行切词得到切词结果,从所述切词结果中提取poi名称;依据所述poi名称所属的订单地址对应的第一定位位置和第二定位位置,确定所述poi名称对应的poi位置;依据所述poi名称和所述poi位置的对应关系,进行poi判重,得到各poi的名称和位置。本发明实施例中,一方面,由于订单信息的覆盖率更高,因此基于历史订单信息挖掘出的poi信息更全面;另一方面,由于订单信息中的定位位置更加准确,因此基于历史订单信息中下单时的第一定位位置和交接时的第二定位位置挖掘出的poi位置更加准确;再一方面,由于订单信息的时效性更强,因此基于历史订单信息能够更加及时地挖掘出poi。

附图说明

图1是本发明实施例的一种兴趣点挖掘方法的步骤流程图。

图2是本发明实施例的一种兴趣点挖掘过程的示意图。

图3是本发明实施例的一种兴趣点挖掘装置的结构框图。

图4是本发明实施例的另一种兴趣点挖掘装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1,示出了本发明实施例的一种兴趣点挖掘方法的步骤流程图。

如图1所示,兴趣点挖掘方法可以包括以下步骤:

步骤101,获取多个历史订单信息,所述历史订单信息包括订单地址、下单时的第一定位位置和交接时的第二定位位置。

订单可以为任意一种包括订单地址、下单时的第一定位位置和交接时的第二定位位置的文本订单,比如外卖订单、打车订单、快递订单,等等。比如,对于一个外卖订单来说,订单地址可以为下单用户设置的收货地址,下单时的第一定位位置可以为下单用户在下单时的用户定位位置,交接时的第二定位位置可以为下单用户在接收配送员交付的商品时的用户定位位置。再比如,对于一个打车订单来说,订单地址可以为下单用户设置的上车地址,下单时的第一定位位置可以为下单用户在下单时的用户定位位置,交接时的第二定位位置可以为下单用户在上车时的用户定位位置。

步骤102,针对每个订单地址,对所述订单地址进行切词得到切词结果,从所述切词结果中提取poi名称。

获取多个历史订单信息,每个历史订单信息中均包括订单地址、下单时的第一定位位置和交接时的第二定位位置。当然,历史订单信息中还可以包括下单时间、支付方式、订单备注等信息。

针对每个订单地址,分别对该订单地址进行切词,得到切词结果。经过切词后,可以将订单地址切分为多个分词,并获得各分词的属性标签。依据个分词的属性标签,可以从切分得到的分词中提取可能代表一个poi的poi名称。其中,一个poi可以是一个商铺、一个商场、一个公交站、一个写字楼、一个公园、一个小区,等等。

步骤103,依据所述poi名称所属的订单地址对应的第一定位位置和第二定位位置,确定所述poi名称对应的poi位置。

针对每个订单地址,可以提取出一个poi名称。poi名称所属的订单地址对应的第一定位位置和第二定位位置是指,poi名称所属的订单地址所在的历史订单信息中,包含的下单时的第一定位位置和交接时的第二定位位置。依据poi名称所属的订单地址对应的第一定位位置和第二定位位置,可以确定出该poi名称对应的poi位置。

其中,第一定位位置和第二定位位置可以均为经纬度坐标,相应地,poi位置也为经纬度坐标。

步骤104,依据所述poi名称和所述poi位置的对应关系,进行poi判重,得到各poi的名称和位置。

经过上述过程,可以得到多个poi名称,以及各poi名称对应的poi位置。由于不同的poi名称可能代表同一poi,比如,a大厦和a大厦a座可能代表同一poi。因此,针对该种情况,可以进一步依据所述poi名称和所述poi位置的对应关系,进行poi判重,识别出其中的同一poi,进而得到各poi的名称和位置。

本发明实施例中,一方面,由于订单信息的覆盖率更高,因此基于历史订单信息挖掘出的poi信息更全面;另一方面,由于订单信息中的定位位置更加准确,因此基于历史订单信息中下单时的第一定位位置和交接时的第二定位位置挖掘出的poi位置更加准确;再一方面,由于订单信息的时效性更强,因此基于历史订单信息能够更加及时地挖掘出poi。

参照图2,示出了本发明实施例的一种兴趣点挖掘过程的示意图。

如图2所示,兴趣点挖掘过程可以包括:

1、获取历史订单信息。

每个历史订单信息中均包括订单地址、下单时的第一定位位置、交接时的第二定位位置、手选地址类型等信息。

2、结构化切词。

在结构化切词过程中,可以包括地址结构化切词过程和数据预处理过程。

在地址结构化切词过程中,针对每个订单地址,分别对所述订单地址进行切词得到切词结果。

在一种可选实施方式中,可以预先训练用于对订单地址进行结构化切词的切词模型。在训练过程中,获取大量的第一样本数据,每个第一样本数据都包括样本分词和所述样本分词的标注属性标签。基于大量第一样本数据,采用机器学习算法对待训练切词模型进行训练,将样本分词作为待训练切词模型的输入,依据待训练切词模型的输出及样本分词的标注属性标签计算损失值,在损失值处于预设范围内时,确定训练完成,将训练完成的模型作为所述切词模型。在实现中,切词模型可以采用bilstm(bidirectionallongshort-termmemory,双向长短期记忆)-crf(conditionalrandomfield,条件随机场)等模型结构。

因此,对所述订单地址进行切词得到切词结果的过程可以包括:将所述订单地址输入预先训练的切词模型,得到所述切词模型输出的,各分词及所述各分词的属性标签,将所述各分词及所述各分词的属性标签作为所述切词结果。切词模型基于大量样本分词和样本分词的标注属性标签训练得到,利用切词模型,能够更加准确、更加快速地对订单地址进行切词。

比如,一个订单地址为北京市海淀区中关村路a大厦a座六层,对其进行结构化切词后,可以得到分词“北京市”,“海淀区”,“中关村路”,“a大厦”,“a座”,“六层”。其中,分词“北京市”的属性标签为“城市”,分词“海淀区”的属性标签为“区域”,分词“中关村路”的属性标签为“街道”,分词“a大厦”的属性标签为“poi”,分词“a座”的属性标签为“楼栋”,分词“六层”的属性标签为“楼层”。

在数据预处理过程中,可以对分词进行去噪处理,过滤其中明显不规范的分词。比如,如果其中至少两个分词的属性标签相同,则过滤该分词,等等。

3、数据类型分类。

在数据类型分类过程中,进行手选poi类型分类。用户在下单过程中,通常会手选一个地址,该手选地址有可能对应一个poi,该手选地址具有对应的类型,在历史订单信息中可以包括该手选地址类型。手选poi类型分类过程可以为,获取手选地址类型,将该手选地址类型作为手选poi类型。其中,手选地址类型可以包括但不限于以下类型:小区、写字楼、商场、商铺、公园、公交站。

4、实体名称提取。

在实体名称提取过程中,可以包括poi名称提取过程、名称归一化处理过程和名称生成过程。

在poi名称提取过程中,依据上述的手选地址类型进行poi名称提取。

在一种可选实施方式中,可以预设地址类型与属性标签的对应关系。比如,当地址类型为写字楼时,对应的属性标签可以为“poi”和“楼栋”;当地址类型为小区时,对应的属性标签可以为“poi”和“楼号”;当地址类型为商铺时,对应的属性标签可以为“poi”;当地址类型为商场时,对应的属性标签可以为“poi”;当地址类型为公园时,对应的属性标签可以为“poi”;当地址类型为公交站时,对应的属性标签可以为“poi”,等等。

在poi名称提取过程中,从预设的地址类型与属性标签的对应关系中,查询所述手选地址类型对应的目标属性标签;从所述切词结果中提取属性标签为所述目标属性标签的分词,将提取出的分词作为poi名称。考虑到不同地址类型对应的poi名称中可能包含不同属性标签对应的分词,因此基于实际情况设置地址类型与属性标签的对应关系,根据该对应关系提取poi名称,提取过程更加简便,提取结果更加准确。

比如,在实际应用中,订单地址的形式可以包括:手选poi形式、手选poi+手写内容形式、手写内容形式。手选poi形式,是指用户只手选了地址。对于手选poi形式,该订单地址的组成可以包括以下三种:poi(也即提取的poi名称),poi+单元/楼层/房间号,poi+补充信息(比如备注信息)。手选poi+手写内容形式,是指用户手选了一部分地址,并且手写了一部分内容。对于手选poi+手写内容形式,该订单地址的组成可以包括以下两种:poi+楼栋+其他,poi+子描述+其他。手写内容形式,是指用户只手写了地址。对于手写内容形式,该订单地址的组成可以包括以下两种:poi+真实诉求,poi+其他信息。

在名称归一化处理过程中,可以对提取出的poi名称进行大小写统一、数字文字统一等归一化处理方式,以便后续能够更加准确、更加简便地对poi名称执行相应操作。

经过上述poi名称提取和名称归一化处理,即可生成订单地址对应的poi名称。

5、poi信息挖掘。

在从订单地址中提取出poi名称后,继续进行数据信息挖掘,得到各poi的位置、类型、地址、分级等信息。

对于poi位置,依据所述poi名称所属的订单地址对应的第一定位位置和第二定位位置,确定所述poi名称对应的poi位置。考虑到从不同订单地址中提取出的poi名称可能相同,本发明实施例中,可以针对同一poi名称,依据该同一poi名称所属的各订单地址对应的第一定位位置和第二定位位置,确定该同一poi名称对应的poi位置。其中,poi名称相同可以为名称完全相同,比如a大厦和a大厦为相同的poi名称;poi名称相同也可以为名称归一化(大小写统一、数字文字统一等)后相同,比如a大厦a座和a大厦a座为相同的poi名称,等等。

因此,依据所述poi名称所属的订单地址对应的第一定位位置和第二定位位置,确定所述poi名称对应的poi位置的过程,可以包括以下步骤a1~a3:

步骤a1,针对同一poi名称,将所述同一poi名称所属的各订单地址对应的第一定位位置和第二定位位置进行密度聚类,得到至少一个第一聚类簇。

一个订单地址可以提取出一个poi名称,一个订单地址对应一个第一定位位置和一个第二定位位置。针对同一poi名称,其对应多个订单地址,因此对应多个第一定位位置和多个第二定位位置。

在实现中,可以采用dbscan(density-basedspatialclusteringofapplicationswithnoise,具有噪声的基于密度的聚类方法)对同一poi名称所属的各订单地址对应的第一定位位置和第二定位位置进行密度聚类。

dbscan是一种基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。

dbscan中的几个定义如下:

ε邻域:给定对象半径为ε内的区域称为该对象的ε邻域。

核心对象:如果给定对象ε邻域内的样本点数大于等于minpts,则称该对象为核心对象。

直接密度可达:对于样本集合d,如果样本点q在p的ε邻域内,并且p为核心对象,那么对象q从对象p直接密度可达。

密度可达:对于样本集合d,给定一串样本点p1,p2…pn,p=p1,q=pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达。

密度相连:存在样本集合d中的一点o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相联。

dbscan聚类过程大致描述如下:

对于给定的邻域距离e和邻域最小样本点数minpts:

(1)遍历所有样本,找出所有满足邻域距离e的核心对象的集合;

(2)任意选择一个核心对象,找出其所有密度可达的样本生成聚类簇;

(3)从剩余的核心对象中移除(2)中找到的密度可达的样本;

(4)从更新后的核心对象集合重复执行(2)~(3)步,直到核心对象都被遍历或移除。

对应于本发明实施例,同一poi名称所属的各订单地址对应的第一定位位置和第二定位位置组成一个样本集合,其中,一个第一定位位置为一个样本,一个第二定位位置也为一个样本。

步骤a2,选取量级最大的第一聚类簇,对选取的第一聚类簇进行k-means聚类,得到至少一个第二聚类簇。

从密度聚类后得到的第一聚类簇中,选取量级最大的第一聚类簇。量级级最大是指该聚类簇中的样本点数最大。对选取的量级最大的第一聚类簇进行k-means聚类。

k-means是一种基于距离的聚类算法。采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

k-means聚类过程大致如下:

(1)从所有样本中随机选取k个样本作为质心。

(2)对剩余的每个样本测量其到每个质心的距离,并把它归到最近的质心的类。

(3)重新计算已经得到的各个类的质心。

(4)迭代(2)~(3)步,直至新的质心与原质心相等或距离小于指定阈值,算法结束。

对应于本发明实施例,选取的量级最大的第一聚类簇组成一个样本集合,其中,一个第一定位位置为一个样本,一个第二定位位置也为一个样本。

步骤a3,选取两级最大的第二聚类簇,将选取的第二聚类簇的质心作为所述同一poi名称对应的poi位置。

从k-means聚类后得到的第二聚类簇中,选取量级最大的第二聚类簇。量级级最大是指该聚类簇中的样本点数最大。将选取的量级最大的第二聚类簇的质心作为所述同一poi名称对应的poi位置。

如果针对一个poi名称,仅根据其所属的一个订单地址对应的第一定位位置和第二定位位置确定该poi名称对应的poi位置,可能会由于定位位置不准确等原因,导致得出的poi位置准确度较低。因此,本发明实施例中,将同一poi名称所属的各订单地址对应的第一定位位置和第二定位位置结合起来进行处理,对同一poi名称对应的多个第一定位位置和多个第二定位位置进行聚类,确定出一个置信度更高的poi位置,从而弱化某些定位位置不准确产生的影响。并且,通过密度聚类和k-means聚类相结合的方式,能够弥补单种聚类方式的不足,进一步提高聚类结果的准确度。

对于poi类型,在一种可选实施方式中,可以预先训练poi分类模型。在训练过程中,获取大量的第三样本数据,每个第三样本数据都包括样本poi名称和所述样本poi名称的标注类型。基于大量第三样本数据,采用机器学习算法对待训练poi分类模型进行训练,将样本poi名称作为待训练poi分类模型的输入,依据待训练poi分类模型的输出及样本poi名称的标注类型计算损失值,在损失值处于预设范围内时,确定训练完成,将训练完成的模型作为所述poi分类模型。在实现中,poi分类模型可以采用textcnn(textconvolutionalneuralnetwork,卷积神经网络文本分类模型)+labelsmoothing(标签平滑)等模型结构。

因此,确定所述poi名称对应的poi类型可以包括:将所述poi名称输入预先训练的poi分类模型,得到所述poi分类模型输出的,所述poi名称对应的poi类型。poi分类模型基于大量样本poi名称和样本poi名称的标注类型训练得到,利用poi分类模型,能够更加准确、更加快速地确定poi名称对应的poi类型。

对于poi地址,可以依据上述确定出的poi位置,确定对应的poi地址。比如,可以基于地图数据,确定poi位置对应的poi地址。对于具体的确定过程,本发明实施例不再详细论述。

对于poi分级,可以根据实际经验,比如根据已有的分级形式,依据上述确定出的poi名称、poi类型等,确定对应的poi分级。对于具体的确定过程,本发明实施例不再详细论述。

6、poi过滤。

在poi过滤过程中,可以对其中位置不符合规范,名称不符合规范的poi进行过滤,还可以对其中表示方位词的poi进行过滤。

7、poi判重整合。

poi判重整合过程可以包括poi自判重过程及与已有poi判重整合过程。

poi自判重是指对上述从历史订单信息中挖掘出的poi进行判重。由于不同的poi名称可能代表同一poi,比如,a大厦和a大厦a座可能代表同一poi。因此,针对该种情况,可以进一步依据poi名称和poi位置的对应关系,进行poi判重,识别出其中的同一poi。

在一种可选实施方式中,依据所述poi名称和所述poi位置的对应关系,进行poi判重,得到各poi的名称和位置。具体可以包括以下步骤b1~b3:

步骤b1,针对每个poi位置,计算所述poi位置对应的哈希索引。

在实现中,可以采用geohash编码计算poi位置对应的哈希索引。将空间位置编码为一串字符,通过字符串的比较可以得到空间的大致范围。geohash编码值表示的并不是一个点,而是一个矩形区域,落在该矩形区域的所有点都可以用该编码表示。因此,距离相近的不同poi位置计算出的哈希索引可能相同。

步骤b2,从哈希索引相同的poi位置对应的poi名称中,确定代表同一poi的poi名称。

如果两个poi位置的哈希索引相同,则说明这两个poi位置距离相近,其代表同一poi的可能性较大。因此,本发明实施例中从哈希索引相同的poi位置对应的poi名称中,确定代表同一poi的poi名称。

在一种可选实施方式中,可以预先训练判重模型。在训练过程中,获取大量的第二样本数据,每个第二样本数据都包括两个样本poi名称,以及所述两个样本poi名称是否代表同一poi的标注信息。基于大量第二样本数据,采用机器学习算法对待训练判重模型进行训练,将两个样本poi名称作为待训练判重模型的输入,依据待训练判重模型的输出及所述两个样本poi名称是否代表同一poi的标注信息计算损失值,在损失值处于预设范围内时,确定训练完成,将训练完成的模型作为所述判重模型。在实现中,判重模型可以采用卷积神经网络分类模型等模型结构。

因此,从哈希索引相同的poi位置对应的poi名称中,确定代表同一poi的poi名称,可以包括:将所述哈希索引相同的poi位置对应的poi名称中任意两个poi名称,输入预先训练的判重模型,得到所述判重模型输出的,所述任意两个poi名称是否代表同一poi的结果。判重模型基于大量第二样本数据训练得到,利用判重模型,能够更加准确、更加快速地确定不同的poi名称是否代表同一poi。

步骤b3,依据所述代表同一poi的poi名称,以及所述代表同一poi的poi名称对应的poi位置,确定所述同一poi的名称和位置。

在确定出哪些poi名称代表同一poi后,依据代表同一poi的poi名称和poi位置,确定该同一poi的名称和位置。比如,可以从代表该同一poi的多个poi名称中随机选取一个poi名称作为该poi的名称,将选取的poi名称对应的poi位置作为该poi的位置,或者将代表该同一poi的多个poi名称对应的poi位置的均值作为该poi的位置,等等,本发明实施例对此不做限制。

由于在进行poi判重时,如果直接将poi名称进行两两比较,则处理的数据量较大,因此本发明实施例中先通过哈希索引确定出距离相近的poi位置,再对哈希索引相同的poi位置对应的poi名称进行两两比较,从而能够大大降低处理的数据量,简化处理过程。

与已有poi判重整合是指与之前已经确定的poi进行判重并整合。其中,与已有poi判重过程与上述poi自判重过程基本相似,具体参照上述的相关描述即可。在与已有poi判重之后,可以确定出相比于已有poi新增的poi,将这些新增的poi添加至已有的poi中,完成与已有poi的整合。

本发明实施例中的兴趣点挖掘方法具有以下优点:时效性强,通过每天的大量订单可以实现天级挖掘;覆盖率广:对于各种类型的包含poi的订单,均可以挖掘其中的poi;成本低,基本无成本消耗;安全性强:基于自有的业务数据挖掘poi,无风险。

参照图3,示出了本发明实施例的一种兴趣点挖掘装置的结构框图。

如图3所示,兴趣点挖掘装置可以包括以下模块:

获取模块301,用于获取多个历史订单信息,所述历史订单信息包括订单地址、下单时的第一定位位置和交接时的第二定位位置;

提取模块302,用于针对每个订单地址,对所述订单地址进行切词得到切词结果,从所述切词结果中提取兴趣点poi名称;

位置确定模块303,用于依据所述poi名称所属的订单地址对应的第一定位位置和第二定位位置,确定所述poi名称对应的poi位置;

判重模块304,用于依据所述poi名称和所述poi位置的对应关系,进行poi判重,得到各poi的名称和位置。

参照图4,示出了本发明实施例的另一种兴趣点挖掘装置的结构框图。

如图4所示,兴趣点挖掘装置可以包括以下模块:

获取模块401,用于获取多个历史订单信息,所述历史订单信息包括订单地址、下单时的第一定位位置和交接时的第二定位位置;

提取模块402,用于针对每个订单地址,对所述订单地址进行切词得到切词结果,从所述切词结果中提取兴趣点poi名称;

位置确定模块403,用于依据所述poi名称所属的订单地址对应的第一定位位置和第二定位位置,确定所述poi名称对应的poi位置;

判重模块404,用于依据所述poi名称和所述poi位置的对应关系,进行poi判重,得到各poi的名称和位置。

可选地,所述提取模块402包括:切词单元4021,用于将所述订单地址输入预先训练的切词模型,得到所述切词模型输出的,各分词及所述各分词的属性标签,将所述各分词及所述各分词的属性标签作为所述切词结果;其中,所述切词模型依据多个第一样本数据训练得到,所述第一样本数据包括样本分词和所述样本分词的标注属性标签。

可选地,所述历史订单信息还包括手选地址类型;所述提取模块402包括:查询单元4022,用于从预设的地址类型与属性标签的对应关系中,查询所述手选地址类型对应的目标属性标签;分词提取单元4023,用于从所述切词结果中提取属性标签为所述目标属性标签的分词,将提取出的分词作为所述poi名称。

可选地,所述位置确定模块403包括:第一聚类单元4031,用于针对同一poi名称,将所述同一poi名称所属的各订单地址对应的第一定位位置和第二定位位置进行密度聚类,得到至少一个第一聚类簇;第二聚类单元4032,用于选取量级最大的第一聚类簇,对选取的第一聚类簇进行k-means聚类,得到至少一个第二聚类簇;确定单元4033,用于选取两级最大的第二聚类簇,将选取的第二聚类簇的质心作为所述同一poi名称对应的poi位置。

可选地,所述判重模块404包括:计算单元4041,用于针对每个poi位置,计算所述poi位置对应的哈希索引;名称确定单元4042,用于从哈希索引相同的poi位置对应的poi名称中,确定代表同一poi的poi名称;poi确定单元4043,用于依据所述代表同一poi的poi名称,以及所述代表同一poi的poi名称对应的poi位置,确定所述同一poi的名称和位置。

可选地,所述名称确定单元4042,具体用于将所述哈希索引相同的poi位置对应的poi名称中任意两个poi名称,输入预先训练的判重模型,得到所述判重模型输出的,所述任意两个poi名称是否代表同一poi的结果;其中,所述判重模型通过多个第二样本数据训练得到,所述第二样本数据包括两个样本poi名称,以及所述两个样本poi名称是否代表同一poi的标注信息。

可选地,所述装置还包括:类型确定模块405,用于将所述poi名称输入预先训练的poi分类模型,得到所述poi分类模型输出的,所述poi名称对应的poi类型;其中,所述poi分类模型通过多个第三样本数据训练得到,所述第三样本数据包括样本poi名称和所述样本poi名称的标注类型。

本发明实施例中,一方面,由于订单信息的覆盖率更高,因此基于历史订单信息挖掘出的poi信息更全面;另一方面,由于订单信息中的定位位置更加准确,因此基于历史订单信息中下单时的第一定位位置和交接时的第二定位位置挖掘出的poi位置更加准确;再一方面,由于订单信息的时效性更强,因此基于历史订单信息能够更加及时地挖掘出poi。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

在本发明的实施例中,还提供了一种电子设备。该电子设备可以包括一个或多个处理器,以及其上存储有指令的一个或多个机器可读介质,指令例如应用程序。当所述指令由所述一个或多个处理器执行时,使得所述处理器执行上述的方法。

在本发明的实施例中,还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序可由电子设备的处理器执行,以完成上述的方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种兴趣点挖掘方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1