一种基于语义相似度的轨迹聚类方法与流程

文档序号:24191882发布日期:2021-03-09 15:23阅读:来源:国知局

技术特征:
1.一种基于语义相似度的轨迹聚类方法,其特征在于,如下步骤:s1、基于需要挖掘的数据的应用领域定义语义轨迹,再基于定义的语义轨迹得到语义轨迹相似性;s2、给定轨迹训练数据集,抽取数个轨迹,基于语义轨迹相似性采用箱型图计算相似度阈值;s3、基于相似度阈值对轨迹集中的各轨道进行聚类。2.根据权利要求1所述的一种基于语义相似度的轨迹聚类方法,其特征在于,步骤s1中需要挖掘的数据的应用领域为包括经纬度、场景标签、时间和天气信息的社交网络领域、交通领域或旅游领域。3.根据权利要求2所述的一种基于语义相似度的轨迹聚类方法,其特征在于,步骤s1中得到语义轨迹相似性的步骤如下:s1.1、给定一条语义轨迹序列t
i
={t
i,1
,t
i,2

……
,t
i,j

……
t
i,n
},其中,n是轨迹的点的个数,t
i,j
是轨迹t
i
的第j个点,t
i,j
由m个属性(p1,p2,
……
,p
m
)组成,m个属性中的各属性由距离属性和语义属性组成;s1.2、基于语义轨迹中t
i,j
的m个属性得到语义轨迹相似性。4.根据权利要求3所述的一种基于语义相似度的轨迹聚类方法,其特征在于,步骤s1.1中距离属性的公式为:语义属性的公式为:sim
semantic
(p
m
)=h

1其中,是指轨迹t
i
的第x个点的第m个属性,是指轨迹t
k
的第y个点的第m个属性,t
i
和t
k
两条轨迹的点的数量相等或不相等,h是和在层次树中最近公共父节点的层数。5.根据权利要求4所述的一种基于语义相似度的轨迹聚类方法,其特征在于,步骤s1.2得到的语义轨迹相似性的公式为:sim=w1·
sim
distance
+w2·
∑sim
semantic
(p
m
)其中,w1为空间相似度所占权重,w2为语义相似度所占权重,w1+w2=1。6.根据权利要求5所述的一种基于语义相似度的轨迹聚类方法,其特征在于,步骤s2的具体步骤为:s2.1、给定轨迹训练数据集,并从训练轨迹数据集中随机抽取10%的轨迹,基于语义轨迹相似性计算出两两之间的相似度,得到相似度序列sim
e
={sim1,sim2,
……
,sim
k
};s2.2、根据相似度序列和四分位数的位置公式确定四分位数的位置,四分位数的位置公式如下:其中,i的取值为1、2或3,k为相似度序列sim
e
的长度,l1为下四分位数q1在相似度序列中的位置,l2为中位数q2在相似度序列中的位置,l3为上四分位数q3在相似度序列中的位
置;s2.3、根据l1、l2、l3计算相应的下四分位数q1、中位数q2以及上四分位数q3,并取相似度阈值∈1为q1,∈2为q3。7.根据权利要求6所述的一种基于语义相似度的轨迹聚类方法,其特征在于,步骤s3的具体步骤为:s3.1、从数据轨迹集d中随机选定一条轨迹t
i
,若随机选定轨迹t
i
为首条轨迹,创建轨迹簇,否则,计算轨迹t
i
与轨迹簇的相似度:(1)选择一轨迹簇作为当前轨迹簇,从当前轨迹簇随机选取的一轨迹作为对比的当前轨迹;(2)计算轨迹t
i
与当前轨迹的相似度;(3)若相似度大于等于阈值∈2,则将轨迹t
i
加入当前轨迹簇;(4)若相似度小于等于阈值∈1,判断轨迹簇是否都已比较,若是,新创建一个轨迹簇,将轨迹t
i
加入新创建的轨迹簇,若否,重新选择一轨迹簇作为当前轨迹簇,再转到步骤(2)执行;(5)若相似度大于∈1小于∈2,判断当前轨迹簇中是否还有未与轨迹t
i
进行比较的轨迹,若是,从未比较的轨迹中重新选择一条轨迹作为当前轨迹,再转到步骤(2)执行,若否,判断轨迹簇是否都已比较,若是,则将轨迹t
i
加入平均相似度最高的轨迹簇,若否,重新选择一轨迹簇作为当前轨迹簇,再转到步骤(2)执行。s3.2、若数据轨迹集中的轨迹都聚类完,得到n个轨迹簇c1,c2,
……
,cn,d=c1∪c2∪
……
∪cn;否则,重复步骤s3.1,直到聚类完成。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1