一种基于语义相似度的轨迹聚类方法与流程

文档序号：24191882发布日期：2021-03-09 15:23阅读：来源：国知局

技术特征：
1.一种基于语义相似度的轨迹聚类方法，其特征在于，如下步骤：s1、基于需要挖掘的数据的应用领域定义语义轨迹，再基于定义的语义轨迹得到语义轨迹相似性；s2、给定轨迹训练数据集，抽取数个轨迹，基于语义轨迹相似性采用箱型图计算相似度阈值；s3、基于相似度阈值对轨迹集中的各轨道进行聚类。2.根据权利要求1所述的一种基于语义相似度的轨迹聚类方法，其特征在于，步骤s1中需要挖掘的数据的应用领域为包括经纬度、场景标签、时间和天气信息的社交网络领域、交通领域或旅游领域。3.根据权利要求2所述的一种基于语义相似度的轨迹聚类方法，其特征在于，步骤s1中得到语义轨迹相似性的步骤如下：s1.1、给定一条语义轨迹序列t
i
＝{t
i，1
，t
i，2
，
……
，t
i，j
，
……
t
i，n
}，其中，n是轨迹的点的个数，t
i，j
是轨迹t
i
的第j个点，t
i，j
由m个属性(p1，p2，
……
，p
m
)组成，m个属性中的各属性由距离属性和语义属性组成；s1.2、基于语义轨迹中t
i，j
的m个属性得到语义轨迹相似性。4.根据权利要求3所述的一种基于语义相似度的轨迹聚类方法，其特征在于，步骤s1.1中距离属性的公式为：语义属性的公式为：sim
semantic
(p
m
)＝h
‑
1其中，是指轨迹t
i
的第x个点的第m个属性，是指轨迹t
k
的第y个点的第m个属性，t
i
和t
k
两条轨迹的点的数量相等或不相等，h是和在层次树中最近公共父节点的层数。5.根据权利要求4所述的一种基于语义相似度的轨迹聚类方法，其特征在于，步骤s1.2得到的语义轨迹相似性的公式为：sim＝w1·
sim
distance
+w2·
∑sim
semantic
(p
m
)其中，w1为空间相似度所占权重，w2为语义相似度所占权重，w1+w2＝1。6.根据权利要求5所述的一种基于语义相似度的轨迹聚类方法，其特征在于，步骤s2的具体步骤为：s2.1、给定轨迹训练数据集，并从训练轨迹数据集中随机抽取10％的轨迹，基于语义轨迹相似性计算出两两之间的相似度，得到相似度序列sim
e
＝{sim1，sim2，
……
，sim
k
}；s2.2、根据相似度序列和四分位数的位置公式确定四分位数的位置，四分位数的位置公式如下：其中，i的取值为1、2或3，k为相似度序列sim
e
的长度，l1为下四分位数q1在相似度序列中的位置，l2为中位数q2在相似度序列中的位置，l3为上四分位数q3在相似度序列中的位
置；s2.3、根据l1、l2、l3计算相应的下四分位数q1、中位数q2以及上四分位数q3，并取相似度阈值∈1为q1，∈2为q3。7.根据权利要求6所述的一种基于语义相似度的轨迹聚类方法，其特征在于，步骤s3的具体步骤为：s3.1、从数据轨迹集d中随机选定一条轨迹t
i
，若随机选定轨迹t
i
为首条轨迹，创建轨迹簇，否则，计算轨迹t
i
与轨迹簇的相似度：(1)选择一轨迹簇作为当前轨迹簇，从当前轨迹簇随机选取的一轨迹作为对比的当前轨迹；(2)计算轨迹t
i
与当前轨迹的相似度；(3)若相似度大于等于阈值∈2，则将轨迹t
i
加入当前轨迹簇；(4)若相似度小于等于阈值∈1，判断轨迹簇是否都已比较，若是，新创建一个轨迹簇，将轨迹t
i
加入新创建的轨迹簇，若否，重新选择一轨迹簇作为当前轨迹簇，再转到步骤(2)执行；(5)若相似度大于∈1小于∈2，判断当前轨迹簇中是否还有未与轨迹t
i
进行比较的轨迹，若是，从未比较的轨迹中重新选择一条轨迹作为当前轨迹，再转到步骤(2)执行，若否，判断轨迹簇是否都已比较，若是，则将轨迹t
i
加入平均相似度最高的轨迹簇，若否，重新选择一轨迹簇作为当前轨迹簇，再转到步骤(2)执行。s3.2、若数据轨迹集中的轨迹都聚类完，得到n个轨迹簇c1，c2，
……
，cn，d＝c1∪c2∪
……
∪cn；否则，重复步骤s3.1，直到聚类完成。

完整全部详细技术资料下载

当前第2页1 2 3