一种云概念相似性度量方法与流程

文档序号:18527334发布日期:2019-08-24 10:23阅读:402来源:国知局
一种云概念相似性度量方法与流程

本发明涉及一种云概念相似性度量方法。



背景技术:

人类认知形成的主观世界是客观世界的一种映像。语言是人类思维的载体,是人类智能的重要体现,是认知计算和认知科学需要应对的重要问题。人类能从不同粒度上对同一问题进行观察和分析求解,而且能够快速地从一个粒度世界切换到另一个粒度世界,甚至还具有同时处理不同粒度空间的能力,这正是人类求解问题时的智能表现.概念是人脑的高级产物,是人类用自然语言思考问题的基本单位,相对于计算机而言,人脑在进行认知计算时,更多的是基于概念内涵上进行的,而计算机是基于概念外延上进行计算的;再者,人类不仅可以在不同的环境和层次下通过学习思考从知识的样本集合提取出对应于自然语言域的合适粒度的概念,而且还能在不同概念粒度上进行推理活动。无论任何概念都具有内涵和外延,这是概念的基本特征.概念的内涵是指概念所反映的特征和内在的本质属性,是对外延的概括,通常都是抽象的表述;外延是指具有该概念所反映的内在属性的一切样本对象,是内涵表述的具体化,通常一个概念外延可以用一个集合进行表示。

云模型是一个通过利用正向云变换和逆向云变换实现内涵与外延的双向转换的认知模型。对人类而言,可将正向云变换视为人的表达能力,定性知识表达为定量数据,逆向云变换视为人的思维方式和学习能力,从定量数据中获取定性知识.由于逆向云变换算法本质上是基于样本数据进行参数估计的过程,估计误差不可避免,所以逆向云变换算法的性能可代表人的认知能力.基于云模型和高斯混合模型所提出的自适应高斯云变换(agct),能够解决多粒度、多概念的优化、求解以及生成问题,可以模拟人类在认知过程中将问题中的数据样本集合转化为多个不同粒度的概念,更好的体现人类在学习知识过程中的对抽象能力,比利用传统的逆向云算法来实现外延到内涵的认知过程更具有普遍性,从这个意义上说,高斯云变换可以说是一个泛化和抽象能力更强的变粒度逆向云算法,对于学习特定的知识样本而言,高斯云变换更符合人类的变粒度认知能力和泛化能力。



技术实现要素:

为解决上述技术问题,本发明提供了一种云概念相似性度量方法,该云概念相似性度量方法比利用传统的逆向云算法来实现外延到内涵的认知过程更具有普遍性,更适合刻画概念之间的相似性。

本发明通过以下技术方案得以实现。

本发明提供的一种云概念相似性度量方法,包括如下步骤:

①获取数据:读取或接收两个数据样本集及其对应的含混度上限;

②提取概念:分别计算两个数据样本集对应的云概念;

③计算外包络线:对得到的每个云概念计算外包络线;

④计算距离:以外包络线为云概念的边界,分别计算两个数据样本集间的云概念的对称距离;

⑤得到相似度:以两个数据样本集对应的云概念为两个多维分布,计算两个多维分布间的emd距离,并以emd距离计算结果作为相似性度量结果。

所述步骤②中利用agct算法进行计算。

所述步骤②中,还计算两个数据样本集对应的云概念中每个云概念的权重。

所述步骤③中,计算外包络线采用公式:

其中,ex、en、he为高斯云概念的数学特征。

所述步骤④中,计算对称距离采用对称kl距离公式:

其中,δi=eni+3hei,δj=enj+3hej,ex、en、he为高斯云概念的数学特征,i和j分别对应两个数据样本集的云概念序号。

所述步骤⑤中,计算emd距离采用公式:

其中,cij为步骤④计算得到的对称距离。

本发明的有益效果在于:利用高斯云变换能够自适应提取概念的特点,可以模拟人类在认知过程中将问域的数据分布转换为多个不同粒度的概念,更好体现人类对知识的学习和抽象能力,比利用传统的逆向云算法来实现外延到内涵的认知过程更具有普遍性,并融合kl散度与emd移地距离的度量方法来度量概念之间的相似性,更适合刻画概念之间的相似性。

附图说明

图1是基于kl散度进行图像检索得到的结果示意图;

图2是基于gmm密度进行图像检索得到的结果示意图;

图3是基于本发明进行图像检索得到的结果示意图;

图4是用于对比的一组高相似度图像;

图5是用于对比的一组低相似度图像。

具体实施方式

下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。

本发明提供的云概念相似性度量方法,具体如下:

输入:两个数据样本集{xi|i=1,2,…,n}和{yi|i=1,2,…,m},以及各自的概念含混度上限β1和β2。

输出:两个数据样本集的相似度similarity。

步骤②利用agct算法分别对样本集{xi|i=1,2,…,n}和{yi|i=1,2,…,m}提取云概念,分别记为c(exi,eni,hei)|i=1,2,…,n和c(exj,enj,hej)|j=1,2,…,m,以及每个云概念各自的权重wi|i=1,2,…,n和wj|j=1,2,…,m;

步骤③将步骤1求出的c(exi,eni,hei)|i=1,2,···,n和c(exj,enj,hej)|j=1,2,···,m代入云模型外包络线公式分别计算每个云概念的外包络线;

步骤④利用对称kl距离公式

其中:δi=eni+3hei,δj=enj+3hej

计算出c(exi,eni,hei)|i=1,2,…,n与c(exj,enj,hej)|j=1,2,…,m中各个云概念之间的距离记为cij|i=1,2,…,n,j=1,2,…,m;

步骤⑤利用emd距离公式计算相似度

对于一个概念样本而言,当为一个模糊概念时,通常可以抽象为多个云模型来描述,但当为一个接近成熟的概念时,通常用一个云模型来刻画,有学者提出了一种利用kl散度刻画概念之间相似性,由于采用的是mbct-sr逆向云算法,所以只能刻画单个云概念之间的相似度,但当一个概念可以抽象为较清晰的多个云概念时,kl散度将不能达到度量相似性的目的。本发明提出的方法由于基于agct算法设计的,并且融合了emd距离与kl散度来刻画概念之间相似性,无论针对是否成熟的概念,都具有普适性。

由此,本发明利用高斯云变换能够自适应提取概念的特点,可以模拟人类在认知过程中将问域的数据分布转换为多个不同粒度的概念,更好体现人类对知识的学习和抽象能力,比利用传统的逆向云算法来实现外延到内涵的认知过程更具有普遍性,并融合kl散度与emd移地距离的度量方法来度量概念之间的相似性,可知由于具有普遍性和自适应性,所以更适合刻画概念之间的相似性。

实验例1

如图1至图3所示,分别基于kl散度(kullback-leiblerdivergence)、gmm密度、本发明提供的方法,进行图像检索,其中左上角的图案为检索输入图案,其他十五张为检索结果图案,明显可见图3所示的本发明提供的方法,图像检索结果具有更高的准确性。

实验例2

分别采用基于kl散度的方法(kldcm)和本发明提供的方法(emdcm),对图4和图5进行相似性度量,可以得到如表1所示结果。

表1.resultoftwoconceptextractingmethods

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1