一种分布式图像识别方法
【专利摘要】本发明公开了一种分布式环境下的图像识别方法,具体包括图像的预处理,待识别区域的确定;各站点分别提取每幅训练图像中待识别区域的特征,构造各站点的训练图像样本数据集DBi,i=1,2,...,k;最优分类函数f(x)的构造以及图像的识别这五个步骤。本发明不但可以识别出训练图像样本分布情况下待识别图像的类别,并就识别过程中线性分类器的构造给出了相应的解决方案,还提出了一种基于SVM的分布式图像识别方法,该方法可确保各站点数据不在其他站点驻留,保证了数据的安全和隐私性,同时有着较高的识别准确率。
【专利说明】一种分布式图像识别方法
【技术领域】
[0001] 本发明属于图像的计算机分析技术的应用领域,具体涉及一种分布式环境下的图 像识别方法。
【背景技术】
[0002] 在许多实际应用中,数据本身是分布的,它们之间除了通过网络传递信息外,其它 资源全部独立,分布式图像识别是分布式数据挖掘技术中的一个重要研究分支,它旨在通 过分布环境下的训练图像样本数据集来构造分类函数或分类器,并利用该分类函数或分类 器来识别待测图像的类别。为解决训练图像样本分布情况下的图像识别问题,一个可行 的解决方案是将这些数据集集中到某一台机器上,再利用算法SVM来构造分类器,或利用 MapReduce编程模型来构造分布环境下的分类器。一般情况下,此类思想至少存在两个方面 的问题,一是需要设置一台性能较(很)高的计算机来存储并处理这些大容量的数据,二是 在很多情况下,出于对数据安全性和隐私性的考虑,数据的集中是不可能的。
[0003] SVM是一种用来解决分类和回归问题的数据挖掘技术,由于SVM方法具有许多引 人注目的优点和良好的实验性能,已成为机器学习研究领域的热点,并已取得了良好的效 果,如文本分类、手写识别、图像分类及识别等。
[0004] 本发明提出了一种基于SVM的分布式图像识别方法,该方法通过发现分布环境下 训练图像样本数据集中所隐含的分类器,由此实现图像的自动识别。
【发明内容】
[0005] 本发明的目的是提供一种训练图像样本分布式情况下对图像进行识别的方法,该 方法可以快速地构造线性分类器,实现准确高效的图像识别功能。
[0006] 本发明的技术方案是:一种基于SVM的分布式图像识别方法,包括:内积计算、最 优问题求解和图像识别步骤,所述内积计算、最优问题求解和图像识别步骤包括:
[0007] 步骤1图像样本数据集的准备和预处理,各站点分别完成训练图像样本数据集的 准备、格式转换、尺度归一化、去噪、增强处理;
[0008] 步骤2图像分割,各站点分别确定每幅训练图像的待识别区域;
[0009] 步骤3特征提取,各站点分别提取每幅训练图像中待识别区域的特征,构造各站 点的训练图像样本数据集DBp i = 1,2, . . .,k,总的样本数为η ;所述训练图像样本集DBi 中各样本的表示为(X,y),其中X为非类别属性,y为类别属性,y的值为1或-1,分别表示 两类情况;
[0010] 步骤4最优分类函数f(x)的构造;
[0011] 步骤5主机进行图像的识别。
[0012] 进一步,所述步骤4最优分类函数f(x)构造的具体步骤包括:
[0013] 步骤4. 1初始化,选择一台独立计算机作为主机,并记为站点S,该主机用来计算 内积以及求解最优化问题,然后设定主机两个内存块的大小,分别用来接收两个站点的数 据;
[0014] 步骤4. 2主机请求各站点发送训练图像样本,然后进行内积计算;
[0015] 步骤4. 3最优解的求解。
[0016] 进一步,所述步骤4. 3最优解求解的具体过程包括:
[0017] 步骤4. 3. 1求数学模型为公式(1)的最优解;
[0018]
【权利要求】
1. 一种分布式图像识别方法,其特征在于,包括如下步骤: 步骤1图像样本数据集的准备和预处理,各站点分别完成训练图像样本数据集的准 备、格式转换、尺度归一化、去噪、增强处理; 步骤2图像分割,各站点分别确定每幅训练图像的待识别区域; 步骤3特征提取,各站点分别提取每幅训练图像中待识别区域的特征,构造各站点的 训练图像样本数据集DBpi = 1,2,. . .,k ;所述训练图像样本集DBi中各样本的表示为(Xl, χ2,......,χρ,y),其中p为非类别属性个数,Χι,χ 2,......,χρ为非类别属性,y为类别属 性,y的值为1或-1,分别表示两类情况; 步骤4最优分类函数f (X)的构造; 步骤5主机进行图像的识别。
2. 根据权利要求1所述的分布式图像识别方法,其特征在于,所述步骤4最优分类函数 f (X)构造的具体步骤包括: 步骤4. 1初始化,选择一台独立计算机作为主机,并记为站点S,该主机用来计算内积 以及求解最优化问题,然后设定主机两个内存块的大小,分别用来接收两个站点的数据; 步骤4. 2主机请求各站点发送训练图像样本,然后进行内积计算; 步骤4. 3最优解的求解。
3. 根据权利要求2所述的分布式图像识别方法,其特征在于,所述步骤4. 3最优解求解 的具体过程包括: 步骤4. 3. 1求数学模型为公式(1)的最优解; min φ{χ) = -(u'.u) (1) s. t. Yi ((w. Xj) +b) ^1,1 = 1,2,......,n 其中,Φ (x)为最优函数,w、b为待求参数; 步骤4. 3. 2将公式(1)式转化为求公式(2) Lagrange函数的鞍点;
/,(η·,/),α)=丄(u'.u.) - ((η·.λ·,.)+ /)1-1], α, > Ο (2) 2 i=1 步骤4. 3. 3将公式(2)式转化为求公式(3)的优化问题; maxlV(a)
ε,α,. ν, ) (3)
,=Ο, α, > Ο , i=l ,2,......,η 其中,α为待求参数; 步骤4. 3. 4求解公式⑶的最优解,得到α的解 步骤4. 3. 5计算w:
'其中SV为支持向量集; 步骤4. 3. 6计算b,选择不为0的α:,代入丨〇,(w.x, +6)-1) = 0,得到b ; 步骤 4. 3. 7 计算 f (X) = (w. X) +b。
4. 根据权利要求1所述的分布式图像识别方法,其特征在于,所述步骤5主机进行图像 识别的具体步骤包括: 步骤5. 1待识别图像的准备和预处理,包括格式转换、尺度归一化、去噪、增强处理; 步骤5. 2主机识别出待识别图像t的待识别区域; 步骤5. 3提取出待识别图像t的待识别区域特征; 步骤5. 4根据步骤5. 3所述的待识别区域特征xt = (xtl,xt2,......,xtp)计算f (xt); 步骤5. 5根据f(xt)决定待识别图像t的类别。
5.根据权利要求4所述的分布式图像识别方法,其特征在于,所述步骤5. 5的具体过程 为: 如果f (xt) > 1,对应的图像属于第1类; 如果f(xt) < 1,对应的图像属于第2类。
【文档编号】G06K9/46GK104298975SQ201410539160
【公开日】2015年1月21日 申请日期:2014年10月13日 优先权日:2014年10月13日
【发明者】朱玉全, 陈耿, 彭晓冰, 王丽珍 申请人:江苏大学