基于众包主动学习用于检测异常图片的方法
【技术领域】
[0001] 本发明涉及计算机大数据图片处理领域,尤其涉及一种基于众包主动学习用于检 测异常图片的方法。
【背景技术】
[0002] 当今社会,通过视频采集模块获取海量视频信息已经应用在社会生活的很多领 域,例如:高速公路视频抓拍,公安系统安全监控,医学领域内窥胶囊,智能楼宇视频监控等 领域,但是对于海量的视频图像数据来说,能够提取出用户所需的显著信息,例如,安全监 控中人体姿态识别、以及内窥胶囊医疗图像处理等;
[0003] 首先,在高速公路视频抓拍,公安系统安全监控,智能楼宇视频监控领域,视频抓 拍的图像时间跨度很长,而且移动物体和静止物体交错出现,这就给判别特定特征图像带 来极大的困难,虽然现有技术中有一些常规的判别特定特征图像的方法,但是判别速度慢, 而且判别准确率低,需要后期进行人工筛选和剔除,耗费了人力物力;
[0004] 另外,胶囊内窥镜(WirelessCapsuleEndoscope,WCE)取代了传统插入式内窥 镜。胶囊内窥镜只有普通胶囊的大小,但是其内部集成了微型控制单元、照明装置、无线通 信系统和微型成像装置。现在生产的胶囊内窥镜都至少以2f/s(帧每秒)的速率传输所拍 摄到的消化道内壁图像,在人体内大约停留8小时,大概产生67600幅图像。随着胶囊内窥 镜技术的不断发展,拍摄的速率将会更快,每次检查获得更多的图片。临床医生要在这样庞 大数量的图像中找到出血图片或其他病变特征的图片需要花费2~3小时的时间以及大量 的精力,这将对医生在心理和生理上产生很大的压力,易出现漏判、误判的情况。在巨大的 数据量下,如何更好的管理与组织这些数据成为摆在人类面前的难题。这就亟需本领域技 术人员解决相应的技术问题。
【发明内容】
[0005] 本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于众 包主动学习用于检测异常图片的方法。
[0006] 为了实现本发明的上述目的,本发明提供了一种基于众包主动学习用于检测异常 图片的方法,其包括如下步骤:
[0007]S1,获取图像特征,从图像特征中提取二进制向量,选取色调和饱和度作为图像特 征,合并色调和饱和度图像特征来形成一个二维色调饱和度直方图;
[0008]S2,计算每个图像特征周围的已标记样本密度,对已标记样本密度低于阈值的样 本,计算信息熵,选择信息熵最大的样本放到众包平台,由用户进行标记;
[0009]S3,根据众包平台用户的标记和结果可信度计算方法,确定样本的标签,并临时放 入训练集,根据可信分类迭代算法,确定该标记样本最终是否采用,并更新众包平台用户的 信用度,并经由众包平台返回给用户,输出初始分类器,当初始分类器达到一定阈值后执行 S4 ;
[0010] S4,当S1-S3步骤执行完毕后,输出标记训练集,输出最终分类器。
[0011] 所述的基于众包主动学习用于检测异常图片的方法,优选的,所述S1包括:
[0012] 取一个二进制向量表示WCE图像特征,颜色空间选择HSI颜色空间,选取色调和饱 和度信息作为特征;
[0013] 合并色调和饱和度图像特征来形成一个二维色调饱和度直方图。
[0014] 所述的基于众包主动学习用于检测异常图片的方法,优选的,所述S2标记样本密 度步骤包括:
[0015] 图像特征集合为H= {Hi,H2,…,Hk},其中样本集H1= {Hu,Hl2,…,^ ,… ,Hu},对于样本化,在呒中H^E至Hlj+E范围内查看已被标记的样本数量AN,并根据如下 公式,计算其周围被标记样本的密度,DO^) =AN/2e,e为样本图像特征数量。
[0016] 所述的基于众包主动学习用于检测异常图片的方法,优选的,所述S2进行信息熵 计算步骤包括:
[0017] 基于时序密度表示为:
[0018]
[0019] 其中,p(yi|Xj)表示在给定样本X/倩况下其标签属于yi的可能性,T(x」S)表示样 本在集合S中的时序密度,S表示x在已标记样本集中的领域集合;
[0020] 对于样本集合X= {Xl,x2,…,xn},中的样本xn,通过计算X中所有样本之间的距 离并求其平均得到avg_distance,
[0021]
,其中n为正 整数,d(Xl,Xj)指代样本之间距离度量,Xl,Xj为样本,下标i、j为正整数,i<j;
[0022] 定义1 :样本集合X={xux2,…,xn},中样本乂;的邻域样本集合表示为:
[0023] N(Xj|X) = {xj|xjGX(x1;x2, ???,x; 1;xi+1, ???,xn)} ,d(xi,Xj) ^avg_distance(4)
[0024] 其中d(Xl,X])为样本之间距离度量,选取欧式距离;
[0025] 定义2:标记函数I
[0026]
(:5 ):
[0027] 计算样本X;在已标记样本集合S中的领域集合为N(x|S) ={xux2,…,xn},其对 应标签为Y= {y,,y9,…,yj,则
[0028]
(6)
[0029] 计算样本Xi在已标记样本集合S中的领域集合为N(x|S) ={xux2, ???,xn},其中 n(x|s)中和样本Xi属于同一图像特征的集合为,统计XI在图像 特征中位于样本Xi前后e范围内的样本数量SN,则H '
[0030]样本Xl在集合S中的时序密度T(xi|S) =SN/2e;
[0031] 密度熵计算
[0032] 计算未标记样本xn在未标记集合C中的近邻样本集合N(Xi|UN) ={xdx2,…,xn};
[0033] 则其未标记样本xn的近邻密度表示为:
[0034]
3N(Xl)为样本Xl的邻域样本集合,小廣 示N(Xi)的某个元素,N表示N(Xi)中样本的总数;
[0035] 对信息熵计算,样本包含的信息量表示为时序密度、近邻熵与近邻密度的乘积:
[0036]Information(x)=H(x)*p(x;)* (1-D(私));
[0037] 在未标记样本集合UN中选择信息熵最大的样本xn进行标记,
[0038]L(xj=argmaxInformation(UN)〇
[0039] 所述的基于众包主动学习用于检测异常图片的方法,优选的,所述S3包括:
[0040] 结果可信度计算
[0041] 标记样本Xl的用户集合为u={ui,u2,…,Ul},用户Ul的可信度为, 回答函数ANS(Ul),
[0042] 最终结果为yes的可信度,
,其 中I(ANS(i〇 = 'yes')中I为标记函数,
[0043] 最终结果为no的可信度为
[0044]标记样本Xi
[0045]
[0046] 最终样本Xl标记结果可信度计算公式如下:
[0047]
[0048]用户信用度更新
[0049] 根据采样样本的权重平均值AW以及阈值A,更新用户信用度;
[0050] 对于标记正确的用户群Utnjf;={uu2,…,uj,用户化的信用度的更新公式为:
[0051]
,t代表迭代次 数,t+1代表下一次迭代;
[0052] 对于标记错误的用户群Ufalse={udu2,…,uj,用户化的信用度的更新公式为:
[0053]
[0054] 所述的基于众包主动学习用于检测异常图片的方法,优选的,所述S3可信分类迭 代算法包括:
[0055] 输入:算法迭代次数T;
[0056] 输出:分类器C ;
[0057]t代表第t次迭代
[0058]S