本发明涉及单细胞研究与细胞科学应用领域,具体的说是一种基于单细胞表现型数据库的表型数据分析处理方法。
背景技术:
单个细胞是生命活动的基本单元,地球上所有生物均由单细胞构成或单细胞分化形成。对单细胞进行深入系统的研究不仅可以全景式地揭示生命活动的本质,而且单个细胞的特异性与分化过程对于研究疾病机理和诊断预防疾病等具有重要的意义。“单细胞研究”(针对特定功能的单个细胞的分析)将能够解析生命体系最“深”层次的运作机制,因此能够带来生命科学及其在能源、环境、健康、农业、海洋等广泛应用领域的突破。美国国家健康研究院(NIH)更是于2012年9月启动了“Single Cell Analysis Program”,公布了对26个项目总计9000万美元的资助,主要用于单细胞领域新工具、新技术的开发(http://commonfund.nih.gov/singlecell/fundedresearch.aspx.)。2012年12月21日的Science杂志将单细胞研究推选为2013年最值得关注的六大科学领域之一。
细胞的表现型也就是细胞的表现形式,即利用整体观测手段可以获得的、反映细胞生长状态的信息。对于单细胞而言,表示它特定的物理外观或成分,如细胞形状、大小、颜色特征、纹理特征、类别等等,都是表现型的例子。其中重要的方法包括显微鉴定单细胞形态,以及利用拉曼光谱仪等设备得到的细胞拉曼光谱信号。对单细胞进行研究,也就是对细胞形状、大小、颜色等相关信息分析和细胞种类的判别,这些均需借助于一个包含不同细胞及不同生长周期的表现型数据库及对应的表型数据分析处理系统来实现。而现阶段在国内很少有相关的表型数据分析处理系统的研究,使得建立一套基于单细胞表现型数据库的表型数据分析处理方法对单个细胞进行研究具有重要的实用价值。
技术实现要素:
针对现有技术中存在的上述不足之处,本发明要解决的技术问题是提供一 种基于单细胞表现型数据库的表型数据分析处理方法,通过新一代的细胞分选装备,得到单个或群体细胞(微生物、植物、动物或人体细胞均适用)的表型信息,从而为对这些细胞的组学分析、改造和利用奠定根本的基础。
本发明为实现上述目的所采用的技术方案是:一种基于单细胞表现型数据库的表型数据分析处理方法,包括以下步骤:
细胞图像分析处理阶段:通过分析比对表型数据库中细胞图像信息和未知细胞图像数据;提取未知细胞的表型特征;
数据预处理:将提取到的表型特征处理成适合欧式距离算法、KNN算法、支持向量机算法处理的数据;
基于单细胞表现型数据库中的特征数据进行分类分析,找出最佳匹配细胞。
所述数据预处理包括以下步骤:
对图像进行灰度变换;
进行图像锐化,使灰度反差增强,从而增强图像中边缘信息;
对图像进行平滑滤波,以滤除噪声源;
查找图像中灰度变化率最大的地方,得到细胞图像的闭合轮廓,进而提取轮廓中的特征。
所述对图像进行平滑滤波采用数字傅里叶滤波,具体为:
首先将数据进行快速傅里叶变换,在频率空间与高斯窗函数作用,然后反快速傅里叶变换,得到经带通滤波后的光谱数据。
所述基于单细胞表现型数据库中的特征数据进行分类分析,包括训练和判断两个阶段;
首先,获取已认识细胞表型的典型样本,进行特征提取和数据预处理,获得特征样本对SVM模型进行训练,找到训练样本中的支持向量,确定SVM模型参数;然后,把未知细胞信息输入到已经参数化的SVM模型对其进行判断。
本发明具有以下优点及有益效果:收集不同种类单细胞样品,通过构建单细胞表现型数据库系统,借助表型数据分析处理手段,来对未知细胞种类及表 型特征进行判别,克服了不能对未知细胞种类进行判别的瓶颈,而且借助于新一代的细胞分选装备可以实现原位、实时对细胞种类进行判别,易于普及市场。本发明的应用将会提速单细胞分析的研究。
附图说明
图1、细胞样本特征提取;细胞样本特征提取通过对细胞图像进行灰度变换、边界检测、深度优先搜索等处理后,获取每个细胞的位置,然后根据位置对每个细胞进行特征提取和数据保存,从而方便后续的分类识别等操作。
图2、支持向量机的识别过程;SVM根据已认识细胞表型特征进行SVM模型的训练,从而确定SVM模型参数,然后基于模型参数对未知细胞特征信息进行分析处理,从而判断出未知细胞详细信息。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
本发明开发了一种基于单细胞表现型数据库的表型数据分析处理方法,收集不同种类单细胞样品,通过构建单细胞表现型数据库系统,借助表型数据分析处理手段,来对未知细胞种类及表型特征进行判别。主要包括以下两个方面内容(以下以微藻样品为对象示例):
1.基于单细胞表现型数据库的细胞图像分析处理方法。该方法通过分析比对表型数据库中细胞图像信息,结合未知细胞图像数据进行比对并找出最佳匹配细胞,从而获取此未知细胞的详细信息。具体流程如下所示:
(1)训练样本特征提取和样本集构造
提取细胞表型特征是细胞图像分析处理的关键环节,也是构造样本集的基础。一旦获得细胞表型原始数据,要把原始数据映射到样本空间中的点或者向量。这些数据包含细胞表型各个观测部位生理上的本征表象信息如:视觉,触觉等方面的变化及烈度,表象及其烈度组合是确定未知细胞种类的关键依据。
一般来说,原始数据包含了冗余信息,需要经过适当的处理变换以求有效地提取细胞表型特征。将提取到的细胞表型特征的样本数据处理成适合支持向 量机处理的数据的过程称为数据预处理。首先对图像进行灰度变换;然后进行图像锐化,目的是使灰度反差增强,从而增强图像中边缘信息,有利于轮廓抽取;进而对图像进行平滑滤波,以滤除噪声源(如电子噪声、光子噪声、斑点噪声和量化噪声等),从而提高图像的信噪比,方便进行图像轮廓的查找;最后查找图像中灰度变化率最大的地方,从而得到细胞图像的闭合轮廓,进而提取轮廓中的特征(图1)。然后可以根据特征值将相应数据存入单细胞表现型数据库中。
(2)支持向量机的识别过程
然后基于数据库中的特征值进行分类分析。目前开发应用的分类算法包括欧式距离算法、KNN算法、支持向量机(SVM)算法。以SVM算法为例,实施由训练和判断两个阶段进行。首先,获取已认识细胞表型的典型样本,进行特征提取和数据预处理,获得特征样本对SVM模型进行训练,找到训练样本中的支持向量,确定SVM模型参数;然后,把未知细胞信息输入到已经参数化的SVM模型对其进行判断,具体流程图如图2所示。
2.基于单细胞表现型数据库的细胞拉曼数据分析处理方法。该方法通过分析比对表型数据库中细胞拉曼信息,结合未知细胞拉曼数据进行比对并找出最佳匹配细胞,从而获取此未知细胞的详细信息。具体流程如下所示:
2.1光谱处理模块
从拉曼系统的结构和工作原理等方面出发,影响光谱信号的主要因素主要有以下几个方面:
(1)来自光学系统和探测物的干扰信号
光学系统对光谱信号的干扰信号主要是系统的杂散光、象差和无用的次级光谱级引起的假信号等。对于传统的大型光谱仪,光学系统的干扰信号主要是从系统结构和相关的光学元件来进行消除。而激光拉曼光谱仪光谱仪的结构、光学元件和系统集成等方面受到很大的限制,传统方法不可行。只能通过研究这些干扰信号的基本特点,然后再寻求解决的方法。
(2)来自电路系统和电源的噪声信号
信号采集处理电路的漂移和波动信号,电源噪声信号也是干扰信号的主要来源。特别是以上干扰信号在信号微弱的情况下影响极大,有时可能将有用信号完全淹没,严重影响系统的检测性能。这部分信号的处理,首先是尽可能地提高电路系统和电源的性能,再从信号处理技术方面考虑。
数字傅里叶滤波(Digital Fourier filtering)预处理方法可以有效地滤除高频噪声和由仪器背景杂噪或基线漂移等原因引起的低频噪声,增加光谱信噪比。数字傅里叶滤波首先将数据进行快速傅里叶变换(FFT),在频率空间与高斯窗函数作用,然后反快速傅里叶变换(IFFT),得到经带通滤波后的光谱数据。高斯函数的均值和标准差分别确定带通滤波器的中心频率和带宽,滤波参数的确定通常采用数值优化方法来实现,以获得最佳滤波效果。
2.2光谱分析模块
光谱分析模块运用欧氏距离、神经网络、支持向量机三种算法对拉曼光谱进行分析处理。
2.2.1欧式距离
欧式距离也称欧几里得度量、欧几里得距离,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维空间中的欧氏距离就是两点之间的直线段距离。
n维欧氏空间是一个点集,它的每个点X可以表示为(x[1],x[2],…,x[n]),其中x[i](i=1,2,…,n)是实数,称为X的第i个坐标,两个点A=(a[1],a[2],…,a[n])和B=(b[1],b[2],…,b[n])之间的距离d(A,B)定义为下面的公式。d(A,B)=sqrt[∑((a[i]-b[i])^2)](i=1,2,…,n)。
根据欧式距离算法,对待测细胞的拉曼光谱与数据库中已有的拉曼光谱数据运用欧式距离算法,找出最相近的一组拉曼数据,从而获取其细胞类型等信息。这样对待测细胞种类有一定的参考。
2.2.2神经网络
神经网络是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
表型数据分析处理系统根据神经网络提供的开发包进行了二次开发,通过调用相应的接口函数实现训练样本训练、拉曼数据分类及显示、结果保存等功能。
2.2.3支持向量机
支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以求获得最好的推广能力。
表型数据分析处理系统利用支持向量机开发包进行了二次开发,通过调用相应的接口函数实现训练样本训练、拉曼数据分类及显示、结果保存等功能。
在图1中,基于单细胞表现型数据库的表型数据分析处理方法基本配置是:Windows XP操作系统,预装MySQL数据库。
在图2中,支持向量机识别的硬件基本配置是:包含GPGPU(通用并行处理器)运行硬件的超级计算机,CPU至少两个核心,运算速度至少2Ghz以上,内存至少2GB以上,硬盘至少50G以上。CPU、GPGPU和存储之间高速互联。