一种基于流感病毒刺激的细胞差异基因数据分类系统的制作方法

文档序号:6551020阅读:217来源:国知局
一种基于流感病毒刺激的细胞差异基因数据分类系统的制作方法
【专利摘要】本发明涉及一种基于流感病毒刺激的细胞差异基因数据分类系统,它包括数据处理模块,数据处理模块采集训练样本集数据,依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据;数据分类模块读取数据处理模块生成的二次数据,进行数据分类计算,并将计算结果传输至模型建立模块内建立各数据分类模型;测试数据模块用于接收模型建立模块建立的各数据分类模型以及经数据处理模块处理后的待测样本集数据,测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经数据处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类。本发明可以广泛在数据挖掘系统中应用。
【专利说明】一种基于流感病毒刺激的细胞差异基因数据分类系统

【技术领域】
[0001] 本发明涉及一种数据挖掘系统,特别是一种基于流感病毒刺激后对细胞差异基因 进行数据分类的系统。

【背景技术】
[0002] 分类系统是数据挖掘的主要系统之一,用于提取描述重要数据类别归属的模型或 预测未来的数据趋势。一般来说,分类是把数据项映射到其中一个事先定义的类中的学习 函数的过程,用基于归纳学习算法得出分类。
[0003] -般生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术, 这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度 上来理解和组织与生物大分子相关的信息。从生物信息学研究的具体内容上看,生物信息 学应包括三个主要部分:新算法和统计学方法研究;各类数据的分析和解释;研制有效利 用和管理数据新工具。数据挖掘在生物信息学领域的应用越来越广泛,在生物信息学领域 中,科研人员可以通过对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显 示)及利用(计算、模拟)来对研究领域进行拓展和深化。
[0004] 在以流感病毒与宿主相互作用的研究背景下,流感的生物信息学研究,已经形成 技术资源网络信息化。以生命科学信息、生物技术信息、病毒研究共享信息、生物资源信息 为基础,以流感病毒生物信息的标准化、网络化关键技术为手段,将流感差异基因领域相关 的生物信息资源大规模高质量收集、整理和加工,同时利用我国现有的转录组学数据,逐步 建立规范统一的具有权威性的完善的技术平台和支撑体系,这样为我国生物技术行业突破 国外技术壁垒,确保食品、农业、国防安全的可持续发展提供有力保障。
[0005] 目前没有关于不同毒株流感病毒不同细胞系进行数据挖掘和差异基因比较的数 据库,也没有涉及此类的建模方法。


【发明内容】

[0006] 针对上述问题,本发明的目的是提供一种针对不同毒株流感病毒刺激不同细胞系 后的反应进行研究,建立能够分层次多维度进行细胞差异基因数据分类系统。
[0007] 为实现上述目的,本发明采取以下技术方案:一种基于流感病毒刺激的细胞差异 基因数据分类系统,其特征在于:它包括数据处理模块、数据分类模块、模型建立模块和测 试数据模块;所述数据处理模块采集训练样本集数据,然后依据训练样本集中每个样本的 基因数据进行多因素数据分割生成二次数据;在进行数据分割的时候,如果当某样本的基 因数据存在缺失值,所述数据处理模块会将此样本单独标记;如果存在缺失值样本比率大 于1/2,或缺失值比率超过预先设定的阈值,所述数据处理模块报警,样本将被剔除,申请新 样本;所述数据分类模块读取所述数据处理模块生成的二次数据,进行数据分类计算,并将 计算结果传输至所述模型建立模块内建立各数据分类模型;所述测试数据模块用于接收所 述模型建立模块建立的各数据分类模型以及经所述数据处理模块处理后的待测样本集数 据,所述测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经所述数据 处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异 表达基因的分类。
[0008] 所述数据分类模块包括第一数据分类子模块、第二数据分类子模块和第三数据分 类子模块三个子模块:所述第一数据分类子模块是对同一细胞系内对不同流感病毒毒株 刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然 后将该第一数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤, 在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩 阵列表,传输至所述模型建立模块;所述第二数据分类子模块是对不同细胞系进行相同流 感毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处 理,然后综合该第二数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通 过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的 数据值矩阵列表,传输至所述模型建立模块;所述第三数据分类子模块是对属于不同细胞 系在不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,所要考虑因素与所述第 一分类子模块和第二分类子模块相同,数值型因素在不同样本间将被归一化处理,其他影 响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基 因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块。
[0009] 所述第一数据分类子模块中考虑的影响因素包括不同流感毒株刺激、基因表达数 值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释?目息。
[0010] 所述第二数据分类子模块中考虑的影响因素包括不同细胞系、基因表达数值、表 达基因是否有完整参考测序序列、表达基因是否有完整的注释?目息。
[0011] 所述数据分类模型建立是为将不同因素给予相应的预知权重;所述模型建立模块 包括第一模型建立子模块、第二模型建立子模块和第三模型建立子模块;三个模型建立子 模块分别依据所述第一、第二、第三数据分类子模块所分类的细胞差异表达基因样本,分别 进行数据分类模型建立,建立的数据分类模型都传输至所述测试数据模块中。
[0012] 所述第一、第二和第三模型建立子模块在建模过程中:所述第一数据分类子模块 的细胞基因表达差异最小,将人工先验值先验参数f m设定为1 ;所述第二数据分类子模块 的细胞基因表达差异较小,将人工先验值先验参数fm设定为〇. 8 ;所述第三数据分类子模 块23的细胞基因表达差异最大,将人工先验值先验参数fm设定为0. 5。
[0013] 所述细胞差异表达基因的分类为:各因素指标和权重加权集合再乘以各分类的 先验参数4,得到每个基因的差异,然后进行打分;再经过预先设定的阈值对打分得到的 score值进行判定,判读出每个基因是否为差异基因,大于设定阈值为差异基因,小于则判 读为非差异基因;其中,打分公式如下:
[0014]

【权利要求】
1. 一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:它包括数据处 理模块、数据分类模块、模型建立模块和测试数据模块; 所述数据处理模块采集训练样本集数据,然后依据训练样本集中每个样本的基因数据 进行多因素数据分割生成二次数据;在进行数据分割的时候,如果当某样本的基因数据存 在缺失值,所述数据处理模块会将此样本单独标记;如果存在缺失值样本比率大于1/2,或 缺失值比率超过预先设定的阈值,所述数据处理模块报警,样本将被剔除,申请新样本; 所述数据分类模块读取所述数据处理模块生成的二次数据,进行数据分类计算,并将 计算结果传输至所述模型建立模块内建立各数据分类模型; 所述测试数据模块用于接收所述模型建立模块建立的各数据分类模型以及经所述数 据处理模块处理后的待测样本集数据,所述测试数据模块对接收到的各数据分类模型进行 评价;待测样本集数据经所述数据处理模块处理后生成的二次数据与评价后的各数据分类 模型做比较,得到系统预测的差异表达基因的分类。
2. 如权利要求书1所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特 征在于:所述数据分类模块包括第一数据分类子模块、第二数据分类子模块和第三数据分 类子模块三个子模块: 所述第一数据分类子模块是对同一细胞系内对不同流感病毒毒株刺激后的细胞差异 表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后将该第一数据分 类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中 分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所 述模型建立模块; 所述第二数据分类子模块是对不同细胞系进行相同流感毒株刺激后的细胞差异表达 基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后综合该第二数据分类 子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分 为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述 模型建立模块; 所述第三数据分类子模块是对属于不同细胞系在不同流感病毒毒株刺激后的细胞差 异表达基因样本进行分类,所要考虑因素与所述第一分类子模块和第二分类子模块相同, 数值型因素在不同样本间将被归一化处理,其他影响因素被给定一个阈值,通过过滤,在每 个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列 表,传输至所述模型建立模块。
3. 如权利要求书2所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特 征在于:所述第一数据分类子模块中考虑的影响因素包括不同流感毒株刺激、基因表达数 值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释?目息。
4. 如权利要求书2或3所述的一种基于流感病毒刺激的细胞差异基因数据分类系统, 其特征在于:所述第二数据分类子模块中考虑的影响因素包括不同细胞系、基因表达数值、 表达基因是否有完整参考测序序列、表达基因是否有完整的注释?目息。
5. 如权利要求书2所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特 征在于:所述数据分类模型建立是为将不同因素给予相应的预知权重;所述模型建立模块 包括第一模型建立子模块、第二模型建立子模块和第三模型建立子模块;三个模型建立子 模块分别依据所述第一、第二、第三数据分类子模块所分类的细胞差异表达基因样本,分别 进行数据分类模型建立,建立的数据分类模型都传输至所述测试数据模块中。
6. 如权利要求书5所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特 征在于:所述第一、第二和第三模型建立子模块在建模过程中:所述第一数据分类子模块 的细胞基因表达差异最小,将人工先验值先验参数f m设定为1 ;所述第二数据分类子模块 的细胞基因表达差异较小,将人工先验值先验参数fm设定为〇. 8 ;所述第三数据分类子模 块23的细胞基因表达差异最大,将人工先验值先验参数fm设定为0. 5。
7. 如权利要求书5所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其 特征在于:所述细胞差异表达基因的分类为:各因素指标和权重加权集合再乘以各分类的 先验参数4,得到每个基因的差异,然后进行打分;再经过预先设定的阈值对打分得到的 score值进行判定,判读出每个基因是否为差异基因,大于设定阈值为差异基因,小于则判 读为非差异基因;其中,打分公式如下:
式中,Gi为某个细胞系内某个毒株刺激后的第i个基因 ,i = 1... j, j为某细胞毒株 的待分类基因总数;fm为先验参数,m = 1,2,3,对应三种分类情况;^、^、仏…队为不同因 素;屯、d2、d3......d n为不同权重。
8. 如权利要求书1所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特 征在于:所述测试数据模块对所述模型建立模块建立的各数据分类模型的评价如下:采用 R0C方法对以上建立的数据分类模型进行准确度评价,R0C方法中分析的是二元分类模型, 也就是输出结果只有两种类别的模型:阳性/阴性;有病/没病;垃圾邮件/非垃圾邮件; 敌军/非敌军;其中,R0C方法关注两个指标: 1) 真阳性率TPR = TP/[TP+FN],TPR为在所有实际为阳性的样本中,被正确地判断为 阳性的比率;TP为真阳性数,FN为假阴性数;P = TP+FN ; 2) 假阳性率FPR = FP/[FP+TN],FPR为在所有实际为阴性的样本中,被错误地判断为 阳性的比率;TN为真阴性数,FP为假阳性数,N = FP+TN。
【文档编号】G06F17/30GK104063459SQ201410294369
【公开日】2014年9月24日 申请日期:2014年6月26日 优先权日:2014年6月26日
【发明者】刘文军, 李晶, 孙清岚, 马俊才 申请人:中国科学院微生物研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1