基于5hmC修饰的lncRNA的肿瘤分类装置

文档序号:25217503发布日期:2021-05-28 14:16阅读:61来源:国知局
基于5hmC修饰的lncRNA的肿瘤分类装置

本发明涉及生物信息技术领域,更具体地,涉及一种基于5hmc修饰的lncrna的肿瘤分类装置、设备和计算机可读存储介质。



背景技术:

5-羟甲基胞嘧啶(5hmc)是5-甲基胞嘧啶(5mc)被tet酶氧化生成,与经典的5mc相比,5hmc的作用与功能并不完全清楚,不过,随着研究的深入,人们认识到5hmc是人类基因组中稳定的表观遗传标记,而不仅仅是5mc去甲基化的中间产物。5hmc在不同的细胞和组织类型中存在显著差异,可能会成为潜在的生物标志物。不过,目前研究多集中分布在蛋白质编码基因体和启动子上的5hmc,尚不清楚5hmc修饰的lncrna(longnon-codingrnas)的作用。

cfdna(circulatingcell-freedna)是释放到血浆中的降解dna片段,其起源于不同组织中的死亡细胞,可进行早期肿瘤筛查和分类。肿瘤分类对肿瘤的治疗有着非常重要的作用,能否通过组织特异性血浆来源的5hmc修饰的lncrna进行肿瘤的分类是一个非常值得研究的问题。



技术实现要素:

本发明的目的在于提供一种基于5hmc修饰的lncrna的肿瘤分类装置,所述设备包括:存储器和处理器,所述存储器用于存储程序指令;

所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:

获取待测样本的5hmc修饰的lncrna数据;

将所述5hmc修饰的lncrna数据输入肿瘤分类模型中,获得待测样本肿瘤分类的预测结果;

所述肿瘤分类模型通过22种5hmc修饰的lncrna中的一种或几种的组合的特征数据获得待测样本肿瘤分类的预测结果:所述5hmc修饰的lncrna为:ensg00000125899、ensg00000203971、ensg00000215112、ensg00000215304、ensg00000224189、ensg00000224267、ensg00000225960、ensg00000227068、ensg00000227716、ensg00000230292、ensg00000231662、ensg00000234182、ensg00000234567、ensg00000255229、ensg00000257568、ensg00000258026、ensg00000259926、ensg00000260223、ensg00000262728、ensg00000263904、ensg00000272129、ensg00000273792。

本发明提供一种基于5hmc修饰的lncrna的肿瘤分类装置,所述设备包括:存储器和处理器;

所述存储器用于存储程序指令;

所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:

获取待测样本的5hmc修饰的lncrna数据;

将所述5hmc修饰的lncrna数据输入肿瘤分类模型中,获得待测样本肿瘤分类的预测结果;

所述肿瘤分类模型的确定方式包括:

获取肿瘤患者和健康人群的5hmc修饰的lncrna数据;

筛选组织特异性差异的5hmc修饰的lncrna数据作为特征数据,所述组织特异性差异的5hmc修饰的lncrna既在肿瘤患者和健康人群中存在差异,又在不同种类肿瘤中存在差异;

采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤分类模型。

进一步:所述筛选组织特异性差异的5hmc修饰的lncrna具体包括:分别比较每种肿瘤患者和健康人群5hmc修饰的lncrna数据,分别获得每种肿瘤和健康人群相比存在差异的5hmc修饰的lncrna,筛选出每种肿瘤各自存在差异的5hmc修饰的lncrna,剔除在不同种类肿瘤中5hmc修饰的lncrna数据不存在差异的5hmc修饰的lncrna。

进一步:所述筛选组织特异性差异的5hmc修饰的lncrna具体包括:首先,取不同种类肿瘤的5hmc修饰的lncrna,剔除两种或两种以上肿瘤类型共有的5hmc修饰的lncrna,再者,将获取的5hmc修饰的lncrna的数据和健康人群5hmc修饰的lncrna数据进行比较,选取在不同种类肿瘤里5hmc修饰的lncrna的数据和健康人群5hmc修饰的lncrna数据都存在差异的5hmc修饰的lncrna。

进一步,所述5hmc修饰的lncrna数据包括:

获取5hmc测序数据,与人类基因组进行比对,保留与人类基因组的唯一非重复匹配;

下载最新发行的lncrna参考基因注释文件;

所述保留与人类基因组的唯一非重复匹配基于所述注释文件获得5hmc修饰的lncrna的数据;

其中,当人类基因组版本与最新发行lncrna参考基因注释文件的发行版本相同时,基于所述注释文件获得5hmc修饰的lncrna的数据;当人类基因组版本与最新发行lncrna参考基因注释文件的发行版本不同时,先将lncrna定位信息从lncrna参考基因注释文件的版本传输到与人类基因组相同版本,基于与人类基因组相同版本的lncrna参考基因注释文件获得5hmc修饰的lncrna的数据。

进一步,所述存在差异的5hmc修饰的lncrna是通过包括foldchange和p-value指标进行判断;

优选的|foldchange|>0.58,p-value<0.05的5hmc修饰的lncrna判断为存在差异的5hmc修饰的lncrna。

进一步,所述特征选择还包括特征选择后的聚类分析;优选的,所述聚类分析为无监督层次聚类分析。

进一步,所述特征选择通过采用多种不同机器学习的方法并行进行,选择导致最大准确度的模型里的特征;

优选的,所述机器学习的方法包括递归特征消除、cart、随机森林、线性回归、朴素贝叶斯、自定义的训练模型中的一种或几种。

进一步,所述肿瘤分类模型还包括正则项。

一种基于5hmc修饰的lncrna的肿瘤分类系统,包括:

获取单元,用于获取待测样本的5hmc修饰的lncrna数据;

处理单元,用于将所述5hmc修饰的lncrna数据输入肿瘤分类模型中,获得待测样本肿瘤分类的预测结果;

所述肿瘤分类模型的确定方式包括:

获取肿瘤患者和健康人群的5hmc修饰的lncrna数据;

筛选组织特异性差异的5hmc修饰的lncrna数据作为特征数据,所述组织特异性差异的5hmc修饰的lncrna既在肿瘤患者和健康人群中存在差异,又在不同种类肿瘤中存在差异;

采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤分类模型。

一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的肿瘤分类系统。

本申请的优点:本申请以5hmc修饰的lncrna为分析对象,通过筛选组织特异性差异的5hmc修饰的lncrna数据,采用多种机器学习方法建立肿瘤分类模型,获得了能够精确的将肿瘤患者和健康人群进行区分以及将不同种类肿瘤进行区分的5hmc修饰的lncrna组合物,得到模型的特征,利用特征选择结果建立肿瘤分类模型。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的基于5hmc修饰的lncrna的肿瘤分类方法的示意流程图;

图2是本发明实施例提供的基于5hmc修饰的lncrna的肿瘤分类系统的示意框图;

图3是各肿瘤富集的5hmc修饰的lncrna情况图,a是正向富集,b是负向富集;

图4是组织特异性5hmc修饰的lncrna的共识聚类分析图;

图5是图3是分类模型分类性能汇总图;

图6是训练集分类模型的检测情况;

图7是测试集分类模型的检测情况;

图8是肿瘤实际情况与分类模型预测的一致性;a训练集预测情况,b测试集预测情况。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。

图1是本发明实施例提供的一种基于5hmc修饰的lncrna的肿瘤分类方法示意流程图,具体地,所述方法包括如下步骤:

101:获取待测样本的5hmc修饰的lncrna数据;

102:将所述5hmc修饰的lncrna数据输入肿瘤分类模型中,获得待测样本肿瘤分类的预测结果。

所述肿瘤分类模型的确定方式包括:

获取肿瘤患者和健康人群的5hmc修饰的lncrna数据;

筛选组织特异性差异的5hmc修饰的lncrna数据作为特征数据,所述组织特异性差异的5hmc修饰的lncrna既在肿瘤患者和健康人群中存在差异,又在不同种类肿瘤中存在差异;

采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤分类模型。

术语“样本”可以是从受试者分离的任何生物样本。例如,样本可以包括但不限于体液、全血、血小板、血清、血浆、粪便、红细胞、白细胞或白血球、内皮细胞、组织活组织检查、滑液、淋巴液、腹水、间质或细胞外液、细胞间空间的液体,包括龈沟液、骨髓、脑脊液、唾液、粘液、痰、精液、汗液、尿液、鼻刷液、巴氏涂片液或任何其他体液。体液可以包括唾液、血液或血清。例如,多核苷酸可以是从体液例如血液或血清分离的无细胞dna。样本也可以是肿瘤样本,肿瘤样本可以通过各种方法从受试者获得,所述方法包括但不限于静脉穿刺、排泄、射精、按摩、活组织检查、针抽吸、灌洗、刮擦、手术切口或介入或其他方法。样本可以是无细胞样本(例如,不包含任何细胞)。

在一个实施例中,所述筛选组织特异性差异的5hmc修饰的lncrna具体包括:分别比较每种肿瘤患者和健康人群5hmc修饰的lncrna数据,分别获得每种肿瘤和健康人群相比存在差异的5hmc修饰的lncrna,筛选出每种肿瘤各自存在差异的5hmc修饰的lncrna,剔除在不同种类肿瘤中5hmc修饰的lncrna数据不存在差异的5hmc修饰的lncrna。

在一个实施例中,所述筛选组织特异性差异的5hmc修饰的lncrna具体包括:首先,取不同种类肿瘤的5hmc修饰的lncrna,剔除两种或两种以上肿瘤类型共有的5hmc修饰的lncrna,再者,将获取的5hmc修饰的lncrna的数据和健康人群5hmc修饰的lncrna数据进行比较,选取在不同种类肿瘤里5hmc修饰的lncrna的数据和健康人群5hmc修饰的lncrna数据都存在差异的5hmc修饰的lncrna。

在一个实施例中,所述5hmc修饰的lncrna数据包括:获取5hmc测序数据,与人类基因组进行比对,保留与人类基因组的唯一非重复匹配;下载最新发行的lncrna参考基因注释文件;所述保留与人类基因组的唯一非重复匹配基于所述注释文件获得5hmc修饰的lncrna的数据。

在一个实施例中,获取肿瘤患者和健康人群的5hmc修饰的lncrna数据包括:获取肿瘤患者和健康人群的5hmc测序数据,与人类基因组进行比对,保留与人类基因组的唯一非重复匹配(uniquenon-duplicatematches);下载最新发行的lncrna参考基因注释文件,基于注释获得5hmc修饰的lncrna的数据;

在一个实施例中,所述5hmc修饰的lncrna数据是向量,具有大小和正负。

其中,当人类基因组版本与最新发行lncrna参考基因注释文件的发行版本相同时,基于所述注释文件获得5hmc修饰的lncrna的数据;当人类基因组版本与最新发行lncrna参考基因注释文件的发行版本不同时,先将lncrna定位信息从lncrna参考基因注释文件的版本传输到与人类基因组相同版本,基于与人类基因组相同版本的lncrna参考基因注释文件获得5hmc修饰的lncrna的数据。

在一个实施例中,所述获取肿瘤患者和健康人群的5hmc修饰的lncrna数据包括:使用bowtie2将获取肿瘤患者和健康人群的5hmc测序数据读数与人类基因组grch37进行比对,保留与人类基因组的唯一非重复匹配在picard-2.18.4中。从gencode数据库下载lncrna参考基因注释文件的发行版本(grch38版本),liftover用于将定位信息从lncrna参考基因注释文件的grch38版本传输到grch37版本,基于grch37注释提取lncrna的基因,通过工具获得的每个refseqlncrna中的片段计数,获得5hmc修饰的lncrna的数据。

在一个实施例中,将获得5hmc修饰的lncrna的读数转换为tpm(每百万个映射的读数中lncrna中5hmc的每千碱基碱基转录本)。

在一个实施例中,肿瘤患者和健康人群的5hmc测序数据可以是自有测序数据或数据库公开的测序数据。例如,数据库公开的测序数据gse8957等,选取部分样本,样本的详细信息在表1中给出。

表1

在一个实施例中,所述筛选组织特异性差异的5hmc修饰的lncrna具体包括:分别比较每种肿瘤患者和健康人群5hmc修饰的lncrna数据,分别获得每种肿瘤和健康人群相比存在差异的5hmc修饰的lncrna,筛选出每种肿瘤各自存在差异的5hmc修饰的lncrna,剔除在不同种类肿瘤中5hmc修饰的lncrna数据不存在差异的5hmc修饰的lncrna。

在一个实施例中,不同种类肿瘤数量可以是n个(n为整数)。

在一个实施例中,不同种类肿瘤数量至少2个。

在一个实施例中,肿瘤可以是下列肿瘤中的一种或多种:急性成淋巴细胞性白血病(all)、急性髓性白血病、肾上腺皮质癌、成人急性髓性白血病、成人原发部位不明癌、成人恶性间皮瘤、艾滋病相关癌症、艾滋病相关淋巴瘤、肛门癌、阑尾癌、星形细胞瘤、儿童小脑或大脑癌、基底细胞癌、胆管癌、膀胱癌、骨肿瘤、骨肉瘤/恶性纤维组织细胞瘤、脑癌、脑干胶质瘤、乳腺癌、支气管腺瘤/类癌、伯基特淋巴瘤、类癌瘤、原发性不明的癌、中枢神经系统淋巴瘤、小脑星形细胞瘤、大脑星形细胞瘤/恶性神经胶质瘤、宫颈癌、儿童急性髓性白血病、儿童原发部位不明的癌症、儿童癌症、儿童大脑星形细胞瘤、儿童间皮瘤、软骨肉瘤、慢性淋巴细胞白血病、慢性髓细胞性白血病、慢性骨髓增生性紊乱、结肠癌、皮肤t细胞淋巴瘤、促结缔组织增生性小圆细胞肿瘤、子宫内膜癌、子宫内膜子宫癌、室管膜瘤、上皮样血管内皮瘤(ehe)、食管癌、尤因肿瘤肉瘤家族、尤因肿瘤家族中的尤因肉瘤、颅外生殖细胞肿瘤、性腺外生殖细胞肿瘤、肝外胆管癌、眼癌、眼内黑素瘤、胆囊癌、胃(gastric)(胃(stomach))癌、胃类癌、胃肠道类癌肿瘤、胃肠道间质瘤(gist)、妊娠性滋养层细胞瘤、脑干胶质瘤、胶质瘤、毛细胞白血病、头颈癌、心脏癌、肝细胞(肝)癌、霍奇金淋巴瘤、下咽癌、下丘脑和视觉途径胶质瘤、胰岛细胞癌(内分泌胰腺)、卡波西肉瘤、肾癌(肾细胞癌)、喉癌、急性成淋巴细胞性白血病(也称为急性淋巴细胞白血病)、急性髓性白血病(也称为急性髓细胞性白血病)、慢性淋巴细胞性白血病(也称为慢性淋巴细胞白血病)、白血病(leukaemia)、慢性髓细胞性白血病(也称为慢性髓性白血病)、毛细胞白血病(leukemia)、唇及口腔癌、脂肪肉瘤、肝癌(原发性)、非小细胞肺癌、小细胞肺癌、淋巴瘤(艾滋病相关)、淋巴瘤、巨球蛋白血症、男性乳腺癌、骨恶性纤维组织细胞瘤/骨肉瘤、髓母细胞瘤、黑素瘤、梅克尔细胞癌、原发灶隐匿转移性颈部鳞状癌、口癌、多发性内分泌肿瘤综合征、儿童多发性骨髓瘤(骨髓癌)、多发性骨髓瘤/浆细胞赘生物、蕈样肉芽肿、骨髓增生异常综合征、骨髓增生异常/骨髓增生性疾病、慢性髓细胞性白血病、粘液瘤、鼻腔和副鼻窦癌、鼻咽癌、神经母细胞瘤、非霍奇金淋巴瘤、非小细胞肺癌、少突神经胶质瘤、口腔癌、口咽癌、骨肉瘤/骨恶性纤维组织细胞瘤、卵巢癌、卵巢上皮癌(表面上皮间质肿瘤)、卵巢生殖细胞瘤、卵巢低恶性潜能肿瘤、胰腺癌、胰岛细胞癌、副鼻窦和鼻腔癌、甲状旁腺癌、阴茎癌、咽癌、嗜铬细胞瘤、松果体星形细胞瘤、松果体生殖细胞瘤、松果体母细胞瘤和幕上原始神经外胚层肿瘤、垂体腺瘤、浆细胞赘生物/多发性骨髓瘤、胸膜肺母细胞瘤、原发性中枢神经系统淋巴瘤、前列腺癌、直肠癌、肾细胞癌(肾癌)、肾盂和输尿管移行细胞癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、sézary综合征、皮肤癌(黑素瘤)、皮肤癌(非黑素瘤)、梅克尔细胞皮肤癌、小细胞肺癌、小肠癌、软组织肉瘤、鳞状细胞癌、原发灶隐匿转移性颈部鳞状癌、胃癌、幕上原始神经外胚层肿瘤、皮肤t细胞淋巴瘤、睾丸癌、喉癌、胸腺瘤和胸腺癌、胸腺瘤、甲状腺癌、肾盂和输尿管移行细胞癌、输尿管和肾盂移行细胞癌、尿道癌、子宫肉瘤、阴道癌、视觉途径和下丘脑神经胶质瘤、儿童视觉途径和下丘脑神经胶质瘤、外阴癌、巨球蛋白血症和肾母细胞瘤(肾癌)。

在一个实施例中,所述存在差异的5hmc修饰的lncrna是通过包括foldchange和p-value指标进行判断。例如:|foldchange|>0.58,p-value<0.05的5hmc修饰的lncrna判断为存在差异的5hmc修饰的lncrna。

在一个实施例中,存在差异的5hmc修饰的lncrna是指转录组的差异,例如5hmc修饰的lncrna表达量在肿瘤患者和健康人群中表达量存在差异。又例如,某一5hmc修饰的lncrna在肿瘤患者和健康人群中相对表达量|foldchange|>0.58,p-value<0.05,则该5hmc修饰的lncrna被认为是存在差异的5hmc修饰的lncrna。

在一个实施例中,例如李组队列中,使用deseq2软件包鉴定了cc,gc,hcc和健康人群的5hmc修饰的lncrna差异。那些|foldchange|>0.58andfdradjustedp-value<0.05的lncrnas,作为差异5hmc修饰的lncrna。经过分析,与健康人群相比,肿瘤患者富集的5hmc修饰的lncrna中鉴定出1402个结肠癌分子标志物(正向富集1340,负向富集62)、3189个胃癌分子标志物(正向富集2583,负向富集606)和230个肝癌分子标志物(正向富集201,负向富集29),见图3。取不同种类肿瘤的5hmc修饰的lncrna的交集时,2081个肿瘤富集的5hmc修饰的lncrna被视为组织特异性差异的5hmc修饰的lncrna。

在一个实施例中,筛选出在不同种类肿瘤中特异性差异的5hmc修饰的lncrna后,进行聚类分析,检验筛选效果。例如,对2081个组织特异性5hmc修饰的lncrna的共识聚类分析(consensusclusteringanalysis)显示了三个截然不同的患者群,并且来自无监督层次聚类分析(unsupervisedhierarchicalclusteranalysis)的患者群在不同癌症之间是分开的(图4)。这些结果表明,根据组织来源,5hmc修饰的lncrna谱图差异显着。血浆来源的5hmc修饰的lncrna可用于患者的液体活检。

在一个实施例中,获取肿瘤患者和健康人群的5hmc修饰的lncrna数据作为训练集,使用数据拆分功能对训练集数据的队列随机分为队列的四分之三和队列的四分之一。例如,使用数据拆分功能“createdatapartition”将李组的cc,gc,hcc和健康患者的队列随机分为队列的四分之三(训练集)和队列的四分之一(内部验证集)。

在一个实施例中,采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤分类模型。例如基于递归特征消除(rfe)的袋装分类和回归树(cart)进行的特征选择,进而进行10倍交叉验证(10-foldcross-validationprocedure)的过程中,重复进行了5次用于癌症诊断的特征选择过程,并选择了导致最大“准确度”的模型。使用caret的r软件包中的“rfe”和“treebagfuncs”功能进行选择。因此,产生了两个减少的5hmc修饰的lncrnas亚组,并用作进一步分析的输入。

在一个实施例中,机器学习的方法包括递归特征消除、cart、随机森林、线性回归、朴素贝叶斯、自定义的训练模型中的一种或几种。

在一个实施例中,肿瘤分类模型还包括正则项。例如,使用glmnet方法在多变量logistic回归模型上进行弹性网正则化(elasticnetregularization)。模型经过10倍交叉验证训练,并针对阿尔法(alpha)和拉姆达(lambda)(阿尔法范围:0.05–1,长度=10;拉姆达范围:10-1至5*10-1,以0.1为增量)的参数值网格优化了接收器工作特性(roc)曲线,其中阿尔法控制着ridge和lasso罚分之间的相对比例,而拉姆达控制着罚分的整体强度。重复此选择过程20次。

在一个实施例中,将套索(lasso)和脊方法(ridge)的l1和l2罚分线性地结合在一起,被用于建立肿瘤分类模型(5hmc-lncrna分类评分模型,简称5hlc模型)。

在一个实施例中,基于袋装cart(baggedcart)对上述140个5hmc修饰的lncrna进行特征选择,从而获得22种肿瘤相关血浆衍生的5hmc修饰的lncrna,作为无创生物标志物,所述5hmc修饰的lncrna为:ensg00000125899、ensg00000203971、ensg00000215112、ensg00000215304、ensg00000224189、ensg00000224267、ensg00000225960、ensg00000227068、ensg00000227716、ensg00000230292、ensg00000231662、ensg00000234182、ensg00000234567、ensg00000255229、ensg00000257568、ensg00000258026、ensg00000259926、ensg00000260223、ensg00000262728、ensg00000263904、ensg00000272129、ensg00000273792。

在一个实施例中,申请人根据样本类型(健康人群样本和肿瘤患者样本)将样本均匀分离,并将75%的样本用作训练集,其余25%代表李组的同类研究中的测试集。基于这些与肿瘤相关的5hmc修饰的lncrna,使用弹性网算法(elastic-netalgorithm)构建了5hlc模型。模型的分类性能见图5:训练集的十倍交叉验证得出auc0.839(95%ci:0.769-0.910),表明5hlc评分对于检测gc和hcc样品的cc最具预测性(图6)。同样,来自hcc和cc的gc的分类性能为0.843(95%ci:0.767-0.918),来自cc和gc的hcc的auc度量为0.906(95%ci:0.823-0.989)(图6)。此外,重新分析了李氏队列中的测试数据集,并确认了组织特异性血浆来源的5hmc修饰的lncrna,以及高于0.7auc的训练结果(图7)。此外,组织特异性5hmc修饰的lncrna的5hmctpm模式与李氏队列中(训练和测试)观察到的5hlc分数一致,这些分数在cc衍生的5hmc修饰的lncrnas或gc衍生的5hmc-修饰的lncrna或hcc衍生的5hmc修饰的lncrna(图8a、8b)。这些数据强调了这些5hmc修饰的lncrna作为组织特异性生物标志物的潜力。

在一个实施例中,特征选择后的进行聚类分析,检验特征选择效果。

在一个实施例中,聚类分析为共识聚类分析(theconsensusclusteringanalysis),使用r软件包“consensusclusterplus”实施的,该软件包可以自动选择聚类数量,是一种无监督聚类方法。使用r包“pheatmap”执行分层聚类(hierarchicalclustering)。

在一个实施例中,来自三种肿瘤患者和健康人群的分类标志物的无监督分层聚类分析;基本上所有癌症样本都可以被确定为癌样簇,而其他簇中绝大多数健康的样本被鉴定为健康样簇。使用22个与肿瘤组织特异性相关的5hmc修饰的lncrna进行的层次聚类分析可以很好地将肿瘤患者与健康对照分开,也可以很好地将不同种类肿瘤分开。

一种基于5hmc修饰的lncrna的肿瘤分类装置,所述设备包括:存储器和处理器,所述存储器用于存储程序指令;

所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:

获取待测样本的5hmc修饰的lncrna数据;

将所述5hmc修饰的lncrna数据输入肿瘤分类模型中,获得待测样本肿瘤分类的预测结果;

所述肿瘤分类模型通过22种5hmc修饰的lncrna中的一种或几种的组合的特征数据获得待测样本肿瘤分类的预测结果:所述5hmc修饰的lncrna为:ensg00000125899、ensg00000203971、ensg00000215112、ensg00000215304、ensg00000224189、ensg00000224267、ensg00000225960、ensg00000227068、ensg00000227716、ensg00000230292、ensg00000231662、ensg00000234182、ensg00000234567、ensg00000255229、ensg00000257568、ensg00000258026、ensg00000259926、ensg00000260223、ensg00000262728、ensg00000263904、ensg00000272129、ensg00000273792。

图2是本发明实施例提供的一种基于5hmc修饰的lncrna的肿瘤分类系统图,包括:

获取单元,用于获取待测样本的5hmc修饰的lncrna数据;

处理单元,用于将所述5hmc修饰的lncrna数据输入肿瘤分类模型中,获得待测样本肿瘤分类的预测结果;

所述肿瘤分类模型的确定方式包括:

获取肿瘤患者和健康人群的5hmc修饰的lncrna数据;

筛选组织特异性差异的5hmc修饰的lncrna数据作为特征数据,所述组织特异性差异的5hmc修饰的lncrna既在肿瘤患者和健康人群中存在差异,又在不同种类肿瘤中存在差异;

采用机器学习的方法对所述特征数据进行特征选择,利用特征选择结果建立肿瘤分类模型。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权上述的肿瘤分类系统。

本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取存储器(ram,randomaccessmemory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1