采用k近邻算法筛选人甲状腺素运载蛋白干扰物的方法与流程

文档序号:18474075发布日期:2019-08-20 20:44阅读:181来源:国知局
采用k近邻算法筛选人甲状腺素运载蛋白干扰物的方法与流程

本发明涉及一种采用k近邻算法筛选人甲状腺素运载蛋白干扰物的方法,属于内分泌干扰物筛选策略技术领域。



背景技术:

环境内分泌干扰物(edcs)引发的内分泌干扰效应,严重威胁着人群和野生动物安全,正成为人类面临的全球性环境问题。面向管理,如何有效的从商用化学品中识别、评估潜在edcs是各国化学品管理部门需解决的首要问题。但是经过多年的实践发现仅采用实验方法来筛选、评估潜在edcs存在例如通量低(每年50~100种化学品)、成本高(每种化学品需耗费100万美元)等问题,导致很难按现有测试体系对商用化学品进行一一测试(商用化学品已超过14万种)。因此,发展内分泌干扰效应指标的预测模型对于实施edcs管控具有重要意义。

研究表明,内分泌相关疾病和功能紊乱通常与edcs对激素受体、转运蛋白等生物大分子的干扰作用有关。在过去较长时间里,激活或抑制激素受体介导的信号转导过程被认为是edcs的主要作用机制,因而许多工作均集中于研究edcs与激素受体的作用。然而,近年来的研究表明,在edcs致病过程中,edcs对激素转运等非受体介导过程的干扰也同等重要。但是目前在激素转运蛋白干扰物预测模型方面的研究还较匮乏。

中国专利cn106407665b公开了一种人运甲状腺素蛋白(httr)干扰物虚拟筛选方法,该方法首先基于10个基团将化学品分为5类,然后采用芳香类有机化学品定量预测模型或烷烃类有机化学品定量预测模型对目标有机化学品对httr的干扰效应数据进行预测。但是上述方法存在以下局限性:(1)该方法仅仅只是基于10个基团对目标有机化学品进行分类,若目标有机化学品不含有这10个基团就不能分类,因此对于不含有10个基团的有机化学品无法预测其干扰效应;(2)该方法的描述符仅仅只是基于有机化学品分子态计算的dragon描述符,然而yang等人(yangxh,xiehb,chenjw,lixh.anionicphenoliccompoundsbindstrongerwithtransthyretinthantheirneutralforms:nonnegligiblemechanismsinvirtualscreeningofendocrinedisruptingchemicals.chemrestoxicol,2013,26(9):1340-1347;yangxh,lyakurwaf,xiehb,chenjw,lixh,qiaoxl,caixy.differentbindingmechanismsofneutralandanionicpoly-/perfluorinatedchemicalstohumantransthyretinrevealedbyinsilicomodels.chemosphere,2017,182,574-583)以酚类、全氟/多氟羧酸、全氟磺酸类有机污染物为模型有机化学品研究了可电离有机化学品与httr的相互作用机制,发现阴离子态有机化学品与该蛋白的相互作用强于对应分子形态,酚类有机化学品中的芳环能与httr的残基形成阳离子-π相互作用,也就是说部分可电离有机化学品在实验或生理ph条件下会解离为离子态,在可电离有机化学品与httr的相互作用过程中,离子态与分子态一样具有不可忽视的作用,因此该方法在构建httr干扰物预测模型时并未考虑可电离有机化学品离子态的影响。



技术实现要素:

针对上述现有技术存在的问题,本发明提供一种适用范围广泛且综合考虑有机化学品分子态和离子态与httr的相互作用的采用k近邻算法筛选人甲状腺素运载蛋白干扰物的方法。

本发明的技术方案如下:

采用k近邻算法筛选人甲状腺素运载蛋白干扰物的方法,具体步骤如下:

(1)收集有机化学品干扰效应数据

收集有机化学品的干扰效应数据,所述的干扰效应数据为有机化学品与125i-t4或荧光探针分子竞争httr结合位点的能力即半数竞争效应浓度ic50;

(2)计算描述符

采用基于形态修正的量化描述符来表征可电离基团解离的影响:采用gaussian16软件优化有机化学品分子态和离子态的结构,然后基于gaussian16的输出文件,直接提取或计算有机化学品分子态和离子态的量化描述符,再根据式(1)计算基于形态修正的量化描述符x修正

x修正=δm·xm+δi·xi(1)

其中,xm和xi分别是有机化学品分子态和离子态的描述符值,δm和δi分别是分子态和离子态的比例分数;并采用dragon6.0软件计算官能团和分子碎片描述符以表征有机化学品各种基团对干扰效应的影响;

(3)二元分类模型的构建及表征

采用收集的有机化学品的有无活性的定性数据,根据基于欧几里德距离的knn算法构建二元分类模型,模型采用经济合作与发展组织关于模型构建与验证的导则进行表征,确定最优模型,所述的最优模型含三个描述符vaver-adj(形态修正的平均分子静电势)、f-083(连接到sp3杂化的碳原子的氟原子)和h-047(连接到sp3杂化或sp2杂化的碳原子的氢原子),邻近数(k)为3,所述的二元分类模型的应用域为欧几里德距离小于0.928;

(4)定量预测模型的构建及表征

选取采用相同测试方法和测试条件得到的定量数据,根据基于欧几里德距离的knn算法构建定量模型,建模时用取对数的相对效应势rp表征有机化学品与125i-t4竞争httr结合位点的能力,rp定义为:

其中,ic50(t4)和ic50(有机化学品)分别代表甲状腺素(t4)和有机化学品的ic50;确定最优模型,所述的最优模型含四个描述符:ncb-(sp2杂化的取代苯碳原子数)、naroh(酚羟基数)、nhbonds(分子内氢键数)和vadj(形态修正的平均分散度(п)),邻近数(k)为3;所述的定量预测模型的应用域为欧几里德距离小于1.11;

(5)人甲状腺素运载蛋白干扰物的筛选

①计算分类模型所需描述符,即vaver-adj(形态修正的平均分子静电势)、f-083(连接到sp3杂化的碳原子的氟原子)、h-047(连接到sp3杂化或sp2杂化的碳原子的氢原子),评估目标有机化学品是否在二元分类模型应用域内;

若目标有机化学品在二元分类模型应用域范围内,则根据二元分类模型计算目标有机化学品是否具有httr干扰活性;若目标有机化学品无活性,则不需要进一步评估;若目标有机化学品有活性,则依据定量预测模型预测其干扰效应数值大小;若目标有机化学品不在模型的应用域范围内,则不能用定量预测模型进行预测;

②对于有活性的目标有机化学品,根据定量预测模型的要求计算所需描述符,即ncb-(sp2杂化的取代苯碳原子数)、naroh(酚羟基数)、nhbonds(分子内氢键数)和vadj(形态修正的平均分散度(п)),评估其是否在定量预测模型的应用域范围内;

若目标有机化学品在定量预测模型的应用域范围内,则依据选择的定量预测模型计算目标有机化学品对httr的logrp值;若目标有机化学品不在定量预测模型的应用域范围内,则不能用定量预测模型进行预测;

③根据定量预测模型预测的logrp值判断目标有机化学品是否具有干扰httr转运甲状腺素的能力:

若有机化学品logrp>0,则表明目标有机化学品与httr结合能力强于甲状腺素;

若有机化学品logrp=0,则表明目标有机化学品与httr结合能力与甲状腺素相近;

若有机化学品logrp<0,则表明目标有机化学品与httr结合能力弱于甲状腺素。

本发明所述的半数竞争效应浓度ic50具体为将50%的125i-t4或荧光探针分子从httr结合位点替换出来时需要的有机化学品浓度。

本发明的具体实施方式中,步骤(1)中,收集355个有机化学品的干扰效应数据,所述的有机化学品类别包括紫外防晒剂、有机锡类、有机氯农药、取代酚、卤代苯、烷基羧酸、双酚a及其衍生物、全/多氟羧酸和全/多氟磺酸、羟基多溴联苯醚、羟基多氯联苯、氯代烯烃、磷酸酯、磺酸多氯联苯、磺胺类抗生素、二噁英类有机化学品、多溴联苯醚、多氯联苯、苯胺类有机化学品等。

本发明的具体实施方式中,步骤(1)中,干扰效应数据测定方法采用本领域常规方法,包括放射性配体竞争结合法和荧光竞争置换法。

本发明的具体实施方式中,步骤(3)中,355个有机化学品中,有活性和无活性的有机化学品分别为175和180个。

本发明的具体实施方式中,步骤(4)中,选取采用放射性配体竞争结合法及ph=8.0条件下得到的定量数据,根据基于欧几里德距离的knn算法构建定量模型。

与现有技术相比,本发明具有以下优点:

(1)数据方面,通过查阅最新文献,收集更多化学品对httr的干扰效应数据,扩展模型的应用域,能够表征不同形态(分子态和离子态)有机化学品对其与httr作用的影响;

(2)针对有无效应、效应大小预测问题,采用欧几里德距离表征有机化学品相似性,使用易于程序化的k近邻算法(knn算法),构建二元分类模型和定量预测模型,通过构建二元分类模型区分目标有机化学品有无效应,然后通过定量模型预测目标有机化学品效应值大小,描述符机理清晰、易于计算,预测方法易于程序化,预测模型具有较好的拟合优度、稳健性和预测能力;

(3)筛选方法可扩展性较好,新的分类模型和定量预测模型可方便添加到该筛选体系中。

附图说明

图1是定量预测模型的logrp实验值和预测值关系图。

图2是基于欧几里德距离表征的二元分类模型应用域图。

图3是基于欧几里德距离表征的定量预测模型应用域图。

图4是人甲状腺素运载蛋白干扰物筛选流程图。

具体实施方式

下面结合实施例和附图对本发明作进一步详述。

采用k近邻算法筛选人甲状腺素运载蛋白干扰物的方法,流程图如图4所示,具体步骤如下:

收集1990-2018年文献报道的有机化学品对httr的干扰效应数据,共计382个有机化学品的546个效应数据。有机化学品类别包括紫外防晒剂、有机锡类、有机氯农药、取代酚、卤代苯、烷基羧酸、双酚a及其衍生物、全/多氟羧酸和全/多氟磺酸、羟基多溴联苯醚、羟基多氯联苯、氯代烯烃、磷酸酯、磺酸多氯联苯、磺胺类抗生素、二噁英类有机化学品、多溴联苯醚、多氯联苯、苯胺类有机化学品等。统计发现,382个有机化学品中,有225个有机化学品含可电离基团。经数据有效性分析和有机化学品去重,最后用355个有机化学品数据用于建模。干扰效应数据测定方法包括放射性配体竞争结合法、荧光竞争置换法。有机化学品与125i-t4或荧光探针分子竞争httr结合位点的能力使用ic50表示,ic50为将50%的125i-t4或荧光探针分子从httr结合位点替换出来时需要的有机化学品浓度。

(2)计算描述符

采用基于形态修正的量化描述符来表征可电离基团解离的影响。基于形态修正的量化描述符x修正计算方法为:

x修正=δm·xm+δi·xi(1)

其中,xm和xi分别是有机化学品分子态和离子态的描述符值;δm和δi分别是分子态和离子态的比例分数。采用gaussian16软件优化有机化学品分子态和离子态的结构,然后基于gaussian16的输出文件,直接提取或计算有机化学品分子态和离子态的量化描述符,再根据式(1)计算基于形态修正的量化描述符。此外,还选用官能团和分子碎片描述符表征有机化学品各种基团对干扰效应的影响,该类描述符采用dragon6.0软件计算。

(3)二元分类模型的构建及表征

采用收集的355个有机化学品的有无活性的定性数据构建分类模型,其中有活性和无活性的有机化学品分别为175和180个。根据基于欧几里德距离的knn算法构建二元分类模型。模型采用经济合作与发展组织关于模型构建与验证的导则进行表征。结果表明,最优模型含三个描述符:vaver-adj(形态修正的平均分子静电势)、f-083(连接到sp3杂化的碳原子的氟原子)、h-047(连接到sp3杂化或sp2杂化的碳原子的氢原子)。邻近数(k)为3。模型评估结果显示,训练集和验证集的预测敏感性sn分别为0.867和0.844,训练集和验证集的预测特异性sp分别为0.844和0.897,训练集和验证集的预测准确性q分别为0.856和0.873。无论是训练集还是验证集有机化学品其预测准确性均大于0.85,意味着85%以上的有机化学品均能被正确区分为有活性或无活性,说明所构建模型具有较好的预测能力。使用欧几里德距离表征了模型的应用域,二元分类模型的应用域为欧几里德距离小于0.928(如图2所示)。

(4)定量预测模型的构建及表征

由于数据集中许多定量数据测试方法、测试条件存在差异,为了减少数据误差,选取具有相同测试方法和测试条件的定量数据构建定量模型。分析发现,采用放射性配体竞争结合法及ph=8.0条件下的数据点最多,因而采用该条件下的88个定量数据,根据基于欧几里德距离的knn算法构建定量预测模型。其中,训练集和验证集分别包含70和18个有机化学品。建模时用取对数的相对效应势(rp)表征有机化学品与125i-t4竞争httr结合位点的能力,rp定义为:

其中:ic50(t4)和ic50(有机化学品)分别代表甲状腺素(t4)和有机化学品的ic50(nm)。

结果表明,最优模型含四个描述符:ncb-(sp2杂化的取代苯碳原子数)、naroh(酚羟基数)、nhbonds(分子内氢键数)、vadj(形态修正的平均分散度(п))。邻近数(k)为3。采用训练集实验值与预测值之间的相关系数平方(r2训练集)、去一法交叉验证系数(q2训练集)、外部验证集的相关系数(q2验证集)、训练集和外部验证集均方根误差(rmse训练集和rmse验证集)、训练集和外部验证集平均绝对误差(mae训练集和mae验证集)评价模型的拟合优度、稳健性和预测能力。训练集表征结果为:r2训练集=0.910,q2训练集=0.804,rmse训练集=0.397,mae训练集=0.298;验证集表征结果为:q2验证集=0.852,rmse验证集=0.544,mae验证集=0.414。根据模型可接受标准,即r2训练集>0.6、q2训练集>0.6、q2验证集>0.7,模型具有较好拟合优度、稳健性和预测能力(如图1所示)。使用欧几里德距离表征了模型的应用域,定量预测模型的应用域为欧几里德距离小于1.11(如图3所示)。

(5)人甲状腺素运载蛋白干扰物筛选方法

①计算分类模型所需描述符,即vaver-adj(形态修正的平均分子静电势)、f-083(连接到sp3杂化的碳原子的氟原子)、h-047(连接到sp3杂化或sp2杂化的碳原子的氢原子);评估目标有机化学品是否在二元分类模型应用域内。

若目标有机化学品在模型应用域范围内,则根据分类模型计算目标有机化学品是否具有httr干扰活性;根据分类结果,判断下一步处理步骤。若目标有机化学品无活性,则不需要进一步评估;若目标有机化学品有活性,则依据下述定量预测模型预测其干扰效应数值大小。

若目标有机化学品不在定量预测模型的应用域范围内,则不能用模型进行预测。

②对于有活性的目标有机化学品,根据定量预测模型的要求计算所需描述符,即ncb-(sp2杂化的取代苯碳原子数)、naroh(酚羟基数)、nhbonds(分子内氢键数)、vadj(形态修正的平均分散度(п))。评估其是否在定量预测模型的应用域范围内。

若目标有机化学品在模型的应用域范围内,则依据选择的模型计算目标有机化学品对httr的logrp值;

若目标有机化学品不在模型的应用域范围内,则不能用模型进行预测。

③根据预测的logrp值判断目标有机化学品是否具有干扰httr转运甲状腺素的能力。由定义可知,t4的logrp=0。因而根据有机化学品logrp与0的大小关系可以判断目标有机化学品与甲状腺素竞争结合httr位点的能力。

若有机化学品logrp>0,则表明目标有机化学品与httr结合能力强于甲状腺素,从而具有较高的优先级;

若有机化学品logrp=0,则表明目标有机化学品与httr结合能力与甲状腺素相近;

若有机化学品logrp<0,则表明目标有机化学品与httr结合能力弱于甲状腺素,从而具有较低的优先级。

实施例1

2,3,3',5,5'-五氯联苯无httr干扰活性。利用本发明预测其干扰活性的步骤如下:

根据gaussian16和dragon6.0计算分类模型所需描述符,即vaver-adj(形态修正的平均分子静电势)、f-083(连接到sp3杂化的碳原子的氟原子)、h-047(连接到sp3杂化或sp2杂化的碳原子的氢原子)。然后计算其欧几里德距离为0.191,在二元分类模型的应用域范围内(欧几里德距离小于0.928)。因此,二元分类模型可用于区分2,3,3',5,5'-五氯联苯对httr的干扰活性。根据二元分类模型训练集有机化学品的描述符和2,3,3',5,5'-五氯联苯的描述符,采用基于欧几里德距离的knn算法,预测2,3,3',5,5'-五氯联苯无httr干扰活性,与实验测定结果一致。无须进一步评估。

实施例2

4'-ho-3,3',4,5,5'-五氯联苯具有httr干扰活性(logrp=0.933)。利用本发明预测其干扰活性的步骤如下:

根据gaussian16和dragon6.0计算所需分类模型所需描述符,即vaver-adj(形态修正的平均分子静电势)、f-083(连接到sp3杂化的碳原子的氟原子)、h-047(连接到sp3杂化或sp2杂化的碳原子的氢原子)。然后计算其欧几里德距离为0.187,在二元分类模型的应用域范围内(欧几里德距离小于0.928)。因此,二元分类模型可用于区分4'-ho-3,3',4,5,5'-五氯联苯对httr的干扰活性。根据二元分类模型训练集有机化学品的描述符和4'-ho-3,3',4,5,5'-五氯联苯的描述符,采用基于欧几里德距离的knn算法,预测4'-ho-3,3',4,5,5'-五氯联苯具有httr干扰活性,与实验测定结果一致。需要进一步评估。

然后采用定量预测模型预测其干扰效应数值:根据gaussian16和dragon6.0计算定量预测模型所需描述符,即ncb-(sp2杂化的取代苯碳原子数)、naroh(酚羟基数)、nhbonds(分子内氢键数)、vadj(形态修正的平均分散度(п))。然后计算其欧几里德距离为0.265,在定量预测模型的应用域范围内(欧几里德距离小于1.11)。因此,定量预测模型可用于预测4'-ho-3,3',4,5,5'-五氯联苯对httr的干扰效应数值。根据定量预测模型训练集有机化学品的描述符和4'-ho-3,3',4,5,5'-五氯联苯的描述符,采用基于欧几里德距离的knn算法,预测4'-ho-3,3',4,5,5'-五氯联苯对httr的干扰效应数值logrp=0.673,实验值为logrp=0.933,预测值与实验值具有一致性。由于logrp>0.933,说明4'-ho-3,3',4,5,5'-五氯联苯与httr结合能力强于甲状腺素,需要高度关注4'-ho-3,3',4,5,5'-五氯联苯通过干扰httr转运甲状腺素的方式干扰甲状腺系统。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1