专利名称:基于分子描述符的蛋白质-配体亲和力预测方法
技术领域:
本发明涉及计算机辅助药物分子设计领域,特别涉及一种基于分子描述符的蛋白质-配体亲和力预测方法。
背景技术:
在基于结构的药物设计中,例如分子对接和从头设计,预测蛋白质靶标与其配体之间的结合亲和力通常采用打分函数打分的方法。迄今为止,打分函数大致可以分为三类基于力场、基于知识和基于经验,而其中以基于经验的打分函数打分最受青睐。基于经验的打分函数通常是由多种蛋白质和配体相互作用相关的物理化学项组成,如范德华力、氢键、静电以及金属-配体键能等。这些项的系数往往通过多重线性回归拟合而来。可见,基于经验的打分函数原理简单且计算高效。然而,目前采用基于经验的打分函数打分的方法仍存在一些不足,如预测值与实验值相关性不佳、靶点依赖性大和对同系物敏感性差等。诸多因素可导致这些问题,其中至少包括以下三个方面。第一,用于拟合打分函数各项系数的训练集中蛋白质和配体晶体结构复合物的数目以及多样性不够,这可能导致构建的打分函数对不同蛋白质靶标的预测能力差异较大。第二,打分函数所包含的蛋白质和配体相互作用的项数十分有限,通常少于20项,不足以全面反映蛋白质和配体相互作用。第三,打分函数各项系数通常是由线性回归获得,而线性回归要求各项必须独立,但事实上打分函数各项会相互影响。因此,目前仍然需要发展新的蛋白质-配体亲和力预测方法,以克服当前打分函数存在的问题,从而促进基于结构的药物设计方法在新药研发中的应用,并进而推动创新药物的研发。
发明内容
本发明的目的是提供一种全新的蛋白质-配体亲和力预测方法。这种方法属于一种基于经验的打分函数打分方法,是基于蛋白质和配体之间相互作用的分子描述符,采 用支持向量回归的方法来建立描述符与蛋白质-配体亲和力的关系。该方法克服了现有技术中预测值与实验值相关性不佳、靶点依赖性大和对同系物敏感性差等不足。本发明的基本思路是收集大量的多样化的蛋白质-配体复合物晶体结构(简称复合物)及其结合亲和力(简称亲和力)实验值作为训练集,构建完善而系统的分子描述符,藉以完整地反映蛋白质-配体相互作用,计算训练集中所有蛋白质-配体相互作用分子描述符,采用支持向量回归(SVR, Supporting Vector Regression)的方法来拟合描述符与亲和力之间的关系,从而用于预测给定复合物的亲和力。这种思路的基本理论是基于
(I)训练集的大小、质量以及多样性直接影响着基于经验的打分函数的预测能力。因此,收集大量且多样的复合物结构是至关重要的,这样可以更全面反映多种复合物结构的相互作用特征,从而使打分函数适合更多生物类型的复合物亲和力预测,减少对不同类型的复合物预测能力差异较大的现象。(2)构建若干分子描述符,藉以全面反映蛋白质-配体相互作用。一方面,对于非常重要的相互作用,如范德华力和氢键,分别构建不同原子类型之间的分子描述符;另一方面,充分考虑与蛋白质-配体相互作用密切相关的因素,如疏水效应、熵效应、形状匹配以及表面匹配。这样不仅可以提高打分函数的预测能力,而且可以提高对结构差异小的同系物预测的敏感度。(3)利用支持向量回归的方法来拟合描述符与复合物亲和力的关系,支持向量回归是一种优秀的机器学习方法,可以解决线性回归无法处理相互作用耦合项的关键技术问题,从根本上提高打分函数对复合物亲和力的预测能力。
本发明的目的是这样达到的一种基于分子描述符的蛋白质-配体亲和力全新预测方法,其特征在于收集大量的多样化的蛋白质和配体复合物晶体结构及其结合亲和力实验值,构建全面综合的分子描述符藉以反映复合物亲和力,并采用支持向量回归的方法建立描述符与亲和力的关系,从而用于预测给定复合物的亲和力的方法。包括如下四个步骤(1)训练集的准备训练集的准备采用同时包含复合物及其亲和力的数据,每个复合物中蛋白质结构和配体结构分别保存在同一个文件夹,蛋白质结构以PDB格式保存,而配体以mol2格式保存。(2)描述符的计算;构建若干蛋白质和配体相互作用相关的分子描述符,这些描述符分别属于九种不同的类型范德华相互作用、静电相互作用、氢键相互作用、η键相互作用、金属键相互作用、去溶剂效应、熵效应、表面匹配和形状匹配。不同类型的描述符对应不同的计算公式或计算方法,描述符的计算通过编写程序完成。(3)回归模型的建立;采用支持向量回归的方法来建立描述符与亲和力之间的回归模型,在回归过程中引入共轭梯度法来优化支持向量回归中两个重要的参数,即惩罚因子C和核函数Y。(4)基于回归模型建立新型的打分函数,预测复合物的亲和力。在步骤(I)训练集的准备中,训练集总共包含2278个复合物结构及其亲和力数据;在步骤(2)描述符的构建中,共构建50种蛋白质-配体相互作用相关的描述符。用于计算描述符的程序简要步骤如下I)读入训练集复合物名单,并依次调用复合物;2)分别读入复合物中蛋白质结构和配体结构;3)调用力场参数文件,并为蛋白质结构和配体结构赋力场参数;4)定义蛋白质结构活性中心和网格;5)计算出50种与蛋白质和配体相互作用的描述符;6)若训练集复合物名单未循环完毕,则返回第一步;7)输出训练集所有复合物对应的50种描述符具体值。在步骤(3)回归模型的建立中,引入了共轭梯度法优化惩罚因子C和核函数Y的值的程序是I)将训练集中复合物的亲和力实验值与对应的50种描述符值作为输入文件;2)重新标度描述符值至-I到+1这个区间;3)初始化惩罚因子C和核函数Y的值;4)调用支持向量回归SVR程序,建立回归模型,并计算得到一组亲和力预测值;5)计算训练集中复合物的亲和力实验值与预测值之间的相关系数;6)根据相关系数值,通过共轭梯度法优化惩罚因子C和核函数Y的值,得到一组新的C和Y值,返回第五步;7)符合条件时,循环终止;8 )输出最优的回归模型;
在步骤(4)建立新型的打分函数,预测复合物的亲和力的程序如下I)分别读入给定复合物中蛋白质结构和配体结构;2)调用力场参数文件,并为蛋白质结构和配体结构赋力场参数;
3)定义蛋白质结构活性中心和网格;4)计算出50种与蛋白质和配体相互作用的描述符,5)将描述符值重新标度至-I到+1这个区间;6)输入最佳惩罚因子C和核函数Y的值,并读入最佳支持向量回归模型;7)调用支持向量回归SVR程序;8)输出给定复合物亲和力的预测值。本发明的积极效果是本发明的方法属于基于经验打分函数打分的方法,其基本功能是预测蛋白质和配体之间亲和力大小。相对以前的经验打分函数打分方法,本发明具有三方面的优势。第一,该方法对蛋白质-配体亲和力预测能力较强;第二,该方法对不同生物类型的蛋白质-配体亲和力的预测差异较小,即生物蛋白靶点依赖性较小,适用于大多数类型的蛋白质-配体亲和力预测;第三,该方法能较好地区分结构差异小的同系物与其靶点的亲和力大小,特别适用于先导化合物优化中。
四
图I分子描述符计算的工作流程图。图2回归模型建立的工作流程图。图3打分函数进行打分预测的工作流程图。
五具体实施例方式本发明方法属于基于经验打分函数打分的方法,通过收集2278个多样化的蛋白质和配体复合物晶体结构及其结合亲和力实验值,构建50个完善而系统的蛋白质和配体相互作用相关的分子描述符来反映复合物亲和力,并采用支持向量回归的方法建立描述符与复合物亲和力的关系,从而构建经验打分函数用于预测给定复合物的亲和力。具体步骤如下(I)训练集的准备训练集总共包含2278个复合物结构及其亲和力数据。每个复合物中蛋白质结构和配体结构分别以TOB ID号命名并保存在同一个文件夹,其中蛋白质结构以PDB格式保存,而配体以格式保存,以便后续程序调用。(2)描述符的构建与计算构建并计算全面综合的蛋白质和配体相互作用相关描述符是本发明打分函数的核心部分。本发明总共构建了 50种与蛋白质-配体相互作用相关的描述符(详见表一),这些描述符分属于九种类型范德华相互作用、静电相互作用、氢键相互作用、η键相互作用、金属键相互作用、熵效应、去溶剂效应、表面匹配和形状匹配。描述符的分类如表一。表一
权利要求
1.一种基于分子描述符的蛋白质-配体亲和力预测方法,其特征在于收集大量的多样化的蛋白质-配体复合物晶体结构及其结合亲和力数据,构建完善而系统的分子描述符藉以全面反映蛋白质-配体亲和力,并采用支持向量回归的方法建立分子描述符与亲和力的关系,从而用于预测给定复合物的亲和力,包括如下四个步骤(1)训练集的准备训练集的准备采用同时包含复合物及其亲和力的数据,每个复合物中蛋白质结构和小分子配体结构分别保存在同一个文件夹,蛋白质结构以PDB格式保存,而配体以格式保存;(2)分子描述符的分类构建与计算;构建若干蛋白质-配体相互作用相关的分子描述符,这些描述符分别属于九种不同的类型范德华相互作用、静电相互作用、氢键相互作用、η键相互作用、金属键相互作用、去溶剂效应、熵效应、表面匹配和形状匹配,不同类型的分子描述符对应不同的计算公式或计算方法,描述符的计算通过编写程序完成;(3)回归模型的建立;采用支持向量回归方法来拟合描述符与亲和力之间的关系,即建立回归模型;在回归模型建立过程中,引入共轭梯度法来优化惩罚因子C和核函数参数Y的值(4)在描述符计算和回归模型的基础之上,组建新型的打分函数,预测复合物的亲和力。
2.如权利要求I所述的方法,其特征在于在步骤(I)训练集的准备中,训练集总共包含2278个复合物结构及其亲和力数据;在步骤(2)描述符的构建与分类计算中,构建50种蛋白质-配体相互作用相关的分子描述符,描述符的计算程序如下1)读入训练集复合物名单,并依次调用复合物;2)分别读入复合物中蛋白质结构和小分子配体结构;3)调用力场参数文件,并为蛋白质结构和配体结构赋力场参数;4)定义蛋白质结构活性中心和网格;5)计算出50种与蛋白质-配体相互作用的分子描述符;6)若训练集复合物名单未循环完毕,则返回第一步;7)输出训练集所有复合物对应的50种描述符具体值;在步骤(3)回归模型的建立中,引入共轭梯度法优化惩罚因子C和核参数Y的值的程序是1)将训练集中复合物的亲和力实验值与对应的50种描述符值作为输入文件;2)重新标度描述符值至-I到+1这个区间;3)初始化惩罚因子C和核函数Y的值;4)调用支持向量回归SVR程序,得到一组亲和力预测值;5)计算训练集中复合物的亲和力实验值与预测值之间的相关系数;6)根据相关系数值,通过共轭梯度法优化惩罚因子C和核函数Y的值,得到一组新的C和Y值,返回第五步;7)符合条件时,循环终止;8)输出最优的回归模型;在步骤(4)建立新型的打分函数,预测复合物的亲和力的程序如下1)分别读入给定复合物中蛋白质结构和小分子配体结构;2)调用力场参数文件,并为蛋白质结构和小分子配体结构赋力场参数;3)定义蛋白质结构活性中心和网格;4)计算出50种与蛋白质-配体相互作用的分子描述符,5)将描述符值重新标度至-I到+1这个区间;6)输入最佳惩罚因子C和核函数Y的值,并读入最佳回归模型;7)调用支持向量回归SVR程序;8)输出给定复合物亲和力的预测值。
3.如权利要求I所述的方法,其特征在于所述分子描述符分属于九种类型,其每一类描述符的具体计算公式或计算方法如下第一类,范德华力相互作用描述符的计算,由公式(I)得到,公式(I)为
全文摘要
基于分子描述符的蛋白质-配体亲和力预测方法。构建完善而系统的分子描述符反映蛋白质-配体亲和力,采用支持向量回归的方法建立描述符与亲和力的关系。步骤是a、训练集的准备准备大量同时包含蛋白质-配体复合物晶体结构及其亲和力数据。b、分子描述符的构建与计算构建50种九类不同的分子描述符,计算出训练集中所有复合物描述符的具体值。c、回归模型的建立;采用支持向量回归方法拟合描述符与亲和力之间的关系,引入共轭梯度法来优化其惩罚因子C和核函数参数。d、组建新型的打分函数,用于预测复合物的亲和力。本发明具有预测能力强、靶点依赖性小、对同系物敏感性高等优点。
文档编号G06F19/16GK102930181SQ201210440910
公开日2013年2月13日 申请日期2012年11月7日 优先权日2012年11月7日
发明者杨胜勇, 李国菠, 李琳丽, 杨羚羚, 魏于全 申请人:四川大学