1.一种基于网格搜索的规则权重分配sirna设计方法,其特征在于:包括以下步骤:
s1、从sirna数据中训练得到sirna设计规则权重;
s2、基于得到的sirna设计规则权重从候选sirna集合中筛选出高沉默效率sirna。
2.根据权利要求1所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:所述步骤s1包括以下子步骤:
s101、获取并处理sirna数据;
s102、获取sirna设计规则;
s103、对sirna设计规则设置sirna设计规则权重值;
s104、根据sirna设计规则权重值计算得到sirna设计规则得分矩阵;
s105、根据s101获取的sirna数据和s104获取的sirna设计规则得分矩阵,确定最佳sirna设计规则权重。
3.根据权利要求2所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s101中所述sirna数据包括sirna序列和sirna的rna干扰效率值;s101中所述获取并处理sirna数据,包括对所述sirna的rna干扰效率值进行处理,将所有的sirna的rna干扰效率值均一化,其中效率为0代表不能进行rna干扰,效率为100表示完全rna干扰,通过实验不能检测到相应的mrna或者蛋白;s101中所述获取并处理sirna数据,包括将所述sirna数据随机地将数据分为两部分,其中占总数据比例2/3部分作为训练集数据,占总数据比例1/3部分作为测试集数据。
4.根据权利要求2所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s102中所述sirna设计规则包括以下规则中的一种或二种以上:
规则1:sirna靶序列在基因cds转录起始位点下游100bp以后;
规则2:sirna靶序列gc含量在35%到55%之间;
规则3:sirna序列中不存在“发卡结构”序列;
规则4:sirna靶序列中不存在重复的单碱基重复序列或c/g碱基重复、t/g碱基重复;
规则5:sirna种子区域的退火温度小于25℃;
规则6:antisense链5’端前5个碱基中包括至少3个a/u碱基,前7个碱基中包括至少4个a/u碱基;
规则7:sirnaantisense链5’端第9到第14位序列中的g/c碱基个数小于前8位序列中的g/c碱基个数,且前8位序列中的g/c碱基个数小于第15位至末尾序列中的g/c碱基个数;
规则8:sirnasense链第10位为u碱基;
规则9:sirnasense链第一位为g/c碱基,第10位为a/u碱基,第13到19位碱基中包括3个以上a/u碱基,第19位为a/u碱基。
5.根据权利要求2所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s103中所述设置sirna设计规则权重值包括:给每一个设计规则设置合理的权重取值范围,然后将每个规则的权重遍历组合,最终得到每个规则的权重值。
6.根据权利要求2所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s104中计算得到sirna设计规则得分矩阵的步骤包括:根据sirna设计规则权重值,计算所有sirna设计规则在所有不同规则权重组合下的得分,遍历权重组合集与sirna数据,即得到sirna设计规则得分矩阵。
7.根据权利要求2所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s105确定最佳sirna设计规则权重步骤包括:计算训练集数据每一个sirna设计规则权重组合的tpr、fpr值,筛选出tpr、fpr值均大于0.9的组合,然后计算这些组合的tpr、fpr值二者之和,筛选出所得二者之和最大的组合为最佳sirna设计规则权重,并在测试集数据中进行验证。
8.根据权利要求1-7任一项所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:所述步骤s2包括以下子步骤:
s201、根据目标靶基因外显子区域核苷酸序列,获取候选sirna集合;
s202、根据sirna设计规则权重从候选sirna集合中筛选出高沉默效率sirna。
9.根据权利要求8所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s201所述获取候选sirna集合包括:对目标靶基因外显子区域进行设定长度的核苷酸子序列的搜索,并根据基因互补规则,得出相应的sirna双链序列,作为候选sirna集合中的候选sirna。
10.根据权利要求8所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:所述s202包括:根据sirna设计规则权重对候选sirna集合中的候选sirna进行评分,按得分从高到低排序,筛选得分高者为高沉默效率sirna。