一种基于网格搜索的规则权重分配siRNA设计方法与流程

文档序号:25429750发布日期:2021-06-11 21:44阅读:来源:国知局

技术特征:

1.一种基于网格搜索的规则权重分配sirna设计方法,其特征在于:包括以下步骤:

s1、从sirna数据中训练得到sirna设计规则权重;

s2、基于得到的sirna设计规则权重从候选sirna集合中筛选出高沉默效率sirna。

2.根据权利要求1所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:所述步骤s1包括以下子步骤:

s101、获取并处理sirna数据;

s102、获取sirna设计规则;

s103、对sirna设计规则设置sirna设计规则权重值;

s104、根据sirna设计规则权重值计算得到sirna设计规则得分矩阵;

s105、根据s101获取的sirna数据和s104获取的sirna设计规则得分矩阵,确定最佳sirna设计规则权重。

3.根据权利要求2所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s101中所述sirna数据包括sirna序列和sirna的rna干扰效率值;s101中所述获取并处理sirna数据,包括对所述sirna的rna干扰效率值进行处理,将所有的sirna的rna干扰效率值均一化,其中效率为0代表不能进行rna干扰,效率为100表示完全rna干扰,通过实验不能检测到相应的mrna或者蛋白;s101中所述获取并处理sirna数据,包括将所述sirna数据随机地将数据分为两部分,其中占总数据比例2/3部分作为训练集数据,占总数据比例1/3部分作为测试集数据。

4.根据权利要求2所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s102中所述sirna设计规则包括以下规则中的一种或二种以上:

规则1:sirna靶序列在基因cds转录起始位点下游100bp以后;

规则2:sirna靶序列gc含量在35%到55%之间;

规则3:sirna序列中不存在“发卡结构”序列;

规则4:sirna靶序列中不存在重复的单碱基重复序列或c/g碱基重复、t/g碱基重复;

规则5:sirna种子区域的退火温度小于25℃;

规则6:antisense链5’端前5个碱基中包括至少3个a/u碱基,前7个碱基中包括至少4个a/u碱基;

规则7:sirnaantisense链5’端第9到第14位序列中的g/c碱基个数小于前8位序列中的g/c碱基个数,且前8位序列中的g/c碱基个数小于第15位至末尾序列中的g/c碱基个数;

规则8:sirnasense链第10位为u碱基;

规则9:sirnasense链第一位为g/c碱基,第10位为a/u碱基,第13到19位碱基中包括3个以上a/u碱基,第19位为a/u碱基。

5.根据权利要求2所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s103中所述设置sirna设计规则权重值包括:给每一个设计规则设置合理的权重取值范围,然后将每个规则的权重遍历组合,最终得到每个规则的权重值。

6.根据权利要求2所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s104中计算得到sirna设计规则得分矩阵的步骤包括:根据sirna设计规则权重值,计算所有sirna设计规则在所有不同规则权重组合下的得分,遍历权重组合集与sirna数据,即得到sirna设计规则得分矩阵。

7.根据权利要求2所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s105确定最佳sirna设计规则权重步骤包括:计算训练集数据每一个sirna设计规则权重组合的tpr、fpr值,筛选出tpr、fpr值均大于0.9的组合,然后计算这些组合的tpr、fpr值二者之和,筛选出所得二者之和最大的组合为最佳sirna设计规则权重,并在测试集数据中进行验证。

8.根据权利要求1-7任一项所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:所述步骤s2包括以下子步骤:

s201、根据目标靶基因外显子区域核苷酸序列,获取候选sirna集合;

s202、根据sirna设计规则权重从候选sirna集合中筛选出高沉默效率sirna。

9.根据权利要求8所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:s201所述获取候选sirna集合包括:对目标靶基因外显子区域进行设定长度的核苷酸子序列的搜索,并根据基因互补规则,得出相应的sirna双链序列,作为候选sirna集合中的候选sirna。

10.根据权利要求8所述的基于网格搜索的规则权重分配sirna设计方法,其特征在于:所述s202包括:根据sirna设计规则权重对候选sirna集合中的候选sirna进行评分,按得分从高到低排序,筛选得分高者为高沉默效率sirna。


技术总结
本发明公开了一种基于网格搜索的规则权重分配siRNA设计方法,涉及生物信息学技术领域,包括以下步骤:S1、从siRNA数据中训练得到siRNA设计规则权重;S2、基于得到的siRNA设计规则权重从候选siRNA集合中筛选出高沉默效率siRNA。本发明按照不同权重来区别对待每条规则,基于不同权重的多规则设计,可以避免将所有规则按同等重要程度对待,突出其中的重要规则,可以区分出有效的siRNA和无效的siRNA,并且能定量预测候选siRNA序列的效率。

技术研发人员:万季;刘鹏;沈一鸣;徐韵婉;潘有东;王弈;宋麒
受保护的技术使用者:深圳市新合生物医疗科技有限公司
技术研发日:2021.03.08
技术公布日:2021.06.11
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1