一种构建单细胞测序文库的方法

文档序号:35883315发布日期:2023-10-28 16:33阅读:34来源:国知局
一种构建单细胞测序文库的方法

本发明涉及基因测序,具体涉及通过测序对同一单细胞中的rna和染色质可接近性进行配对分析的方法。


背景技术:

1、单细胞测序技术从单细胞rna-seq发展到超高通量、多模态单细胞测序。g&t-seq检测同一细胞中的单细胞基因组和转录组。sctrio-seq分析单个哺乳动物细胞的基因组、dna甲基化和转录组之间的关系,cite-seq同时测量单细胞中的表位和转录组。

2、在多模式单细胞测序技术中,sci-car、snare-seq、paire-seq、share-seq和chromium单细胞多组学atac+基因表达试剂盒可在同一单细胞中定位染色质和rna。这些方法解剖组织异质性并揭示相关的表观基因组调控元件。然而,sci-car条码结合低且碰撞率高,paired-seq在每管细胞数量过多时,其标记和逆转录反应效率均不理想。share seq需要定制测序来读取atac seq库的两个片段,增加了测序成本。snare-seq利用drop-seq系统将带有dna条码微珠的标记细胞封装在纳升液滴中,出现了细胞产量低(每次实验10k)和很高的同一barcoded标记2个以上细胞的比率(11.3%)。各单细胞多组atac+基因表达试剂盒获得了最佳的联合分析数据,但成本高,通量与snare-seq相似。

3、在基于液滴的单细胞测序(dsc-seq)方法中,当加载到同一液滴中时,两个细胞将获得相同的条码,称为doublet,这会影响单细胞数据分析。与它产生的液滴相比,dsc-seq加载的细胞数量要少得多,以避免doublet。例如,10x genomics chromium平台可产生约100k个含有条形码微珠和条形码试剂的液滴,但只能以约10%的碰撞率回收10k个单细胞。80%以上的功能液滴从未接收到单个细胞,浪费大部分试剂,并导致其大规模研究的高昂成本。

4、因此,本技术提出了一种超高通量多模式单细胞技术,该技术并行测量同一细胞中的基因表达和染色质可接近性,称为(parallel-seq)。


技术实现思路

1、本发明提供了一种单细胞超高通量双组学技术(单细胞组合流体标记(scifi)),可以同时测量同一细胞的基因表达和染色质可接近性。与以往的多模式单细胞分析方法相比,parallel-seq仅通过一轮连接反应和两轮扩增反应进行四轮条码索引,parallel-split-seq仅通过两轮连接反应和一轮扩增反应进行四轮条码索引,实现了在同一单细胞中对开放染色质和基因表达进行联合分析,可以对调节基因表达的顺式调节元件进行反卷积。用几个人类和小鼠细胞系对parallel-seq及parallel-split-seq进行了基准测试,并将其应用于人类肺癌样本的原代细胞。结果显示,文库的数据特异性好,质量高,捕获的基因数量多。而且,有很少的doublets,碰撞率极低。本技术的构建单细胞测序文库的方法具有超标记组合空间能够以更低的成本执行大型细胞图谱项目。

2、本发明的第一方面,提供了一种构建单细胞测序文库的方法,所述的方法包括利用转座子切割开放染色质获得携带第一接头的dna片段;加入逆转录引物对mrna进行逆转录获得携带第二接头的cdna第一条链,获得在同一细胞中构建染色质dna文库和转录组文库。

3、优选的,所述的方法还包括将细胞置于载体上,利用第一载体特异性接头分别将上述获得的携带第一接头的dna片段和上述获得的cdna第一条链连接至载体上。

4、优选的,所述的方法还包括合成cdna第二条链。

5、优选的,所述的方法还包括形成液滴,裂解细胞并在液滴中进行扩增反应,优选的,形成的液滴中过载细胞。

6、优选的,所述的方法还包括纯化dna并用引物分别扩增转录组文库的cdna和染色质dna。

7、优选的,所述的方法还包括加入rna酶。

8、优选的,所述的方法还包括获得细胞,将细胞固定并透化。

9、在本发明的一个具体实施方式中,一种构建单细胞测序文库的方法,包括:

10、a)利用转座子切割开放染色质获得携带第一接头的dna片段;

11、b)加入逆转录引物对mrna进行逆转录获得携带第二接头的cdna第一条链;

12、c)将细胞置于载体上,利用第一载体特异性接头分别将步骤a)获得的携带第一接头的dna片段和步骤b)获得的cdna第一条链连接至载体上;

13、d)合成cdna的第二条链;

14、e)用引物分别扩增转录组文库的cdna和染色质dna。

15、所述的步骤a)与步骤b)可以同时进行,或者先后进行。例如可以先进行步骤a)再进行步骤b),或者先进行步骤b)再进行步骤a)。

16、优选的,先进行步骤a)再进行步骤b)。

17、优选的,包含大于10个转座子、大于100个转座子、大于1000个转座子、大于10000个转座子等等。

18、所述的转座子包含条形码序列和转座酶。

19、所述的转座酶包括但不限于tn5转座酶、mu转座酶、tn7转座酶或is5转座酶。在本发明的一个具体实施方式中,所述的转座酶为tn5转座酶。所述tn5转座酶携带序列如seqid no:1或12所示。

20、所述的条形码序列包含第一接头。进一步优选的,所述的条形码序列包含第一索引。所述的第一接头包含第一索引和转座酶结合位点。

21、所述的第一接头包含至少一个相同或不同的接头。进一步优选的,所述的第一接头包含至少4个相同或不同的接头。在本发明的一个具体实施方式中,包含至少4-96个相同或不同的接头。

22、所述的条形码序列从5′-3′依次为突出端、第一索引和转座酶结合位点。所述的突出端为与后续引物互补的序列。

23、优选的,所述的第二接头包含至少一个相同或不同的接头。进一步优选的,所述的第二接头包含至少4个相同或不同的接头。

24、所述的逆转录引物包含第二接头,所述的第二接头包含poly(t)和第一索引;优选还包含随机六聚体引物。

25、在本发明的一个具体实施方式中,所述的逆转录引物包含poly(t)和第一索引以及后续引物互补的序列。

26、在本发明的一个具体实施方式中,所述的第一接头与第二接头可以包含相同的后续引物互补的序列。

27、在本发明的一个具体实施方式中,所述的第一索引包含aacaac、accgca、agttgg、ccacgt、cgtgtt、gttctc、tgacta、tcaagg、aacggt、aagcct、acatga、actcta、agaagt、agtacc、atgcga、caatag、catcca、cctgga、cgagac、cgctca、gcgtaa、ggatcg、gtgagg、tcctta、tctgcc、ttaacc或ttagtg中的至少一个、两个或三个以上的组合。

28、在本发明的一个具体实施方式中,所述的条形码序列包含seq id no:2分别与seqid no:1或12杂交后的至少一个、两个或三个以上的组合。

29、在本发明的一个具体实施方式中,所述的逆转录引物包含seq id no:3、4中的至少一个、两个或三个以上的组合。

30、所述的第一载体特异性接头包含第二索引。

31、所述的第一载体特异性接头包含umi。

32、优选的,所述的第二索引包含aagaccaa、aagctacg、aaggtcat、aatagtgg、aatgcctt、acaatagc、acaggatt、accgacct、acctagat、acgagtcc、acggacga、acgttcaa、actatctg、actccgaa、agaacaga、agacgctt、agatgcga、agccactc、agcgaagc、aggtaacg、agtacatc、agtgattc、ataagagg、atatcacg、atcgccgt、atgacgga、atggaatg、attcctac、caacgcca、caagtctg、cacacatc、caccttat、cagaacct、cagccgat、catactgt、catccacc、cattgagc、ccaagcgt、ccacgact、ccattgtc、ccgcatgt、cctactcc、cctccttg、ccttaatg、cgaatatc、cgagagca、cgcctcaa、cgcgttac、cggactct、cggttgtt、cgtagctt、cgtgccaa、ctaccgga、ctagcagt、ctcagcct、ctcttcta、ctgctggt、ctgtattc、cttcgctc、gaagagta、gacaccta、gacgtgag、gacttact、gaggacaa、gagttaag、gatcctcg、gcaatccg、gcagtgtg、gccgctaa、gcgaccat、gctaagac、gctgtagg、ggaactgg、ggacagtt、ggattgct、ggtcctaa、gtacctgt、gtcaagga、gtctgctt、gtgctcca、gtgtgacc、gttattgg、taattcgg、taccaatc、tagactcc、tagtcaac、tcacgttg、tcagaatg、tccagctt、tcctgcga、tcggttcc、tcttacct、tgacatgg、tgcctata、tggtgtgg、tgtactag中的至少一个、两个或三个以上的组合。

33、优选的,所述的第一载体特异性接头包含第二索引、umi以及与逆转录引物或者转座子序列互补的序列。

34、在本发明的一个具体实施方式中,所述的第一载体特异性接头从5′-3′依次为与逆转录引物或者转座子序列互补的序列、umi、第二索引和与载体上包含的序列互补的序列。

35、在本发明的一个具体实施方式中,第一载体特异性接头包含seq id no:6。

36、在本发明的一个具体实施方式中,所述载体上包含seq id no:5。

37、在本发明的另一个具体实施方式中,第一载体特异性接头包含seq id no:15。

38、在本发明的另一个具体实施方式中,所述载体上包含seq id no:13。

39、所述的方法还包括形成液滴,裂解细胞并在液滴中进行扩增反应的步骤,优选的,形成的液滴中过载细胞。使液滴过载,使所有功能液滴都被使用,大大提高了微流体设备的通量。在液滴中进行线性扩增避免了未扩增产物的纯化,并且可以轻松地结合crispr筛选、dna甲基化分析、蛋白质表达分析,这可能会导致单细胞跨组学测序甚至单个细胞的全组学测序。

40、优选的,所述在液滴中进行扩增反应使用的引物包含第三索引。

41、在本发明的一个具体实施方式中,在液滴中进行扩增反应使用的引物包含seq idno:8。

42、优选的,线性扩增后还包括裂解液滴的步骤。在本发明的一个具体实施方式中,所述的裂解液滴为采用破乳剂裂解。

43、优选的,所述的方法包括利用第二载体特异性接头分别将上述获得的携带第一接头的dna片段和上述获得的cdna第一条链连接至载体上。优选的,所述的第二载体特异性接头包含第三索引。

44、在本发明的一个具体实施方式中,第二载体特异性接头包含seq id no:16。

45、在本发明的一个具体实施方式中,所述载体上包含seq id no:14。

46、在本发明的一个具体实施方式中,所述的第三索引包含aacctctt、aacgtcgc、aagaatcg、aagcggtg、aaggagct、aataccgc、aatctcca、acaacttc、acacgcaa、accacagt、accgtgta、accttgcc、acgcataa、acgtatgg、actaacca、actcaggt、acttgttg、agaagtac、agagatga、agattagg、agcctggt、agctctaa、aggtgtct、agtccgtt、agttcgca、ataagctc、atccatga、atctagcg、atgcaacc、atgtgcag、attggtag、caagaaga、caatggac、cacatgct、cacggtag、cagaggtt、cagtatag、catcaagt、catgttcc、ccaacaat、ccaattac、ccagtgaa、ccgatcag、ccggtctt、cgacaacg、cgccagta、cgcggaat、cggaagga、cggtgaga、cgtaacac、cgtctatg、cgttctcg、ctactaag、ctagtgcg、ctctgaca、ctgatgaa、ctggtaca、cttacgag、gaactcaa、gaatgttg、gacgaatt、gactgcca、gagctatt、gagtcgga、gatagaac、gatggtct、gcagcact、gcattcat、gcctctgt、gcgcagat、gctcacaa、gcttgcgt、gtaatgca、gtatcgag、gtcgatct、gtgagcgt、gtggatag、gttagcca、taaggtgg、tacaccgg、tactcgtc、tagctgag、tcaacagg、tcactcac、tcatagac、tccgtaca、tcggagta、tcgtcggt、tgaacgcg、tgagtctt、tgcgactg、tggttatc、tgtgtaag、ttaggaac、ttcagtgg、ttctatcc中的至少一个、两个或三个以上的组合。

47、优选的,所述的方法还包括纯化dna的步骤。

48、所述纯化dna后进行的扩增反应中的引物包含第四索引。

49、优选的,所述的第四索引包含p3xx索引中的至少一个、两个或三个以上的组合;

50、优选的,所述的第四索引包含n7xx中的至少一个、两个或三个以上的组合;

51、优选的,所述的第四索引包含p5xx中的至少一个、两个或三个以上的组合;

52、优选的,所述的第四索引包含n5xx中的至少一个、两个或三个以上的组合。

53、

54、

55、

56、为增加第四索引(例如p3xx索引),扩增转录组所用引物为seq id no:9、10。

57、为增加第四索引(例如p5xx),扩增转录组所用引物为seq id no:20、18。

58、为增加第四索引(例如n7xx),扩增开放染色质片段所用引物为seq id no:9、11。为增加第四索引(例如n5xx),扩增开放染色质片段所用引物为seq id no:20、19。在本发明的一个具体实施方式中,所述的载体包括孔、管或平板。

59、优选的,所述的载体为酶标板例如96孔板。

60、优选的,所述的方法还包括加入rna酶。通过rnase酶切反应,从第一链cdna中去除rna,然后用随机引物进行第二链合成,避免了开放染色质片段被0.1n naoh破坏和rna-seq库被污染。

61、优选的,所述的方法还包括获得细胞,将细胞固定并透化。

62、本发明的第二方面,提供了一种多模式单细胞测序文库的构建方法,所述的构建方法包括按照上述构建单细胞测序文库的方法。

63、本发明的第三方面,提供了一种构建转录组文库的方法,所述的方法包括加入逆转录引物对mrna进行逆转录获得携带第二接头的cdna第一条链;将细胞置于载体上,利用第一载体特异性接头将获得的cdna第一条链连接至载体上;合成cdna的第二条链;纯化并用引物扩增转录组的cdna。

64、优选的,所述的逆转录引物包含第二接头,所述的第二接头包含poly(t)和第一索引;优选还包含随机六聚体引物。

65、优选的,所述的第一载体特异性接头包含第二索引。

66、优选的,所述的方法还包括形成液滴,裂解细胞并在液滴中进行扩增反应的步骤,

67、优选的,形成的液滴中过载细胞;

68、优选的,在液滴中进行扩增反应使用的引物包含第三索引。

69、优选的,所述的方法包括利用第二载体特异性接头将获得的cdna第一条链连接至载体上,优选的,所述的第二载体特异性接头包含第三索引。

70、优选的,所述纯化dna后进行的扩增反应中的引物包含第四索引。

71、优选的,所述的方法还包括加入rna酶。

72、本发明的第四方面,提供了一种构建染色质dna文库的方法,所述的方法包括利用转座子切割开放染色质获得携带第一接头的dna片段;将细胞置于载体上,利用第一载体特异性接头将获得的携带第一接头的dna片段连接至载体上;纯化dna并用引物分别扩增染色质dna。

73、优选的,所述的转座子包含条形码序列和转座酶;优选的,所述的条形码序列包含第一接头;进一步优选的,所述的条形码序列还包含第一索引。

74、优选的,所述的第一载体特异性接头包含第二索引。

75、优选的,所述的方法还包括形成液滴,裂解细胞并在液滴中进行扩增反应的步骤,

76、优选的,形成的液滴中过载细胞;

77、优选的,所述在液滴中进行扩增反应使用的引物包含第三索引。

78、优选的,所述的方法包括利用第二载体特异性接头将获得的携带第一接头的dna片段连接至载体上,优选的,所述的第二载体特异性接头包含第三索引。

79、优选的,扩增染色质dna所用的引物包含第四索引。

80、本发明的第五方面,提供了一种上述的方法获得的核酸文库。

81、本发明的第六方面,提供了一种核酸文库,所述的核酸文库包含至少一个片段dna,所述的片段dna包含至少一个索引,和至少一个独特分子标识。

82、优选的,所述的索引为一个、两个、三个、四个、五个、六个、七个、八个、九个或十个以上。

83、优选的,所述的索引包括第一索引、第二索引、第三索引和/或第四索引。

84、在本发明的一个具体实施方式中,所述的核酸文库包含至少一个从5′到3′依次为第四索引、片段dna、第一索引、第二索引、第三索引。

85、优选的,所述的独特分子标识位于第四索引与片段dna之间,片段dna与第一索引之间,第一索引与第二索引之间或者第二索引与第三索引之间。

86、本发明的第七方面,提供了一种测序方法,所述的测序方法包括构建上述的核酸文库。

87、本发明的第八方面,提供了一种上述的核酸文库的应用,所述的应用包括肿瘤靶点筛选、疾病监测或植入前胚胎诊断。

88、本发明的第九方面,提供了一种同一细胞中分析染色质可接近性和转录的方法,所述的方法包括上述构建单细胞测序文库、上述构建转录组文库、上述构建染色质dna文库的步骤。

89、本发明的第十方面,提供了一种单细胞多组学的分析方法,所述的分析方法包括构建单细胞测序文库、上述构建转录组文库、上述构建染色质dna文库,并进行测序获得染色质可接近性和/或转录组序列信息,然后进行生物信息学分析。

90、本发明的第十一方面,提供了一种试剂盒,所述的试剂盒包括构建上述核酸文库所用的试剂。

91、本发明所述的“染色质可接近性”即真核生物染色质dna在核小体或转录因子等蛋白与其结合后,对其他蛋白能否再结合的开放程度。其中,可以对其他蛋白再结合的区域即为开放染色质。

92、本发明所述的“载体”可以为任何具有固体支持物表面的物体,其表面可以经过修饰与细胞或核酸分子偶联。其可以为孔玻璃(cpg)、草酰-调孔玻璃、tentagel支持物-一种氨基聚乙二醇衍生化支持物、聚苯乙烯,poros(一种聚苯乙烯/二乙烯基苯的共聚物)或可逆交联的丙烯酰胺。很多其它固体支持物市售可得且适用于本发明。在一些实施方式中,可以为聚苯乙烯树脂或聚(甲基丙烯酸甲酯)(pmma)。也可以是金属。

93、本发明所述的“液滴”为水包油或油包水结构。不同的液滴可以具有不同的标识。优选为水性混合物与油相合并。优选的,所述的油相为表面活性剂。

94、本发明所述的“透化”是指在不造成细胞裂解以及不破坏细胞内部有机结构的情况下改变细胞壁和细胞膜的通透性,使得小分子物质和一些较大分子物质能够自由地进出细胞的技术。细胞经过透性化处理后在提高通透性的同时,整体结构保持完整,对胞内酶仍具有相当的保护作用,可保证胞内酶催化作用的充分发挥,并延长酶的使用寿命。

95、本发明所述的“过载”为超过原有承载量。所述的原有承载量为现有技术中常规的承载量。例如“液滴中过载细胞”代表超过原有液滴中承载细胞的量。现有技术中液滴承载细胞包括空载、承载单个细胞或者过载细胞。其中过载细胞代表一个液滴中承载的细胞数量超过一个。优选承载两个、三个、四个、五个、六个、七个、八个或九个以上。

96、本发明所述的“接头”与现有技术中的adapter可以互换使用,其可以用于连接片段化的dna与索引,或者连接索引与索引,或者连接片段化的dna与片段化的dna。其优选为一段长度为3-1000个碱基的核苷酸序列。

97、本发明所述的“索引”与现有技术中的index、barcode等可以互换使用。所述的索引可以为一段序列或几段序列的组合。其优选为一段长度为3-1000个碱基的核苷酸序列。

98、本发明所述的“独特分子标识”即unique molecular identifier,简称umi,其为随机设计的一段核苷酸序列,可以专一性的辨识其偶联的分子,但是并不是所有偶联的分子都具有唯一的umi,在一个具体实施方式中,其与其他索引组合形成一个唯一的分子标识。

99、本发明所述的“互补”是指通过碱基配对规则相关联的核苷酸序列。例如序列5′-agt-3′与序列5′-act-3′互补。互补性可以是部分的或完全的。部分互补性发生在当一个或多个核酸碱基根据碱基配对规则不匹配时。核酸间完全或完整互补性发生在每个核酸碱基在碱基配对规则下与另一个碱基匹配时。核酸链间的互补性程度对于核酸链间杂交的效率和强度有显著影响。

100、本发明所述的“单细胞”指单个细胞或一个细胞,其可以来自血液样本、细胞培养物,也可以来自特定组织、器官或肿瘤等等。然后再通过现有技术常规的分离方式,将其分离为单个细胞。

101、本发明所述的“doublet”或“doublets”代表两个或三个以上的细胞共用一个标识的情况,所述的标识例如索引、接头、独特分子标识等等或他们的组合。

102、本文所述的“核酸”表示dna、rna、单链、双链、或更高度聚集的杂交基序及其任意化学修饰。修饰包括但不限于,提供整合入其它电荷、极化性、氢键、静电相互作用、与核酸配体碱基或核酸配体整体的连接点和作用点的化学基团的那些修饰。这类修饰包括但不限于,肽核酸(pna)、磷酸二酯基团修饰(例如,硫代磷酸酯、甲基膦酸酯)、2′-位糖修饰、5-位嘧啶修饰、8-位嘌呤修饰、环外胺处的修饰、4-硫尿核苷的取代、5-溴或5-碘-尿嘧啶的取代、骨架修饰、甲基化、不常见的碱基配对组合如异碱基(iso bases)、异胞苷和异胍(isoguanidine)等。核酸也可包含非天然碱基,如硝基吲哚。修饰还可包括3′和5′修饰,包括但不限于用荧光团(例如,量子点)或其他部分加帽。

103、本发明所述的“和/或”包含该术语所连接的项目的所有组合,应视为各个组合已经单独地在本问列出。例如,“a和/或b”包含了“a”、“a和b”以及“b”。又例如,“a、b和/或c”包含了“a”、“b”、“c”、“a和b”、“a和c”、“b和c”以及“a和b和c”。

104、本发明所述的“包含”或“包括”为开放式写法,当用于描述蛋白质或核酸的序列时,所述蛋白质或核酸可以是由所述序列组成,或者在所述蛋白质或核酸的一端或两端可以具有额外的氨基酸或核苷酸,但仍然具有本发明所述的活性。

105、增加了细胞内第二链合成步骤,以减少交联蛋白抑制的影响,捕获更多的转录本。实现基于液滴标引的线性扩增和提高cdna捕获效率。同时,提供了cdna不同于染色质片段的pcr锚定接头,避免了atac-seq库污染rna-seq库。

106、parallel-seq使用多个细胞对液滴进行过载,以充分利用生成的液滴,并进行前后索引以区分一个液滴内的细胞,大大扩展了条形码空间。而且,条形码区域的长度明显降低,使其可以通过条形码和固定核苷酸区域读取150nt测序读取长度内的开放片段。按照设计,parallel-seq首先在转座和逆转录过程中用特定于样本的条形码对细胞进行散列,使其可以在一个实验中并行评估多个样本并具有可扩展性。parallel-seq在数据质量方面优于现有方法,通量增加(每个实验3600万个细胞),这为构建价格合理的大型单元图谱提供了强大的工具。此外,我们将parallel-seq应用于肺癌样本,并证明了其在识别特定基因可及区域的顺式调控元件方面的能力。在肿瘤样本中应用了基因表达和染色质可接近性的联合分析,并利用联合分析和新开发的分析方法来识别可能的调控元件,包括致癌基因的增强子和突变。此外,parallel-seq易于在实验中处理更多样本,并可扩展到其他组学,如dna甲基化、蛋白质表达和crispr筛选。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1