DNA文库构建和Illumina测序化学原理-公司动态-上海远慕生物科技有限公司手机版

DNA文库构建和Illumina测序化学原理

时间：2024-11-19 阅读：17

单细胞测序方法和原理系列：

所谓DNA文库，实际上是许多个DNA片段，在两端接上了特定的DNA接头，形成的DNA混合物。

文库有2个特点：

1. 当中这一段插入的DNA，它的序列是各种各样的。

2. 它的两头的街头序列，是人工特异加上去的，是已知的。

要构建文库，首先需要把基因组DNA用超声波打断，之后把两端用酶补平。再用Klenow酶在3’端加上一个A碱基，然后再用连接酶把接头给连上去。连好了接头的DNA混合物，我们就称为一个文库。

Illumina仪器对比。从最早的Miseq一天测三千万条read，到Hiseq一天测30亿条reads，再到Novaseq一天可以测130亿条read，通量还是有一个非常大的提升。

文库构建好之后，后续就是做桥式PCR。桥式PCR是把文库种到芯片上去然后进行扩增的这样一个过程。

1）首先要把文库加到芯片上。芯片的内表面种满两种不同类型的oligo(寡核苷酸序列)。因为文库两头的DNA序列和芯片上的引物是互补的，就可以发生互补杂交。

2）随后加入dNTP和聚合酶，聚合酶会从引物开始，延着模版合成出一条全新的DNA链来。新的这条链和原来的链是wan全互补的。

3）接下来加入NaOH碱溶液，DNA在NaOH碱溶液存在的情况下，就解链了。液流一冲，原来的模版链（没有和芯片共价连接的链）就会被冲走，和芯片共价连接的链就会被保留。

4）再往液流池中加入中性液体（中和前面加入的碱液），这时DNA链上的另外一端就会和玻璃板上的第二种引物发生互补杂交。

5）加入酶和dNTP，聚合酶就沿着第二个引物合成出一条新的链来。

6）然后再加碱，把两条链解链开，再加入新的中和液，这时候DNA链就会和新的引物杂交。再加酶，再加dNTP，又从新的引物上合成出新的链来。连续重复这一过程，DNA链的数量就会以指数方式增长。

桥式PCR完成之后，接下来需要把合成的双链变成可以测序的单链。办法是通过一个化学反应，把一个引物上的一个特定基团给切断掉，然后再用碱溶液来洗芯片。碱让DNA双链解链，那根被切断了根的DNA链就被水冲掉了，留下那根共价键连在芯片上的链。接下来加入中性溶液，再在这个中性溶液里加入测序引物，随后就可以开始正式的测序工作了。

在测序的时候加进去的主要是两个东西，一是带荧光标记的dNTP（3‘末端是被一个叠氮基堵住的），二是聚合酶。聚合酶就会选择哪个dNTP是和原来位置上的那个碱基是互补的，根据互补性原理，把这个dNTP合成到新的链上去。

因为dNTP的3‘端是被一个叠氮基团堵住的，所以它一个循环只能延长一个碱基。合成之后，用水把多余的dNTP和酶给冲掉，放到显微镜下去进行激光扫描，根据发出来的荧光判断它是哪个碱基。因为4种dNTP上面标记的荧光素都不一样，根据荧光就可以判断新合成的碱基是什么碱基。因为新合成的碱基和原来位置的碱基是互补的，就可以知道模版链的碱基是什么。

一个循环完成之后，就加入一些化学试剂，把叠氮基团和旁边标记的荧光基团切掉。切掉之后，3‘端的羟基就暴露出来，接下来加入新的dNTP和新的酶，就又延长一个碱基。之后把多余的酶和dNTP冲掉，再进行一轮显微的激光扫描，判断碱基是什么。重复这个过程，就可以把上百个甚至更多个碱基的序列读出来。

因为illumina的测序量很大，但一个样本往往用不了几亿条DNA。所以科学家就想了一个办法，在文库的接头上做了一些标记，每一个样本有一个特定的接头，每个接头里面有一段特定的序列，这段特定的序列，我们就称为Index/Barcode（特定序列标记了特定样本的来源）。

要读Index序列，先用碱把上面这跟测完‘Read 1’的序列上面的DNA链解链掉，加入中性液，再加入‘Read 2’的测序引物。Read 2的结合位点就在Index序列的旁边，接下来进行第二轮测序。一般是读6-8个碱基。读完以后就可以知道这某一个具体的一段DNA，它来自原始的哪个样本。

这是Illumina的最核心的另外一个技术。双端测序就是一根DNA链，除了从正向读一遍，还可以从DNA的负向再读一遍。这样子就把Illumina测序的有效长度加了一倍。

这个倒链的过程，是先让DNA合成，得到互补链。之后用化学试剂切断模版链根部，加入碱溶液洗掉，接下来就进行第2端的测序。原理和第1端是一样的。

最重要的是，我们可以理解，一个点经过几百个循环得到一条链几百个碱基的信息。但实际上这个芯片可以有上亿个点，也就是上亿个cluster（簇）。上亿个链同时在合成，因此每一个循环都可以读出上亿个序列，这就得到了很大的一个测序数据量。

reads越长，出错的越多，真实信号会越来越弱。因此illumiina的测序读长被限制在300bp以内。