微信扫一扫 分享朋友圈

已有 2118 人浏览分享

开启左侧

简简单单讲insertion size

[复制链接]
2118 0
在进行测序的时候,需要将 DNA 打断,构建 library,这些 fragment 需要接上 adaptor,好进行扩增,illumina 的测序,可以有 single end 和 paired end 两种,分别从一端和两端进行测序。




insertion 并不是指 R1 和 R2 之间的 unknown gap,早在 NGS 之前,当我们在使用 ecoli 构建载体的时候,这个概念就已经形成,它是 adaptors 之间的序列。而 unknown gap 则称之为 inner mate:




显然我们不希望看到大量的 unknown gap,所以要制造短的 fragment,而且技术不断发展,测序长度也越来越长,于是可以测通 fragment:




这样 R1 和 R2 就有 overlap,合并一致序列,就可以得到完整的 fragment,使用短的 fragment,也就是 insertion size 比较小的 library,测序的结果 coverage 比较大,因为我们可以测通 fragment.
虽然 adaptor 不会被测序,但如果 fragment 太短,被读通了,则另一端的 adaptor 就会被测到。
如果 MiSeq 设置正确的话,读通的 adaptor 是会被切除了,这样就会获得长度不一致的 short reads,也可以使用 N 来替换 adaptor 序列,这样长度一样,但会在 5’ end 看到很多 N。如果没设置好,reads 里含有 adaptor 序列,那么必须要通过软件去除,否则后续的分析都会有问题。
所以 insertion size 小有个好处,测序的 genome coverage 高,但是在进行 de novo assembly 的时候,有一个问题,如果基因组含有比 read length 还要长的重复元件时,就无法拼接,所以得到的是很多的 contigs,它们之间的 gap 要长于 insertion size 且无法确定。这个问题是相当普遍的,即使是相对简单的 ecoli 基因组,也有一定数量的重复元件。
这个问题需要使用大的 insertion size 进行 paired end 测序来解决。

在这种 insertion size 比较大的情况下,我们可以估计 R1 和 R2 之间的距离,只要有一个片段能够被 mapped 到 unique position 的话,那么另一个片段的大致位置就可以确定。所以为了达到好的拼接效果,长 fragment 的 library 也是必须的,它有可能给出 contigs 间的相对位置。
所以理想的情况是使用 multiple insert libraries,short-insert library 可以保证获得足够的 coverage,它可以告诉你 contigs 之间的序列,但信息是 local 的,它没办法告诉你怎么拼;而 long-insert libary 则可以告诉你一些相对 global 的信息。

在上面这个测试的数据中,加了 long-insert libary 虽然在 coverage 上没多少变化,但 N50 和最大的 contig 都显著提高,4.5Mb 已经覆盖了~ 98% 的 ecoli 基因组。
本文转自Y叔公众号:YuLabSMU

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0

关注

0

粉丝

41

主题
精彩推荐
热门资讯
网友晒图
图文推荐

免责声明|手机版|小黑屋|BIOFUN.CLOUD ( 苏ICP备2022022893号-2 )

GMT+8, 2025-1-3 05:56 , Processed in 0.093647 second(s), 31 queries .

Powered by Discuz! X3.5

© 2020-2030 Biofun Team. 苏ICP备2022022893号-2