NGS测序中的Q30, raw data, PF data, clean data有什么不同？

admin · 发表于 2023-5-21 16:03:42

有谁帮忙说明下illumina测序数据中的Q30, raw data, PF data, clean data分别是什么意思？

admin · 发表于 2023-5-21 16:10:30

1. Q30数据（Q30 data）：Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性，为每个碱基给予一个质量评分（QV）。测序质量分值用来评估碱基的错误检出率。利用边合成边测序（SBS）技术，read中的每个碱基会得到基于phred样算法1,2与最初为桑格测序实验开发的算法类似）的质量分值。

Q值定义

指定碱基的测序质量分值Q是按照如下公式定义的：

Q = -10log10(e)
其中e是预估的碱基错误检出率。

Q值高，说明错误率低。
Q值低，可能会导致不可用read的比例显著增高。还可能导致假阳性变异检出率增加，得出不正确的结论。
Q20的质量分值代表了错误率为1/100，对应的检出准确率为99%； Q30的质量分值代表了错误率为1/1000，对应的检出准确率为99.9%。

2. 原始数据（Raw data）：一次测序产生的全部原始数据。理论上，它们应该是没有经过任何过滤的，无论好坏。

3. PF数据（PF data）：在测序过程中，Illumina内置软件根据每个测序片段（read，通常每个片段长100个碱基）前25个碱基的质量决定该read是保留还是抛弃。如果没有达到质控标准，则该read的全部碱基都被抛弃；达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。

4. 干净数据（Clean data。数据还有不干净的？）：某些实验室根据其自身的判断标准，在PF data的基础上，进一步删除质量不好的reads后得到的数据。常见的删除动作有：去接头、去N含量高的reads、去质量评分低的reads或碱基、去掉每个read的最后几个碱基，等等。

注意： Clean data是国内叫法；PF data是来自Illumina的概念，是广为接受的国际通行标准。

微信扫一扫分享朋友圈