微信扫一扫 分享朋友圈

已有 1446 人浏览分享

开启左侧

NGS测序中的Q30, raw data, PF data, clean data有什么不同?

[复制链接]
1446 1
有谁帮忙说明下illumina测序数据中的Q30, raw data, PF data, clean data分别是什么意思?

评论 1

admin  管理员  发表于 2023-5-21 16:10:30 | 显示全部楼层
1. Q30数据(Q30 data):Illumina内置软件根据统一设定的标准来评判碱基识别结果的可靠性,为每个碱基给予一个质量评分(QV)。测序质量分值用来评估碱基的错误检出率。利用边合成边测序(SBS)技术,read中的每个碱基会得到基于phred样算法1,2与最初为桑格测序实验开发的算法类似)的质量分值。

Q值定义

指定碱基的测序质量分值Q是按照如下公式定义的:

Q = -10log10(e)
其中e是预估的碱基错误检出率。

Q值高,说明错误率低。
Q值低,可能会导致不可用read的比例显著增高。还可能导致假阳性变异检出率增加,得出不正确的结论。
Q20的质量分值代表了错误率为1/100,对应的检出准确率为99%; Q30的质量分值代表了错误率为1/1000,对应的检出准确率为99.9%。

2. 原始数据(Raw data):一次测序产生的全部原始数据。理论上,它们应该是没有经过任何过滤的,无论好坏。

3. PF数据(PF data):在测序过程中,Illumina内置软件根据每个测序片段(read,通常每个片段长100个碱基)前25个碱基的质量决定该read是保留还是抛弃。如果没有达到质控标准,则该read的全部碱基都被抛弃;达到标准、保留下来的数据叫做PF data。 PF代表pass filtering。

4. 干净数据(Clean data。数据还有不干净的?):某些实验室根据其自身的判断标准,在PF data的基础上,进一步删除质量不好的reads后得到的数据。常见的删除动作有:去接头、去N含量高的reads、去质量评分低的reads或碱基、去掉每个read的最后几个碱基,等等。

注意: Clean data是国内叫法;PF data是来自Illumina的概念,是广为接受的国际通行标准。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0

关注

0

粉丝

41

主题
精彩推荐
热门资讯
网友晒图
图文推荐

免责声明|手机版|小黑屋|BIOFUN.CLOUD ( 苏ICP备2022022893号-2 )

GMT+8, 2025-1-7 07:50 , Processed in 0.095181 second(s), 31 queries .

Powered by Discuz! X3.5

© 2020-2030 Biofun Team. 苏ICP备2022022893号-2