大规模并行测序 测序数据的质量评估_第1页
大规模并行测序 测序数据的质量评估_第2页
大规模并行测序 测序数据的质量评估_第3页
大规模并行测序 测序数据的质量评估_第4页
大规模并行测序 测序数据的质量评估_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS07.080

CCSA40

中华人民共和国国家标准

GB/TXXXXX—XXXX

`

生物技术大规模并行测序第2部分:测序

数据的质量评估

Biotechnology—Massivelyparallelsequencing—Part2:Qualityevaluationof

sequencingdata

(ISO20397-2-2021,IDT)

(征求意见稿)

在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。

XXXX-XX-XX发布XXXX-XX-XX实施

GB/TXXXXX—XXXX

目次

前言...........................................................................III

1范围.................................................................................1

2规范性引用文件.......................................................................1

3术语和定义...........................................................................1

4原始数据.............................................................................5

4.1总体要求.........................................................................5

4.2原始数据文件.....................................................................5

4.3原始数据的质量评估...............................................................6

4.3.1总体要求.....................................................................6

4.3.2基本统计步骤.................................................................6

4.3.3质量指标.....................................................................6

4.4原始数据预处理...................................................................6

5序列校正与比对.......................................................................7

5.1总体要求.........................................................................7

5.2校正与比对文件格式...............................................................7

5.3测序校正和比对的质量控制.........................................................7

5.3.1基本校正数据.................................................................8

5.3.1.1总体要求.................................................................8

5.3.1.2单端测序片段比对数据.....................................................8

5.3.1.3配对端测序片段比对数据...................................................8

5.3.1.4子片段的长度比对.........................................................8

5.3.2质量指标.....................................................................8

5.3.3校正和比对质量评估方法.......................................................9

5.4校正后处理.......................................................................9

6变异识别.............................................................................9

6.1总体要求.........................................................................9

6.2变异识别的数据文件...............................................................9

6.3变异识别的质量指标...............................................................9

6.4假阳性变异处理..................................................................10

6.5序列注释........................................................................10

7验证................................................................................10

7.1总体要求........................................................................10

7.2质量指标的验证..................................................................10

8文件................................................................................11

附录A(资料性)特定MPS平台示例的质量指标.....................................12

附录B(资料性)按应用划分的覆盖范围和读取建议.................................13

I

GB/TXXXXX—XXXX

附录C(资料性)序列比对和校正软件.............................................14

II

GB/TXXXXX—XXXX

生物技术大规模并行测序第2部分:测序数据的质量评估

1范围

本文件明确了对质量评估和大规模并行测序数据的整体要求和建议。涵盖了原始数据生成过程、排

序对齐和变量调用。本文件还提供了MPS数据验证和文档化的一般指南。

本文件不适用于与重新组装相关的任何过程。

2规范性引用文件

本文件没有规范性引用文件。

3术语和定义

下列术语和定义适用于本文件。

3.1

适配器序列adaptersequence

适配器adapter

一种已知序列的人工寡核苷酸,可加到核酸片段的3'或5'端。

注:它提供引物位点以及其他必要的序列来对插入目的片段进行测序。

3.2

算法algorithm

完全确定的有限指令序列,通过它可以从输入变量的值计算出输出变量的值。

[来源:IEC60050-351:2013,351-42-27,修改——注释已删除]

3.3

碱基识别basecalling

将原始电信号转化为核苷酸序列的大规模并行测序计算过程。

注:碱基识别的应用和算法的性能由测序片段读取的准确性和一致性来确定。

3.4

生物信息学流程bioinformaticspipeline

连接在一起的不同程序、脚本或软件片段,其中,原始数据或一个程序的输出是下一个数据处理步

骤的输入。

示例:碱基质量剪切程序的输出可作为从头组装程序的输入。

3.5

捕获效率captureefficiency

覆盖了目标区域的所有测序序列或比对序列的百分比。

3.6

覆盖coverage

覆盖深度coveragedepth

在一次测序中,一个指定碱基位置被读取的次数。

1

GB/TXXXXX—XXXX

注:覆盖特定位置的序列数目。

3.7

覆盖广度coveragebreadth

在测序运行中,组装的基因组或目标基因组在部分。

3.8

簇密度clusterdensity

每个单元(tile)中,簇的数量

注1:簇密度适用于有扩增步骤的MPS(3.30)平台。

注2:各个测序簇来决定测序密度,在某些测序平台上,每个测序簇起源于单个分子。

注3:簇密度通常以千/mm2表示。

3.9

循环共识序列circularconsensussequencing

测序模式,插入尺寸在滚动循环放大型反应中多次测序,导致高精度。

注:在这种模式下,可以使用来自同一分子的多个通道来实现更高的单分子精度。

3.10

覆盖范围coveragerange

在全基因组范围内,测序深度的范围。

3.11

CNV

拷贝数变异copynumbervariation

拷贝数变体copynumbervariant

生物基因组中一个或多个DNA片段的拷贝数的变异。

注:拷贝数变异(CNVs)是指长度至少为1000个碱基的插入、缺失、反转和重复。

3.12

DNA

脱氧核糖核酸deoxyribonucleicacid

脱氧核糖核苷酸的聚合物,以双链(dsDNA)或单链(ssDNA)形式出现。

[来源:ISO22174:2005,3.1.2]

3.13

缺失deletion

与参考序列相比,从核酸序列中丢失一个(或多个)核苷酸碱基对。

3.14

重复水平duplicationlevel

一个文库每个序列的相同重复次数。

注:重复水平通常以不同重复程度的序列相对数目的图形来显示。

3.15

GC含量GCcontent

鸟嘌呤和胞嘧啶在一个或多个核酸序列4种碱基中所占的比率。

注:多核酸中鸟嘌呤和胞嘧啶的含量,通常以含氮碱基的摩尔分数(或百分比)表示。总的含氮碱基包括一个或多

个MPS测序片段的核苷酸碱基总数。

3.16

基因gene

位于染色体上编码特定功能产物(RNA或蛋白质)的一段核苷酸序列。

2

GB/TXXXXX—XXXX

注1:基因是遗传信息的基本单位。

注2:基因由经核处理后重新排列的非连续的核酸片段组成。

注3:基因可包括或组成基因表达元件在内的操纵子的一部分。

3.17

插入缺失标记indel

基因组DNA中插入(3.18)或缺失(3.13)的核苷酸片段。

注:缺失突变长度小于1000bp。

3.18

插入insertion

核酸序列中加入一个(或多个)核苷酸碱基对.

[来源:ISO/TS20428:2017,3.19]

3.19

测序sequencing

对核酸核酸分子的核苷酸排列顺序的测定,即测定核酸分子中(腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧

啶或尿嘧啶)的排列顺序和含量。

注:序列通常从5'端到3'端表示。

[来源:ISO/TS17822-1:2020,3.19]

3.20

序列校正sequencealignment

根据相似区域排列核酸序列。

运用某种特定的数学模型或算法,找出两个(双序列比对)或多个序列(多序列比对)之间的最大

匹配碱基或残基数,校正的结果反应算法在多大程度上提供序列之间的相似性关系及生物学特性。

注:序列比对不需要参考基因组/参考靶标核酸区域,目的是不产生集合。

3.21

原始数据rawdata

由测序仪产生的原始测序数据,未经任何软件预过滤与分析的数据。

3.22

核糖核酸ribonucleicacid

以双链或单链形式存在的核糖核苷酸聚合物。

注:信使RNA(mRNA)的核苷酸序列所携带的遗传信息能指导细胞中蛋白质的合成。

3.23

核糖核苷酸ribonucleotide

核糖为戊糖成分的核苷酸,构成RNA的基本单位。

注:核糖核苷酸分为腺嘌呤核糖核苷酸(AMP)、鸟腺嘌呤核糖核苷酸(GMP)、胞嘧啶核糖核苷酸(CMP)或尿嘧啶核糖

核苷酸(UMP)。

3.24

读取read

序列读取sequenceread

由测序仪读取核苷酸序列。

注:序列读取是对核酸碱基对序列(或碱基对概率)进行推断,对应于一个核酸片段的全部(或部分)。测序片段可以

指MPS实验中获得的所有序列。

3.25

读取类型readtype

3

GB/TXXXXX—XXXX

序列类型取决于序列读取实验设计和进行的方式。

示例:读取类型包括单端、成对端、配对端、连续长读取、循环一致。

3.26

参考序列referencesequence

一种核酸序列,作为映射序列进行比对,或作为基因和序列变异等注释的依据。

3.27

多路分解demultiplexing

多重复合过程的反向计算,将两个或多个样本混合,MPS仪器一次运行即可对所有样品进行测序。

注1:样品混合之前需标记条形码/索引。

注2:解多路复用是一种计算算法,基于条形码的原始样本,根据读取池将其分离。

3.28

映射mapping

为构建共识序列,根据参考序列映射核酸序列。

3.29

配对端matepairs

配对端测序片段matepairreads

末端读取,通过将DNA样本打断为大片段(≥2kb)而获得的长核酸序列片段的末端。

3.30

大规模并行测序massivelyparallelsequencing

大规模并行测序同时完成测序模板互补链的合成和序列数据获取的测序技术。

注:大规模并行测序技术每次运行可同时读取数百万或数十亿的模板DNA分子。

3.31

双端测序片段paired-endreads

测序从DNA片段的两端读取。

注:在配对端测序中,该仪器对两端序列同时进行测序,通常范围在200-800bps之间。

3.32

质量值qualityscore

Q值Qscore

碱基质量值phredqualityscore

衡量给定核苷酸碱基的测序质量。

注1:Q被下面的公式定义:

푄=−10lg푝···················································································(1)

式中:p是碱基识别错误率。

注2:质量值为20代表错误率为1/100,相应的准确率为99%。

注3:质量值越高,出错的概率越小。较低的质量值会导致大部分读取无效。低质量值也可以表示假阳性变异调用,

导致结论不准确。

3.33

运行run

测序仪从启动到获得原始数据的循环过程。

3.34

序列注释sequenceannotation

对DNA、RNA或蛋白质序列的结构或功能方面的信息加以解释、评价或说明的过程。

注:序列注释可视为将数据元分配给序列。

4

GB/TXXXXX—XXXX

3.35

单端读取single-endread

通过从DNA片段的一端读取到另一端而获得的序列信息。

3.36

单核苷酸变异singlenucleotidevariant

一个核酸分子中单个核苷酸的变异。

3.37

结构性变化structuralvariation

≥1000个碱基的DNA区域,包括倒置、平衡易位或基因组不平衡。

注:常见的结构变异类型包括拷贝数变异(缺失、插入、扩增、重复)、拷贝数中性缺失(杂合性缺失)、倒置、片段

重复和易位(平衡或不平衡)。

3.38

子读取subread

读取发夹适配器之间的片段。

3.39

原始测序片段剪切trimmingofrawreads

去除低质量或污染序列的过程,同时保留MPS读取的高质量部分。

3.40

变异variation

序列中一个或多个核酸碱基与预期碱基之间的差异。

3.41

变量识别variantcalling

准确识别序列数据与参考序列之间差异的过程。

3.42

零模波导zeromodewaveguide

一种光波导,引导光能进入一个与光的波长相比在所有维度上都很小的体积中。

注:聚合酶被固定在ZMW的底部,通过监测荧光的增减来测量核苷酸的掺入。

4原始数据

4.1总体要求

序列中的每个核苷酸应当匹配一个数值(碱基质量值),若适用,该数值与碱基调用过程的推断精

度相关。

4.2原始数据文件

序列读取文件的生成应使用仪器特定的软件或流程。记录监测的物理参数,如信噪比。物理参数应

该在每次测序实验中实时监测。

序列读取文件应配置为适当的文件格式,包含每个序列读取的编码,相应的标识符,以及每个核苷

酸相关基本质量值。

注:FASTQ格式(或可转换为FASTQ格式)可作为MPS数据集质量下游分析的标准格式。FASTQ作为一种跨平台交换

文件格式被广泛接受。

测序运行后生成的输出文件和相关的质量指标应在下游生物信息学流程使用适当的软件进行分析。

5

GB/TXXXXX—XXXX

4.3原始数据的质量评估

4.3.1总体要求

质量控制指标可能因MPS平台、文库制备方法和分析的预期用途而有所不同。

序列结果应由相关试验人员解释。解读应考虑统计学上的重复性,符合质量水平,达到预期目的。

使用数据处理软件,评估数据质量并加以剪切。

4.3.2基本统计步骤

应记录基本统计步骤,包括但不限于以下:

a)平台类型;

b)读取类型;

c)库准备工具包;

d)读长;

e)读取次数;

f)GC总量。

4.3.3质量指标

原始数据评估的质量控制指标可参考但不限于:

a)序列长度分布;

b)每个序列GC含量;

c)质量值;

1)每个碱基序列质量;

2)每个序列质量评分;

注1:低质量得分表明其增加假阳性变量调用。

d)每个碱基序列内容;

e)信噪比可接受性;

f)序列重复水平;

g)超出阈值水平;

h)集群密度;

i)全外显子组或全基因组测序或扩增子测序的转位/转位比;

j)适配器速率/适配器序列污染;

k)污染物(定性、定量);

l)出错率;

注2:包括同质聚合物错误:当一个核苷酸不止一次连续出现在序列中,碱基识别的错误。

m)k-mer分析;

注3:在计算基因组学中,k-mers是指核酸序列中所有可能的(长度为k)子序列。分析k-mers的代表性,以检测可

能存在重复DNA序列的潜在基因组错配。

n)N片段;

注4:不确定识别的数目/百分比。

o)重复延伸和重复测序;

p)重复测序过程中的核苷酸分布。

4.4原始数据预处理

6

GB/TXXXXX—XXXX

原始数据预处理可能包括但不限于以下计算步骤(如适用):

a)去除/剪切低质量的序列/碱基;

b)多路分解;

c)去除适配器/引物和污染物;

d)校正;

e)过滤重复测序片段;

f)剪切测序片段至特定长度;

g)CCS测序片段识别。

使用CCS数据时,需要先获得CCS测序片段并进行过滤,再进行下游分析。

5序列校正与比对

5.1总体要求

应根据实际情况选择序列校正和比对策略。

例如,RNA的拼接比对和RNA测序的非拼接比对策略。

校准/绘图软件及工具可用于校准。

校准质量可通过使用正确的校准视图和校准文件中提供的信息进行可视化评估。

用于不同应用的序列校正及比对软件在附件C中。

根据参考基因组/参考目标核酸区域进行比对,并根据实验设计合理筛选。

注1:需考虑参考基因组/参考目标核酸区域、生物体中不同品系的选择以及隐蔽、软隐蔽或未隐蔽基因组的选择等

因素。

注2:开放的测序校正和比对软件可在线使用。

5.2校正与比对文件格式

校正通常以下列文件格式保存:

a)序列校正格式(SAM)[17][24]。

注1:SAM是一种以tab分隔的文本格式,包括标头、校正两部分。每条比对线有11个必要校正信息,如比对位置和易

改变的或固定的特定信息的可变字段。

b)二进制校正格式(BAM)[15][17]。

注2:它是一种精简格式,类似于二进制的SAM格式。

c)简单的命令行比对校正(CRAM)[16]。

注3:是一种序列读取文件格式,其是基于参考序列数据,提供有损/无损压缩模式的的运行包。

d)基因组学动态图像专家组(MPEG-G)[3-8]。

注4:MPEG-G是一种基于基因组记录理念的表示格式,由单个序列片段或多对序列片段组成的数据结构,及其相关测

序和比对信息;其包含详细的校正和比对数据、单个或多个测序片段及质量值。基因组记录中能聚集和编码的

结构称为访问单位,这些结构是可单独访问和检查编码基因组信息的单元。

注5:MPEG-G在ISO/IEC23092系列中指定。

校正文件应包含位置、方向及各个测序片段校正质量等信息。

算法和工具适用于依靠各自应用程序的可操作校正文件。

5.3测序校正和比对的质量控制

7

GB/TXXXXX—XXXX

5.3.1基本校正数据

5.3.1.1总体要求

获得并记录基本校正或比对数据。

根据实验设计和阅读类型的不同,基本校正或比对数据存在差异。

5.3.1.2单端测序片段比对数据

a)总读数是指比对到参考序列或基因组的读数。

b)未比对读数是指未能比对到参考序列或基因组的读数。

c)比对读数是指与参考序列或基因组校正的测序片段。

d)特定比对读数是指与参考序列或基因组一次精确校正的读数。

注1:比对的特异性试具体情况而定。基于一组参数特异性比对读取可以使用另一组比对参数进行多靶标读取。

e)多靶标比对读取是指校正的读数>1时的参考序列或基因组。

注2:多靶标取决于比对环境。

5.3.1.3配对端测序片段比对数据

a)配对总数是指比对到参考序列或基因组的配对端读数。

b)配对比对是指配对双方被比对的配对读数。

c)部分比对配对是指配对中只有一个配对被比对的配对读数。

d)未比对配对是指未能比对到参考序列或基因组的配对数。

e)不正确的配对比对是指一对配对的读取数,其中一个配子比对方向错误。

注1:也被称为不平衡比对

f)正确比对的配对是指配对读长的总数,其中两个配子均以预期方向比对。

注2:也被称为平衡比对

5.3.1.4子片段的长度比对

子片段到目标参考序列的比对长度不包括适配器序列。

5.3.2质量指标

以下质量控制参数适用于不同应用中:

a)校正率;

注1:低质量比对可能由非特异性扩增、非靶标DNA污染或其他原因导致。

b)片段长度,或待测序的DNA/RNA的长度;

c)配对端测序片段插入尺寸的数据是指适配器之间测序的DNA/RNA的长度;

注2:插入尺寸分布的峰值用于质量评估。

d)仅基于扩增的测序的重复水平;

e)对预期目的的范围包括覆盖深度、广度和范围;

注3:附件B提供了不同应用的建议覆盖范围清单。

f)AT/GC偏差;

注4:可通过GC含量与测序深度/覆盖范围的百分比来评估。

g)比对质量值;

h)捕捉效率;

注5:捕捉效率是外显子组测序或其他基于目标捕获测序最重要的质量控制参数。

8

GB/TXXXXX—XXXX

i)平均深度或中位深度,基因组在该深度测序所覆盖的百分比;

j)不相同组装对的数量;

k)高质量读长校正;

l)不匹配率;

m)一致性和准确性;

注6:一致性和准确性是基于多个测序读长及子读长同时与参考序列进行比对。

n)循环一致性和准确性;

注7:循环一致性和准确性是基于围绕单个环状模板分子的多个测序传递,常被用于CCS中。

o)子读长准确性;

注8:碱基识别的比对后准确性。

5.3.3校正和比对质量评估方法

采用基于评分的方式来评估比对质量。

注:评分矩阵的选择取决于具体应用。

5.4校正后处理

校正后处理包括但不限于:

a)围绕缺失突变的局部重新排列或计算每个碱基基础校正率;

b)去除重复;

c)重新校准碱基质量值;

d)根据碱基质量剪切后的平均读数长度。

6变异识别

6.1总体要求

6.1.1序列变异主要有四种类型(SNV、插入缺失、CNV和SVs),为能灵敏且特异性识别,对不同

类型的序列变异应采用不同的计算方法。

6.1.2软件工具包的范围及所需的验证类型取决于分析设计.

6.2变异识别的数据文件

6.2.1变异识别应使用适当的规范进行注释。说明书应包含元信息、标题行和数据线,每条数据线包

含基因位置信息和每个位置上样品的基因型信息。

示例1:被识别变异使用变异识别格式(VCF)进行注释[31]。

示例2:存在说明和存储变异识别的替代规范:

a)基因组的VCF条例;

b)序列本体基因组变异格式1.10版;

c)人类基因组变异学会,人类基因组变异学会(HGVS)简易版15.11;

d)全球基因组学和健康联盟(GA4GH)文件格式;

6.2.2变异文件应包括所使用的规范和版本。

6.2.3变异识别者应在目标区域内与本地信息同时输出、说明,变异,未识别。

6.3变异识别的质量指标

9

GB/TXXXXX—XXXX

质量控制指标包括但不限于(如适用):

a)变异位置的读取覆盖深度阈值;

b)变异质量值;

c)链偏向性;

d)等位基因读取百分比;

e)与变异识别的准确性和灵敏度有关的额外具体指标,包括但不限于:

1)变异总数;

2)假阳性数量;

3)假阴性数量;

4)等位基因和基因型错配数;

5)变异/纯杂合(het/hom)比率;

f)样品间污染分析。

6.4假阳性变异处理

假阳性变异应根据几个序列比对和变异识别相关的质量控制指标从原始变异文件中标记或过滤。

6.5序列注释

可对变异进行注释,以确定其生物学意义,并实现功能优化和下游解释。

7验证

7.1总体要求

7.1.1提供基于MPS检测的实验室应进行“内部”生物信息学流程验证。

7.1.2在验证过程中确定试验的性能要求,同时每检测一个样品需监测试验的性能。

7.1.3在验证过程中应评估特定的质量控制和质量保证参数,确定最佳性能。

7.1.4每个实验室应定义监测所有质量指标的标准和手段,以确保最佳分析性能。

部分平台推荐的质量指标及具体值见附件A。

7.1.5实验室应列举具体措施,以确保在生物信息学流程中生成的每个数据文件的完整性,并对未经

授权或非故意更改的数据文件提供警报或禁止使用。

7.1.6当对生物信息学流程中的任何进行重大更改时,均需进行补充验证。

7.2质量指标的验证

7.2.1分析验证应在分析目的明确并形成文件的基础上进行。测量目的应明确且有证明文件。

7.2.2实验室应在验证过程中为试验建立可接受的原始碱基识别质量评分阈值。

7.2.3建立去除低质量碱基的预处理方法,降低假阳性发生率。

7.2.4验证过程中应确定试验所包含的基因组中GC偏倚程度。

7.2.5应在验证计划中确定比对质量参数,并应证明该试验仅对比对所指向的区域进行评估。若适用,

应制定步骤将测序片段过滤至非目标区域。

7.2.6应定义覆盖范围,使其在利益范围内达到足够的灵敏度和特异性。

7.2.7根据测序目的,每个实验室应在标准试验条件下,建立特定区域覆盖特征的最低标准。对于同

质性样本,需确认序列;可接受较低深度。在一个区域的不同调用过程中,或1%的混合样本中的稀有

序列,均需进行深度测序。

10

GB/TXXXXX—XXXX

7.2.8在验证阶段应确定目标区域所需的覆盖水平(覆盖范围)。不同应用的推荐范围载于附件B。

7.2.9应为每次试验建立最大重复率的可接受参数。

7.2.10建立分析流水线过滤重复测序片段,以增加可用测序数据的数量,防止等位基因发生偏倚。

7.2.11各实验室应保证对链偏置的限值,并制定可替换试验时的具体标准。

7.2.12质量指标可参考相关标准进行验证,这些标准具有良好特性,具有可靠的参考序列,以保证校

正及变异识别的准确性。

7.2.13推荐采用Sanger测序验证重要的结合区域。

8文件

8.1实验室应记录所有MPS结果分析、解释和报告的算法、软件和数据库。在整个生物信息学流程中,

每种版本都应被记录下来,并对每个结果进行追溯。

8.2实验室应记录任何与默认配置不同的定制,或应说明哪些参数是定制的。

8.3若适用,应确定参考序列、版本号和详细信息。

8.4实验室应记录最佳性能的质量控制参数。

示例:在主要步骤中,实验室将确定可接受的标准,如通过仪器指定质量过滤器的测序片段。

8.5实验室应记录将一个大的变量数据集缩减为候选基因和/或变量列表的生物信息学过程。

8.6应将符合规定要求的证据形成文件。

11

GB/TXXXXX—XXXX

AA

附录A

(资料性)

特定MPS平台示例的质量指标

核酸测序常用MPS平台如下:用于质量评估的指标如表A.1所示。

注:以全人类基因组序列为例,为每个质量指标提供特定的值。

表A.1特定MPS的质量指标

原始文件的格质量分数复制适配器

平台名称读长GC含量集群密度

式(H/L)率速率

illumina®a

fast.gz50bp-200bp>Q3039%-42%<10%5000000000<3%

HiSeq4000

ThermoFisherProtonTMbDAG50bp-200bp>Q2039%-42%NA60000000-80000000<3%

BGI/MGIc

fast.gz50bp-200bp>Q3039%-42%<5%150000000<3%

MGISEQ-2000

OxfordNanopore

FAST510kbp-300kbp>Q2039%-42%NA2560channelsf<3%

PromethIONd

PacBio8000000

Bam10kbp-100kbp>Q2039%-42%NA<3%

SequelIIeZMWSg

aillumina®是illumina.Inc生物技术公司的商标。本信息仅为方便使用本文档的用户而提供,并不构成ISO对产品

名称的认可。

bThermoFisherProtonTM是ThermoFisher科学生物技术公司的商标。本信息仅为方便使用本文档的用户而提供,

并不构成ISO对产品名称的认可。

cMGI是华大基因基因组测序公司的商标名。这些信息是为了方便用户使用文件,并不构成ISO对产品名称的认可。

dOxfordNanoporePromethION是OxfordNanoporeTechnologiesLimited的商标。本信息仅为方便使用本文档的用

户而提供,并不构成ISO对产品名称的认可.

ePacBioSequelII是太平洋生物科技公司的商标。本信息仅为方便使用本文档的用户而提供,并不构成ISO对产品名

称的认可。

fOxfordNanopore采用channels作为测量单位。

gPacificBiosciences公司采用ZMWs(零模波导)进行测量。

B

B

12

GB/TXXXXX—XXXX

附录B

(资料性)

按应用划分的覆盖范围和读取建议

表B.1列举了各种不同应用程序的覆盖和读取级别。

表B.1应用程序的覆盖范围和读取建议

MPS类型应用推荐范围推荐读取

纯合的单核苷酸变异

(SNVs)-等位基因相同的基因中单核苷酸15×a-

的变化。

杂合子SNVs-单核苷酸在等位基因彼此不

全基因组测序33×

同的基因中发生变化。

核苷酸被插入或移除的基因组突变。60×

拷贝变异(CNV)-一个基因之间拷贝数的变

1×-8×

100×(3×本地阅读覆

纯合子SNVs-

盖范围)

全外显子组测序

100×(13×本地阅读覆

杂合子SNVs-

盖范围)

缺失突变没有推荐-

有针对性的测序

目标区域的SNVs/SVs1000倍-10000倍-

SrRNA基因分型[23][24]-最低每个样品100

差异表达谱-跨多个基因的基因表达的定量

-10000000-25000000

测量,以检查不同水平

500000-1000000(针对短读取平

RNA测序-转录组测序选择性剪接-从mRNA转录产物中鉴定不同剪

-台)

接变体。2000000-3000000(针对长读取

平台)

等位基因特异性表达-转录本的表达-受特

-50000000-100000000

定等位基因的影响。

差异表达-定量测量-小RNA表达检测样本中

RNA测序-小RNA-~1000000-~2000000

不同水平的表达。

(microRNA)测序

发现新的小RNA。-~5000000-~8000000

注1:结果可以通过互补的蛋白质组学实验进行验证。

注2:建议可靠范围为人体样本。

a15×表示本地相同的覆盖率,而不是整体的平均覆盖率。此处数字代表个例。

b100×是整个外显子组测序的总体平均覆盖率。3×表示检测SNP的本地覆盖率。

c100×是整个外显子组测序的总平均覆盖率。15×表示检测SNP的本地覆盖率。此处数字代表个例。

13

GB/TXXXXX—XXXX

CC

附录C

(资料性)

序列比对和校正软件

表C.1列举了序列比对和组装软件。

表C.1序列比对和组装软件

功能描述软件/工具

比对或组装Blast、Blat、SOAP、BWA、Bowtie2等

RNA测序中剪接连接的估计Bowtie2[25],BWA[16],HISAT2[14],STAR[15]等

可视化比对视图BamView,IntergrativeGenmomicViewer

注1:软件定期更新,高度依赖/与平台、应用程序和序列数据相关。这些例子反映了2020年6月的可用性。

注2:本表所列软件的例子均为可用的合适软件。此信息是为了方便本文档的用户而提供的,并不构成ISO对这些产

品的认可。

14

GB/TXXXXX—XXXX

前言

本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起

草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由全国生化检测标准化技术委员会(SAC/TC387)提出并归口。

本文件等同采用ISO20397-2-2021,Biotechnology—Massivelyparallelsequencing—Part2:Quality

evaluationofsequencingdata。

本文件起草单位:

本文件主要起草人:

III

GB/TXXXXX—XXXX

生物技术大规模并行测序第2部分:测序数据的质量评估

1范围

本文件明确了对质量评估和大规模并行测序数据的整体要求和建议。涵盖了原始数据生成过程、排

序对齐和变量调用。本文件还提供了MPS数据验证和文档化的一般指南。

本文件不适用于与重新组装相关的任何过程。

2规范性引用文件

本文件没有规范性引用文件。

3术语和定义

下列术语和定义适用于本文件。

3.1

适配器序列adaptersequence

适配器adapter

一种已知序列的人工寡核苷酸,可加到核酸片段的3'或5'端。

注:它提供引物位点以及其他必要的序列来对插入目的片段进行测序。

3.2

算法algorithm

完全确定的有限指令序列,通过它可以从输入变量的值计算出输出变量的值。

[来源:IEC60050-351:2013,351-42-27,修改——注释已删除]

3.3

碱基识别basecalling

将原始电信号转化为核苷酸序列的大规模并行测序计算过程。

注:碱基识别的应用和算法的性能由测序片段读取的准确性和一致性来确定。

3.4

生物信息学流程bioinformaticspipeline

连接在一起的不同程序、脚本或软件片段,其中,原始数据或一个程序的输出是下一个数据处理步

骤的输入。

示例:碱基质量剪切程序的输出可作为从头组装程序的输入。

3.5

捕获效率captureefficiency

覆盖了目标区域的所有测序序列或比对序列的百分比。

3.6

覆盖coverage

覆盖深度coveragedepth

在一次测序中,一个指定碱基位置被读取的次数。

1

GB/TXXXXX—XXXX

注:覆盖特定位置的序列数目。

3.7

覆盖广度coveragebreadth

在测序运行中,组装的基因组或目标基因组在部分。

3.8

簇密度clusterdensity

每个单元(tile)中,簇的数量

注1:簇密度适用于有扩增步骤的MPS(3.30)平台。

注2:各个测序簇来决定测序密度,在某些测序平台上,每个测序簇起源于单个分子。

注3:簇密度通常以千/mm2表示。

3.9

循环共识序列circularconsensussequencing

测序模式,插入尺寸在滚动循环放大型反应中多次测序,导致高精度。

注:在这种模式下,可以使用来自同一分子的多个通道来实现更高的单分子精度。

3.10

覆盖范围coveragerange

在全基因组范围内,测序深度的范围。

3.11

CNV

拷贝数变异copynumbervariation

拷贝数变体copynumbervariant

生物基因组中一个或多个DNA片段的拷贝数的变异。

注:拷贝数变异(CNVs)是指长度至少为1000个碱基的插入、缺失、反转和重复。

3.12

DNA

脱氧核糖核酸deoxyribonucleicacid

脱氧核糖核苷酸的聚合物,以双链(dsDNA)或单链(ssDNA)形式出现。

[来源:ISO22174:2005,3.1.2]

3.13

缺失deletion

与参考序列相比,从核酸序列中丢失一个(或多个)核苷酸碱基对。

3.14

重复水平duplicationlevel

一个文库每个序列的相同重复次数。

注:重复水平通常以不同重复程度的序列相对数目的图形来显示。

3.15

GC含量GCcontent

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论