再整理一次测序数据去重流程

#default

二代测序PCR过程中会产生duplications,为了下游分析的正确,一般需要进行去重操作。最常用的去重工具是picard MarkDuplicates。picard MarkDuplicates默认计算比对后的Reads,当存在Start与End以及序列一致的情况时,再计算这些reads的比对质量值之和,取其中最大的作为模板,其他作为duplications并在flag值中加上1024进行标记。

参考xGen Prism DNA Library Prep Kit

以下包括常规的MarkDuplicates去重流程、有UMI下的MarkDuplicates去重流程,以及单端和双端的fgbio去重流程。

无UMI

使用组织作为样本检测时,很少会加入UMI序列,在比对后,使用MarkDuplicates进行去重。 gatk4已集成picard所有功能,所以使用gatk4的MarkDuplicates进行去重。默认是仅标记重复,不去除重复。

去重

gatk MarkDuplicates \
	-I sample.bam -O sample.marked.bam -M sample.dups.txt

也可以使用速度更快的sambamba,去重策略与MarkDuplicates一致。

sambamba markdup -t 8 -p sample.bam sample.marked.bam

有UMI

首先要提取UMI序列,然后再各种方式去重。

提取UMI

先把fastq转为ubam。

gatk FastqToSam \
	-F1 sample_1.fq.gz \
	-F2 sample_2.fq.gz \
	-O sample.ubam \
	-SM sample \
	-PL illumina \
	-PU Unit \
	-RG MarkDups

再使用fgbio提取UMI序列。如4bp UMI,一般会跳过UMI后的2bp碱基。

java -jar fgbio.jar ExtractUmisFromBam \
	-i sample.ubam \
	-o sample.umi.ubam \
	-r 4M2S+T 4M2S+T -t ZA ZB -s RX

进行比对。

samtools fastq sample.umi.ubam \
	| bwa mem -t 8 -p -R "@RG\tPL:illumina\tSM:sample\tPU:unit\tID:MarkDups" \
	ref.fa /dev/stdin \
	| samtools view -bSh - > sample.umi.bam

把提取UMI后未比对的ubam文件与比对后的bam文件合并,即把ubam中的UMI tag加入到bam中。

gatk MergeBamAlignment \
	-R ref.fa \
	-ALIGNED sample.umi.bam \
	-UNMAPPED sample.umi.ubam \
	-O sample.bam \
	--ALIGNER_PROPER_PAIR_FLAGS true \
	--ATTRIBUTES_TO_RETAIN XS \
	-MAX_GAPS -1 -ORIENTATIONS FR \
	--VALIDATION_STRINGENCY SILENT

去重

使用MarkDuplicates进行去重。记得加上--BARCODE_TAG RX。进行此步已经能去重,但是由于MarkDuplicates原理是保留最高MQ值的reads(默认参数),并不能很好的将测序错误合并为一致性reads。对于测序错误较多的数据,可选用下面的其他流程而不是使用MarkDuplicates。

gatk MarkDuplicates \
	-I sample.bam \
	-O sample.marked.bam \
	-M sample.dups.txt \
	--BARCODE_TAG RX

有UMI 续

UMI校对

同样进行了前面的提取UMI序列的步骤后,如果有确切的UMI序列信息,可以进行这一步。对于长UMI,mismatches(-m)可以设大一点,而短UMI则设小一点。把已知的UMI序列写入Umis.txt,一行一个。

java -jar fgbio.jar CorrectUmis \
	-i sample.bam \
	-o sample.fixUMI.bam \
	-m 1 -d 1 \
	-M sample.metrics.txt \
	-r reject.bam \
	-U Umis.txt -t RX

分组

对提取UMI后的sample.bam或校正后的sample.fixUMI.bam进行分组。其中-m是质量值,-e是允许修改的UMI之间允许修改的值。

对于单端UMI数据

java -jar fgbio.jar GroupReadsByUmi \
	-s Adjacency -i sample.bam -o sample.group.bam \
	-m 15 -e 0

对于双端UMI数据

java -jar fgbio.jar GroupReadsByUmi \
	-s Paired -i sample.bam -o sample.group.bam \
	-m 15 -e 0

获得一致性序列

这里把获得一致性序列中的-M设置为1,在后续的filter中还可以进行调整,比较灵活,但是在这步会牺牲计算速度。

对于单端UMI数据

java -jar fgbio.jar CallMolecularConsensusReads \
	-i sample.group.bam -o sample.con.ubam \
	-1 45 -2 30 -R MarkDups -M 1 -m 15

对于双端UMI数据

java -jar fgbio.jar CallDuplexConsensusReads \
	-i sample.group.bam -o sample.con.ubam \
	-1 45 -2 30 -R MarkDups -M 1 -m 15

再次比对

再次比对并合并,将信息加入到比对后数据中,merge步骤会默认将reads顺序调整为croodinate,所以不用再排序。

samtools fastq sample.con.ubam \
	| bwa mem -t 8 -p -R "@RG\tPL:illumina\tSM:sample\tPU:unit\tID:MarkDups" \
	ref.fa /dev/stdin \
	| gatk MergeBamAlignment \
	-R ref.fa \
	-ALIGNED /dev/stdin \
	-UNMAPPED sample.con.ubam \
	-O sample.con.merge.bam \
	--ALIGNER_PROPER_PAIR_FLAGS true \
	--ATTRIBUTES_TO_RETAIN XS \
	-MAX_GAPS -1 -ORIENTATIONS FR \
	--VALIDATION_STRINGENCY SILENT

过滤

对合并后的数据进行过滤

java -jar fgbio.jar FilterConsensusReads \
	-i sample.con.merge.bam \
	-o sample.con.merge.filter.bam \
	-r ref.fa -R true -M 3 -E 0.05 -N 4 -e 0.1 -n 0.1

Clip

将重合区域进行clip,避免多次计算

java -jar fgbio.jar ClipBam \
	-i sample.con.merge.filter.bam -o sample.con.merge.filter.clip.bam \
	-r ref.fa --clip-overlapping-reads true