去除人源

需要去除人源,那么第一步首先就得比对到人源参考基因组上,然后再提取未比对成功的reads。

比对

这里使用bowtie2作为比对工具,将数据比对到hg38基因组。

bowtie2 -p 8 \
	-x hg38 \
	-1 cleandata/SRR10903401_1.clean.fastq.gz \
	-2 cleandata/SRR10903401_2.clean.fastq.gz \
	-S bam/SRR10903401.sam

比对完成后,排序和转换为bam

samtools view -bSh bam/SRR10903401.sam > bam/SRR10903401.bam
samtools sort -@ 8 bam/SRR10903401.bam -o bam/SRR10903401.sorted.bam
samtools index bam/SRR10903401.sorted.bam

去除重复(可选)

此步是可选的。因为进行mNGS时,与其他类型项目以突变丰度作为结果不同,一般会以实际检出reads数来作为检测结果。如果进行去重,有可能会造成假阴性的结果,此步可选。

samtools markdup -r -S bam/SRR10903401.sorted.bam \
	bam/SRR10903401.rmdups.bam

去除人源

将比对后的结果进行过滤并重新转换为fastq。

samtools view -b -f 12 -F 256 \
	bam/SRR10903401.sorted.bam \
	> bam/SRR10903401.unmapped.bam

然后再按reads name进行一次排序。

samtools sort -n bam/SRR10903401.unmapped.bam \
	-O BAM \
	-o bam/SRR10903401.unmapped.sort.bam

然后再转换为fastq。

samtools fastq \
	-@ 8 \
	bam/SRR10903401.unmapped.sort.bam \
	-1 removeHuman/SRR10903401_1.fastq.gz \
	-2 removeHuman/SRR10903401_2.fastq.gz \
	-n