Skip to content

去除人源

需要去除人源,那么第一步首先就得比对到人源参考基因组上,然后再提取未比对成功的reads。

比对

这里使用bowtie2作为比对工具,将数据比对到hg38基因组。

1
2
3
4
5
bowtie2 -p 8 \
    -x hg38 \
    -1 cleandata/SRR10903401_1.clean.fastq.gz \
    -2 cleandata/SRR10903401_2.clean.fastq.gz \
    -S bam/SRR10903401.sam

比对完成后,排序和转换为bam

1
2
3
samtools view -bSh bam/SRR10903401.sam > bam/SRR10903401.bam
samtools sort -@ 8 bam/SRR10903401.bam -o bam/SRR10903401.sorted.bam
samtools index bam/SRR10903401.sorted.bam

去除重复(可选)

此步是可选的。因为进行mNGS时,与其他类型项目以突变丰度作为结果不同,一般会以实际检出reads数来作为检测结果。如果进行去重,有可能会造成假阴性的结果,此步可选。

1
2
samtools markdup -r -S bam/SRR10903401.sorted.bam \
    bam/SRR10903401.rmdups.bam

去除人源

将比对后的结果进行过滤并重新转换为fastq。

1
2
3
samtools view -b -f 12 -F 256 \
    bam/SRR10903401.sorted.bam \
    > bam/SRR10903401.unmapped.bam

然后再按reads name进行一次排序。

1
2
3
samtools sort -n bam/SRR10903401.unmapped.bam \
    -O BAM \
    -o bam/SRR10903401.unmapped.sort.bam

然后再转换为fastq。

1
2
3
4
5
6
samtools fastq \
    -@ 8 \
    bam/SRR10903401.unmapped.sort.bam \
    -1 removeHuman/SRR10903401_1.fastq.gz \
    -2 removeHuman/SRR10903401_2.fastq.gz \
    -n