去除人源
需要去除人源,那么第一步首先就得比对到人源参考基因组上,然后再提取未比对成功的reads。
比对
这里使用bowtie2作为比对工具,将数据比对到hg38基因组。
| bowtie2 -p 8 \
-x hg38 \
-1 cleandata/SRR10903401_1.clean.fastq.gz \
-2 cleandata/SRR10903401_2.clean.fastq.gz \
-S bam/SRR10903401.sam
|
比对完成后,排序和转换为bam
| samtools view -bSh bam/SRR10903401.sam > bam/SRR10903401.bam
samtools sort -@ 8 bam/SRR10903401.bam -o bam/SRR10903401.sorted.bam
samtools index bam/SRR10903401.sorted.bam
|
去除重复(可选)
此步是可选的。因为进行mNGS时,与其他类型项目以突变丰度作为结果不同,一般会以实际检出reads数来作为检测结果。如果进行去重,有可能会造成假阴性的结果,此步可选。
| samtools markdup -r -S bam/SRR10903401.sorted.bam \
bam/SRR10903401.rmdups.bam
|
去除人源
将比对后的结果进行过滤并重新转换为fastq。
| samtools view -b -f 12 -F 256 \
bam/SRR10903401.sorted.bam \
> bam/SRR10903401.unmapped.bam
|
然后再按reads name进行一次排序。
| samtools sort -n bam/SRR10903401.unmapped.bam \
-O BAM \
-o bam/SRR10903401.unmapped.sort.bam
|
然后再转换为fastq。
| samtools fastq \
-@ 8 \
bam/SRR10903401.unmapped.sort.bam \
-1 removeHuman/SRR10903401_1.fastq.gz \
-2 removeHuman/SRR10903401_2.fastq.gz \
-n
|