一般的,做完rna-seq的比对部分,就需要找出每个基因或者转录本的counts/RPKM/FPKM值。 之前介绍过featureCounts,统计counts非常快。 这次要说的是cufflinks,用来统计RPKM和FPKM值。
首先下载cufflinks
wget http://cole-trapnell-lab.github.io/cufflinks/assets/downloads/cufflinks-2.2.1.Linux_x86_64.tar.gz
tar -zxvf cufflinks-2.2.1.Linux_x86_64.tar.gz
然后把路径加入到环境中。
由于cufflinks需要的bam文件必须是排序过的,所以在采取hisat2进行比对的流程后,必须用samtools进行排序。
用cufflinks进行统计:
cufflinks -p 8 \
-g reference.gtf \
-o output1_dir \
input1.sort.bam
然后就能得到这个样本fpkm统计文件以及组装后的gtf文件。
可以对这些gtf进行合并
cuffmerge -o merge_output_dir \
-p 8 \
-g reference.gtf \
-s reference.fa \
GTF_list.txt
会生成一个merge.gtf文件。就是合并好的转录本。
事实上,我觉得使用cufflinks主要是为了fpkm和rpkm的统计,之后的差异分析,我更倾向于用DESeq2来做。
当然,目前我更喜欢的流程还是hisat2+featureCounts+DESeq2的流程。
最后,博客的更新又会变慢了。因为要好好复习了!