RNA-seq(1):所需软件和数据库

憋了很久的流程。

RNA-seq即转录组测序技术,就是把mRNA,smallRNA,and NONcoding RNA等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。

RNA-seq主要是用来检测不同的时空或者不同的状态下的基因表达差异。

目前的流程相关文章有:27560171。 里面推荐的流程是Hisat2+Stringtie+Ballgown。

有人把很多的RNA-seq相关软件进行过对比28680106, 可能更好的流程是Hisat2+Htseq+DESeq2。

首先就是相关软件的安装:

Hisat2

25751142

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip

samtools

19505943

wget https://github.com/samtools/samtools/releases/download/1.8/samtools-1.8.tar.bz2
tar -jxvf samtools-1.8.tar.bz2
cd samtools-1.8
./configure
make
make install

stringtie

25690850

wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-1.3.4d.Linux_x86_64.tar.gz
tar -zxvf stringtie-1.3.4d.Linux_x86_64.tar.gz
cd stringtie-1.3.4d.Linux_x86_64
wget http://ccb.jhu.edu/software/stringtie/dl/prepDE.py

Htseq

25260700

sudo apt-get install build-essential python2.7-dev python-numpy python-matplotlib python-pysam
wget https://github.com/simon-anders/htseq/archive/release_0.10.0.tar.gz
tar -zxvf release_0.10.0.tar.gz
cd htseq-release_0.10.0
python setup.py install --user
~/.local/bin/htseq-count -h

接下来是装一堆R包

source("https://bioconductor.org/biocLite.R")
biocLite("ballgown")
biocLite("DESeq2")
biocLite("genefilter")
install.packages("dplyr")
install.packages("devtools")
library(devtools)
devtools::install_github('RSkittleBrewer', 'alyssafrazee')

如果install.packages出现502错误,是因为网络问题,可以使用别的镜像进行下载,例:

install.packages("dplyr", repos="http://cran.r-project.org/")

装的时候遇到过报错,报错信息是XML还有xtable装不上。是因为某些库没有装,解决方法:

sudo apt-get install libcurl4-gnutls-dev
sudo apt-get install libxml2-dev
sudo apt-get install libssl-dev

下面是下载数据库

hisat2官网提供了一个索引文件(用于hisat2的比对)的ftp地址: FTP 一般的,我们下载人的GRCh37和GRCh38版本。

# 38
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grch38_tran.tar.gz
tar -zxvf grch38_tran.tar.gz
# 37
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grch37_tran.tar.gz
tar -zxvf grch37_tran.tar.gz

还需要去下载注释的gtf文件。 一般是去ensembleFTP下载

# 38
wget ftp://ftp.ensembl.org/pub/release-92/gtf/homo_sapiens/Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz
gunzip Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz
# 37
wget ftp://ftp.ensembl.org/pub/grch37/update/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.chr_patch_hapl_scaff.gtf.gz
gunzip Homo_sapiens.GRCh37.87.chr_patch_hapl_scaff.gtf.gz

下载测试数据

为了节约时间,这次将使用文章27560171提供的测试数据进行。

wget ftp://ftp.ccb.jhu.edu/pub/RNAseq_protocol/chrX_data.tar.gz
tar -zxvf chrX_data.tar.gz

下一篇再开始具体流程。