用Exomiser筛选致病基因
自从知道这款软件,工作效率提高了不少。
这是一款输入表型和下机的vcf就可以输出与表型最相关的基因的软件。目前看来效果很好。用java写的,注意系统要有java的环境。
首先例行放上软件的主页。
Exomiser
然后这里是下载地址。
Installation
windows、linux、mac版本都有,按自己的系统安装就行了。
记得还要下载它的数据库。
data
简单的操作介绍,简直是官网的典范。
manual
接下来讲一下基本操作。
首先,得到患者的临床信息,把表型信息分析出来,去获得表型的HP号。所谓的HP号,就是Human Phenotype Ontology对表型的编号。
中文的话,可以去奇恩生物的罕见病辅助诊断系统。
英文的话,就去HPO提供的phenomize...
关于注释之后怎么进行基本的筛选
因为最近很冷!不想码字,所以随便更新一点点
用annovar注释出来的文件。
我们可以放进excel里面看。
首先应该去关注一下clinvar有没有注释出致病(pathogenic)的位点。
但是!因为clinvar不是很准确,所以我们只能用来作为一个参考的标准。
第二步,筛选一下1000g_all的突变频率。一般以0.001也就是0.1%为准。
因为突变率太高的话,就说明这个突变在人群中是常见的,并不是罕见的变异,没有参考的价值。
同时,可以筛选EXac_eas的频率(表示东亚人),当然其他区域的人筛选其他的。
第三步,去除同义突变,我们要的是没有研究过的以及非同义突变。这样才有意义。
第四步,对剩下的进行与临床表型的匹配。这时候可以借助一些软件。
比如Exomiser。也...
只知道位点,怎么查询到rsid
很多时候,我们查资料,文献里只说了某基因,某位置,A>C(栗子)。那么,只知道这些信息,要怎么查询到rsid。
下面说一个方法。例如,现在已知的信息是TPMT基因,719 A>G。
要查到rsid。
第一步,上ncbi的variation-viewer。输入TPMT查询。
然后在左边下面的选择栏里,选择source database选择dbSNP,因为我们就是要rsid。Has publications 选 yes。因为我们就是看到文章所以才来找的。
然后点击edit columns,把alleles勾上。得到的结果,看alleles那一列。我们要关注的是A,G或者T,C这样的列。(因为我们知道719 A>G。所以A,G和T,C都是对的。正链和负链。)
...
GATK流程
不管啦,先放点代码上来,我真的在慢慢整理。
#!/usr/bin/bash
# 20171114
# FastQC查看质量
# 低质量数据过滤1
# -f 保留开始碱基个数,默认1;-l 保留结尾碱基个数,默认1
# -z 输出为gz
# fastx_trimmer -h -f -l -z -i test.fastq -o testQC
# 低质量数据过滤2
# -q 设置最小quality;-p 设置要保留的最少碱基百分比
# -z 输出为gz;-v 输出最终碱基个数
# fastq_quality_filter -h -q 30 -p 90 -z -i testQC -o finalQC -v
# 比对到参考基因组
# 生成sam文件
bwa index ucsc.hg1...
生信懂得简单的linux就可以啦(4)
又来更新这个系列了。
自从弄了一个VPS,我觉得我的linux技能突飞猛进。所以说一定要多上机实操!
这次说三个命令:cut/paste/join
cut
# cut顾名思义就是cut出一段,单纯的cut file是不行的,因为不知道你要cut啥,所以必须有参数。
# 常用的就三个-b(字节),-c(字符),-f(域)
cut -b 5 file # cut出file里面第5个字节
cut -c 5 file # cut出file里面第5个字
paste
# 粘贴命令,更重要的功能是用来把几个文件内容合起来
paste -d -s -file1 file2
# -d指定分隔域
paste -d \t
# -s 合并成行
# - 标准输入
join
# 可以将两个文...
肿瘤体细胞基因突变高通量测序(1)
今天开始更新一个新系列,跟着大神们做一个实际的项目。希望能跟得上哦!
事情是这样的,有一个这样的东西2017年全国肿瘤体细胞基因突变高通量测序检测生物信息学分析室间质评。然后,接下来的几天,将以里面提供的数据来,来做一系列的分析。
首先来下载数据:
百度网盘
也可以通过ftp下载
命令行操作如下:
# 登陆你的服务器
ftp 211.103.138.229
# 输入账号:NCCLBIPT
# 输入密码:nccl123456
mget xxxxxxxx
# 最后用mget获取你需要的下机数据,分别有三种平台的数据,选其一就好。
前几天的任务就是下载数据,完毕。
生信懂得简单的linux就可以啦(3)
原文再续,书接上一回!
head
# head命令很简单,就是用来查看文件的头几行的,默认是10
head a.txt
# 可以查看指定的行数,例如20行
head -20 a.txt
tail
# 与head相对应,tail是用来查看后几行的
tail a.txt
tail -20 a.txt
# tail还能查看文件的更新过程,需要参数-f
tail -f a.txt
more
# more用来一页一页看文件的内容,space(空格)为下一页,b为上一页。
more a.txt
# 限制每页行数,12行
more -12 a.txt
# 用参数-s不显示空白的行
more -s a.txt
# 查找字符串
more +/string a.txt
# 查找下...
生信懂得简单的linux就可以啦(2)
好烦啊
我必须快速思考,快速行动。
cp
# 复制文件,只有源文件较目的文件的修改时间新时,才复制文件
cp -u -v file1 file2
# 将文件file1复制成文件file2
cp file1 file2
# 将文件file1复制成file2,因为目的文件已经存在,所以指定使用强制复制的模式
cp -f file1 file2
# 将目录dir1复制成目录dir2
cp -R file1 file2
# 同时将文件file1、file2、file3与目录dir1复制到dir2
cp -R file1 file2 file3 dir1 dir2
# 复制时保留文件属性
cp -p a.txt tmp/
mkdir
# 在目录/usr/xx下建立子目录tes...
共计 247 篇文章,31 页。