CNVkit分析WGS

CNVkit一般用来分析肿瘤样本的拷贝数变异(使用配对样本或者正常样本建立参考基线的)。实际上,CNVkit也提供了全基因组胚系CNV分析的方法。

一般来说,WGS遗传样本不会做参考样本(也有会用同批次其他WGS样本作为参考的),同时分析多个样本时,运行命令如下

cnvkit.py batch \
	sample1.bam sample2.bam sample3.bam \
	-m wgs -f reference.fa \
	--annotate refFlat.txt \
	-t target.bed --target-avg-size 1000 \
	-p 16 -d output_dir \
	--segment-method hmm -n

其中,annotate参数需要输入一个注释文件,可以是refFlat格式。refFlat文件可来源于UCSC。如hg19的refFlat可在这里找到。target文件非必须,但是最好还是加入target来提高WGS分析的速度。target-avg-size是划分bin的大小,划得越小时,假阳性会越多;越大假阴性越多。WGS胚系分析建议使用hmm作为segment方法,当有对照样本时,在-n后指定,无对照样本则-n后留空。

作图请参考官方文档

散点图

cnvkit.py scatter \
	sample1.cnr -s sample1.cns \
	-i sample1 --segment-color red -g BRAF --by-bin \
	-o sample1.BRAF.pdf

热图

cnvkit.py heatmap \
	*.cns -o samples.heatmap.pdf

转换为vcf格式

cnvkit.py export vcf sample1.cns > sample1.cnvkit.vcf