CNVkit分析WGS

CNVkit一般用来分析肿瘤样本的拷贝数变异（使用配对样本或者正常样本建立参考基线的）。实际上，CNVkit也提供了全基因组胚系CNV分析的方法。

一般来说，WGS遗传样本不会做参考样本（也有会用同批次其他WGS样本作为参考的），同时分析多个样本时，运行命令如下

cnvkit.py batch \
	sample1.bam sample2.bam sample3.bam \
	-m wgs -f reference.fa \
	--annotate refFlat.txt \
	-t target.bed --target-avg-size 1000 \
	-p 16 -d output_dir \
	--segment-method hmm -n

其中，annotate参数需要输入一个注释文件，可以是refFlat格式。refFlat文件可来源于UCSC。如hg19的refFlat可在这里找到。target文件非必须，但是最好还是加入target来提高WGS分析的速度。target-avg-size是划分bin的大小，划得越小时，假阳性会越多；越大假阴性越多。WGS胚系分析建议使用hmm作为segment方法，当有对照样本时，在-n后指定，无对照样本则-n后留空。

作图请参考官方文档。

散点图

cnvkit.py scatter \
	sample1.cnr -s sample1.cns \
	-i sample1 --segment-color red -g BRAF --by-bin \
	-o sample1.BRAF.pdf

热图

cnvkit.py heatmap \
	*.cns -o samples.heatmap.pdf

转换为vcf格式

cnvkit.py export vcf sample1.cns > sample1.cnvkit.vcf

上篇TMB笔记

下篇CNVnator和CNVpytor的使用