seeksv安装和使用

介绍

seeksv可用于结构变异和病毒整合检测。测试这个软件主要是因为我发现有同行在生产环境用,说不定比现在用的lumpy或manta要用得舒服。参考文献点击这里,是湖南大学与华大的出品。

软件最近一次更新是2017Jul,开源许可是Apache-2.0。

安装seeksv

软件已经预编译,下载下来解压就能用。

wget https://gh.api.99988866.xyz/https://github.com/qiukunlong/seeksv/archive/refs/tags/1.2.3.tar.gz
tar -zxvf 1.2.3.tar.gz
seeksv-1.2.3/seeksv/seeksv

使用seeksv

软件输入是bam文件,建议使用picard进行去重,会对有重复flag值的reads进行忽略。那么用和picard相同标记策略的sambamba应该也可以。这一步应该是提取出soft clip的reads。

seeksv getclip -o prefix input.bam

以上命令会输出prefix.clip.fq.gz、prefix.clip.gz、prefix.unmapped_1.fq.gz、prefix.unmapped_2.fq.gz。

接下来把prefix.clip.fq.gz重新比对到参考基因组

bwa mem ref.fa prefix.clip.fq.gz |	\
	samtools view -Sb - > prefix.clip.bam

最后使用prefix.clip.bam、input.bam和prefix.clip.gz获得SV

seeksv getsv prefix.clip.bam \
	input.bam \
	prefix.clip.gz \
	output.sv.txt \
	output.unmapped.clip.fq.gz

另外,seeksv可用配对样本对结果进行进一步过滤

seeksv somatic \
	normal.bam \
	normal.clip.gz \
	tumor.sv.txt \
	tumor.somatic.sv.txt

结果

官方文档没有结果解释,只能猜一猜。

列名有@left_chr、left_pos、left_strand、left_clip_read_NO、right_chr、right_pos、right_strand、right_clip_read_NO、microhomology_length、abnormal_readpair_NO、svtype、left_pos_depth、right_pos_depth、average_depth_of_left_pos_5end、average_depth_of_left_pos_3end、average_depth_of_right_pos_5end、average_depth_of_right_pos_3end、left_pos_clip_percentage、right_pos_clip_percentage、left_seq_cigar、right_seq_cigar、left_seq、right_seq。

前面几个是断点坐标和方向,clip_read_NO应该是断点检出soft clip reads数,abnormal_readpair_NO是异常的pair reads数,配合后面的pos_depth能算出大概的突变丰度。最后几个cigar值和sequence好理解。clip_percentage不知道是哪个值算出来的。

官方提供了一个python脚本将结果转为vcf。输入除了结果文件外,还需要一个vcf模板,我随便找了一个vcf可以运行成功,估计是要它的头信息。

输出结果关注其中的ABNORMAL_READPAIR_NO,CLIP_READ_NO,和DEPTH,用这三个值就可以计算除MAF了。另外,转换为vcf也可以用snpeff、annovar等软件进行注释。