seeksv安装和使用
介绍
seeksv可用于结构变异和病毒整合检测。测试这个软件主要是因为我发现有同行在生产环境用,说不定比现在用的lumpy或manta要用得舒服。参考文献点击这里,是湖南大学与华大的出品。
软件最近一次更新是2017Jul,开源许可是Apache-2.0。
安装seeksv
软件已经预编译,下载下来解压就能用。
wget https://gh.api.99988866.xyz/https://github.com/qiukunlong/seeksv/archive/refs/tags/1.2.3.tar.gz
tar -zxvf 1.2.3.tar.gz
seeksv-1.2.3/seeksv/seeksv
使用seeksv
软件输入是bam文件,建议使用picard进行去重,会对有重复flag值的reads进行忽略。那么用和picard相同标记策略的sambamba应该也可以。这一步应该是提取出soft clip的reads。
seeksv getclip -o prefix input.bam
以上命令会输出prefix.clip.fq.gz、prefix.clip.gz、prefix.unmapped_1.fq.gz、prefix.unmapped_2.fq.gz。
接下来把prefix.clip.fq.gz重新比对到参考基因组
bwa mem ref.fa prefix.clip.fq.gz | \
samtools view -Sb - > prefix.clip.bam
最后使用prefix.clip.bam、input.bam和prefix.clip.gz获得SV
seeksv getsv prefix.clip.bam \
input.bam \
prefix.clip.gz \
output.sv.txt \
output.unmapped.clip.fq.gz
另外,seeksv可用配对样本对结果进行进一步过滤
seeksv somatic \
normal.bam \
normal.clip.gz \
tumor.sv.txt \
tumor.somatic.sv.txt
结果
官方文档没有结果解释,只能猜一猜。
列名有@left_chr、left_pos、left_strand、left_clip_read_NO、right_chr、right_pos、right_strand、right_clip_read_NO、microhomology_length、abnormal_readpair_NO、svtype、left_pos_depth、right_pos_depth、average_depth_of_left_pos_5end、average_depth_of_left_pos_3end、average_depth_of_right_pos_5end、average_depth_of_right_pos_3end、left_pos_clip_percentage、right_pos_clip_percentage、left_seq_cigar、right_seq_cigar、left_seq、right_seq。
前面几个是断点坐标和方向,clip_read_NO应该是断点检出soft clip reads数,abnormal_readpair_NO是异常的pair reads数,配合后面的pos_depth能算出大概的突变丰度。最后几个cigar值和sequence好理解。clip_percentage不知道是哪个值算出来的。
官方提供了一个python脚本将结果转为vcf。输入除了结果文件外,还需要一个vcf模板,我随便找了一个vcf可以运行成功,估计是要它的头信息。
输出结果关注其中的ABNORMAL_READPAIR_NO,CLIP_READ_NO,和DEPTH,用这三个值就可以计算除MAF了。另外,转换为vcf也可以用snpeff、annovar等软件进行注释。