首先要对原始数据进行比对。 这一步可以参阅bam文件的处理教程。
然后使用samtools,统计每条染色体的reads数。 如果之前有索引文件,就这样:
samtools idxstats in.bam | awk '{print $1" "$3}'
如果没有,就这样:
samtools view in.bam | awk '{print $3}' | uniq -c
用已知性别而且检测配置差不多的数据的XY染色体reads数比值来做个基准。 然后就可以按照这个基准来判断未知性别的数据了。