pipenv环境打包python程序
用pyinstaller打包python脚本后发现巨大,然后查了下可以用pipenv重新建立环境后再打包。
首先是安装pipenv
pip install --user pipenv
安装完成后,在项目路径下,使用pipenv建立一个虚拟环境,安装pyinstaller
pipenv shell
这时会在目录下生成Pipfile及Pipfile.lock文件
然后再安装pyinstaller及自编脚本的其他依赖包
pip install pyinstaller
pip install pandas
pip install openpyxl
pip install pysimplegui
最后在这个环境对脚本进行打包
pyinstaller -F -w test.py
delly安装和使用
介绍
delly 是一款结构变异 (SV) 预测软件,可以单个碱基的分辨率检测基因分型和可视化缺失、串联重复、倒位和易位等结构变异。它使用双端reads、split reads和reads深度来检测结构变异。下游可使用sansa进行注释。
软件当前最新版本是1.0.3,开源许可是BSD3。
安装delly
软件已经预编译,下载下来就能用,同时还提供了一个singluarity的镜像。
wget https://github.com/dellytools/delly/releases/download/v1.0.3/delly_v1.0.3_linux_x86_64bit
chmod +x delly_v1.0.3_linux_x86_64bit
ln -s delly_v1.0...
家庭网络拓扑
规划一下后面装修的家庭网络拓扑,然后根据拓扑图看看怎么布线。
需求
每个房间应该至少有1个RJ45网口面板,三个房间共3个面板。客厅的电视墙位于中心地带,考虑把NAS、无线路由都放电视柜上,加上电视(用网线速度比较快)则需要3个RJ45,再加一个无线路由来mesh,这样共计3个路由信号应该完全覆盖了。
这个需求刚好一个8孔的交换机够用,万兆网还是有点遥远,因此这里考虑采用2.5G的,性价比高。
暂时不考虑多条宽带聚合,搞一个千兆的足够了。这样就是1G的外网和2.5G的内网。主路由中可以引入一个旁路由来控制部分设备的魔法上网,这样出问题也不至于影响局域网内的所有设备。
拓扑图
主路由也用带无线的(现在仅有线的家用路由还真少),弄一个软路由做旁路由,但旁路由和设备最好接在同一个交...
挑选一批SNP位点用于分析污染
在实验流程中,由于气溶胶、或者实验操作不当等,可能会造成样本间存在污染,在设计的Panel中,加入一批人群频率为0.5左右的SNP位点,这种位点的检出丰度在理想状态下是0,50%,100%。如果检出的值偏差较大,则提示可能存在污染。
因此,在设计时,应考虑的是不能选择高GC区域,同时要避开容易发生CNV(或LOH)的区域。在大Panel中,应考虑挑选位点的均匀分布。
首先是考虑中国人群频率的获得,1000G的CHB比较旧,近期的研究有女娲基因组,共纳入2999个中国人的全基因组数据。目前只提供hg38数据下载(并且还下不了)。
另外还有WBBC(施一公当校长的那个西湖大学),共纳入14726个样本。目前提供了hg19和hg38两个版本的数据下载。因此这里采用WBBC的hg19数据...
VEP安装和使用
VEP是ensembl推出的一款注释软件,VEP基于Apache-2.0许可,可以商用。与annovar和snpeff相比,对国内用户来说,VEP的安装和使用都更加复杂。但由于目前很多软件,如maftools、autoPVS1、CharGer等均基于VEP的注释结果,因此很有必要装上。
VEP的安装
最简单的安装方法是使用docker。目前最新版本是106。
docker
docker pull ensemblorg/ensembl-vep:release_106.1
但是在集群中,使用docker或singluarity要导入数据库,为了便于使用,采取逐步安装的方式。
VEP的安装需要gcc、g++和make;Perl≥5.10;需要安装 Archive::Zip和DBI。...
WDL流程中导入文件夹
在集群中使用WDL流程语言,会通过singularity镜像导入环境。但是,一些巨大的数据库不可能封装进镜像中。之前在使用annovar等注释软件时,我都是不打包为镜像而是在各个节点中都安装上软件的,然后通过在WDL中写入数据库的路径来达到对应效果。
类似的task如下:
task annovar {
input {
File vcf
}
String humandb = "/path/to/humandb"
command <<<
annovar ~{vcf} ~{humandb}
>>>
output {
File xxx = "xxx"
}
}
其实可以把整个数据库文件夹使用tar打包,然后通过File...
外显子bed
NCCL室间质评推荐使用的外显子bed是UCSC的hg19外显子bed,而推荐使用的TMB计算区间则是CCDS的交集。下面介绍怎么获得这两个bed。
使用UCSC Table Browser,assembly选择GRCh37/hg19,track选择NCBI RefSeq,output format选择BED,然后选择get output,再在下一个页面中选择Exons plus 0。点击get Bed即是外显子bed。需注意的是,这个bed包含同一基因的多个转录本。
对于CDS区域(即外显子区域去除UTR3),可以在上一步选择Coding Exons,然后获得bed。
另外可以从NCBI获取CCDS的bed。
对于GRCh37,最新的版本是Hs105。
wget https...
建立snpEFF的线粒体注释库
目前无论是GRCh37基因组抑或是GRCh38基因组,线粒体均是使用NC_012920这一基因组(hg19版本除外),
如果直接用snpeff的GRCh37来注释,结果中并不会提示使用的转录本,因此这里对NC_012920建立一个用于snpeff注释的数据库。
首先在snpeff数据库/path/to/data目录下,新建一个MT文件夹。
需要到NCBI的对应页面中,下载fasta格式的序列文件,并命名为sequences.fa,修改文件中contig名为MT,放置于MT文件夹下。
然后按照下图,下载genebank文件。
把下载下来的文件放置于MT文件夹下, 并命名为genes.gbk。
修改genes.gbk内容
sed -i 's/NC_012920.1/NC_0...
共计 232 篇文章,29 页。