主页

pipenv环境打包python程序

用pyinstaller打包python脚本后发现巨大,然后查了下可以用pipenv重新建立环境后再打包。 首先是安装pipenv pip install --user pipenv 安装完成后,在项目路径下,使用pipenv建立一个虚拟环境,安装pyinstaller pipenv shell 这时会在目录下生成Pipfile及Pipfile.lock文件 然后再安装pyinstaller及自编脚本的其他依赖包 pip install pyinstaller pip install pandas pip install openpyxl pip install pysimplegui 最后在这个环境对脚本进行打包 pyinstaller -F -w test.py

阅读更多

delly安装和使用

介绍 delly 是一款结构变异 (SV) 预测软件,可以单个碱基的分辨率检测基因分型和可视化缺失、串联重复、倒位和易位等结构变异。它使用双端reads、split reads和reads深度来检测结构变异。下游可使用sansa进行注释。 软件当前最新版本是1.0.3,开源许可是BSD3。 安装delly 软件已经预编译,下载下来就能用,同时还提供了一个singluarity的镜像。 wget https://github.com/dellytools/delly/releases/download/v1.0.3/delly_v1.0.3_linux_x86_64bit chmod +x delly_v1.0.3_linux_x86_64bit ln -s delly_v1.0...

阅读更多

家庭网络拓扑

规划一下后面装修的家庭网络拓扑,然后根据拓扑图看看怎么布线。 需求 每个房间应该至少有1个RJ45网口面板,三个房间共3个面板。客厅的电视墙位于中心地带,考虑把NAS、无线路由都放电视柜上,加上电视(用网线速度比较快)则需要3个RJ45,再加一个无线路由来mesh,这样共计3个路由信号应该完全覆盖了。 这个需求刚好一个8孔的交换机够用,万兆网还是有点遥远,因此这里考虑采用2.5G的,性价比高。 暂时不考虑多条宽带聚合,搞一个千兆的足够了。这样就是1G的外网和2.5G的内网。主路由中可以引入一个旁路由来控制部分设备的魔法上网,这样出问题也不至于影响局域网内的所有设备。 拓扑图 主路由也用带无线的(现在仅有线的家用路由还真少),弄一个软路由做旁路由,但旁路由和设备最好接在同一个交...

阅读更多

挑选一批SNP位点用于分析污染

在实验流程中,由于气溶胶、或者实验操作不当等,可能会造成样本间存在污染,在设计的Panel中,加入一批人群频率为0.5左右的SNP位点,这种位点的检出丰度在理想状态下是0,50%,100%。如果检出的值偏差较大,则提示可能存在污染。 因此,在设计时,应考虑的是不能选择高GC区域,同时要避开容易发生CNV(或LOH)的区域。在大Panel中,应考虑挑选位点的均匀分布。 首先是考虑中国人群频率的获得,1000G的CHB比较旧,近期的研究有女娲基因组,共纳入2999个中国人的全基因组数据。目前只提供hg38数据下载(并且还下不了)。 另外还有WBBC(施一公当校长的那个西湖大学),共纳入14726个样本。目前提供了hg19和hg38两个版本的数据下载。因此这里采用WBBC的hg19数据...

阅读更多

VEP安装和使用

VEP是ensembl推出的一款注释软件,VEP基于Apache-2.0许可,可以商用。与annovar和snpeff相比,对国内用户来说,VEP的安装和使用都更加复杂。但由于目前很多软件,如maftools、autoPVS1、CharGer等均基于VEP的注释结果,因此很有必要装上。 VEP的安装 最简单的安装方法是使用docker。目前最新版本是106。 docker docker pull ensemblorg/ensembl-vep:release_106.1 但是在集群中,使用docker或singluarity要导入数据库,为了便于使用,采取逐步安装的方式。 VEP的安装需要gcc、g++和make;Perl≥5.10;需要安装 Archive::Zip和DBI。...

阅读更多

WDL流程中导入文件夹

在集群中使用WDL流程语言,会通过singularity镜像导入环境。但是,一些巨大的数据库不可能封装进镜像中。之前在使用annovar等注释软件时,我都是不打包为镜像而是在各个节点中都安装上软件的,然后通过在WDL中写入数据库的路径来达到对应效果。 类似的task如下: task annovar { input { File vcf } String humandb = "/path/to/humandb" command <<< annovar ~{vcf} ~{humandb} >>> output { File xxx = "xxx" } } 其实可以把整个数据库文件夹使用tar打包,然后通过File...

阅读更多

外显子bed

NCCL室间质评推荐使用的外显子bed是UCSC的hg19外显子bed,而推荐使用的TMB计算区间则是CCDS的交集。下面介绍怎么获得这两个bed。 使用UCSC Table Browser,assembly选择GRCh37/hg19,track选择NCBI RefSeq,output format选择BED,然后选择get output,再在下一个页面中选择Exons plus 0。点击get Bed即是外显子bed。需注意的是,这个bed包含同一基因的多个转录本。 对于CDS区域(即外显子区域去除UTR3),可以在上一步选择Coding Exons,然后获得bed。 另外可以从NCBI获取CCDS的bed。 对于GRCh37,最新的版本是Hs105。 wget https...

阅读更多

建立snpEFF的线粒体注释库

目前无论是GRCh37基因组抑或是GRCh38基因组,线粒体均是使用NC_012920这一基因组(hg19版本除外), 如果直接用snpeff的GRCh37来注释,结果中并不会提示使用的转录本,因此这里对NC_012920建立一个用于snpeff注释的数据库。 首先在snpeff数据库/path/to/data目录下,新建一个MT文件夹。 需要到NCBI的对应页面中,下载fasta格式的序列文件,并命名为sequences.fa,修改文件中contig名为MT,放置于MT文件夹下。 然后按照下图,下载genebank文件。 把下载下来的文件放置于MT文件夹下, 并命名为genes.gbk。 修改genes.gbk内容 sed -i 's/NC_012920.1/NC_0...

阅读更多