主页 - 生物信息文件夹

用pyinstaller打包python脚本后发现巨大，然后查了下可以用pipenv重新建立环境后再打包。首先是安装pipenv pip install --user pipenv 安装完成后，在项目路径下，使用pipenv建立一个虚拟环境，安装pyinstaller pipenv shell 这时会在目录下生成Pipfile及Pipfile.lock文件然后再安装pyinstaller及自编脚本的其他依赖包 pip install pyinstaller pip install pandas pip install openpyxl pip install pysimplegui 最后在这个环境对脚本进行打包 pyinstaller -F -w test.py

介绍 delly 是一款结构变异 (SV) 预测软件，可以单个碱基的分辨率检测基因分型和可视化缺失、串联重复、倒位和易位等结构变异。它使用双端reads、split reads和reads深度来检测结构变异。下游可使用sansa进行注释。软件当前最新版本是1.0.3，开源许可是BSD3。安装delly 软件已经预编译，下载下来就能用，同时还提供了一个singluarity的镜像。 wget https://github.com/dellytools/delly/releases/download/v1.0.3/delly_v1.0.3_linux_x86_64bit chmod +x delly_v1.0.3_linux_x86_64bit ln -s delly_v1.0...

规划一下后面装修的家庭网络拓扑，然后根据拓扑图看看怎么布线。需求每个房间应该至少有1个RJ45网口面板，三个房间共3个面板。客厅的电视墙位于中心地带，考虑把NAS、无线路由都放电视柜上，加上电视（用网线速度比较快）则需要3个RJ45，再加一个无线路由来mesh，这样共计3个路由信号应该完全覆盖了。这个需求刚好一个8孔的交换机够用，万兆网还是有点遥远，因此这里考虑采用2.5G的，性价比高。暂时不考虑多条宽带聚合，搞一个千兆的足够了。这样就是1G的外网和2.5G的内网。主路由中可以引入一个旁路由来控制部分设备的魔法上网，这样出问题也不至于影响局域网内的所有设备。拓扑图主路由也用带无线的（现在仅有线的家用路由还真少），弄一个软路由做旁路由，但旁路由和设备最好接在同一个交...

在实验流程中，由于气溶胶、或者实验操作不当等，可能会造成样本间存在污染，在设计的Panel中，加入一批人群频率为0.5左右的SNP位点，这种位点的检出丰度在理想状态下是0，50%，100%。如果检出的值偏差较大，则提示可能存在污染。因此，在设计时，应考虑的是不能选择高GC区域，同时要避开容易发生CNV（或LOH）的区域。在大Panel中，应考虑挑选位点的均匀分布。首先是考虑中国人群频率的获得，1000G的CHB比较旧，近期的研究有女娲基因组，共纳入2999个中国人的全基因组数据。目前只提供hg38数据下载（并且还下不了）。另外还有WBBC（施一公当校长的那个西湖大学），共纳入14726个样本。目前提供了hg19和hg38两个版本的数据下载。因此这里采用WBBC的hg19数据...

VEP是ensembl推出的一款注释软件，VEP基于Apache-2.0许可，可以商用。与annovar和snpeff相比，对国内用户来说，VEP的安装和使用都更加复杂。但由于目前很多软件，如maftools、autoPVS1、CharGer等均基于VEP的注释结果，因此很有必要装上。 VEP的安装最简单的安装方法是使用docker。目前最新版本是106。 docker docker pull ensemblorg/ensembl-vep:release_106.1 但是在集群中，使用docker或singluarity要导入数据库，为了便于使用，采取逐步安装的方式。 VEP的安装需要gcc、g++和make；Perl≥5.10；需要安装 Archive::Zip和DBI。...

在集群中使用WDL流程语言，会通过singularity镜像导入环境。但是，一些巨大的数据库不可能封装进镜像中。之前在使用annovar等注释软件时，我都是不打包为镜像而是在各个节点中都安装上软件的，然后通过在WDL中写入数据库的路径来达到对应效果。类似的task如下： task annovar { input { File vcf } String humandb = "/path/to/humandb" command <<< annovar ~{vcf} ~{humandb} >>> output { File xxx = "xxx" } } 其实可以把整个数据库文件夹使用tar打包，然后通过File...

NCCL室间质评推荐使用的外显子bed是UCSC的hg19外显子bed，而推荐使用的TMB计算区间则是CCDS的交集。下面介绍怎么获得这两个bed。使用UCSC Table Browser，assembly选择GRCh37/hg19，track选择NCBI RefSeq，output format选择BED，然后选择get output，再在下一个页面中选择Exons plus 0。点击get Bed即是外显子bed。需注意的是，这个bed包含同一基因的多个转录本。对于CDS区域（即外显子区域去除UTR3），可以在上一步选择Coding Exons，然后获得bed。另外可以从NCBI获取CCDS的bed。对于GRCh37，最新的版本是Hs105。 wget https...

目前无论是GRCh37基因组抑或是GRCh38基因组，线粒体均是使用NC_012920这一基因组（hg19版本除外），如果直接用snpeff的GRCh37来注释，结果中并不会提示使用的转录本，因此这里对NC_012920建立一个用于snpeff注释的数据库。首先在snpeff数据库/path/to/data目录下，新建一个MT文件夹。需要到NCBI的对应页面中，下载fasta格式的序列文件，并命名为sequences.fa，修改文件中contig名为MT，放置于MT文件夹下。然后按照下图，下载genebank文件。把下载下来的文件放置于MT文件夹下，并命名为genes.gbk。修改genes.gbk内容 sed -i 's/NC_012920.1/NC_0...

主页

pipenv环境打包python程序

delly安装和使用

家庭网络拓扑

挑选一批SNP位点用于分析污染

VEP安装和使用

WDL流程中导入文件夹

外显子bed

建立snpEFF的线粒体注释库