主页

Pandas的SettingWithCopyError定位到行

在使用pandas对数据表df进行操作时,由于对表进行了筛选过滤,但并没有去生成新表,容易触发pandas的SettingWithCopyError。 有人会设置warning把这个警告直接屏蔽掉,但是这个实际是个错误【ERROR】。 虽然表现和警告⚠️一样,流程能运行,但是实际上结果是错误的,因为原始表并没有发生改变(相当于只是在excel表里做了筛选,但是没有把筛选过滤掉的结果drop掉,没有形成新表)。 因此,这个警告实际是个错误,会导致最后输出的结果实际上是没被处理的! 一般来说,使用loc来索引,将值改变能避免这个问题 df.loc[:, "col"] = "xxx" 然而,SettingWithCopyError并不会告诉你发生问题的位置,当代码又臭又长之后,定...

阅读更多

NCCL 肿瘤生信室间质评

注:此篇文章介绍2024年卫健委肿瘤生信室间质评的分析方案,纯手工敲命令,未建立流程(意味着用相同版本的相同软件和相同命令能获得相同的结果哦)。 使用Illumina平台的数据作为例子。 检测要求: 1,检测出测序 Panel 中包含的所有体细胞突变(somatic mutation); 2,Illumina 测序文件:需对突变频率VAF≥1%且原始数据测序深度(Read depth)>500X的位 点进行回报。 叠甲: 此篇文章在2024年7月18日发布,2024年7月17日 质评已截止回报。 数据处理 先对202411以及2024NC两个样本均使用相同的方案获得bam文件,以202411为例。使用更新的软件理论可获得更准确的效果或者更佳的效率,但是环境里有啥就用啥了...

阅读更多

ChinaMAP数据库

ChinaMAP ChinaMAP(China Metabolic Analytics)中国代谢解析计划,对10588个来自不同民族的中国人样本,进行了40X的WGS。 人群区分如下: 人群分类 样本数目 西北汉族 650 北方汉族 1138 东部汉族 3537 中部汉族 1066 东南汉族 954 南方汉族 749 岭南汉族 ...

阅读更多

外显子Bed文件制作

使用gencode的人类GFF制作一个基于Mane Select转录本(Refseq版本)的外显子Bed文件。 首先下载gff文件。是的,还是使用的GRCh37。 wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_46/GRCh37_mapping/gencode.v46lift37.annotation.gff3.gz 然后把mane select和exon部分提取出来 zcat gencode.v46lift37.annotation.gff3.gz | grep "MANE_Select" | grep "ID=exon" > grch37.mane.exon.gff3 ...

阅读更多

小米摄像头储存到nas

买了一个小米云台摄像机2,在买之前问了客服是能自动将录像储存到局域网下开启了smb的nas里的。 这样可以完成我的两个需求: 1,摄像机接入米家,可随时查看; 2,至少保存1个月的录像到nas,可以追溯。 在米家中完成设置之后,发现会在选择的储存目录下创捷一个这样的结构 . └── xiaomi_camera_videos └── 78xx7x0axxxd ├── 2024052711 ├── 2024052710 ├── 2024052709 └── 2024052708 └── 58M28S_1716778708.mp4 这里的 78xx7x0axxxd 是摄像机设备的mac地址,然后在这个路径下面的日期命名目录,每个文件夹存着一个小时的录像文...

阅读更多

修改并更新singularity的sif镜像

我想修改singularity的镜像sif文件中的一个脚本,然后形成新的镜像sif。问了下GPT,可以使用下面的操作。 构建沙盒 首先,需要从现有的.sif文件中提取内容。可以使用Singularity的singularity build命令来将.sif文件转换成可修改的目录或Sandbox。 singularity build --sandbox /path/to/sandbox old.sif 修改代码 进入到沙盒中,按需修改代码及文件。 cd /path/to/sandbox vi script.sh 测试沙盒 可以通过shell进入沙盒进行测试,和进入sif是一样的 singularity shell --writable /path/to/sandbox...

阅读更多

评估WES流程SNP/INDEL检测准确率

评估一套WES分析流程检测的准确率(Benchmark),一般会与NA12878的基准结果进行对比。即先把NA12878的标准检出vcf,与自己分析流程获得的vcf,使用同样的bed先限制区域获得结果。 然后以NA12878.target.vcf的结果作为标准,与NA12878的交集即真阳性位点、NA12878中没有的检出即假阳性位点、NA12878有但自己的vcf没有的检出即假阴性位点。 那么,首先需要找到NA12878的标准检出结果vcf。 Genome in a Bottle (GIAB)项目 GIAB项目是由美帝国家标准与技术研究院(NIST)领导的,专门提供高质量的基因组参考标准。可以在其官方网站上找到NA12878的基准数据。也有用NA24149的,还有中国人群家系[...

阅读更多

适配于LSF集群的WDL配置

运行Cromwell所需的配置文件,影响了WDL流程语言的使用。这里是一个适配LSF集群的配置,同时适配了singularity容器,当在WDL的runtime模块中指定sif文件,即可调用对应的镜像,同时建立了一个环境变量用于将路径映射到容器中。 在配置文件中的backend部分进行修改 backend { default = "LSF" providers { LSF { actor-factory = "cromwell.backend.impl.sfs.config.ConfigBackendLifecycleActorFactory" config { runtime-attributes = """ ...

阅读更多