Pandas的SettingWithCopyError定位到行
在使用pandas对数据表df进行操作时,由于对表进行了筛选过滤,但并没有去生成新表,容易触发pandas的SettingWithCopyError。
有人会设置warning把这个警告直接屏蔽掉,但是这个实际是个错误【ERROR】。
虽然表现和警告⚠️一样,流程能运行,但是实际上结果是错误的,因为原始表并没有发生改变(相当于只是在excel表里做了筛选,但是没有把筛选过滤掉的结果drop掉,没有形成新表)。
因此,这个警告实际是个错误,会导致最后输出的结果实际上是没被处理的!
一般来说,使用loc来索引,将值改变能避免这个问题
df.loc[:, "col"] = "xxx"
然而,SettingWithCopyError并不会告诉你发生问题的位置,当代码又臭又长之后,定...
NCCL 肿瘤生信室间质评
注:此篇文章介绍2024年卫健委肿瘤生信室间质评的分析方案,纯手工敲命令,未建立流程(意味着用相同版本的相同软件和相同命令能获得相同的结果哦)。
使用Illumina平台的数据作为例子。
检测要求:
1,检测出测序 Panel 中包含的所有体细胞突变(somatic mutation);
2,Illumina 测序文件:需对突变频率VAF≥1%且原始数据测序深度(Read depth)>500X的位
点进行回报。
叠甲:
此篇文章在2024年7月18日发布,2024年7月17日 质评已截止回报。
数据处理
先对202411以及2024NC两个样本均使用相同的方案获得bam文件,以202411为例。使用更新的软件理论可获得更准确的效果或者更佳的效率,但是环境里有啥就用啥了...
ChinaMAP数据库
ChinaMAP
ChinaMAP(China Metabolic Analytics)中国代谢解析计划,对10588个来自不同民族的中国人样本,进行了40X的WGS。
人群区分如下:
人群分类
样本数目
西北汉族
650
北方汉族
1138
东部汉族
3537
中部汉族
1066
东南汉族
954
南方汉族
749
岭南汉族
...
外显子Bed文件制作
使用gencode的人类GFF制作一个基于Mane Select转录本(Refseq版本)的外显子Bed文件。
首先下载gff文件。是的,还是使用的GRCh37。
wget https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_46/GRCh37_mapping/gencode.v46lift37.annotation.gff3.gz
然后把mane select和exon部分提取出来
zcat gencode.v46lift37.annotation.gff3.gz | grep "MANE_Select" | grep "ID=exon" > grch37.mane.exon.gff3
...
小米摄像头储存到nas
买了一个小米云台摄像机2,在买之前问了客服是能自动将录像储存到局域网下开启了smb的nas里的。
这样可以完成我的两个需求:
1,摄像机接入米家,可随时查看;
2,至少保存1个月的录像到nas,可以追溯。
在米家中完成设置之后,发现会在选择的储存目录下创捷一个这样的结构
.
└── xiaomi_camera_videos
└── 78xx7x0axxxd
├── 2024052711
├── 2024052710
├── 2024052709
└── 2024052708
└── 58M28S_1716778708.mp4
这里的 78xx7x0axxxd 是摄像机设备的mac地址,然后在这个路径下面的日期命名目录,每个文件夹存着一个小时的录像文...
修改并更新singularity的sif镜像
我想修改singularity的镜像sif文件中的一个脚本,然后形成新的镜像sif。问了下GPT,可以使用下面的操作。
构建沙盒
首先,需要从现有的.sif文件中提取内容。可以使用Singularity的singularity build命令来将.sif文件转换成可修改的目录或Sandbox。
singularity build --sandbox /path/to/sandbox old.sif
修改代码
进入到沙盒中,按需修改代码及文件。
cd /path/to/sandbox
vi script.sh
测试沙盒
可以通过shell进入沙盒进行测试,和进入sif是一样的
singularity shell --writable /path/to/sandbox...
评估WES流程SNP/INDEL检测准确率
评估一套WES分析流程检测的准确率(Benchmark),一般会与NA12878的基准结果进行对比。即先把NA12878的标准检出vcf,与自己分析流程获得的vcf,使用同样的bed先限制区域获得结果。
然后以NA12878.target.vcf的结果作为标准,与NA12878的交集即真阳性位点、NA12878中没有的检出即假阳性位点、NA12878有但自己的vcf没有的检出即假阴性位点。
那么,首先需要找到NA12878的标准检出结果vcf。
Genome in a Bottle (GIAB)项目
GIAB项目是由美帝国家标准与技术研究院(NIST)领导的,专门提供高质量的基因组参考标准。可以在其官方网站上找到NA12878的基准数据。也有用NA24149的,还有中国人群家系[...
适配于LSF集群的WDL配置
运行Cromwell所需的配置文件,影响了WDL流程语言的使用。这里是一个适配LSF集群的配置,同时适配了singularity容器,当在WDL的runtime模块中指定sif文件,即可调用对应的镜像,同时建立了一个环境变量用于将路径映射到容器中。
在配置文件中的backend部分进行修改
backend {
default = "LSF"
providers {
LSF {
actor-factory = "cromwell.backend.impl.sfs.config.ConfigBackendLifecycleActorFactory"
config {
runtime-attributes = """
...
共计 247 篇文章,31 页。