主页

低样本量下的测序barcode选择

对于华大平台来说,当样本量较少时,标签(测序barcode)的低多样性会导致标签的碱基cycle碱基不平衡,测序出错,最终数据无法拆分。碱基平衡对于测序非常重要,最佳情况下,A、T、C、G碱基在文库中各占25%。对于低多样性文库,一般加入Phix文库来使文库平衡。 illumina的文档说由于PhiX不含标签信息,因此无法用于平衡标签的信号,所以在测序前,对于barcode的选择也是非常重要的。 当然,由于illumina测序是检测红色(A/C)、绿色(G/T)两种光信号的强弱(Hiseq、Miseq),因此,A/C和G/T可以认为是同一类型,只需要保持每个cycle的AC比例和GT比例在50%左右即平衡。在Miniseq、NextSeq、NovaSeq中,C’是红光、T是绿光、G...

阅读更多

认真调研认真攻略

买车前的认真攻略,理论上在7月前搞定。但是理想L6我感觉在7月前不会出来(大概率今年都不会出),海狮要给腾势N7让路,估计也是要到2024了,不考虑了。下面的深蓝S7、比亚迪海狮和理想L6都是猜测的数据。 比亚迪这种老4S店的销售套路真的劝退人,我凭啥给你这服务费啊。 名称 特斯拉Model Y 问界M5 EV 深蓝S7 比亚迪海狮 理想L6 车型 标准续航后驱 后驱标准 长续航 长续航后驱 标准版 优点 保值率最高的电车;三电强;载物空间大;辅助...

阅读更多

2022总结

2022年的最后一天。 2022年,工作上,了解了一些项目的细节,需要考虑的问题也更多了。以前很多项目是做完获得结果就算了,现在需要理清楚这个结果是怎么来的,每一步怎么质控。今年博客和github都明显的更新的更加低频了。以前真的做乙方做的多,现在更多的时候是甲方,怼人真爽。个人思想非常躺平,一直没察觉自己已经年近30,依然一事无成,需要开始思考其他的事。 个人生活上,也就那样吧。 2021年底说预计今年会背上房贷,倒是成了,但是大环境都说2022年是最最不要上车的一年(太惨了)。而且我还是在高位上车,背着差不多到6的房贷利率,再再而且房企还是暴雷企业之一,延期交付已经是板上钉钉的事,还是比较难受的,就是希望不要烂尾了,2023年一切顺利。 2022年还真是电子阳痿的一年,基本...

阅读更多

python自动导出腾讯文档excel表格

主要思路是通过playwright这种自动测试框架去点击腾讯文档中的excel导出。需要先装好playwright。 保存cookies 一些文档是需要登录后才能导出的,这里可使用playwright录制登录的部分,并把cookies进行导出,然后后续使用时通过导入cookies来保持登录状态,预计一段时间会失效,因此需要一段时间就进行一次这个操作,更新cookies。 playwright codegen -o login.py https://xxx.com --save-storage loginCookies 使用以上命令,进入腾讯文档进行登录,最好勾选保持登录等,最后登录状态就会保存到loginCookies文件中。 打开文档并导出 以下代码是打开对应excel...

阅读更多

SMA分析初探

SMA(Spinal Muscular Atrophy)脊髓性肌萎缩症是一种常见神经肌肉疾病,在儿童期发病率仅次于DMD。致病基因在人群中携带率约为1:40~1:60。 主要需要分析SMN1基因exon7的缺失(大部分会合并exon8缺失),难点在于SMN1与SMN2基因高度同源,SMN2会影响SMN1的拷贝数分析,因此需要把SMN1与SMN2分开。 检测方法有MLPA、longPCR和巢式PCR,以及本次需探究的NGS方法。 比例位点 根据专家共识,建议用于区分SMN1与SMN2的位点是位于exon7的c.840C>T和位于exon8的c.*239G>A。 先来看看这两个点是怎么挑出来的。 hg19上SMN1是chr5:70220768-70248838,SM...

阅读更多

NIPT麻木再来一遍

前文再续,书接上回。 重新梳理一遍NIPT的分析方法。 QC 直接使用fastp对原始数据进行质控,原始数据是SE50。 fastp -i sample.fastq.gz -o sample.clean.fq.gz -w 16 -j sample.json -h sample.html 比对 这一步有用bwa mem、bwa aln和bowtie2的,差异不是很大。但是,使用的参考基因组会有影响,例如使用hs37d5比ucsc.hg19稍好,因为hs37d5会预先mask掉PAR区域。比对完后要去重。 bwa mem -t 32 hs37d5.fa sample.clean.fq.gz | samtools view -bSh - | samtools sort -@ 32 ...

阅读更多

还好,这次没被封

离爬取各种数据库已经差不多一年,又要更新一下了。以前爬omim数据库的时候,都会使用代理IP啥的,避免被封。但是最近学习了新的爬取姿势,目前运行了好几天了,还没被封IP,应该是目前体验较好的爬虫方式。 我将爬虫脚本全部从selenium或requests改为了playwright。基本就是在模拟真实浏览器访问上越走越远。 使用selenium和playwright最大的特征是会被认为是webdriver,当网站识别是webdriver时,就会知道是爬虫。因此,这里有个解决方案(例子是selenium)是注入这段js来将webdriver值改为undefined。 driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocume...

阅读更多

MC3数据集TMB浅度分析

数据获取 TCGA的MC3数据集包含了33个癌种的体细胞突变,在分析TMB时,可以使用MC3数据集的数据进行验证。 在这个公开页面中下载MC3的数据,没有权限只能下载Open-Access的mc3.v0.2.8.PUBLIC.maf.gz。同时下载bed文件,下载样本信息文件。 初步整理 下载下来的数据解压后是maf文件,可以使用maftools进行分析,为了适用于自己的流程,这里使用maf2vcf将其转换回vcf格式。(这里maf2vcf是会直接将maf文件拆分回多个vcf文件的,但是我感觉有点慢,因此自行先将maf根据样本名拆分成了多个小maf,再使用maf2vcf来转换到vcf了,这样方便使用多个线程)。 perl maf2vcf.pl --input-maf mc3.v...

阅读更多