批量下载NCCN指南
#coding
使用playwright批量下载NCCN英文指南。~~后续我想对指南建立向量知识库,然后使用DeepSeek来批量整理其中的靶向用药位点信息。~~注意,该行为违反NCCN的最终用户许可,千万不要做。下面也只是一个测试代码,我也不知道有没有用🤪。
使用下面的代码前,首先需要注册NCCN的账户。
照例,为了反反爬,会用到stealth.min.js
爬取代码
下面是爬取的python代码,修改自己的账户密码。为了避免失败,分两阶段进行,第一阶段只查询pdf的网址并保存,然后在第二阶段再进行下载。如果已获得第一阶段文件,完全可以直接进行第二阶段。
可以查看示例代码。
这里的一个坑是,playwright打开pdf url时,会默认打开为pdf viewer。需要拦截请求为下载pdf。