使用Manus爬取OncoKB(失败)

#default

今天看到Manus开润的消息,想着还没有用过这个应用,马上着手体验一番。

当初Manus刚刚推出,就被称为和DeepSeek-R1同级别的产品,邀请码被炒到天价。但是后来,更多的声音认为Manus是一个骗局。

本次试用,我会让Manus对OncoKB进行爬取并整理信息。

回顾

技术总是不断的发展,作为信息科学边缘的生信人,也要一直更新自己的技术栈。

在最开始时,我是使用request来爬取信息的:爬取CKB数据库

后来换成了selenium,通过模拟浏览器来爬取:爬取CHPO数据库

在AI出来之前,用的最多的是playwright:爬取oncokb

前段时间尝试了Agent爬虫FireCrawl:使用Firecrawl爬取网页

使用

现在,准备使用差不多相当于AGI的Manus来爬取OncoKB。新注册的Manus用户拥有1000积分,同时每天登录会获得300积分。暂不清楚Manus的积分是怎么计费的,估计是计算tokens消耗。根据给出的案例,数据分析消耗200积分、网页设计消耗360积分、应用开发消耗900积分。

希望1300积分足够。

只需要将想进行的任务告诉Manus,就可以让他自己去操作了。为了降低积分消耗,我决定先人工去查询一次OncoKB,总结一下我大概想要做什么,然后将总结后的过程让Gemini再整理为一个完整的任务提示词,再将这个提示词交给Manus执行任务。

Gemini总结

使用Gemini总结了一下,形成一个任务提示。

任务目标: 从OncoKB网站提取基因位点(Alterations)的详细描述信息以及相关的治疗、诊断、预后和FDA认可内容,并最终整理成5个结构化的表格。

流程步骤:
第一步:访问初始列表页
打开您的Web浏览器。
输入或点击以下链接,访问OncoKB网站的Alterations页面:
https://www.oncokb.org/actionable-genes
在此页面,您将看到一个所有基因位点(Alterations)的列表。这个列表将作为后续操作的基础。

第二步:逐个访问位点详情页并提取描述信息
对于列表中的每一个基因位点(例如:EGFR L858R, KRAS G12C 等),点击其对应的链接,进入该位点的详情页面。
在每个详情页的顶部或描述区域,请仔细查找并记录以下信息,这些信息将构成第一个表格的行数据:
基因名称 (Gene Symbol): 例如:EGFR, TP53, KRAS。
位点名称 (Alteration Name): 例如:L858R, G12C, Amplification。
Oncogenic Status: 描述该位点的致癌性,例如:Oncogenic, Likely Oncogenic, Neutral, Inconclusive等。
Function: 描述该位点是“Gain-of-function”(功能获得)还是“Loss-of-function”(功能缺失),或无特定描述。
Mutation Type (如果明确提及): 变异类型,例如:Missense, Truncating, Fusion, Amplification, Deletion等。
参考基因组 (Reference Genome): 如果页面有明确显示,例如:GRCh37 / GRCh38。
基因总结信息 (Gene Summary): 位于页面顶部或“Summary”部分的,对该基因功能、作用机制等的高层次概括。请摘取主要观点或概述性描述。

第三步:提取各标签页的表格数据
在每个基因位点详情页中,您会看到以下几个标签(通常在页面下方或侧边栏):
Therapeutic
Diagnostic
Prognostic
FDA-Recognized Content
逐一点击每个标签。当您点击一个标签后,页面会加载出该标签对应的表格内容。
完整地复制并粘贴该标签页下的整个表格数据。确保所有列的标题和对应的行数据都被准确地提取。

第四步:数据整理与最终输出
将所有收集到的数据整理成5个独立的表格。
建议使用电子表格软件(如Excel或Google Sheets),创建5个不同的工作表(Sheet),每个工作表对应一个表格。

最终输出表格结构示例:
1. 基因与位点的信息表 (Gene and Alteration Information Table)
示例列:
基因名称 (Gene Symbol)
位点名称 (Alteration Name)
Oncogenic Status
Function (Gain-of-function/Loss-of-function)
Mutation Type
参考基因组 (Reference Genome)
基因总结信息 (Gene Summary)

2. Therapeutic 表
包含从每个位点的“Therapeutic”标签页提取的所有表格数据。
列名与OncoKB网页上的表格列名保持一致。

3. Diagnostic 表
包含从每个位点的“Diagnostic”标签页提取的所有表格数据。
列名与OncoKB网页上的表格列名保持一致。

4. Prognostic 表
包含从每个位点的“Prognostic”标签页提取的所有表格数据。
列名与OncoKB网页上的表格列名保持一致。

5. FDA-Recognized Content 表
包含从每个位点的“FDA-Recognized Content”标签页提取的所有表格数据。
列名与OncoKB网页上的表格列名保持一致。

重要提示:
OncoKB网站的数据量较大,请确保耐心和细致地完成每个步骤。
在提取表格数据时,尤其注意复制粘贴的完整性,确保不遗漏任何行或列。
建议定期保存您的工作进度,以防数据丢失。
如果在任何步骤遇到疑问或不确定如何提取某个特定信息,请及时向我反馈。

Manus工作

当将任务发布给Manus后,他会自动进行思考并工作。感觉比较特别的是,Manus和其他的LLM网页不同,他会在右侧打开一个桌面窗口,显示他正在做什么。

manus_1

我发现Manus的操作不如我意,因此我进行了打断并告知我希望他怎么做。我甚至可以进入到这个窗口中进行操作(应该是VNC),然后将我的操作要点和Manus说一下,让他调整接下来的操作。

Manus会将工作过程中的信息整理为文件,可以随时在查看此任务中的所有文件里查看。积分消耗飞快,我目前只成功获得了一个页面的信息,1300积分已经消耗殆尽。

赛后总结

  1. 由于积分不足,任务中断。Manus在进行这个爬取任务时,会尝试自行编写脚本来捉取信息,其编写的脚本失败率极高,极大的消耗了积分。在提示词中,应提示他尽量模拟真人操作,不要尝试编写脚本,而是应该对链接逐个点击,对信息进行复制粘贴。
  2. Manus现在就是一个智障,从当前官方定价看,1300积分大约等于6刀,消耗上绝对不值。
  3. 我认为更佳的方案是,先自行准备好所有需爬取的页面的链接,然后再让Manus来遍历页面,读取其中的信息,并整理成结构化文档,但这样实际就和使用FireCrawl没有区别。
  4. 赛博牛马还无法真正替代生物牛马。
  5. 应该可以利用Manus每天赠送的300积分来做一些低消耗的日常的任务,日常定时执行。比如追踪订阅新闻等等。