快节奏科研下,我们如何自处?
最近读了很多优质的 blog、paper 和 podcast,深感当前 AI 领域更新迭代之快——我们才刚接受了能连续运行十几个小时的 coding agent,迎面又走来了 recursive self-improvement(RSI)、on-policy self-distillation(OPSD)、loop engineering 等一连串新名词。
面对这种节奏,我最近最大的感悟是:我需要一套完善的科研基础设施。这套系统帮我过滤掉大部分的信息噪音,让我专注在真正感兴趣的方向,以及持续追踪并落地我的进展。
我目前正在着手搭建这套系统。在搭建过程中整理出了几条 principles,拿出来和大家讨论。
1. 信息源的优先级:Blog > Peer-Reviewed Paper > arXiv Paper > Podcast > 社交媒体
最近读了不少让我收获巨大的 blog。比如 《SFT, RL, and On-Policy Distillation Through a Distributional Lens》,一个人加一个 Claude,从 distribution 的视角把 SFT、RL 和 OPD 的本质区别讲透了,附带实验表格和代码,信息密度远超大多数正式论文。再比如 Anthropic 的 《When AI Builds Itself》,把 RSI 的可能性和风险掰开讲,图文并茂,引用齐全。这些文章给我带来的 insights 完全超过了读绝大多数论文。
我觉得一种趋势在形成:当一个好的技术被发明出来,它会先出现在 blog 里,然后才是 arXiv,然后是顶会,最后被科技媒体报道。等到达大众眼前,可能已经过了半年。
以 on-policy distillation(OPD)为例。我最早学到这个概念是在 Thinking Machines Lab 2025 年 10 月底的 blog。五个月后的 2026 年 3 月,arXiv 上才出现第一批系统性的 OPD 论文;4 月有人写了综述;5 月 ICML 接收了相关工作。如果你只读论文,你看到 OPD 的时候,读 blog 的人已经用了半年了。
同时,随着 AI 的进步我感觉 arXiv 上论文的整体质量在下滑,很多 paper 是为了发而发。相比之下,blog 更”轻”——通常没有完整的故事线,也不需要天衣无缝的实验,适合碎片时间阅读,排版对手机也友好。而且论文要照顾 reviewer 的口味,blog 只需要对读者负责,反而更敢讲真话。
当然,只读 blog 获取到的信息一定是不全面的。Blog 带有机构立场,选题有倾向性,阅读经过同行审议的论文仍然不可缺少。
那 podcast 为什么排在 arXiv 后面? 好的 podcast 有一种独特的价值:你能听到专家”即兴地思考”,那些还没有成型到可以写成文章的直觉、判断、甚至犹豫,经常藏在对话的间隙里。但 podcast 的问题是信息密度太低。一期一小时的节目,真正有价值的 insight 可能集中在其中五分钟。而且 podcast 的内容很难被引用、很难被检索,听完之后如果没有刻意整理,大部分东西几天就忘了。所以它更适合当作”灵感源”而非”知识源”——用来发现值得深入的方向,然后去找对应的 paper 或 blog 来读。
社交媒体排在最后,但不是没有用。 Twitter/X 上确实有一线研究者发 thread 分享新工作,有时候一条推就能让你知道某个方向有了重大进展。但Hot take、阵营站队、”XX is dead”这类声音占据了绝大多数的注意力带宽,实际有信息量的内容被淹没在噪音里。更麻烦的是,社交媒体制造一种”我在学习”的错觉——你刷了一个小时的小红书 AI 内容,感觉自己跟上了前沿,但回头一想什么都没记住。
综合上面的原因,我给出的排序是 Blog > Peer-Reviewed > arXiv > Podcast > 社交媒体。这个排序优化的是获取前沿 insights 的效率,不是信息的严谨度。从整体质量上来看 peer-reviewed paper 肯定明显更高,blog 和 arXiv 都存在质量层次不齐的问题,但好在我们可以通过 AI 来筛选。
我现在搭了一个每天自动运行的信息简报系统。系统每天并行从多个渠道抓取过去 24 小时的内容:包括卡兹克老师的 AI HOT(一个聚合了 168 个手工筛选的 AI 信源的精选站,自带多维评分和事件聚类)、十几个我手动挑选的深度 blog RSS、X/Twitter 上我 follow 的研究者的最新动态等。然后用我设计的一套算法来做确定性筛选,先用硬编码的排序规则初筛,然后让大模型结合对我的记忆进行挑选,最后输出一份 5-7 条的精选简报。
2. 对 research question 的深入理解,依然是人类不可替代的关键技能
从 prompt engineering,到 context engineering,到 harness engineering,再到最近火起来的 loop engineering——我们对如何驾驭模型的理解越来越深。但新的知识是永远学不完的,今天刚学的 mcp 明天可能就过时了,我们应该关注研究中更加本质的东西。
我本人更加关注的是新技术如何对现实世界产生积极影响。因为真实世界的问题,全都是 domain-specific 的,不是一句简单的”X engineering”就概括的。
这中间存在一个巨大的鸿沟。经济学里有个经典概念叫 technology diffusion(技术扩散)——一项新技术从被发明到真正在各行各业中被广泛应用,中间往往隔着漫长的时间。在 AI 领域,这个鸿沟今天依然存在:模型的通用能力已经很强了,但要把它变成某个领域里真正能用的工具,仍然需要大量的翻译工作。谁来做这个翻译? 不是模型自己——它不知道有机合成里哪个反应在工业上不可行,也不知道临床上哪些指标的组合意味着需要进一步检查。这个翻译工作需要的是同时懂 CS 和懂领域的人来做。
这就是 harness engineering 真正要解决的问题。Harness 不是一个 prompt,不是一句 system instruction,而是 agent 在解决一个任务时依赖的整套脚手架:它有哪些工具可以调用、它的记忆结构是什么样的、它怎么把一个大任务分解成子任务、它怎么评价自己某一步做得好不好、它在什么情况下该回退换一条路。当我们说 Agent 能在 Coding 和 Math 上表现出超强实力时,背后的原因不只是模型强——更关键的是这两个领域天然自带一套高质量的 harness:代码可以运行,有编译器和测试用例做即时验证(verifier);数学有精确答案,可以自动判断对错。也就是说,Coding 和 Math 的 harness 是容易的,而其他领域的 harness 需要人来构建。
我自己的研究就在做这件事。
当我跟化学家合作时,我发现他们真正的决策流程完全不是教科书上的样子。真正的化学家拿到一个目标分子,第一件事不是查反应数据库,而是先看这个分子的骨架像什么,所以我先试着往那个方向拆。他们心里有一套启发式的直觉,会考虑成本、产率、那条路线在实验室里是不是真的好操作,会考虑什么时候该果断放弃一条走不通的路线。这些东西没有写在任何论文里,但它们决定了一条路线的好坏。
要让 Agent 做到这个水平,需要给 Agent 构建一整套围绕化学反应的 harness:能调用多个互补的逆合成预测模型(而不是只依赖单一模型);能查 SMILES 的合法性和化学可行性(verifier);能检索已知的合成先例(precedent retrieval);能评估一条路线的综合质量。这套 harness 里的每一个组件都需要对化学的真实理解,不是通用的 agent framework 能自动生长出来的。
另一个项目也是同样的逻辑。我在和临床研究者合作中,需要理解不同队列(cohort)的人群特征差异、各种生物标志物在不同年龄段的临床意义等,以及真正的临床医生是如何判断患病风险的。这些领域知识,不是你把论文喂给 GPT 它就能 figure out 的。
而且这里有一个顺水推舟的逻辑。 一旦构建出了领域 harness,agent 在这个领域里解题时自然会产生大量的 trajectory。这些 trajectory 天然就是高质量的训练数据:走通的路线可以拿去做 SFT ,整个过程还可以用来做 GRPO 或者 on-policy distillation。也就是说,当你在一个领域扎得够深、把 harness 构建完善之后,那些当下最火的训练算法自然就有了用武之地——你不需要硬凑一个场景去套算法,而是算法自然地成为你已有 pipeline 的下一环。
所以我想说的是:不是因为什么东西火就去追,而是找到自己愿意深耕的方向,投入进去。
投入进去的一个重要标志是构建自己的 research ecosystem——让别人一看到文章标题就觉得”这是你们组的工作”。上周末我在智源大会上聆听了很多前辈的分享,比如港大黄超老师的组就是一个很好的例子。他们围绕 Agent 构建了一整套生态,每一个工作都在解决同一个核心问题的不同切面:让 Agent 更好地使用工具、更好地存储 memory、更好地管理 multi-agent 协作,从而更好地解决 long-horizon tasks。一个方向,一系列工作,互相支撑,越做越深。
3. 构建一套完善的科研基础设施
也是在智源大会上,西湖大学张岳老师分享了他们在科研基础设施上的工作:用于科研绘图的 AutoFigure-Edit(强调”可控生成”和”可修改”),以及用于管理科研流程的 DeepScientist(持续推进研究任务,辅助组会和论文写作)。
这个分享让我意识到:AI 的训练需要强大的 AI Infra,我的日常科研同样需要。
我自己的痛点很明确:Agent 的 memory 散落在本地的 Codex、Hermes、以及服务器上的 Claude Code 里;关于 idea 的迭代在我和 GPT-5.5 Pro 的网页对话里;项目进展在飞书文档里。每个工具各自工作得不错,但它们之间完全割裂。
具体来说有三个问题:
第一,缺乏顶层认知。 我换一个工具就要重新交代一遍项目背景。Codex 不知道我昨天在 Claude Code 里做了什么决策,Claude Code 不知道我在飞书上和导师讨论了什么方向调整。每个 agent 都是有能力的”新员工”,但都没有项目的全景记忆。
第二,缺乏主动性。 没有系统能 proactively 推进我的研究。比如自动整理昨天的实验结果、发现某个 open question 有了新的相关工作、或者在我忘记某个 decision 的 rationale 时帮我回溯。AI 只在我主动 prompt 的时候干活。
第三,认知负担全在我身上。 “这个实验该跑了”、”那篇论文该读了”、”这个 idea 得记下来”——所有元管理全靠大脑调度,AI 只是被动的执行者。
于是回来后我开始着手搭建一套系统。目前已经跑起来的核心架构是这样的:
统一记忆层:research-brain。 这是一个纯 Markdown + Git 的本地仓库,作为所有 agent 的共享长期记忆。我把 Codex、Claude Code 的 memory、以及 Hermes 的记忆系统全部指向了同一个 brain。
Nightly dream:离线整理。 每天凌晨自动运行一个”做梦”流程:把白天在各个 agent 里的对话日志收集回来——本地的 Codex 和 Claude Code 会话、远程 GPU 服务器上的日志,全部 rsync 回 brain 的原始证据层。然后用 LLM 对这些 session 做提炼,抽取持久性事实。
最后
快节奏的科研环境里,焦虑是默认状态。每天打开 Twitter 看到一堆新东西没来得及学,很容易觉得自己在掉队。
我的应对方式不是跑得更快,而是搭一个让自己能沉下来的系统。让 AI 去追热点、过滤噪音、管理琐碎。我把注意力留给两件事:深入理解我关心的领域问题,以及持续构建这套基础设施本身。
前者是安身立命的根基,后者是让前者能持续运转的引擎。
与诸位共勉。