快节奏科研下，我们如何自处？

最近读了很多优质的 blog、paper 和 podcast，深感当前 AI 领域更新迭代之快——我们才刚接受了能连续运行十几个小时的 coding agent，迎面又走来了 recursive self-improvement（RSI）、on-policy self-distillation（OPSD）、loop engineering 等一连串新名词。

面对这种节奏，我最近最大的感悟是：我需要一套完善的科研基础设施。这套系统帮我过滤掉大部分的信息噪音，让我专注在真正感兴趣的方向，以及持续追踪并落地我的进展。

我目前正在着手搭建这套系统。在搭建过程中整理出了几条 principles，拿出来和大家讨论。

1. 信息源的优先级：Blog ＞ Peer-Reviewed Paper ＞ arXiv Paper ＞ Podcast ＞社交媒体

最近读了不少让我收获巨大的 blog。比如《SFT, RL, and On-Policy Distillation Through a Distributional Lens》，一个人加一个 Claude，从 distribution 的视角把 SFT、RL 和 OPD 的本质区别讲透了，附带实验表格和代码，信息密度远超大多数正式论文。再比如 Anthropic 的《When AI Builds Itself》，把 RSI 的可能性和风险掰开讲，图文并茂，引用齐全。这些文章给我带来的 insights 完全超过了读绝大多数论文。

我觉得一种趋势在形成：当一个好的技术被发明出来，它会先出现在 blog 里，然后才是 arXiv，然后是顶会，最后被科技媒体报道。等到达大众眼前，可能已经过了半年。

以 on-policy distillation（OPD）为例。我最早学到这个概念是在 Thinking Machines Lab 2025 年 10 月底的 blog。五个月后的 2026 年 3 月，arXiv 上才出现第一批系统性的 OPD 论文；4 月有人写了综述；5 月 ICML 接收了相关工作。如果你只读论文，你看到 OPD 的时候，读 blog 的人已经用了半年了。

同时，随着 AI 的进步我感觉 arXiv 上论文的整体质量在下滑，很多 paper 是为了发而发。相比之下，blog 更”轻”——通常没有完整的故事线，也不需要天衣无缝的实验，适合碎片时间阅读，排版对手机也友好。而且论文要照顾 reviewer 的口味，blog 只需要对读者负责，反而更敢讲真话。

当然，只读 blog 获取到的信息一定是不全面的。Blog 带有机构立场，选题有倾向性，阅读经过同行审议的论文仍然不可缺少。

那 podcast 为什么排在 arXiv 后面？ 好的 podcast 有一种独特的价值：你能听到专家”即兴地思考”，那些还没有成型到可以写成文章的直觉、判断、甚至犹豫，经常藏在对话的间隙里。但 podcast 的问题是信息密度太低。一期一小时的节目，真正有价值的 insight 可能集中在其中五分钟。而且 podcast 的内容很难被引用、很难被检索，听完之后如果没有刻意整理，大部分东西几天就忘了。所以它更适合当作”灵感源”而非”知识源”——用来发现值得深入的方向，然后去找对应的 paper 或 blog 来读。

社交媒体排在最后，但不是没有用。 Twitter/X 上确实有一线研究者发 thread 分享新工作，有时候一条推就能让你知道某个方向有了重大进展。但Hot take、阵营站队、”XX is dead”这类声音占据了绝大多数的注意力带宽，实际有信息量的内容被淹没在噪音里。更麻烦的是，社交媒体制造一种”我在学习”的错觉——你刷了一个小时的小红书 AI 内容，感觉自己跟上了前沿，但回头一想什么都没记住。

综合上面的原因，我给出的排序是 Blog ＞ Peer-Reviewed ＞ arXiv ＞ Podcast ＞社交媒体。这个排序优化的是获取前沿 insights 的效率，不是信息的严谨度。从整体质量上来看 peer-reviewed paper 肯定明显更高，blog 和 arXiv 都存在质量层次不齐的问题，但好在我们可以通过 AI 来筛选。

我现在搭了一个每天自动运行的信息简报系统。系统每天并行从多个渠道抓取过去 24 小时的内容：包括卡兹克老师的 AI HOT（一个聚合了 168 个手工筛选的 AI 信源的精选站，自带多维评分和事件聚类）、十几个我手动挑选的深度 blog RSS、X/Twitter 上我 follow 的研究者的最新动态等。然后用我设计的一套算法来做确定性筛选，先用硬编码的排序规则初筛，然后让大模型结合对我的记忆进行挑选，最后输出一份 5-7 条的精选简报。

2. 对 research question 的深入理解，依然是人类不可替代的关键技能

从 prompt engineering，到 context engineering，到 harness engineering，再到最近火起来的 loop engineering——我们对如何驾驭模型的理解越来越深。但新的知识是永远学不完的，今天刚学的 mcp 明天可能就过时了，我们应该关注研究中更加本质的东西。

我本人更加关注的是新技术如何对现实世界产生积极影响。因为真实世界的问题，全都是 domain-specific 的，不是一句简单的”X engineering”就概括的。

这中间存在一个巨大的鸿沟。经济学里有个经典概念叫 technology diffusion（技术扩散）——一项新技术从被发明到真正在各行各业中被广泛应用，中间往往隔着漫长的时间。在 AI 领域，这个鸿沟今天依然存在：模型的通用能力已经很强了，但要把它变成某个领域里真正能用的工具，仍然需要大量的翻译工作。谁来做这个翻译？ 不是模型自己——它不知道有机合成里哪个反应在工业上不可行，也不知道临床上哪些指标的组合意味着需要进一步检查。这个翻译工作需要的是同时懂 CS 和懂领域的人来做。

这就是 harness engineering 真正要解决的问题。Harness 不是一个 prompt，不是一句 system instruction，而是 agent 在解决一个任务时依赖的整套脚手架：它有哪些工具可以调用、它的记忆结构是什么样的、它怎么把一个大任务分解成子任务、它怎么评价自己某一步做得好不好、它在什么情况下该回退换一条路。当我们说 Agent 能在 Coding 和 Math 上表现出超强实力时，背后的原因不只是模型强——更关键的是这两个领域天然自带一套高质量的 harness：代码可以运行，有编译器和测试用例做即时验证（verifier）；数学有精确答案，可以自动判断对错。也就是说，Coding 和 Math 的 harness 是容易的，而其他领域的 harness 需要人来构建。

我自己的研究就在做这件事。

当我跟化学家合作时，我发现他们真正的决策流程完全不是教科书上的样子。真正的化学家拿到一个目标分子，第一件事不是查反应数据库，而是先看这个分子的骨架像什么，所以我先试着往那个方向拆。他们心里有一套启发式的直觉，会考虑成本、产率、那条路线在实验室里是不是真的好操作，会考虑什么时候该果断放弃一条走不通的路线。这些东西没有写在任何论文里，但它们决定了一条路线的好坏。

要让 Agent 做到这个水平，需要给 Agent 构建一整套围绕化学反应的 harness：能调用多个互补的逆合成预测模型（而不是只依赖单一模型）；能查 SMILES 的合法性和化学可行性（verifier）；能检索已知的合成先例（precedent retrieval）；能评估一条路线的综合质量。这套 harness 里的每一个组件都需要对化学的真实理解，不是通用的 agent framework 能自动生长出来的。

另一个项目也是同样的逻辑。我在和临床研究者合作中，需要理解不同队列（cohort）的人群特征差异、各种生物标志物在不同年龄段的临床意义等，以及真正的临床医生是如何判断患病风险的。这些领域知识，不是你把论文喂给 GPT 它就能 figure out 的。

而且这里有一个顺水推舟的逻辑。 一旦构建出了领域 harness，agent 在这个领域里解题时自然会产生大量的 trajectory。这些 trajectory 天然就是高质量的训练数据：走通的路线可以拿去做 SFT ，整个过程还可以用来做 GRPO 或者 on-policy distillation。也就是说，当你在一个领域扎得够深、把 harness 构建完善之后，那些当下最火的训练算法自然就有了用武之地——你不需要硬凑一个场景去套算法，而是算法自然地成为你已有 pipeline 的下一环。

所以我想说的是：不是因为什么东西火就去追，而是找到自己愿意深耕的方向，投入进去。

投入进去的一个重要标志是构建自己的 research ecosystem——让别人一看到文章标题就觉得”这是你们组的工作”。上周末我在智源大会上聆听了很多前辈的分享，比如港大黄超老师的组就是一个很好的例子。他们围绕 Agent 构建了一整套生态，每一个工作都在解决同一个核心问题的不同切面：让 Agent 更好地使用工具、更好地存储 memory、更好地管理 multi-agent 协作，从而更好地解决 long-horizon tasks。一个方向，一系列工作，互相支撑，越做越深。

3. 构建一套完善的科研基础设施

也是在智源大会上，西湖大学张岳老师分享了他们在科研基础设施上的工作：用于科研绘图的 AutoFigure-Edit（强调”可控生成”和”可修改”），以及用于管理科研流程的 DeepScientist（持续推进研究任务，辅助组会和论文写作）。

这个分享让我意识到：AI 的训练需要强大的 AI Infra，我的日常科研同样需要。

我自己的痛点很明确：Agent 的 memory 散落在本地的 Codex、Hermes、以及服务器上的 Claude Code 里；关于 idea 的迭代在我和 GPT-5.5 Pro 的网页对话里；项目进展在飞书文档里。每个工具各自工作得不错，但它们之间完全割裂。

具体来说有三个问题：

第一，缺乏顶层认知。 我换一个工具就要重新交代一遍项目背景。Codex 不知道我昨天在 Claude Code 里做了什么决策，Claude Code 不知道我在飞书上和导师讨论了什么方向调整。每个 agent 都是有能力的”新员工”，但都没有项目的全景记忆。

第二，缺乏主动性。 没有系统能 proactively 推进我的研究。比如自动整理昨天的实验结果、发现某个 open question 有了新的相关工作、或者在我忘记某个 decision 的 rationale 时帮我回溯。AI 只在我主动 prompt 的时候干活。

第三，认知负担全在我身上。 “这个实验该跑了”、”那篇论文该读了”、”这个 idea 得记下来”——所有元管理全靠大脑调度，AI 只是被动的执行者。

于是回来后我开始着手搭建一套系统。目前已经跑起来的核心架构是这样的：

统一记忆层：research-brain。 这是一个纯 Markdown + Git 的本地仓库，作为所有 agent 的共享长期记忆。我把 Codex、Claude Code 的 memory、以及 Hermes 的记忆系统全部指向了同一个 brain。

Nightly dream：离线整理。 每天凌晨自动运行一个”做梦”流程：把白天在各个 agent 里的对话日志收集回来——本地的 Codex 和 Claude Code 会话、远程 GPU 服务器上的日志，全部 rsync 回 brain 的原始证据层。然后用 LLM 对这些 session 做提炼，抽取持久性事实。

最后

快节奏的科研环境里，焦虑是默认状态。每天打开 Twitter 看到一堆新东西没来得及学，很容易觉得自己在掉队。

我的应对方式不是跑得更快，而是搭一个让自己能沉下来的系统。让 AI 去追热点、过滤噪音、管理琐碎。我把注意力留给两件事：深入理解我关心的领域问题，以及持续构建这套基础设施本身。

前者是安身立命的根基，后者是让前者能持续运转的引擎。

与诸位共勉。

快节奏科研下，我们如何自处？

1. 信息源的优先级：Blog ＞ Peer-Reviewed Paper ＞ arXiv Paper ＞ Podcast ＞ 社交媒体

2. 对 research question 的深入理解，依然是人类不可替代的关键技能

3. 构建一套完善的科研基础设施

最后

1. 信息源的优先级：Blog ＞ Peer-Reviewed Paper ＞ arXiv Paper ＞ Podcast ＞社交媒体