其实上一篇博客那一会,我还存有对AI的发展是否进入泡沫期有一些看不清的感觉,但是到如今这个时间点,一切都感觉变了,毫无疑问,不说AI的能力,起码AI的体感已经开始出现指数级的加速。尽管可以说我本就身处这个行业之中,但是对这种变化还是有一些始料未及,智力一旦成为可规模化的资源,一切都开始不太一样。

指数级

还是用图片来展示这种变化更为直观一些,也推荐看一看这些图的来源:WTF Happened in 2025?

LLM的长任务能力开始显著爆发。

这里我再补充一张模型支持的上下文长度的趋势图(这张图比较老,没有搜到最新的)。长上下文来的更早,因为模型能力跟上的更晚一些,当时并没有展现出应有的价值。这两天claude将上下文长度从200K开放到100W,不知又会引发什么腥风血雨。

claude code之父表示claude code已经开始全面接管claude code本身的开发迭代。

当然,让普通人开始直面这种能力爆发的点就是openclaw(clawdbot),这种堪称病毒式的爆发让我这个对它不屑一顾的人都觉得不可思议、值得学习。同时这种感觉也不是等到触及到普通人才发现,反而是老板的FOMO情绪才是挑动打工仔神经的最强利刃。感觉焦虑是中国人的本色,这也造就了openclaw上门安装这种尴尬的生意。

变化的本质

然而这种惊人的趋势下,大语言模型或者Agent运作的范式并没有发生什么变化,大模型依旧是无状态的,Agent开发者所拥有的还是两件套: prompt和tool ,所谓的长期记忆和Soul也不过是将system prompt给结构化分离了而已。

这一次爆发的本质我觉得有几个点:

  1. 模型的能力开始匹配超长上下文,在执行的过程中不会因为上下文窗口的增加而出现不可接受的能力下降
  2. 模型的推理能力进一步释放,解封了超长轮次的function call + thinking token输出这一关键表现。
  3. CLI“成为”了模型的特化API。曾经我所假设的拥有特化API的模型已经”出现”,只不过是另外一种形式。天才工程师们终于发掘CLI天生就是适配LLM的最佳meta级别的API,让模型自己去列出文件(ls)、读文件(read)、写文件(write)以及执行指令(execute),四个工具就能够完美闭环,尤其是execute的使用使得模型不再需要大批量纷纷扰扰的独立function,传统API开始向cli指令转变,接口不再面向开发者,AI才是第一优先级服务对象。
  4. 写代码是一种meta级别的能力,claude这种偏向代码的策略很显然赌对了。很多以前不work的场景现在可以做了,或者说已经能干个七七八八,量变开始引发质变。AI显著降低了写代码和修代码的门槛,想法落地开始加速。
  5. 上下文工程的演进。渐进式披露让skill成为了能力的最小可复制单元,claude code这类优秀的harness实践也提高了整体的能力,非常值得学习。

反思与未来

  • 不得不佩服这些押注AI的人的眼光,token用量在这几月肯定是指数级暴涨,“星际之门”之类越来越不像是空谈。Transformer没有结束,人类在这一条路走的越来越深,泡沫还能吹的更大。这个科技树是不是真的点对了呢?
  • 这一轮我确实是措手不及,我关注的点一直集中在短耗时、高指令遵循的场景,根本没注意到长任务执行的变化。给AI赋予meta级别的能力,让AI来主导工作,这些都是我不怎么关注的,完美错过。另外anthropic这家公司的排华情节或多或少也造成了国内慢一拍的情况。
  • 这是个对想象力无限友好,对我好像不太友好的时代,我空的时候感觉真是没什么特别想做的。技术概念日新月异,牛马也无心培养自己的创意能力,效率提高并不会让牛马空下来,只会让牛马更忙。失业的焦虑、FOMO情绪等等,人类真是太奇怪了。
  • Agent teams之流开始出现,我觉得本质还是探索如何去挖掘和释放模型的智力,所以前提还是模型够强。个人依旧是更看好模型公司而不是应用公司。这是少数天才的变革,我依然这么认为。
  • 很难说做技术的在这个时代更有优势还是更容易被淘汰,我们确实更加了解Agent的运作形式,但也正是这份了解可能约束了我们的想象力,看不到简单循环背后的价值,openclaw再次证明了这一点。
  • 可能正如anthropic老板所说吧,海啸已经在地平线上了。