AI, AI, AI

兜兜转转，转转兜兜，2024都快要落幕了，每年年底都会有一些唏嘘，今年尤其更甚，但同时今年又尤为与过去几年不太一样，工作之外的生活改变了很多，工作上却有些止步不前。写这一篇的时候其实并没有想好到底要写什么内容，如果是当做年终总结的话其实也不太合适，且当是随笔好了，拿起镜子照一照自己。

爱

今年是拥有爱情的一年，爱情彻底改变了我工作之外的时间，让我感觉这才是真正意义上的生活。世人偏爱歌颂爱情，歌曲之中情歌占了大半，至此我才更加理解此般为何，但要我详细论述一二，好像也比较难，这方面我终究是个呆子。说来惭愧，这是我头一次真正意义上拥有爱情，它来的着实有点晚，但缘分这个东西讲究刚刚好，来的早一分或者晚一分可能都不会开花结果。能遇见她似乎耗尽了我所有的运气，但如果能够选择，我不会改变这最好的安排。她很好，好到让我始终有一些愧疚，家庭、职业的瑕疵，让我怀疑自己是否配得上这样的美好。

现在这个时代，拥有一份能够结为连理的爱情非常不容易，世俗名誉、金钱地位还有高高在上的房价，那份纯粹很难保持。国家发展的很快，生育率跌的也很快，可谓成也地产，败也地产。此外呢，两个人在一起，摩擦是大概率的事情，人性复杂，没有两个人可以完美无缝，乱七八糟的故事有太多太多，没吃过猪肉，但看了太多猪跑。可是我俩几乎不吵架，就更显珍贵和特殊。我们都明白这份来之不易，这也是我们能走到最后的支撑之一。和谐的后盾、没有内耗，对人这一辈子，很重要。

哎

今年在职业发展上有点止步不前，而且我也没怎么看到有改变的苗头，外部环境是一部分、个人心态的变化又是一部分。

大环境来说，经济陷入一个难解的困境，互联网的发展也慢慢进入存量博弈，这些观点其实之前也有论述过。但程序员需要增量，码农敲完的代码绝大多数并不属于写出他们自己，很多时候这些代码也只有在大平台上才能发挥它的价值，所以码农仍然是无产阶级，只是在互联网爆发的年代分得了更多的时代红利，程序稳定后如果仅是少量改进维持运行，所需要的维护人员相比开发人员的数量是明显下降的，所需要的能力也不在同一水平，一旦增量耗尽，耗材属性凸显，曾经无限风光的大佬也会瞬间郁郁寡欢，更别提普通人了。最近看了付鹏年终总结报告，觉得还不错，值得一看，也许中国也要走上存量分配的道路，无论说的对不对，比较有启发性。

外部环境也包括个人节奏和时代节奏的匹配，很明显我这块是很差的，这两年始终是没能越过我认为的转行的最后一道坎，随着年龄的增长，可能好的机会已经过去了，我总是悲观的认为这扇门可能已经关闭，再要打开它难之又难。

个人心态上来说，还是比较悲观吧，我曾经的心火基本上也已经熄灭了，如果努力无法收到回报，那还努力什么呢？如果没有上升的通道，那还倒腾个什么呢？和绝大多数人一样，就是随着时代洪流走一步看一步。谈恋爱之后生活的重心也逐步偏向日常生活，更加没有心思去focus在水平进步上。所以今年博客都处于断更的状态，生活上有女友的陪伴自然是少了在博客上的抒发，技术上也没有要写的素材和内容。这种情况对于我个人的损失来说，除了明面上的内容，我觉得更多是内观思考时间的减少。无论如何还是希望自己来年能多写一点，多看看自己，尽管这很难。

AI

如果说有什么东西还在持续保持热忱和关注，那就是AI了。有时候挺矛盾的，我希望AI变得更强，这样我们才有做出强力应用的可能，我又希望AI不要变强，强到让我们失业。

每天都会看到很多的AI新闻、AI进展、AI讨论，我也阅读、收听了其中相当一部分内容，但是到头来想总结一下的时候还是会觉得无从写起，脑子里并没有一个比较成型的框架。现在信息的分发太快、太碎片了，我们接触到的内容越来越短，从电影到长视频到短视频；从电视剧到切片到3分钟总结；从长篇电视剧到现在的短剧；从书籍到长篇论述到一句话总结，比比皆是。每天早上手机一开，满屏的推送内容，知识很难有效沉淀下来。而AI又极大加速了这种短平快，我觉得有必要把多读几本书放在明年的目标里，现在已经很难做到花几个小时静下来专注了。但是播客是其中的一个例外，近几年国内播客看起来发展了不少，很多稍微比较前沿的内容都是在播客在进行传播，这是极少数还在增长的长内容了，我认为它也是AI难以染指的领域之一（尽管已经出现了AI生成的播客）。

回看去年的一些预测，站在OpenAI 12天发布会之后，就列他个一二三吧。

我们没有等来GPT-4.5或者GPT-5，而是GPT-o3这样的推理模型。模型训练数据的Scaling Law貌似有到头的情况，头部厂商在下一代模型的训练上貌似都出现了一些问题，好在强化学习、后训练站了出来，继续Scaling，只不过不在数据量而是在推理量上，所有的故事得以继续书写下去。
第二梯队的厂商追逐的速度超出我的预期，国内的各个玩家也突破很大，也有不少异军突起的势力，看起来和头部的差距在不断缩小。所以可能极致的寡头在这一波大模型浪潮的未来很难出现？毕竟GPT前两代作者已经全部离开了OpenAI，人才流动很大。但是也不要忘了GPT-4应该在Chatgpt发布的时候就已经完成了训练，只是又藏着调优了6个月才发布上线；Ilya Sutskever仍然出现在GPT-o1的贡献者名单上。外界也比较难知道OpenAI内部到底达到了什么水平，还藏了什么东西。
视频生成模型、图片生成模型都是有比较大的提升，视频基本上是从无到有的情况，而图片生成则是出现了各种各样的操作工具，质量提升也很大。可以瞧一瞧HuggingFace Spaces，上手就能体验，很多项目让人眼前一亮，简单举几个例子：
- Expression Editor。表情修改，拖拖拽拽就能调整面部。
- Magic Quill。采用笔刷和描述快速更改图片，非常惊艳的交互方式。
- Drag Your GAN。采用控制点拖拉更改图片，同样的惊艳。
我相信在图片和视频的编辑上，无论是底层还是应用，后续还会有很大的突破。目前来说好像还没有杀手级的C端应用出来，哪天具备各种功能的AI图像视频编辑能够在不损失原有图像或视频精度的前提下进行用户友好的修改、编辑，应该能出圈。
模型的价格确实下降了很多，而且这还是在各厂商打价格战的情况下，但是我觉得还不够，如果仍旧是在当前绝大多数模型所采用的这种调用方式的情况下。尽管出现了端到端Realtime api，但是本质并没有发生改变，对模型的调用还是这几部分：
- 系统提示词
- 对话历史
- 用户的提示词
- 工具描述
所有形式上的创新：RAG、流程编排、搜索、Agent、Artifact、Canvas、MCP（Model Context Protocol），底层还是在上述的这四个东西里来回搞花样，我就感觉应用层还是很难翻起什么水花。模型本身还是没有记忆，除非去对模型进行微调、再训练，但目前这样不是太贵就是终端硬件无法支撑，只能把对话上下文所有内容都丢给模型。同样的，所有的工具描述每次也都要丢给模型，那么一来一回这个Token损耗就是成倍上升，C端应用还是经不起这个耗费，商业化很难，尤其在中国。
普通人可能更期待AI像Jarvis一样出现在我们身边，但这件事我认为近几年或者这一波浪潮内都很难做到。优秀的LLM做了很多人类对齐，对齐的是最优秀的一套价值、知识和内容，但是作为个人的全能助理，助理必须要懂它的master，也就是说它必须是个性化、定制化、能够不断适应，我们日常的语言交流存在大量的默认背景且人的思维和个性并非一成不变，它必须要不断地向个体对齐才能运作良好。就现在这个情况，上下文和微调都无法满足。
唯一让我在应用层有新的认知的是coding copilot或者说AI code editor。真是没想到Cursor能够如此成功，在Github Copilot这个霸主的笼罩下慢慢杀出来，我用cursor也算早的，当时的cursor还不穿vs code的皮，只是它能够白嫖gpt4，所以我下载来用了它，当时也没感觉到有多惊艳，“不就是在编辑器里多些 AI chat，AI补全么”，随着免费开放的收紧以及Java这种重工业语言的特性（目前便捷的功能还是比AI更重要一些），最后我卸载了它，在IDEA里老实待着，直到最近开始关注到Cursor团队的采访以及Codeium的windsurf，才开始了解到AI IDE的现状。Codeium和Cursor的官网Blog里面有大量的技术文章输出，非常有学术范和深度，让我头一次觉得AI应用是可以有护城河的，确实是水平有思考，非常推荐去看一看瞧一瞧。至于Cursor为什么好，我其实没体验过，可以看看这一篇文章。话说Jetbrains在干什么啊？
有一种论调是模型的能力已经很强，出现能力过剩，只是应用层水平还没跟上。我有一些不太同意，很多应用场景需要大量的上下文，就好比很多工具的文档都有数十页不止，同时这些内容并不是普适的知识或者是私域的内容，也就是说模型本身并没有学习过这些东西。如果把文档全部丢过去，或者把所有的函数描述都给过去，再或者做Few shot喂模型很多例子，现在最强的模型依然没法很好的学会使用给到的工具，必须要依靠一些奇技淫巧，或者根本解决不了，而推理模型的成本和速度又没法达到要求，所以现在不少应用场景仍然没法落地。
还有一种论调是模型的能力已经很强，但是稳定性、可靠性无法保证，制约了应用的发展。这个观点非常同意，如果AI不能够直接操作改变物理世界，那么能产生的影响就少了一大半；如果AI能够直接操作物理世界，它的可靠性就不能是90%，也不能是99%，甚至99.9%也不够。而可靠性从90%提升到99%，从99%到99.9%，从通俗经验上来说，可能每一次都需要质的飞跃。AI的智能和可控真的能够双全么？
Agent很热，所有人都在说Agent怎么怎么样，但说实话除了Agent还有什么别的选择么？所以Agent必须要站出来，把这个故事给说下去。但是Agent真要能有所建树，我觉得还是要能够影响物理世界，那就回到了上一条论述。
说大白话，把东西介绍清楚，说出事情的本质，还真是挺难的。当时想要了解下MCP，搞清楚这玩意儿到底和Function Call有什么区别，网上搜来搜去基本上就没有能完全说明白的，最后还是在推特上看到某些大佬的通俗解释才对此比较清晰化。看看对比下这篇内容的简介部分和推特上大佬的解释，天差地别。