2025，元年的一年

约 3608 字大约 12 分钟

2026-01-01

经常访问的一个金融投资专家在展望2026年时提到： 2026年目前在预期的元年，

自动驾驶元年
液冷元年
国产HBM元年
端侧AI元年
固态电池元年
AI应用元年
量子计算元年
存算一体芯片商用元年
类脑计算元年
低空经济元年
商业航天元年
人型机器人元年
硅光元年
可控核聚变元年

总之就是各种元年，让人眼花缭乱，股民又有很多知识要恶补了。当然了，我肯定不是来科普上述概念的，作为我最关注的人工智能领域，在过去的2025年其实也有不少新的元年，我借此也尝试总结几个本人感兴趣的点。

一、推理（Reasoning）元年

2024年9月，OpenAI凭借o1与o1-mini模型，正式开启了一场以“推理”为核心的革命——这场革命也被称为推理规模扩展（inference-scaling），或**基于可验证奖励的强化学习（RLVR）**革命。2025年初，该公司又推出o3、o3-mini及o4-mini模型，进一步加码这一技术方向。自此，推理能力几乎成为所有主流AI实验室模型的标志性特征。对这一技术突破重要性的理解，我们来看看安德烈·卡帕西（Andrej Karpathy）的解释：

通过在多个环境中（例如数学题/代码谜题），利用自动可验证的奖励对大语言模型（LLM）进行训练，模型会自发形成人类眼中类似“推理”的策略——它们学会将问题拆解为中间计算步骤，还掌握了多种反复推敲以解决问题的策略（相关案例可参考 DeepSeek R1 论文）。

实践证明，RLVR 训练具备极高的性价比（能力/成本比），这也消耗了原本计划用于预训练的大量计算资源。因此，2025年大语言模型的能力进步，很大程度上取决于各实验室对这一新阶段技术红利的挖掘。总体来看，2025年的模型规模与此前相近，但 RL（强化学习）的训练时长大幅增加。

2025年，所有知名 AI 实验室至少都发布了一款推理模型。部分实验室推出了支持推理/非推理双模式的混合模型。如今，许多API模型都配备了调节旋钮，可针对特定提示词调整推理的深度。而推理能力真正的突破，在于工具调用。具备工具调用能力的推理模型，能够规划多步骤任务、执行任务，并基于结果持续推理，从而更新计划以更好地达成目标。一个显著成果是，AI辅助搜索如今真正可用。此前，将搜索引擎与大语言模型对接的效果一直不尽如人意，但现在，即便是更复杂的研究问题，我也常常能通过ChatGPT中的“GPT-5思考模式”得到解答。推理模型在代码生成与调试方面也表现卓越。推理机制让模型能够从一个错误出发，逐步排查代码库的多个层级，定位问题根源。我发现，只要推理模型具备读取和执行代码的能力，即便是面对庞大复杂的代码库，最棘手的漏洞也能被优秀的推理模型诊断出来。

二、智能体（AI agents）元年

当推理能力与工具调用能力相结合，你将得到智能体（AI agents）。这一点尤其让我兴奋。过去AI更像是写手或顾问，现在它正成为能动手的“行动者”。智能体AI不仅能告诉你该怎么做，还能自己执行——触发工作流、调用API、操作软件。

整个2025年，所有人都在谈论智能体，每个使用“智能体”这个术语的人，给出的定义似乎都略有不同。在我看来，智能体就是一种通过循环调用工具来达成目标的大语言模型（LLM）系统。智能体的两大突破性应用领域是编码和搜索。深度研究模式，即让大语言模型负责收集信息，耗时15分钟以上为你生成一份详细报告，在今年也风靡一时。我就曾尝试用豆包研究过一个学术课题，确实可以写出一份有模有样的研究报告，但是很多细节需要优化，比如引用地址的时效性等问题。GPT-5的思考模式也是一种智能体模式，而且运作效果也很不错。

三、编码智能体（coding agents）元年

2025年最具影响力的事件发生在2月 ——Anthropic 低调发布了 Claude Code。说它低调，是因为它甚至没有单独的博客文章！Anthropic将Claude Code的发布，作为其宣布Claude 3.7 Sonnet的博客文章中的第二项内容。Claude Code是我所说的编码智能体最典型的例子，这类大语言模型系统能够编写代码、执行代码、检查结果，然后进一步迭代优化。2025年，各大实验室都推出了自己的命令行界面（CLI）编码智能体：Claude Code、Codex CLI、Gemini CLI、通义千问代码（Qwen Code）、Mistral Vibe，独立于厂商的选项包括GitHub Copilot CLI、Amp、OpenCode、OpenHands CLI 和 Pi。Zed、VS Code 和 Cursor 等集成开发环境（IDE）也在编码智能体的集成方面投入了大量精力。

我第一次接触编码智能体模式，还是下半年自己写的一个小项目：不用任何复杂的前端框架（如react），用纯html+css+js的模式，去定制一个企业网站。最大的难点就是设计稿要求精准还原，并且需要有各种动效。当然了，我肯定不是精通前端的人，顶多算个了解前端，css更只是略知一二。我Cursor和Trae都用了，最终因为费用等问题，还是选择了Trae。用过后只想说：以前做不了的项目，现在确实轻松，除了要珍惜自己的使用额度外，其他没毛病。最大的难点反而是一开始的官网设计图怎么转成html代码，figma make用了下，效果也不是很好。

四、氛围编程（vibe coding）元年

今年2月，安德烈・卡帕西（Andrej Karpathy）在一条推文中创造了 “氛围编程”（vibe coding）这个术语：

我发现了一种全新的编程方式，称之为 “氛围编程”。在这种模式下，你完全沉浸于氛围之中，拥抱指数级提升的效率，甚至可以忘掉代码本身的存在。这种方式之所以可行，是因为大语言模型（比如搭载Sonnet模型的 Cursor Composer）已经变得过于强大。我现在还会用SuperWhisper和Composer语音交互，几乎不用碰键盘。我会提一些极其琐碎的需求，比如 “把侧边栏的内边距减少一半”，因为我懒得自己去找对应的代码。我总是直接 “全部接受” 模型生成的内容，再也不看代码差异对比了。遇到错误提示时，我直接复制粘贴过去，不加任何说明，通常这样就能解决问题。代码的复杂程度已经超出了我平时的理解范围，要搞懂它得花不少时间仔细研读。有时候模型修不好bug，我就换种方式绕开，或者让它随机修改，直到问题消失。这种方式用来做周末随手的一次性项目还不错，而且过程特别有意思。我确实在做一个项目或网页应用，但这已经算不上真正的编程了。我只是看看效果、说说话、运行一下程序，再复制粘贴点东西，大部分时候都能正常工作。

vibe coding的一个本质，就是让人去做最擅长的事：创造和判断。让AI去做最擅长的事：执行和实现。但我们需要具备的关键能力就是有清晰的产品思维，有要会判断代码质量，要善于表达需求，要懂得去快速迭代。

我个人实践的感受是，AI IDE确实好用，但是我预感方案比较麻烦时，会先让AI提出编程方案，而不是让AI立刻修改编辑文件。等我审核通过后，再让AI修改，或者自己修改细节敲上去。因为不止一次AI把我的代码完全搞砸了，也许当下要求AI的这个功能有完成，但是他可能会为了完成当下的功能而破坏到现有的其他代码。特别是那些堆栈调用较深的，排查修复起来真是要老命，一旦你全权交给AI，奔溃的时候就是你说东他说西连环bug套。同时，大型工程的话，对上下文的理解还是不够。十几年的屎山项目动不动就是几百万行代码…AI不太能搞定，写个轻应用或者小模块倒是问题不大。

五、MCP元年

2024年11月，Anthropic推出了 模型上下文协议（Model Context Protocol，MCP） 规范，将其作为一种用于在不同大语言模型（LLM）中集成工具调用的开放标准。2025年初，该协议的受欢迎程度呈爆发式增长。5月曾出现这样一个节点：OpenAI、Anthropic和Mistral三家公司在短短八天内，相继推出了对MCP的API级支持！MCP不仅仅是AI的“USB-C接口”，而是一个从根本上重构AI应用架构，具有良好的可插拔性、可发现性和可组合性，推动AI从Chatbot迈向智能体时代的范式转变协议。但其极高的采用率却让我颇感意外。我认为这归根结底是时机问题：MCP 的发布恰逢模型终于在工具调用方面变得成熟可靠，以至于许多人似乎将对MCP的支持误认为是模型使用工具的先决条件。

自从我深度使用Trae及同类工具后，就没怎么使用MCP了。Anthropic自身似乎也在今年晚些时候意识到了这一点，推出了出色的Skills（技能）机制。MCP涉及Web服务器和复杂的JSON负载，而一个Skill只是文件夹中的一个Markdown文件，还可选择性地附带一些可执行脚本。随后在11月，Anthropic发布了《通过 MCP 执行代码：构建更高效的智能体》。文中描述了一种让编码智能体生成代码来调用MCP的方式，这种方式规避了原始规范带来的大量上下文开销。

12月初，MCP被捐赠给了新成立的智能体人工智能基金会（Agentic AI Foundation）。

六、上下文工程元年

上下文工程（context engineering）这一术语近来开始受到关注，被视为提示工程（prompt engineering）更优的替代概念。

以下是Shopify首席执行官托比・吕特克（Tobi Lutke）发布的一条相关推文示例：

相比 “提示工程”，我更喜欢 “上下文工程” 这个说法。它更准确地描述了这项核心技能：为任务提供所有必要语境，使大语言模型（LLM）具备合理解决该任务的能力，这是一门艺术。

近期，安德烈・卡帕西（Andrej Karpathy）也进一步强调了这一观点：

强烈支持用 “上下文工程” 取代 “提示工程”。人们通常将 “提示” 与日常使用大语言模型时给出的简短任务描述联系在一起。但在所有工业级大语言模型应用中，上下文工程是一门精妙的艺术与科学，它需要在语境窗口中，为下一步操作填充恰到好处的信息。说它是科学，是因为做好这件事需要涵盖任务描述与说明、少样本示例、检索增强生成（RAG）、相关（可能是多模态的）数据、工具、状态与历史记录、信息压缩…… 要做好这些工作难度极大。说它是艺术，则是因为这需要凭借对大语言模型 “心智模式” 的直觉判断来指导实践……

常见的上下文工程的方法有：offload（转移策略）、reduce（压缩策略）、retrieve（检索策略）、isolate（隔离策略）、cache（缓存的机制）等。

七、合成数据元年

AI再聪明也得“吃饭”，但2025年高质量互联网数据已接近见底，清理成本也越来越高。于是，合成数据成了战略武器——用模型自己生成的数据，再去训练模型。

微软的SYNTHLLM框架等项目已证明，只要设计得当，合成数据完全能支持大规模训练。更大的模型不一定需要更多数据，数据集可以按需调优，不再盲目追求“多多益善”。数据从此进入“定制养殖”时代。

八、量化幻觉元年

还记得2024年纽约律师用ChatGPT编案例结果翻车的事吗？过去大家把AI幻觉看作一种“小脾气”，不行就重试。但现在，厂商把它当作可测量、可优化的工程指标。

RAG（检索增强生成）几乎成了标配，让AI“先查证，再说话”。还出现了专门测试集，比如RGB与RAGTruth，用于量化幻觉率。虽然无法100%消除，但治理思路已从“凭经验调”转向“用数据治”，方向对了。