AI 总体趋势

AI 的主线变化可以概括为：

深度学习 → Transformer → Chat → Tool → Vibe → Agent。

这条线背后，是 AI 从"理解和生成内容"逐步走向"使用工具、参与研发、执行任务、重塑组织"。每一次跃迁，都是人机分工边界的一次重新划定。

Chat：对话成为新界面

ChatGPT 的突破不只是模型能力，更是产品形态。 它把语言模型从 API 和论文变成了普通人可以直接使用的工具。对话界面让模型从"开发者工具"变成"通用工具"，也让"自然语言描述需求"第一次成为真实的人机交互方式。Chat 阶段确立的核心范式：用语言描述意图，模型生成结果，人来判断和修改。

Tool：调用能力让模型接入外部世界

单纯生成文字的模型，能做到的事是有限的。 工具调用让模型不只是回答问题，而是可以搜索、计算、读写文件、调用 API、访问数据库、操作浏览器。模型从"生成答案"走向"调用能力"，开始参与真实的任务执行，而不只是生产内容。这一步也是 Agent 能力的前提：没有工具，Agent 只能思考，不能行动。

Vibe Coding：自然语言成为编程方式

Vibe Coding 的核心转变，是把自然语言作为主要的编程界面。 开发者的工作从"手写、调试、优化代码"变成"描述意图 → AI 生成 → 引导、测试、反馈 → 迭代"。创业公司中 AI 生成代码已普遍到几乎成为默认；一个人借助 AI 完成的项目，开发成本可以比传统外包低几个数量级。

但它的边界同样清晰。 约三分之一的高级开发者表示，审计和编辑 AI 输出的时间抵消了节省的时间。随着代码量增加，AI 生成代码的一致性、安全性和可维护性问题逐渐浮现。Vibe Coding 正在向"带严格监督的 AI 驱动开发"演进，而不是"完全不看代码"。它改变的是人在开发流程中的位置，不是取消人的判断。

推理成本：下降速度超过大多数预期

AI 推理成本正在以历史上极少见的速度下降。 同等性能的模型推理价格，在两年内下降了数百倍，速度在技术史上罕见。2024 年中之后，价格下降从"技术驱动"加速为"竞争驱动"，触发点是 DeepSeek 引发的价格战。

成本下降改变了哪些应用在经济上可行。 以前因成本过高不可行的场景——长文本摘要、实时推理、per-user 个性化——开始变得可商业化。但同时存在一个悖论：价格下降刺激用量暴增，企业实际 AI 账单反而在上涨。成本下降不等于 AI 支出下降，而是让更多场景变得可投入。

开源与闭源的格局

"只有头部实验室才能做前沿模型"的假设正在被打破。 DeepSeek-V3 用远低于头部实验室的训练成本达到了同等性能，证明高算力不是做前沿模型的唯一路径。技术路径是 MoE 架构、FP8 混合精度训练和计算通信重叠的组合，不是单纯堆算力。

开源模型追赶闭源的速度正在加快。 落后周期从曾经的约 12-18 个月，压缩至约 6-9 个月。开源的意义不只是免费使用，而是本地部署、私有数据、低延迟和不依赖 API 的工程自由度。但顶端能力差距仍然存在——复杂多步骤任务、长上下文理解和工具调用的稳定性上，开源模型仍落后于最新的闭源前沿模型。开源适合特定场景的精准优化，前沿 Agent 任务仍然更依赖闭源模型。

能力商品化：差异化在向上移动

基础模型能力正在趋于收敛，领先优势窗口越来越短。 领先模型与追随者之间的性能差距往往在几个月内被收窄。"有更好的模型"不再是持久的竞争壁垒，差异化正在向其他方向转移。

差异化正在从预训练向后训练和产品层迁移。 后训练（指令对齐、偏好优化、安全训练、工具使用训练）对最终性能的影响，已经超过预训练规模本身。领域特定的高质量数据飞轮——12-18 个月积累的用户反馈——形成难以复制的优势，因为后来者无法追溯同等质量的历史数据。能力商品化不等于 AI 产品商品化：工程能力、数据质量、与现有工作流的整合深度，正在成为新的竞争焦点。

从传统软件到 Agent

Agent 和此前所有自动化工具的本质不同，在于它处理的是动态上下文和非结构化输入。 脚本、Workflow、RPA 都建立在已知场景的固定输入和逻辑判断上。Agent 可以处理自然语言目标、隐性经验和变化的上下文，不需要为每种情况单独写规则。

两条路线并行存在，适合不同场景：

Workflow + AI：以 Dify、n8n、LangGraph 为代表，用工程化约束换取确定性、可控性和可解释性，适合步骤可预测、需要合规审计的任务。
自然语言 + Agent：以 Claude Code、Codex 等为代表，适合步骤无法提前确定、需要动态决策的任务，代价是更高的不可预测性。

实际落地中，Workflow 仍然占主导。 当前企业落地中真正自主运行的 Agent 案例仍属少数，原因是 Workflow 的确定性更适合企业风险偏好。混合架构正在成为主流：Workflow 处理可预测的工作，Agent 负责需要动态推理的部分。

越靠近基础模型的能力补丁，越容易被模型进化吞噬。 Prompt 技巧、固定 RAG pipeline、特定工具的封装——这类技术性优势会随模型能力提升而贬值。岗位经验、判断标准、领域知识和高质量上下文，会随时间积累出复利效应。

新入口与新环境

Agent 可能成为新的流量和任务入口。 传统网页和 App 让用户在页面之间跳转完成任务；AI 入口可以在对话中完成搜索、比较、下单、支付，不需要切换页面。这会改变流量分发方式、广告模式和用户路径。

文件系统和工作区是 Agent 落地的关键基础设施。 Claude Code、Codex 等工具的核心不只是模型更强，而是它们拥有文件系统、终端、工作区和可验证环境，让 AI 从无状态对话走向持久化任务执行。Computer Use（截图 → 理解界面 → 操作鼠标键盘）正在把这个能力从开发者工作区扩展到任意桌面环境，但在真实操作基准上的成功率仍不稳定，距离可靠落地还有距离。

Chat：对话成为新界面​

Tool：调用能力让模型接入外部世界​

Vibe Coding：自然语言成为编程方式​

推理成本：下降速度超过大多数预期​

开源与闭源的格局​

能力商品化：差异化在向上移动​

从传统软件到 Agent​

新入口与新环境​