跳到主要内容

AI 总体趋势

AI 的主线变化可以概括为:

深度学习 → Transformer → Chat → Tool → Vibe → Agent

这条线背后,是 AI 从"理解和生成内容"逐步走向"使用工具、参与研发、执行任务、重塑组织"。每一次跃迁,都是人机分工边界的一次重新划定。

Chat:对话成为新界面

ChatGPT 的突破不只是模型能力,更是产品形态。 它把语言模型从 API 和论文变成了普通人可以直接使用的工具。对话界面让模型从"开发者工具"变成"通用工具",也让"自然语言描述需求"第一次成为真实的人机交互方式。Chat 阶段确立的核心范式:用语言描述意图,模型生成结果,人来判断和修改。

Tool:调用能力让模型接入外部世界

单纯生成文字的模型,能做到的事是有限的。 工具调用让模型不只是回答问题,而是可以搜索、计算、读写文件、调用 API、访问数据库、操作浏览器。模型从"生成答案"走向"调用能力",开始参与真实的任务执行,而不只是生产内容。这一步也是 Agent 能力的前提:没有工具,Agent 只能思考,不能行动。

Vibe Coding:自然语言成为编程方式

Vibe Coding 的核心转变,是把自然语言作为主要的编程界面。 开发者的工作从"手写、调试、优化代码"变成"描述意图 → AI 生成 → 引导、测试、反馈 → 迭代"。创业公司中 AI 生成代码已普遍到几乎成为默认;一个人借助 AI 完成的项目,开发成本可以比传统外包低几个数量级。

但它的边界同样清晰。 约三分之一的高级开发者表示,审计和编辑 AI 输出的时间抵消了节省的时间。随着代码量增加,AI 生成代码的一致性、安全性和可维护性问题逐渐浮现。Vibe Coding 正在向"带严格监督的 AI 驱动开发"演进,而不是"完全不看代码"。它改变的是人在开发流程中的位置,不是取消人的判断。

推理成本:下降速度超过大多数预期

AI 推理成本正在以历史上极少见的速度下降。 同等性能的模型推理价格,在两年内下降了数百倍,速度在技术史上罕见。2024 年中之后,价格下降从"技术驱动"加速为"竞争驱动",触发点是 DeepSeek 引发的价格战。

成本下降改变了哪些应用在经济上可行。 以前因成本过高不可行的场景——长文本摘要、实时推理、per-user 个性化——开始变得可商业化。但同时存在一个悖论:价格下降刺激用量暴增,企业实际 AI 账单反而在上涨。成本下降不等于 AI 支出下降,而是让更多场景变得可投入。

开源与闭源的格局

"只有头部实验室才能做前沿模型"的假设正在被打破。 DeepSeek-V3 用远低于头部实验室的训练成本达到了同等性能,证明高算力不是做前沿模型的唯一路径。技术路径是 MoE 架构、FP8 混合精度训练和计算通信重叠的组合,不是单纯堆算力。

开源模型追赶闭源的速度正在加快。 落后周期从曾经的约 12-18 个月,压缩至约 6-9 个月。开源的意义不只是免费使用,而是本地部署、私有数据、低延迟和不依赖 API 的工程自由度。但顶端能力差距仍然存在——复杂多步骤任务、长上下文理解和工具调用的稳定性上,开源模型仍落后于最新的闭源前沿模型。开源适合特定场景的精准优化,前沿 Agent 任务仍然更依赖闭源模型。

能力商品化:差异化在向上移动

基础模型能力正在趋于收敛,领先优势窗口越来越短。 领先模型与追随者之间的性能差距往往在几个月内被收窄。"有更好的模型"不再是持久的竞争壁垒,差异化正在向其他方向转移。

差异化正在从预训练向后训练和产品层迁移。 后训练(指令对齐、偏好优化、安全训练、工具使用训练)对最终性能的影响,已经超过预训练规模本身。领域特定的高质量数据飞轮——12-18 个月积累的用户反馈——形成难以复制的优势,因为后来者无法追溯同等质量的历史数据。能力商品化不等于 AI 产品商品化:工程能力、数据质量、与现有工作流的整合深度,正在成为新的竞争焦点。

从传统软件到 Agent

Agent 和此前所有自动化工具的本质不同,在于它处理的是动态上下文和非结构化输入。 脚本、Workflow、RPA 都建立在已知场景的固定输入和逻辑判断上。Agent 可以处理自然语言目标、隐性经验和变化的上下文,不需要为每种情况单独写规则。

两条路线并行存在,适合不同场景:

  • Workflow + AI:以 Dify、n8n、LangGraph 为代表,用工程化约束换取确定性、可控性和可解释性,适合步骤可预测、需要合规审计的任务。
  • 自然语言 + Agent:以 Claude Code、Codex 等为代表,适合步骤无法提前确定、需要动态决策的任务,代价是更高的不可预测性。

实际落地中,Workflow 仍然占主导。 当前企业落地中真正自主运行的 Agent 案例仍属少数,原因是 Workflow 的确定性更适合企业风险偏好。混合架构正在成为主流:Workflow 处理可预测的工作,Agent 负责需要动态推理的部分。

越靠近基础模型的能力补丁,越容易被模型进化吞噬。 Prompt 技巧、固定 RAG pipeline、特定工具的封装——这类技术性优势会随模型能力提升而贬值。岗位经验、判断标准、领域知识和高质量上下文,会随时间积累出复利效应。

新入口与新环境

Agent 可能成为新的流量和任务入口。 传统网页和 App 让用户在页面之间跳转完成任务;AI 入口可以在对话中完成搜索、比较、下单、支付,不需要切换页面。这会改变流量分发方式、广告模式和用户路径。

文件系统和工作区是 Agent 落地的关键基础设施。 Claude Code、Codex 等工具的核心不只是模型更强,而是它们拥有文件系统、终端、工作区和可验证环境,让 AI 从无状态对话走向持久化任务执行。Computer Use(截图 → 理解界面 → 操作鼠标键盘)正在把这个能力从开发者工作区扩展到任意桌面环境,但在真实操作基准上的成功率仍不稳定,距离可靠落地还有距离。