Latent Space 2025-12-26

OpenAI 核心团队访谈：从模型到 Agent，重新定义编程的未来

💎 精选金句

通往 AGI 的道路必须经过评估（The path to AGI goes through evals）。我已经好几个月没有亲手写过一行代码了，我完全信任 Codex 来处理最困难的工作。模型会像人一样养成使用习惯，如果你强迫它使用不熟悉的工具，它会变慢且容易出错。编程只是一种 Agent 行为……它本质上是一个针对终端的计算机使用 Agent。我们希望让任何地方的小型开发团队都能拥有顶级科技公司技术负责人的能力。

📖 内容概要

在本次 AIE Code 的深度对谈中，来自 OpenAI 的 Bill 和 Brian 分享了关于编程模型、Agent 演进以及未来软件开发范式的核心洞察。访谈重点围绕新发布的 Codex Max 展开，该模型旨在解决长程任务的挑战。Codex Max 不仅能在本地或 Web 环境下连续运行超过 24 小时，还具备先进的上下文管理和压缩机制，使其能够处理复杂的工程迁移和大规模重构任务。

关于模型训练，Brian 提出了一个引人注目的观点：GPT-5 在编程能力上的提升很大程度上归功于对“人格化（Personality）”的关注。他指出，为了让资深工程师信任 AI，模型必须表现得像一个可靠的“结对编程”伙伴。这包括在执行任务前进行规划、在调用工具前通过前导语（Preambles）与用户沟通意图，以及在完成后进行自检。这种行为特征的改善，使得开发者能够实时干预或理解 AI 的决策逻辑，从而避免在错误的路径上浪费资源。

讨论还深入到了 Codex 系列与通用模型（如 GPT-5.1）的区别。Codex 被定义为“有主见（Opinionated）”的 Agent 模型，它针对特定的 Harness（开发环境/框架）进行了深度优化。有趣的是，研究发现模型会养成类似于人类的“工具偏好”。例如，Codex 在使用 ripgrep (rg) 时表现远优于传统的 grep，因为在其训练数据中，高性能开发者更倾向于使用前者。这意味着开发者在构建 AI 工具链时，需要考虑模型隐含的“操作习惯”。

访谈的另一个核心议题是“抽象层的上移”。Brian 预测，未来的开发者将不再忙于调整模型参数或处理复杂的 API 调用，而是直接在应用中嵌入完整的 Agent。这种 Agent 能够自主创建工具、编写插件并解决集成问题，使软件具备“自定制”能力。例如，一个办公软件可以利用内置的 Codex 实例，为用户的特定 API 实时编写一个自定义连接器。这标志着 AI 正在从一个“对话框”演变为一个能够操作计算机终端、管理文件系统并自主解决问题的“数字员工”。

在评估（Evals）方面，OpenAI 强调了真实世界场景的重要性。Bill 认为，学术界的静态基准测试已不足以衡量 Agent 的能力，必须引入多轮对话评估和“LLM 作为裁判”的机制。他提出了“面试式评估”的概念，即观察 Agent 在面对模糊需求时是否会主动询问约束条件，并根据反馈调整策略。这种动态评估体系是实现 AGI 的关键基础设施。

展望 2026 年，两位嘉宾预测编程 Agent 将变得更加“视觉原生”，能够直接理解 UI 界面而非仅仅依赖 API。最终的目标是民主化顶级工程能力，让全球任何角落的开发者都能通过 AI 获得相当于硅谷顶尖技术专家的支持，从而极大地提升人类的生产力上限。