Video thumbnail

    OpenAI 开发者大会 2025:Sam Altman 主旨演讲

    Valuable insights

    1.ChatGPT 应用 SDK 启动: 开发者现可利用 Apps SDK 在 ChatGPT 内部构建可交互、自适应和个性化的应用,并触达数亿用户。

    2.Agent Kit 简化智能体构建: Agent Kit 提供了构建、部署和优化智能体工作流所需的全套工具,显著降低了开发复杂性。

    3.Codex 升级至通用可用性: Codex 现已正式推出,搭载 GPT-5 Codex 模型,使几乎所有 OpenAI 新代码都由其生成。

    4.GPT-4o Pro 开放 API 接口: 最智能的模型 GPT-4o Pro 现已在 API 中全面可用,适用于金融、法律等需要高精度和深度推理的领域。

    5.Sora 2 预览版进入 API: Sora 2 预览版开放 API,提供更强的可控性、逼真的音景同步,助力创意内容快速迭代。

    6.开发者生态规模显著增长: 开发者数量翻倍,API 每分钟处理的 Token 量增长了二十倍,显示出 AI 建设的巨大加速。

    开场与增长回顾

    OpenAI 在旧金山举办 DevDay 活动,对过去两年开发者社区的巨大进步表示感谢。自首次 DevDay 以来,AI 已经从一个供人把玩的工具转变为日常构建的基础。当前,全球有 400 万开发者使用 OpenAI 平台,ChatGPT 每周用户数超过 8 亿。

    API 的处理能力实现了惊人的飞跃:2023 年每分钟处理约 3 亿个 Token,而现在每分钟处理量已超过 60 亿个 Token。这种加速得益于在座所有开发者的不懈努力,他们正在推动 AI 的未来发展。尽管取得了显著成就,但仍处于早期阶段,接下来的重点是让开发者能够更轻松地进行构建。

    核心目标:简化 AI 构建

    本次发布会将聚焦于四个核心领域,旨在解决开发者在构建过程中遇到的痛点。首先是展示如何在 ChatGPT 内部构建应用并获得巨大分发机会;其次是介绍如何让构建智能体(Agents)变得更快更有效;接着是展示如何简化软件编写过程,将重复性工作交给 AI;最后是对底层模型和 API 进行必要的更新,以支持所有创新。

    ChatGPT 应用生态系统启动

    OpenAI 致力于让 ChatGPT 成为提升用户生产力、创造力和学习速度的强大工具。自上次 DevDay 以来,团队一直在探索如何向开发者开放 ChatGPT,尝试了 GPTs 和 MCPS 等标准,并取得了许多宝贵经验。今天,平台将全面开放,允许开发者在 ChatGPT 内部构建真正的应用。

    为实现这一目标,平台推出了 Apps SDK,目前处于预览阶段。Apps SDK 提供了全栈能力,允许开发者连接数据、触发操作并渲染完全交互式的用户界面。该 SDK 基于 MCPS 标准构建,确保开发者对后端逻辑和前端 UI 拥有完全控制权。通过 Apps SDK 构建的应用,可以触达数亿 ChatGPT 用户,有望帮助开发者快速扩展产品规模。

    这将启用新一代可交互、自适应和个性化的应用,用户可以与之进行聊天。

    应用发现性将得到增强,用户可以直接通过名称(如 Figma)启动应用,或者当用户提出需求时(如需要派对播放列表),系统会自动推荐相关应用(如 Spotify)。此外,未来还将支持多种货币化方式,包括内置即时结账的 Agentic Commerce Protocol。

    应用演示:学习与设计

    演示环节展示了 Corsera 应用如何提供沉浸式学习体验。用户可以直接在 ChatGPT 中请求学习机器学习课程,应用会内联显示视频,同时用户可以继续与 ChatGPT 文本交互,要求解释视频中提到的复杂概念。Apps SDK 提供的 API 允许应用将当前上下文实时反馈给 ChatGPT,确保模型始终了解用户正在关注的内容。

    在创意方面,Canva 应用被用于将头脑风暴的成果转化为视觉资产。用户在讨论完一个名为“Walk This Wag”的狗狗散步业务后,直接要求 Canva 生成彩色、异想天开的海报,甚至可以进一步要求将其转换为完整的种子轮融资演示文稿(Pitch Deck)。

    优势
    描述
    快速集成
    仅需添加一个返回 HTML 的资源,应用即可在 ChatGPT 中运行。
    跨平台分发
    应用可在 Web 和移动端触达,实现广泛覆盖。

    Zillow 应用的演示进一步展示了上下文的深度集成。用户可以请求嵌入式的交互式地图,并要求 ChatGPT 根据对话上下文(如“三居室带院子的房子”)过滤房源。当应用进入全屏模式时,用户可以与 Zillow 体验深度交互,例如请求看房或询问特定房源距离狗公园的距离,此时 ChatGPT 会结合 Zillow 的上下文和外部搜索工具提供综合答案。

    Agent Kit:简化智能体构建

    AI 已从可问询系统演变为可执行任务的系统,即智能体。然而,将智能体从原型推向生产面临诸多挑战,包括编排、评估循环、工具连接和构建良好用户界面等复杂性。OpenAI 听取了数千个团队的反馈,旨在为所有希望更快、更轻松地从想法走向智能体的开发者提供支持。

    Agent Kit 核心功能发布

    Agent Kit 是一个完整的构建块集合,旨在帮助开发者以更少的摩擦力将智能体工作流从原型推向生产。它包含三大核心能力:Agent Builder 提供了快速的视觉化画布来设计逻辑步骤和测试流程;Chat Kit 提供了可嵌入的聊天界面,便于集成到自有应用中;Evals for Agents 提供了追踪评分、数据集和自动化提示优化等功能,用于衡量智能体性能。

    • Agent Builder:用于直观设计复杂工作流的视觉化画布。
    • Chat Kit:可定制的嵌入式聊天界面,用于集成到自有产品中。
    • Evals for Agents:用于度量性能的工具,包括追踪和自动化优化。
    • Connector Registry:安全连接内部工具和第三方系统的管理面板。

    Albertson's 等合作伙伴已利用 Agent Kit 部署智能体。例如,当冰淇淋销量意外下降 32% 时,智能体可以分析季节性、历史趋势和外部因素,并立即推荐调整展示或运行本地广告等行动,避免了传统流程中的恐慌和延误。

    Agent Kit 现场快速构建演示

    演示者在 8 分钟内挑战构建一个部署在 DevDay 网站上的智能体。构建过程完全在 Agent Builder 的可视化界面中完成,通过拖放节点连接工具、逻辑节点和预先提取的常见模式,无需编写底层代码。构建流程包括一个用于路由消息的分类代理和一个“会话代理”,后者连接了包含所有会议信息的文档,并附加了一个自定义的“入职会话小部件”。

    为了确保安全和可信度,工作流的开头添加了预构建的防护栏(Guardrails),用于防止幻觉和屏蔽个人身份信息(PII)。测试显示,该智能体能够正确识别用户意图,调用工具,使用自定义小部件,并以“Froge”的角色(青蛙)回复,最终推荐了最适合学习构建智能体的会议。

    该智能体随后被发布并获得了工作流 ID,然后通过 ChatKit React 组件被集成到 DevDay 网站的底部抽屉中,实现了快速、无代码的生产级部署和迭代能力。

    Codex 升级与软件工程新范式

    AI 正在开启软件编写的新时代,使任何有想法的人都能快速构建应用。全球各地已出现许多范例,例如一位 89 岁的退休人员利用 ChatGPT 构建了 11 个 iPhone 应用,以及医学生使用模型构建虚拟病人来练习困难对话。历史正在转变为对话,这正是开发者工具需要加速的原因。

    Codex 迈入通用可用性阶段

    OpenAI 的软件工程智能体 Codex 正式走出研究预览阶段,进入通用可用性(GA)。它现在运行在专为编码和智能体任务训练的 GPT-5 Codex 模型上,该模型在代码重构和代码审查方面表现更佳,并能动态调整思考时间。自 8 月初以来,Codex 的每日消息量增长了 10 倍,已成为最快增长的模型之一。

    Codex 现已集成到 IDE、终端和 GitHub 中,并且通过连接 ChatGPT 账户实现了工作流程的无缝迁移。新功能侧重于工程团队的支持,包括 Slack 集成、Codex SDK 用于工作流自动化,以及面向企业的管理工具和监控分析仪表板。思科等公司已利用 Codex 将代码审查速度提高 50%。

    如果查看日志,就会发现这才是 Codeex 智能体行为的真正魔力,任务非常具体,Codeex 就是团队的队友。

    现场演示:环境即代码

    演示环节展示了如何利用 Codex CLI 和 GPT-5 Codex 模型将物理环境转化为可操作的软件,整个过程未手动编写一行代码。首先,要求 Codex 创建一个控制舞台上方摄像头的简单界面,它不仅生成了界面,还拉取了 DevDay 的 Figma 品牌样式进行渲染。随后,Codex 成功研究了老旧的 VISCA 协议,并用 Node.js 脚手架搭建了集成代码,实现了对 Sony FR7 摄像头的精确控制。

    接着,演示者通过 IDE 扩展向 Codex 发送实时任务,要求将其连接到 Xbox 无线控制器来操控摄像头,Codex 自动规划了三个步骤来完成任务,包括接线和探索文件。更进一步,演示者利用实时 API 和 Agent SDK,要求 Codex 将场馆的灯光系统与一个 MCP 服务器连接起来,该服务器的配置和 UI 接口都是通过复杂的提示词和日志分析(Agentic Behavior)完成的。

    最终,通过语音模式,演示者成功地用自然语言控制了灯光效果,并要求 Codex 利用新发布的 Codex SDK 实时重编程应用,在屏幕上叠加了 DevDay 与会者为演员的演职员表,展示了软件工程的极限正在被重塑。

    核心模型与创意工具更新

    模型能力的提升是支持所有这些创新的基础。GPT-4o 在引导智能体和端到端编码方面表现出色,许多领先的编码初创公司正在使用它来改变软件开发方式。今天的发布会将 GPT-4o Pro 推向 API,使其向所有开发者开放。

    GPT-4o Pro 与高级语音模型

    GPT-4o Pro 是迄今为止发布的最智能的模型,非常适合金融、法律和医疗保健等需要高准确性和深度推理的困难任务。此外,高级语音模型也得到了更新,保持了先前版本的高质量和表现力,标志着语音交互成为 AI 的主要方式又迈出了一大步。

    Sora 2 预览版开放 API

    面向创作者,Sora 2 预览版现已在 API 中提供,开发者可以访问驱动 Sora 2 惊艳视频输出的相同模型。新模型的一大飞跃在于其可控性,能够精确遵循详细指令,并保持风格化、准确和构图良好的输出。例如,可以将 iPhone 视角扩展为广阔的电影级远景。

    Sora 2 在声音与视觉的配对方面表现出色,能够生成与画面内容相符的丰富音景、环境音频和同步音效。Mattel 等合作伙伴已利用此 API 快速将设计草图转化为可分享、可互动的早期概念,极大地加速了玩具的构思过程。API 提供了对视频长度、宽高比和分辨率的灵活控制。

    总结与未来展望

    本次 DevDay 的所有发布都旨在支持开发者在新时代中进行构建,OpenAI 致力于成为一个卓越的平台。软件开发的速度正在经历历史性的转变,过去需要数月或数年才能完成的项目,现在借助 AI 可以在几分钟内完成。

    • Apps SDK:用于在 ChatGPT 中构建原生应用的工具。
    • Agent Kit:用于轻松、自信地部署智能体的框架。
    • Codex 升级:改变软件编写方式,帮助团队更快交付。
    • 新模型:GPT-4o Pro、Sora 2 和 Realtime Mini 拓展了可能性。

    实现让 AI 对每个人都有用的目标,离不开社区的参与和构建。OpenAI 对所有开发者表示深切的感谢,并期待看到社区利用这些新工具创造出更加不可思议的未来。

    Useful links

    These links were generated based on the content of the video to help you deepen your knowledge about the topics discussed.

    This article was AI generated. It may contain errors and should be verified with the original source.
    VideoToWordsClarifyTube

    © 2025 ClarifyTube. All rights reserved.