奥特曼:Codex 让我感到 AGI!最新谈话罕见透露下一代“完美模型”,大胆预测 Agent 明年突破边界!

愤怒的蜗牛

不知道大家有没有发现:今年的奥特曼,突然安静了很多。

不像 2024 年那样频繁出现在各种技术播客、大会、访谈里,甚至好多次OpenAI新发布也不见他的身影——这位 AI 圈最活跃的“CEO 网红”,仿佛一下子就开启带娃模式、退居幕后了。

可偏偏,在这个 AI产品、Agent、大模型都在飞速迭代的时间点,我们又特别想知道他最近在想什么。

好消息是:他终于公开露面了!

在刚结束的 2025 Snowflake 峰会上,Sam Altman 作为重磅嘉宾,和 Snowflake CEO Sridhar Ramaswamy 以及 Conviction 创始人 Sarah Guo 进行了一场信息密度极高的炉边对谈。

短短二十分钟的访谈,内容相当凝练、有料,干货满满!

比如,他给 AI 创业者的忠告发生了变化,今年的主题是:“马上行动。”

对于企业采用大模型,这是奥特曼首次果断、鲜明的表示支持。

对于所有还在等待更新的 GPT-5 模型、采取观望态度的企业老板、团队主管们,奥特曼表示:与其等新模型,不如现在就开始。

“你会发现,那些率先下注、快速学习的企业,已经明显领先于还在观望的同行。”奥特曼说道。

Sridhar 点头称是:“不会有一个完美时刻等你一切就绪。”

此外,奥特曼给出的第二个判断是:是关于智能体(Agent)的。他认为:“未来工作的基本单位,是AI Agent。”

Altman 形容,现在更像是你请了个AI实习生:你丢给它一个任务,比如“帮我找出我们官网漏掉的SEO优化点”,它自己去读你的网站代码、查搜索趋势、扫你的GitHub和Slack聊天记录,然后给你一个优化方案草案,你只需要点“同意”或“再改改”。 

而 Altman 表示,这个“实习生”,很快就能变成能独立负责项目的工程师。  也就是说,未来的工作,可能不是“你完成10个任务”,而是“你指挥10个智能体”,再去微调它们的成果。

最后,他还透露了自己心中的“完美模型”:

“体积很小,但拥有超人级别的推理能力,运行速度极快,有一万亿 tokens 的上下文窗口,并能访问你能想象的所有工具。”

👇下图为现场截图:

奥特曼:Codex 让我感到 AGI!最新谈话罕见透露下一代“完美模型”,大胆预测 Agent 明年突破边界!左起:Sam Altman、Sarah Guo、Sridhar Ramaswamy

以下是这场访谈的整理实录,Enjoy:

1.模型可用性发生“质的飞跃”,AI创业者必须马上行动

主持人Sarah:我们开场就进入正题:Sam,你会给正在应对 AI 变革的企业领导者们什么建议?

Sam Altman:我的建议是:马上行动。现在还有很多犹豫不决,模型变化太快,大家都想着“等等下一个版本”或者“看看这两个模型谁更好”,或者“这波趋势最终会往哪走”。

但在技术领域,有个通用原则是:当技术快速迭代时,赢家往往是那些能够迅速试错、降低失败成本、提升学习速度的公司。

我们目前观察到的情况也印证了这一点:那些尽早下注、快速试验的企业,表现明显优于观望和等待的同行。

Sridhar:我完全同意 Sam 的观点。我还想补充的是:“好奇心”真的非常关键。我们对许多旧有流程的依赖其实已经不再成立,但很多人没有意识到。如今很多平台,比如 Snowflake,让你以非常低的成本进行实验,可以做出很多小测试,从中提炼价值,再持续优化。

我要再次强调 Sam 的话:能迭代得越快,越能从 AI 中获益。因为他们知道什么有效、什么无效,他们能应对未来快速变化的局势。

接下来的几年,不会有一个“完美时机”让一切尘埃落定。你只能在混沌中快速前进。

主持人Sarah: 那你的建议和去年相比,有哪些不同呢?

Sridhar:其实,我去年也会说一样的话。尤其是“保持好奇”和“允许试错”——

这两点一直都很重要。关键是你要在那些“失败成本很低”的场景中去试错,而这样的场景其实非常多。

不过,技术确实成熟得更快了。比如现在的 ChatGPT,已经能很好地结合网络搜索来提供新鲜的信息,不再是那个“脱离实时数据”的工具。

不论是结构化数据还是非结构化数据,现在的聊天机器人技术已经可以投入主流使用了。当然,我们依然可以探索更远的“智能体”能力边界,但即便在远离前沿的应用中,这项技术已经非常可用。

Sam Altman:有意思的是,我去年的观点可能跟现在还真不太一样。如果是对创业公司,我去年也会鼓励他们早点上手,但对大型企业我可能会说:“可以小范围试验,但大多数情况下还不适合投入生产环境。”

但这个观点现在变了——我们服务的大企业在这方面的增长是飞速的。他们现在真的在大规模使用我们的技术。我经常问他们:“是什么变了?” 他们会说:“一部分是我们摸索清楚了用法,但更大的变化是:现在这东西真的好用多了!”

它能做很多过去想都不敢想的事情。某个时间点,在过去这一年里,模型的“可用性”发生了质的飞跃。

 更有意思的问题是:明年这个时候我们又会说出什么新观点?

我预测到那时,我们会进入一个阶段:你不仅可以用 AI 自动化业务流程或开发新产品,还能真正说出,“我有一个极其重要的业务难题,我愿意砸大量算力下去解决它。”

而模型将能完成过去需要团队合作都无法完成的任务。

那些已经开始积累 AI 实战经验的公司,将在未来的竞争中占据优势。届时他们就可以说,“来吧 AI 系统,把我这个关键项目完全重构一遍。”

 这是下一次质变的前奏:大量算力 + AI 推理能力 + 高难度问题。谁准备好了,谁就能迈出下一大步。

2.Codex让我有了AGI的感觉!智能体明年将解决棘手的商业难题

主持人Sarah:既然你提到了推理能力、算力投入,以及智能体加入工作流程,那么关于“记忆与检索”的问题就不能回避了——你觉得它们在这一轮 AI 变革中会起到什么样的作用?

Sridhar:检索技术一直是让生成式 AI“贴地飞行”的关键,尤其在需要真实世界参考时。例如 GPT-3 时代我们就搭建了支持网页搜索的大规模系统,可以在你问时事问题时拉取外部信息作为参考。

同样地,记忆系统也非常重要。模型能“记住”你以前是怎么解决问题的、你和系统的互动记录,这些都会极大提升它后续的使用体验和效率。

我认为随着模型被用于越来越复杂的任务,记忆和检索的角色会变得更加关键。不论是提升交互质量,还是赋能更强的智能体行为,上下文越丰富,AI 的表现就越好。

主持人Sarah:Sam,你能不能给在座的每一位领导者一个参考框架,来思考:智能体(Agents)现在能做什么?明年又可能做到什么?

Sam Altman:我们最近刚发布的编程智能体 Codex,是我个人第一次有“AGI时刻”的感觉。你观察它的工作方式——你给它一堆任务,它就在后台默默执行。它真的非常聪明,可以完成那种“长周期、跨阶段”的任务。

你只需要坐在那里,说“这个通过”、“那个不行”、“再试一次”。它甚至能连接你的 GitHub,未来它还可能可以观看你的会议、查看你的 Slack 聊天、阅读你所有的内部文档。它做的事情已经非常令人惊艳了。

 也许目前它还只是一个每天能工作几小时的“实习生”,但不久之后,它会像一位能连续工作好几天的“资深工程师”。而这类变化,不只会发生在编程领域,我们会看到智能体在很多工作类型中发挥类似作用。

现在已经有很多公司在用智能体来自动化客户支持、推动销售流程、甚至更多的业务方向。有些人已经在描述:他们的“工作”就是把任务分配给一群智能体,评估产出质量,分析它们如何协同工作,并给出反馈。

听起来就像在带一组还比较年轻的团队成员。而且,这不是想象——它正在真实发生,只是目前还没有完全普及。

明年,在一些有限的场景中,哪怕是很小的程度,我们将开始看到智能体真的能帮助人类发现新知识,或者解决那些非常复杂的商业问题。

目前的智能体主要还能处理的是:重复性的脑力劳动,短时间周期内、低层级的认知任务。但随着它们处理的任务变得更长线、更复杂——某一刻,我们就会迎来“AI 科学家”出现的时刻。一个能自主发现科学的新型智能体。

那将是世界性的重大时刻。

主持人Sarah:你刚才说 Codex 和编程智能体的体验是你第一次有“AGI实感”的时刻。那我就必须问了:你现在是如何定义 AGI(通用人工智能)的?我们离它还有多远?它对我们的意义是什么?

Sam Altman:我想,如果你能回到过去,哪怕只回到五年前……

主持人Sarah:那几乎是 AI 的“黑暗时代”。

Sam Altman:其实,那段时期也非常有趣。如果我们回到整整五年前,我可能记得不太清,但应该就在我们推出 GPT 的前夕。那时候,世界还没见过真正强大的语言模型。

如果你能回到那个时间点,然后给人们展示今天的 ChatGPT,甚至不提 Codex 或其他产品,就光是 ChatGPT,我想大多数人会说:“这不就是 AGI 吗?”

我们人类非常擅长“调整自己的预期”,这其实是人性中非常美好的一点。

所以,我认为“AGI 究竟是什么”这个问题,本身并不重要。每个人对它的定义都不一样,同一个人也会在不同时间给出不同定义。

真正重要的是:我们过去五年看到的 AI 年年飞跃的进展速度——很可能还会持续五年,甚至更久。

你说 AGI 的“胜利点”会在 2024、2026 还是 2028,其实没那么关键;你说超级智能的里程碑是在 2028、2030 还是 2032,也都没关系。

重点是:这是一条又长又美丽、令人震惊地平滑的指数曲线。

对我来说,一个能自主发现新科学的系统,或者一个让全世界科学发现速度翻几倍的工具系统,已经可以满足我对 AGI 的全部标准。

当然也有人坚持,AGI 必须能自我改进;也有人觉得,像 ChatGPT 搭配记忆功能的版本,已经很像 AGI 了。

主持人Sarah:确实,从一些早期测试,比如图灵测试来看,ChatGPT 已经达标了。

那我们回到Sridhar,你还记得你第一次用 OpenAI 模型做搜索是什么时候吗?

Sridhar:你当时其实用的是 GPT-3 的 Playground,在做一些小实验。我们后来也接入了 API,但那时还不允许我们用完整的 GPT-3 模型。

我们就自己倒推:怎么用 70 亿或 100 亿参数的模型,来做到相似的效果。

对我来说,第一次“眼前一亮”的,是看到 GPT 真正解决了一个难题:抽象式摘要(abstractive summarization)。

也就是:把一篇 100 字的博客内容,压缩成三句话去描述它。这个任务非常难,人类都觉得棘手。但这些模型突然间就能做到了。

那一刻我意识到,如果它能在整个网页语料库上做这种事情——再配合能判断哪些页面值得看的搜索引擎能力——那就是搜索引擎的新时代了。

我记得当时心里就想:哇,这玩意,真有力量。而且后来它的表现只会越来越好。

主持人Sarah:在你作为创业者或 CEO 的过程中,有没有哪个节点让你突然意识到,“哇,现在一切都是搜索,或者说是‘搜索+’”?我自己雇过 Neva 的前员工,当时的理念也是:这个时代的一切,都是关于搜索的。你是什么时候有这种想法的?

Sridhar:这个问题其实是关于“设定上下文”的——当你开始使用这些模型,或者思考某个问题的时候,你会意识到:我们需要一种机制,来缩小视角的范围,让模型聚焦在你想处理的内容上。

这是一种非常强大、也具通用性的技巧。你看现在很多微调和后训练技术,其实背后逻辑是类似的:拿一个非常强大的模型,为它提供上下文,告诉它哪些信息是相关的、哪些是无效的,然后用这个方法来提升模型的输出质量。

我认为这更像是一种通用的思维方式,而不仅仅是某个工具。你想实现某种结果,关键是要把“上下文”设定好。

上下文是无限的,人类靠“注意力”机制来解决这个问题——我们聚焦某个点。我把搜索看作是为模型设定注意力焦点的一种工具。

主持人Sarah:你同意 Sam 的看法吗?也就是我们正处在一条“指数级增长的能力曲线”上?还是说你有一个自己认同的 AGI 定义——一个对你或客户来说更重要的标准?

Sridhar:我觉得这会变成一个哲学性很强的辩论。比如说,有个比喻是:“潜水艇到底算不算在游泳?”某种意义上这听起来有点荒谬,但从另一个角度看,它当然是在“游”。

所以我也把这些模型看作拥有极其惊人的能力。任何一个关注未来趋势的人看到这些模型的表现,可能都会说:“这已经是 AGI 了。”

但正如 Sam 提到的,我们现在说的这些话,也许到 2025 年时又会觉得不值一提。

真正让我惊叹的,是进展的速度。我真诚相信,这个进程会带来许多伟大的成果。

这有点像,我们如何看待一台“还不错的计算机”可以战胜世界上所有的国际象棋高手——这真的重要吗?

并不重要。我们依然有很多人仍然在下棋,而且他们仍然非常擅长。

所以我觉得关于“定义”的争论其实没那么关键。现在的围棋也比以前更流行了。我们会从这条路径中学到很多东西,但“那个具体的时刻”并不是重点。

3.完美模型:轻量、强推理、可调用所有工具

主持人Sarah:我个人有个直觉:当人们在问 AGI 的时候,其实很多人真正想问的是“意识”,只是他们没把问题说清楚,或者说只有一部分人会明确表达那样的问题。你之前说这更偏哲学,所以我想问问你:你们内部已经在训练下一代模型,看到别人还看不到的能力,从产品角度、公司运营角度,有哪些新的“涌现能力”是正在改变你们的思维方式的?

Sam Altman:是的,未来一年或两年发布的模型将会令人惊叹。我们面前还有很大的进步空间。

就像 GPT-3 到 GPT-4 带来的跨越一样,许多企业将可以做到以前根本不可能做到的事。比如我们刚才聊到的,如果你是一家芯片公司,你可以说:“帮我设计一款比我们现有方案更好的芯片”;或者你是一家生物科技公司,你可以说:“这个病我搞不定,你来解决。”

这些都不再遥不可及。

这些模型有能力理解你能提供给它的全部上下文,连接所有工具和系统,然后深入思考,进行极其出色的推理,并给出有说服力的解决方案。

它们的稳健性也在提升,我们可以越来越放心地让它自主执行复杂任务。

坦白说,我以前没想过它们会来得这么快。但现在真的感觉……非常接近了。

主持人Sarah:那你能不能给大家一点直觉:未来哪些“知识”是 AI 能掌握的?哪些是还在边界上的?我想象中的“核心智力”是,我也算挺聪明的,但我脑子里也没有完美的物理模拟器——所以我们怎么判断 AI 还能进化多远?

Sam Altman:我自己比较喜欢的一个思考框架是这样的:这不是我们马上就要发布的东西,但从理念上说,我们追求的是这样一个模型——体积很小,但拥有超人级别的推理能力,运行速度极快,有一万亿 tokens 的上下文窗口,并能访问你能想象的所有工具。

所以它到底“知不知道某个具体知识点”,其实变得没那么重要。

用这些模型作为数据库是荒谬的——它们是又慢又贵还不准确的数据库。但惊人的是:它们可以进行推理。

你可以把一个企业或个人生活的所有上下文信息都“扔进去”,再把需要的物理模拟器或其他工具整合进来——你能做的事就变得非常了不起。

而我们现在,就是在向这个方向迈进。

主持人Sarah:太震撼了。我想问一个更具假设性的问题:

如果你手上有现在 1000 倍的算力——原本我想问“无限算力”,但那太夸张了——如果是 1000 倍,你会用它做什么?

Sam Altman:我觉得,最“元”的回答(虽然我之后会给一个更实用的),可能是这样的:我会请你们投入所有力量去推进 AI 研究,开发出更优秀的模型,然后再问那个更强的模型,我们该怎么利用这些算力。

主持人Sarah:直接让它来解决“你最难的问题”。

Sam Altman:我认为这其实是最理性的做法。

主持人Sarah:这说明你是真的相信它能给出答案。

Sam Altman:我觉得更实用的回答是这样的: 我们现在在 ChatGPT 内部、以及企业用户中,已经看到很多案例表明——测试时使用更多算力,确实能带来真实的收益。

比如你让模型“多想一会儿”、或者对一个复杂问题多尝试几次,就有可能得到明显更好的答案。

所以,如果一家企业说,“我要在每一个难题上都加大 1000 倍的算力”,他们真的可能会得到一些令人惊艳的结果。

当然,你不会真的这么做,也没有 1000 倍的算力。但现在这种能力已经变得可行,说明我们可以尝试的一件事就是:

用“幂律法则”的方式去看待算力价值——对于最难、最有价值的问题,愿意投入更多算力去尝试,可能就能获得突破。

主持人Sarah:那Sridhar,你会不会也对 Snowflake 做一样的事?你是数据基础设施、搜索优化、企业系统方面的专家,现在掌管 Snowflake。如果给你一个超级难题,你也会直接丢给算力处理吗?

Sridhar:我觉得这确实是个很酷的应用场景。不过让我换一个角度回答,跳出我们每天生活的科技圈来说:

你知道有个叫 Arnold 项目 的研究吗?它有点像我们 20 多年前进行的 DNA 测序项目,不过这次的研究对象是 RNA 表达机制。结果发现,RNA 实际上控制着我们身体中蛋白质的工作方式。

如果我们能彻底搞清楚 RNA 是怎么调控 DNA 表达的,那很可能就能攻克大量疾病,对整个人类社会来说是一次巨大的飞跃。

所以,用类语言模型去做这类 RNA 研究项目,就像当年用超级算力破解人类基因组一样——这会是一个非常酷的应用方向,如果你真的能动用大量算力的话。

主持人Sarah:真的很振奋人心,而且这确实是人类面临的最大问题之一。

感谢你们(参与访谈)。


您需要 登录账户 后才能发表评论

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,22人围观)

还没有评论,来说两句吧...

目录[+]

取消
微信二维码
微信二维码
支付宝二维码