OpenAI、谷歌，Anthropic 三家公司深夜更新多款模型，展示开源、智能体、世界模型进展

粘贴的图片

北京时间 8 月 6 日凌晨，多家海外大模型厂商动作频频，集中发布了最新产品，在人工智能领域再次掀起波澜。

AI 创业公司 Anthropic 推出了 Claude Opus 4.1。据 Anthropic 介绍，这一模型是 Claude Opus 4 在代理任务、现实世界编码和推理方面的升级版。公司方面称，以往只专注于发布重大版本更新，此次发布 Claude Opus 4.1 意味着公司未来将转向推动编码模型渐进式改进，且在未来几周内还会推出更多更新。从性能上看，在 SWE-bench Verify 基准测试中，Claude Opus 4.1 得分 74.5% ，超过 Opus 4 的 72.5% ，编码能力得到提升。此外，该模型在 Terminal-Bench（代理终端编程）、GPQA Diamond（研究生级别推理能力）、MMMLU（多语言问答）基准测试中的得分也均超过 Opus 4。

谷歌推出了新一代世界模型 Genie 3。谷歌表示，Genie 3 是公司第一个支持实时交互的世界模型，而世界模型是迈向 AGI（通用人工智能）的关键垫脚石，它允许 AI 智能体在丰富的模拟环境中不受限制地训练，也能为机器人训练提供场所。Genie 3 可以生成多样化的交互环境，对世界物理特性的建模能模拟水、光等自然现象，生成包含动植物的生态系统，创造动画角色，并模拟复杂环境下各种元素的相互作用。不过，谷歌也指出，Genie 3 虽然突破了世界模型的能力边界，但仍存在可执行动作空间有限、难以在共享环境中模拟多智能体交互等局限性。

OpenAI 则开源了 gpt-oss-120b 和 gpt-oss-20b 两个推理模型，这也是 OpenAI 时隔六年再次开源模型。今年 4 月，OpenAI CEO 山姆・奥尔特曼（Sam Altman）曾表示，推出强大、有推理能力的新开源模型 “非常重要”。此次开源的两款模型兑现了这一承诺，山姆・奥尔特曼称，它们是 OpenAI 耗资数十亿美元的研究成果。其中，gpt-oss-120b 参数量为 1170 亿，采用 MoE（专家）架构，激活参数量 51 亿；gpt-oss-20b 参数量为 210 亿，同样采用 MoE 架构，激活参数量 36 亿。根据 OpenAI 公布的基准测试结果，两款模型的推理性能在开源模型中都属于第一梯队。值得注意的是，此次 OpenAI 更新重点不仅在于开源，还让新模型可在电脑、手机这类端侧设备上本地部署。gpt-oss-120b 可在单张 80GB 容量的 GPU 上运行，gpt-oss-20b 可在 16GB 内存的消费级设备上运行。

这三家大模型厂商新产品的使用场景各有不同，但通过此次新品发布，不难发现 OpenAI 和 Anthropic 在产品策略上均有所变化。尽管标志着基础大模型迭代的 GPT-5 尚未面世，但这些频繁的大模型更新，显示出 AI 的能力在持续升级，大模型的可用性也在不断增加。

AI tool

OpenAI、谷歌，Anthropic 三家公司深夜更新多款模型，展示开源、智能体、世界模型进展

OpenAI、谷歌，Anthropic 三家公司深夜更新多款模型，展示开源、智能体、世界模型进展

推荐阅读

2025实测！10款最好用的AI语音合成软件，从免费到专业全场景覆盖

2025 世界人工智能大会全景扫描：从全球治理到产业落地的 AI 发展新图景

2025年10 款最好用的 AI 交友工具

OpenAI、谷歌，Anthropic 三家公司深夜更新多款模型，展示开源、智能体、世界模型进展

分享资讯

作者

Joth

相关资讯

11月上旬全球AI大事件

AI 市场：在烧钱与突破中前行

谷歌 Pixel 10 的 Magic Cue 功能

OpenAI 正式发布了 GPT-5

推荐阅读

2025实测！10款最好用的AI语音合成软件，从免费到专业全场景覆盖

2025 世界人工智能大会全景扫描：从全球治理到产业落地的 AI 发展新图景

2025年10 款最好用的 AI 交友工具