OpenAI、谷歌,Anthropic 三家公司深夜更新多款模型,展示开源、智能体、世界模型进展

Joth
5分钟阅读时间
OpenAI、谷歌,Anthropic 三家公司深夜更新多款模型,展示开源、智能体、世界模型进展
OpenAI、谷歌,Anthropic 三家公司深夜更新多款模型,展示开源、智能体、世界模型进展

OpenAI、谷歌,Anthropic 三家公司深夜更新多款模型,展示开源、智能体、世界模型进展


粘贴的图片

北京时间 8 月 6 日凌晨,多家海外大模型厂商动作频频,集中发布了最新产品,在人工智能领域再次掀起波澜。​

AI 创业公司 Anthropic 推出了 Claude Opus 4.1。据 Anthropic 介绍,这一模型是 Claude Opus 4 在代理任务、现实世界编码和推理方面的升级版。公司方面称,以往只专注于发布重大版本更新,此次发布 Claude Opus 4.1 意味着公司未来将转向推动编码模型渐进式改进,且在未来几周内还会推出更多更新。从性能上看,在 SWE-bench Verify 基准测试中,Claude Opus 4.1 得分 74.5% ,超过 Opus 4 的 72.5% ,编码能力得到提升。此外,该模型在 Terminal-Bench(代理终端编程)、GPQA Diamond(研究生级别推理能力)、MMMLU(多语言问答)基准测试中的得分也均超过 Opus 4。​

谷歌推出了新一代世界模型 Genie 3。谷歌表示,Genie 3 是公司第一个支持实时交互的世界模型,而世界模型是迈向 AGI(通用人工智能)的关键垫脚石,它允许 AI 智能体在丰富的模拟环境中不受限制地训练,也能为机器人训练提供场所。Genie 3 可以生成多样化的交互环境,对世界物理特性的建模能模拟水、光等自然现象,生成包含动植物的生态系统,创造动画角色,并模拟复杂环境下各种元素的相互作用。不过,谷歌也指出,Genie 3 虽然突破了世界模型的能力边界,但仍存在可执行动作空间有限、难以在共享环境中模拟多智能体交互等局限性。​

OpenAI 则开源了 gpt-oss-120b 和 gpt-oss-20b 两个推理模型,这也是 OpenAI 时隔六年再次开源模型。今年 4 月,OpenAI CEO 山姆・奥尔特曼(Sam Altman)曾表示,推出强大、有推理能力的新开源模型 “非常重要”。此次开源的两款模型兑现了这一承诺,山姆・奥尔特曼称,它们是 OpenAI 耗资数十亿美元的研究成果。其中,gpt-oss-120b 参数量为 1170 亿,采用 MoE(专家)架构,激活参数量 51 亿;gpt-oss-20b 参数量为 210 亿,同样采用 MoE 架构,激活参数量 36 亿。根据 OpenAI 公布的基准测试结果,两款模型的推理性能在开源模型中都属于第一梯队。值得注意的是,此次 OpenAI 更新重点不仅在于开源,还让新模型可在电脑、手机这类端侧设备上本地部署。gpt-oss-120b 可在单张 80GB 容量的 GPU 上运行,gpt-oss-20b 可在 16GB 内存的消费级设备上运行。​

这三家大模型厂商新产品的使用场景各有不同,但通过此次新品发布,不难发现 OpenAI 和 Anthropic 在产品策略上均有所变化。尽管标志着基础大模型迭代的 GPT-5 尚未面世,但这些频繁的大模型更新,显示出 AI 的能力在持续升级,大模型的可用性也在不断增加。​

 AI tool  

分享资讯