Google 发布了 Gemini 3,官方定位为「最智能的模型」。这次主打的是推理能力的全面提升,在 LMArena 拿下 1501 分,GPQA Diamond 达到 91.9%,数学推理也刷新了纪录。同时 Google 还推出了 Deep Think 模式,进一步强化复杂问题的处理。配套的 Antigravity 开发平台把 IDE 里的 AI 助手提升为主动执行任务的 Agent,能自主规划、编码、验证。
点评:这次发布的核心信号是 Google 在强调「端到端的全栈能力」,从模型到开发工具再到产品落地,试图构建一个闭环生态。但 benchmark 的优势能否转化为用户体验上的感知差异,还需要实际检验。