阿里云的通义千问团队本周开源了 Qwen3-Coder,该模型在 SWE-Bench 基准测试中达到 69.6% 的准确率,测评性能媲美 Claude Sonnet 4,支持 256K 原生上下文,并可基于 YARN 技术扩展至 100 万 token 的上下文。
团队也 fork Gemini CLI,开源了 Qwen CLI 用于验证模型的 Agent 性能。尽管发布后因阿里云 API 的收费问题产生了一些争议,但模型本身的性能还是给开源编程模型带来了新的选择。
点评:本频道也即将开源我们制作的独特模型测评工具,在该工具中,Qwen3-Coder、Kimi K2 等国产开源模型都有不错的表现。