Qwen3.6-27B:27B 密集模型中的旗舰级编码能力
来源: Simon Willison’s Weblog | 作者: Simon Willison | 日期: 2026-04-22 原文链接: https://simonwillison.net/2026/Apr/22/qwen36-27b/#atom-everything
一句话总结
Qwen3.6-27B 以 55.6GB(量化后仅 16.8GB)的体积声称超越了上一代 807GB 的 Qwen3.5-397B-A17B MoE 旗舰,Simon Willison 用鹈鹕 SVG 基准测试验证其为本地可运行模型中的出色表现。
速览
- 体积压缩 15 倍——Qwen3.6-27B(55.6GB)声称在所有主要编码基准上超越 Qwen3.5-397B-A17B(807GB),密集架构 vs MoE
- 本地可运行——Q4_K_M 量化版仅 16.8GB,可在消费级硬件上通过
llama-server运行 - 鹈鹕测试表现出色——生成的 SVG 具有辐条、链条、正确车架形状和愉悦的背景细节,对 16.8GB 本地模型而言是出色结果
- 生成速度——25.57 tokens/s 生成速度,读取 54.32 tokens/s,鹈鹕 SVG(4,444 tokens)耗时不到 3 分钟
- 多场景验证——负鼠骑电动滑板车的测试生成了霓虹 Tron 风格的创意图像,6,575 tokens 耗时约 4.5 分钟
核心内容
从 807GB 到 55.6GB:密集模型挑战 MoE 旗舰
Qwen 的核心声明:27B 参数的密集模型在 agentic 编码性能上全面超越上一代 397B 总参数(17B 活跃参数)的 MoE 旗舰。在 Hugging Face 上的存储体积从 807GB 压缩到 55.6GB,减少了近 15 倍。
这意味着原本需要多 GPU 集群才能运行的旗舰级模型,现在可以在单机甚至消费级硬件上运行。
本地运行实测
Simon 使用 Unsloth 提供的 Q4_K_M 量化版(16.8GB),通过 brew install llama.cpp 安装 llama-server,采用 Hacker News 用户 benob 分享的配置方案运行。
关键配置参数:65536 上下文长度、4096MB 缓存、温度 0.6、top-p 0.95、开启 reasoning 模式。首次运行会下载模型到 ~/.cache/huggingface/hub/。
鹈鹕 SVG 基准测试结果
“生成骑自行车的鹈鹕 SVG”测试结果:自行车有辐条、链条和正确的车架形状;鹈鹕翅膀搭在车把上、喙画得不错;背景有半透明云朵、鸟、草地和太阳。Simon 评价为”对 16.8GB 本地模型而言出色的结果”。
性能数据:读取 20 tokens(0.4s,54.32 t/s),生成 4,444 tokens(2 分 53 秒,25.57 t/s)。
额外的”北弗吉尼亚负鼠骑电动滑板车”测试则生成了完全不同风格的创意结果——霓虹 Tron 风格的数字插画,耗时 4 分 25 秒(6,575 tokens,24.74 t/s)。
可行建议
- 想在本地运行旗舰级编码模型:
brew install llama.cpp,下载 Unsloth Q4_K_M 量化版(16.8GB),使用文中提供的llama-server配置即可启动 - 需要至少 65536 上下文长度和 4GB+ RAM 缓存以获得完整体验

