Qwen3.6-27B：27B 密集模型中的旗舰级编码能力

来源: Simon Willison’s Weblog | 作者: Simon Willison | 日期: 2026-04-22 原文链接: https://simonwillison.net/2026/Apr/22/qwen36-27b/#atom-everything

一句话总结

Qwen3.6-27B 以 55.6GB（量化后仅 16.8GB）的体积声称超越了上一代 807GB 的 Qwen3.5-397B-A17B MoE 旗舰，Simon Willison 用鹈鹕 SVG 基准测试验证其为本地可运行模型中的出色表现。

速览

体积压缩 15 倍——Qwen3.6-27B（55.6GB）声称在所有主要编码基准上超越 Qwen3.5-397B-A17B（807GB），密集架构 vs MoE
本地可运行——Q4_K_M 量化版仅 16.8GB，可在消费级硬件上通过 llama-server 运行
鹈鹕测试表现出色——生成的 SVG 具有辐条、链条、正确车架形状和愉悦的背景细节，对 16.8GB 本地模型而言是出色结果
生成速度——25.57 tokens/s 生成速度，读取 54.32 tokens/s，鹈鹕 SVG（4,444 tokens）耗时不到 3 分钟
多场景验证——负鼠骑电动滑板车的测试生成了霓虹 Tron 风格的创意图像，6,575 tokens 耗时约 4.5 分钟

核心内容

从 807GB 到 55.6GB：密集模型挑战 MoE 旗舰

Qwen 的核心声明：27B 参数的密集模型在 agentic 编码性能上全面超越上一代 397B 总参数（17B 活跃参数）的 MoE 旗舰。在 Hugging Face 上的存储体积从 807GB 压缩到 55.6GB，减少了近 15 倍。

这意味着原本需要多 GPU 集群才能运行的旗舰级模型，现在可以在单机甚至消费级硬件上运行。

本地运行实测

Simon 使用 Unsloth 提供的 Q4_K_M 量化版（16.8GB），通过 brew install llama.cpp 安装 llama-server，采用 Hacker News 用户 benob 分享的配置方案运行。

关键配置参数：65536 上下文长度、4096MB 缓存、温度 0.6、top-p 0.95、开启 reasoning 模式。首次运行会下载模型到 ~/.cache/huggingface/hub/。

鹈鹕 SVG 基准测试结果

“生成骑自行车的鹈鹕 SVG”测试结果：自行车有辐条、链条和正确的车架形状；鹈鹕翅膀搭在车把上、喙画得不错；背景有半透明云朵、鸟、草地和太阳。Simon 评价为”对 16.8GB 本地模型而言出色的结果”。

性能数据：读取 20 tokens（0.4s，54.32 t/s），生成 4,444 tokens（2 分 53 秒，25.57 t/s）。

额外的”北弗吉尼亚负鼠骑电动滑板车”测试则生成了完全不同风格的创意结果——霓虹 Tron 风格的数字插画，耗时 4 分 25 秒（6,575 tokens，24.74 t/s）。

可行建议

想在本地运行旗舰级编码模型：brew install llama.cpp，下载 Unsloth Q4_K_M 量化版（16.8GB），使用文中提供的 llama-server 配置即可启动
需要至少 65536 上下文长度和 4GB+ RAM 缓存以获得完整体验

资源清单

Qwen3.6-27B：27B 密集模型中的旗舰级编码能力

2026 年 4 月 22 日 - 链接博客

Qwen3.6-27B：27B 密集模型中的旗舰级编码能力（via）Qwen 对其最新开源权重模型做出了重大声明：

Qwen3.6-27B 提供旗舰级的 agentic 编码性能，在所有主要编码基准测试中超越了上一代开源旗舰 Qwen3.5-397B-A17B（397B 总参数 / 17B 活跃参数 MoE）。

在 Hugging Face 上 Qwen3.5-397B-A17B 为 807GB，而新的 Qwen3.6-27B 仅为 55.6GB。

我使用 16.8GB 的 Unsloth Qwen3.6-27B-GGUF:Q4_K_M 量化版本和 llama-server 进行了测试，使用了 benob 在 Hacker News 上提供的配置方案，先通过 brew install llama.cpp 安装 llama-server：

llama-server \
    -hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M \
    --no-mmproj \
    --fit on \
    -np 1 \
    -c 65536 \
    --cache-ram 4096 -ctxcp 2 \
    --jinja \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.0 \
    --presence-penalty 0.0 \
    --repeat-penalty 1.0 \
    --reasoning on \
    --chat-template-kwargs '{"preserve_thinking": true}'

首次运行时会将约 17GB 的模型保存到 ~/.cache/huggingface/hub/models--unsloth--Qwen3.6-27B-GGUF。

这是”生成一个骑自行车的鹈鹕 SVG”的完整记录。对于一个 16.8GB 的本地模型来说，这是出色的结果：

自行车有辐条、链条和正确形状的车架。车把略微分离。鹈鹕有翅膀搭在车把上，腿弯曲得有点奇怪但触及踏板，喙画得不错。背景细节令人愉悦——半透明的云、鸟、草地、太阳。

llama-server 报告的性能数据：

读取：20 tokens，0.4 秒，54.32 tokens/s
生成：4,444 tokens，2 分 53 秒，25.57 tokens/s

为了测试更多场景，这是生成”北弗吉尼亚负鼠骑电动滑板车 SVG”的结果（之前用 GLM-5.1 运行过）：

霓虹 Tron 风格的数字插画，一只灰色猫形生物戴着青色面罩护目镜，骑着发光的青色未来摩托车穿越夜晚的黑暗城市景观，长长的尾巴拖在身后，黄色灯光点缀的建筑轮廓在背景中，右侧有一轮发光的品红色月亮。

这个用了 6,575 tokens，4 分 25 秒，24.74 t/s。