jixiaxue 知识库
blog / simon-willison-blog · 2026-04-22-qwen36-27b

Qwen3.6-27B:27B 密集模型中的旗舰级编码能力

1 个章节 · 0 条产出 · 1 条证据
2026-04-22

Qwen3.6-27B:27B 密集模型中的旗舰级编码能力

来源: Simon Willison’s Weblog | 作者: Simon Willison | 日期: 2026-04-22 原文链接: https://simonwillison.net/2026/Apr/22/qwen36-27b/#atom-everything

一句话总结

Qwen3.6-27B 以 55.6GB(量化后仅 16.8GB)的体积声称超越了上一代 807GB 的 Qwen3.5-397B-A17B MoE 旗舰,Simon Willison 用鹈鹕 SVG 基准测试验证其为本地可运行模型中的出色表现。

速览

  1. 体积压缩 15 倍——Qwen3.6-27B(55.6GB)声称在所有主要编码基准上超越 Qwen3.5-397B-A17B(807GB),密集架构 vs MoE
  2. 本地可运行——Q4_K_M 量化版仅 16.8GB,可在消费级硬件上通过 llama-server 运行
  3. 鹈鹕测试表现出色——生成的 SVG 具有辐条、链条、正确车架形状和愉悦的背景细节,对 16.8GB 本地模型而言是出色结果
  4. 生成速度——25.57 tokens/s 生成速度,读取 54.32 tokens/s,鹈鹕 SVG(4,444 tokens)耗时不到 3 分钟
  5. 多场景验证——负鼠骑电动滑板车的测试生成了霓虹 Tron 风格的创意图像,6,575 tokens 耗时约 4.5 分钟

核心内容

从 807GB 到 55.6GB:密集模型挑战 MoE 旗舰

Qwen 的核心声明:27B 参数的密集模型在 agentic 编码性能上全面超越上一代 397B 总参数(17B 活跃参数)的 MoE 旗舰。在 Hugging Face 上的存储体积从 807GB 压缩到 55.6GB,减少了近 15 倍。

这意味着原本需要多 GPU 集群才能运行的旗舰级模型,现在可以在单机甚至消费级硬件上运行。

本地运行实测

Simon 使用 Unsloth 提供的 Q4_K_M 量化版(16.8GB),通过 brew install llama.cpp 安装 llama-server,采用 Hacker News 用户 benob 分享的配置方案运行。

关键配置参数:65536 上下文长度、4096MB 缓存、温度 0.6、top-p 0.95、开启 reasoning 模式。首次运行会下载模型到 ~/.cache/huggingface/hub/

鹈鹕 SVG 基准测试结果

“生成骑自行车的鹈鹕 SVG”测试结果:自行车有辐条、链条和正确的车架形状;鹈鹕翅膀搭在车把上、喙画得不错;背景有半透明云朵、鸟、草地和太阳。Simon 评价为”对 16.8GB 本地模型而言出色的结果”。

性能数据:读取 20 tokens(0.4s,54.32 t/s),生成 4,444 tokens(2 分 53 秒,25.57 t/s)。

额外的”北弗吉尼亚负鼠骑电动滑板车”测试则生成了完全不同风格的创意结果——霓虹 Tron 风格的数字插画,耗时 4 分 25 秒(6,575 tokens,24.74 t/s)。

可行建议

  • 想在本地运行旗舰级编码模型:brew install llama.cpp,下载 Unsloth Q4_K_M 量化版(16.8GB),使用文中提供的 llama-server 配置即可启动
  • 需要至少 65536 上下文长度和 4GB+ RAM 缓存以获得完整体验

资源清单

Qwen3.6-27B:27B 密集模型中的旗舰级编码能力

Qwen3.6-27B:27B 密集模型中的旗舰级编码能力

2026 年 4 月 22 日 - 链接博客

Qwen3.6-27B:27B 密集模型中的旗舰级编码能力via)Qwen 对其最新开源权重模型做出了重大声明:

Qwen3.6-27B 提供旗舰级的 agentic 编码性能,在所有主要编码基准测试中超越了上一代开源旗舰 Qwen3.5-397B-A17B(397B 总参数 / 17B 活跃参数 MoE)。

在 Hugging Face 上 Qwen3.5-397B-A17B 为 807GB,而新的 Qwen3.6-27B 仅为 55.6GB。

我使用 16.8GB 的 Unsloth Qwen3.6-27B-GGUF:Q4_K_M 量化版本和 llama-server 进行了测试,使用了 benob 在 Hacker News 上提供的配置方案,先通过 brew install llama.cpp 安装 llama-server

llama-server \
    -hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M \
    --no-mmproj \
    --fit on \
    -np 1 \
    -c 65536 \
    --cache-ram 4096 -ctxcp 2 \
    --jinja \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.0 \
    --presence-penalty 0.0 \
    --repeat-penalty 1.0 \
    --reasoning on \
    --chat-template-kwargs '{"preserve_thinking": true}'

首次运行时会将约 17GB 的模型保存到 ~/.cache/huggingface/hub/models--unsloth--Qwen3.6-27B-GGUF

这是”生成一个骑自行车的鹈鹕 SVG”的完整记录。对于一个 16.8GB 的本地模型来说,这是出色的结果:

自行车有辐条、链条和正确形状的车架。车把略微分离。鹈鹕有翅膀搭在车把上,腿弯曲得有点奇怪但触及踏板,喙画得不错。背景细节令人愉悦——半透明的云、鸟、草地、太阳。

llama-server 报告的性能数据:

  • 读取:20 tokens,0.4 秒,54.32 tokens/s
  • 生成:4,444 tokens,2 分 53 秒,25.57 tokens/s

为了测试更多场景,这是生成”北弗吉尼亚负鼠骑电动滑板车 SVG”的结果(之前用 GLM-5.1 运行过):

霓虹 Tron 风格的数字插画,一只灰色猫形生物戴着青色面罩护目镜,骑着发光的青色未来摩托车穿越夜晚的黑暗城市景观,长长的尾巴拖在身后,黄色灯光点缀的建筑轮廓在背景中,右侧有一轮发光的品红色月亮。

这个用了 6,575 tokens,4 分 25 秒,24.74 t/s。

证据原始数据 (1 条)
transcript-raw
/Users/shanfang/Documents/pe/jixiaxuegong/blog/simon-willison-blog/2026-04-22-qwen36-27b/transcript-raw.md