JANG
比 MLX 更小,输出更稳。
只展示 JANG 更小且大幅获胜的案例。
基准页已严格过滤:不显示小幅胜利、不显示更大的 JANG 配置、不显示未验证估计。这里列出的比较都满足 JANG 比 MLX 基线 更小,并且质量差距明显。
最强证据:MiniMax-M2.5 中 82.5 GB JANG 比 119.8 GB MLX 4-bit 高 +47.5 MMLU;Qwen3.5-122B 中 44.7 GB JANG 比 45 GB MLX mixed_2_6 高 +33 分。
基于层敏感度的可变位宽
Standard quantization对每个张量应用相同的位宽。Attention层(约占参数的12%)比MLP层对精度损失更敏感——过度量化时,attention分数变得平坦,位置编码退化,输出退化。
JANG将张量按敏感度分级并相应分配位宽。Attention层获得5~8 bits,而MLP压缩到2~4 bits。开销为平均约0.3 bits的额外量。
只保留更小且大幅获胜的案例。
仅保留经过验证、JANG 比 MLX 基线 更小,并在 MMLU 或 coherency 上大幅领先的比较。小幅胜利、更大的 JANG 配置和未验证估计已移除。
MiniMax-M2.5 (230B) — MMLU 大幅胜出,且小于 MLX 4-bit
保留原因:JANG 既显著更好,也显著更小:82.5 GB 对 119.8 GB,而 MLX 4-bit、3-bit、2-bit 都接近随机猜测。
Qwen3.5-122B-A10B — 同尺寸段 MLX mixed 基线下,JANG 仍更小
保留原因:这是最接近的同内存 MLX 对比;JANG 略小,同时仍有 +33 分 MMLU 差距。
JANG_3M
MLX 3-bit
JANG_4S
MLX 4-bit
JANG
MLX 4-bit
JANG_3M
MLX 3-bit
JANG_4S
MLX 4-bit
Qwen2.5-3B: 3.37 bits beats 4.00-bit MSE
越低越好。JANG MLP=3 / attention=6 在 3.37 bits 达到 11.10 MSE,而 MLX 4-bit 为 11.31 MSE。
展示模型:仅限更小且决定性胜出
| 模型 | JANG | MLX 基线 | 展示原因 |
|---|---|---|---|
| MiniMax-M2.5 | JANG_2L · 82.5 GB · 74% | 4-bit · 119.8 GB · 26.5% | +47.5 MMLU,小 37.3 GB |
| Qwen3.5-122B-A10B | JANG_2M · 44.7 GB · 79% | mixed_2_6 · 45 GB · 46% | +33 MMLU,略小 |
| Mistral-7B | JANG_3M / JANG_4S | 3-bit / 4-bit MLX | 更少 bits,输出连贯 |
| Qwen2.5-3B | JANG_4S / 3.37-bit proof | 4-bit MLX | 更少 bits,更好的 MSE/coherency |
| SmolLM2-1.7B | JANG_3M · 3.4 bits | 3-bit MLX · 3.5 bits | 更小且直接回答 |
| TinyLlama-1.1B | JANG_4S · 4.1 bits | 4-bit MLX · 4.5 bits | 更小且避免跑题 |
JANG_{bits}{size}
从超压缩到近无损的11个预设配置。S = Small(最大压缩),M = Medium(平衡),L = Large(最高质量)。
| 配置 | MLP | Attention | Embed | lm_head | 平均Bits |
|---|---|---|---|---|---|
| JANG_1L | 2-bit | 8-bit | 8-bit | 8-bit | ~2.2 |
| JANG_2S | 2-bit | 6-bit | 4-bit | 6-bit | ~2.5 |
| JANG_2M | 2-bit | 8-bit | 4-bit | 8-bit | ~2.7 |
| JANG_2L | 2-bit | 8-bit | 6-bit | 8-bit | ~2.9 |
| JANG_3S | 3-bit | 4-bit | 4-bit | 6-bit | ~3.1 |
| JANG_3M | 3-bit | 6-bit | 4-bit | 6-bit | ~3.4 |
| JANG_3L | 3-bit | 8-bit | 4-bit | 8-bit | ~3.6 |
| JANG_4S | 4-bit | 5-bit | 4-bit | 6-bit | ~4.1 |
| JANG_4M | 4-bit | 6-bit | 4-bit | 6-bit | ~4.2 |
| JANG_4L | 4-bit | 8-bit | 4-bit | 8-bit | ~4.5 |
| JANG_6M | 6-bit | 8-bit | 6-bit | 8-bit | ~6.2 |
Swift + Metal推理引擎
14个自定义Metal GPU内核。零拷贝mmap加载。融合反量化用于decode和prefill。
Dequant + GEMV
单token decode的融合反量化+矩阵-向量乘法。所有位宽(2、3、4、5、6、8)在一个内核中完成。
Dequant + GEMM
提示词prefill的融合反量化+矩阵-矩阵乘法。针对Apple GPU threadgroup内存进行了分块优化。
GQA Attention
Grouped-query attention decode + causal prefill。支持标准、滑动窗口和混合架构。
RMSNorm + RoPE
融合归一化和旋转位置编码。支持传统和非传统RoPE变体。
SwiGLU
门控前馈网络的融合SiLU激活+逐元素乘法。
量化Embedding
从量化权重直接查找embedding。无需对整表进行反量化。
转换任意模型
将HuggingFace模型转换为.jang格式的Python工具。选择配置,选择量化方法,然后运行。支持RTN、MSE最优网格搜索和GPTQ(Hessian引导)quantization。
支持6+架构系列:Llama、Qwen、Gemma、Phi、Mistral、Mamba/SSM、MoE,以及包括Qwen 3.5在内的混合模型。
用更少的RAM运行更大的模型
JANG_3M在7B以上模型中比4-bit节省25%,且质量相当。可以将以前无法装入的模型放入unified memory。
已验证的 smaller-win 发布
首页现在只展示与上方精选证据相关的模型发布。完整 Hugging Face 账号仍保留链接,但不再显示无关的最新模型列表。
在MLX Studio中运行JANG模型
MLX Studio提供原生JANG支持,包含OpenAI兼容API、prefix caching、paged KV cache、KV quantization(q4/q8)、continuous batching以及20多种智能编程工具。加载任何.jang模型并在本地部署——兼容Cursor、Continue、Aider及所有OpenAI API客户端。由vMLX Engine驱动,现已开源——pip install vmlx。