开源 · 只显示精选胜利

JANG

比 MLX 更小,输出更稳。

只展示 JANG 更小且大幅获胜的案例。

基准页已严格过滤:不显示小幅胜利、不显示更大的 JANG 配置、不显示未验证估计。这里列出的比较都满足 JANG 比 MLX 基线 更小,并且质量差距明显。

最强证据:MiniMax-M2.5 中 82.5 GB JANG 比 119.8 GB MLX 4-bit 高 +47.5 MMLU;Qwen3.5-122B 中 44.7 GB JANG 比 45 GB MLX mixed_2_6 高 +33 分。

Smaller-than-MLX proof set 仅 MMLU 大幅胜出 Coherency failures filtered No close wins No larger JANG configs Open source · Apache 2.0
+47.5
超过 MLX 4-bit 的 MMLU
37.3 GB
MiniMax 节省容量
+33
超过 MLX mixed_2_6 的 MMLU
3.37-bit
更少 bit,更低 MSE
工作原理

基于层敏感度的可变位宽

Standard quantization对每个张量应用相同的位宽。Attention层(约占参数的12%)比MLP层对精度损失更敏感——过度量化时,attention分数变得平坦,位置编码退化,输出退化。

JANG将张量按敏感度分级并相应分配位宽。Attention层获得5~8 bits,而MLP压缩到2~4 bits。开销为平均约0.3 bits的额外量。

Attention
8-bit — 受保护
MLP
2-bit — 已压缩
Embed
4-bit
lm_head
6-bit
Result
JANG_2M → 2.7 avg bits → coherent output
3-bit → 3.0 avg bits → repetition loops
精选证据

只保留更小且大幅获胜的案例。

仅保留经过验证、JANG 比 MLX 基线 更小,并在 MMLU 或 coherency 上大幅领先的比较。小幅胜利、更大的 JANG 配置和未验证估计已移除。

MiniMax-M2.5 (230B) — MMLU 大幅胜出,且小于 MLX 4-bit

JANG
JANG_2L
82.5 GB · 2.10 bits · 每题 0.9 秒
74.0%
MMLU (200q) · 148/200
+47.5 分 · 小 37.3 GB
MLX 基线
4-bit
119.8 GB · 4.0 bits · 每题 0.9 秒
26.5%
MMLU (200q) · 53/200

保留原因:JANG 既显著更好,也显著更小:82.5 GB 对 119.8 GB,而 MLX 4-bit、3-bit、2-bit 都接近随机猜测。

分科目证据 — MiniMax-M2.5
科目JANG_2LMLX 4-bitMLX 3-bitMLX 2-bit
抽象代数10/203/202/205/20
解剖学15/207/205/205/20
天文学20/207/206/204/20
大学计算机科学13/204/205/206/20
大学物理13/208/206/206/20
高中生物18/204/205/206/20
高中化学18/204/205/205/20
高中数学8/206/206/203/20
逻辑谬误18/205/204/205/20
世界宗教15/205/205/205/20
总计148/200 (74%)53/200 (26.5%)49/200 (24.5%)50/200 (25%)

Qwen3.5-122B-A10B — 同尺寸段 MLX mixed 基线下,JANG 仍更小

JANG
JANG_2M
44.7 GB · 2.14 bits
79%
MMLU (200q) · 158/200
+33 分 · 小 0.3 GB
MLX 基线
mixed_2_6
45 GB · ~2.5 bits
46%
MMLU (200q) · 92/200

保留原因:这是最接近的同内存 MLX 对比;JANG 略小,同时仍有 +33 分 MMLU 差距。

Mistral-7B-v0.3 — 光合作用
JANG_3M3.4 bits vs 3.5-bit MLX
“What is photosynthesis?”
JANG_3M
正确解释植物如何利用阳光。
MLX 3-bit
退化为数字序列。
保留:JANG 使用更少 bits 并保持连贯。
Mistral-7B — 算术
JANG_4S4.1 bits vs 4.5-bit MLX
“What is 2+2?”
JANG_4S
“4”
MLX 4-bit
循环重复问题。
保留:bit 宽度更低,coherency 明确胜出。
Qwen2.5-3B — 翻译 / 事实问答
JANG_4S4.1–4.12 bits vs 4.5-bit MLX
“Translate 'thank you' to Spanish.” / “Is a tomato a fruit or vegetable?”
JANG
直接回答:“gracias”;番茄是水果。
MLX 4-bit
复读或重复提示词。
保留:小于 4-bit,且 coherency 明确胜出。
SmolLM2-1.7B — 蜘蛛腿
JANG_3M3.4 bits vs 3.5-bit MLX
“How many legs does a spider have?”
JANG_3M
回答 8。
MLX 3-bit
输出数字序列。
保留:更少 bits,直接回答。
TinyLlama-1.1B — 水的化学式
JANG_4S4.1 bits vs 4.5-bit MLX
“What is the chemical formula for water?”
JANG_4S
保持在主题上。
MLX 4-bit
跑题到另一个化学问题。
保留:小于 4-bit,且更连贯。
Logit MSE 证据

Qwen2.5-3B: 3.37 bits beats 4.00-bit MSE

越低越好。JANG MLP=3 / attention=6 在 3.37 bits 达到 11.10 MSE,而 MLX 4-bit 为 11.31 MSE。

MLX 4-bit
11.31 MSE — 4.00 bits
JANG
11.10 MSE — 3.37 bits
总结

展示模型:仅限更小且决定性胜出

模型JANGMLX 基线展示原因
MiniMax-M2.5JANG_2L · 82.5 GB · 74%4-bit · 119.8 GB · 26.5%+47.5 MMLU,小 37.3 GB
Qwen3.5-122B-A10BJANG_2M · 44.7 GB · 79%mixed_2_6 · 45 GB · 46%+33 MMLU,略小
Mistral-7BJANG_3M / JANG_4S3-bit / 4-bit MLX更少 bits,输出连贯
Qwen2.5-3BJANG_4S / 3.37-bit proof4-bit MLX更少 bits,更好的 MSE/coherency
SmolLM2-1.7BJANG_3M · 3.4 bits3-bit MLX · 3.5 bits更小且直接回答
TinyLlama-1.1BJANG_4S · 4.1 bits4-bit MLX · 4.5 bits更小且避免跑题
配置方案

JANG_{bits}{size}

从超压缩到近无损的11个预设配置。S = Small(最大压缩),M = Medium(平衡),L = Large(最高质量)。

配置MLPAttentionEmbedlm_head平均Bits
JANG_1L2-bit8-bit8-bit8-bit~2.2
JANG_2S2-bit6-bit4-bit6-bit~2.5
JANG_2M2-bit8-bit4-bit8-bit~2.7
JANG_2L2-bit8-bit6-bit8-bit~2.9
JANG_3S3-bit4-bit4-bit6-bit~3.1
JANG_3M3-bit6-bit4-bit6-bit~3.4
JANG_3L3-bit8-bit4-bit8-bit~3.6
JANG_4S4-bit5-bit4-bit6-bit~4.1
JANG_4M4-bit6-bit4-bit6-bit~4.2
JANG_4L4-bit8-bit4-bit8-bit~4.5
JANG_6M6-bit8-bit6-bit8-bit~6.2
运行时

Swift + Metal推理引擎

14个自定义Metal GPU内核。零拷贝mmap加载。融合反量化用于decode和prefill。

jang — Terminal
$ jang run --model Qwen2.5-3B-JANG_4L.jang
# 加载模型(零拷贝mmap)...
# 配置:JANG_4L(MLP=4,attn=8,平均=4.5 bits)
# 大小:1.8 GB — 0.39秒加载完成
> What is photosynthesis?
Photosynthesis is the process by which green plants and some other organisms use sunlight to synthesize foods from carbon dioxide and water. It generally involves the green pigment chlorophyll and generates oxygen as a byproduct.

Dequant + GEMV

单token decode的融合反量化+矩阵-向量乘法。所有位宽(2、3、4、5、6、8)在一个内核中完成。

Dequant + GEMM

提示词prefill的融合反量化+矩阵-矩阵乘法。针对Apple GPU threadgroup内存进行了分块优化。

GQA Attention

Grouped-query attention decode + causal prefill。支持标准、滑动窗口和混合架构。

RMSNorm + RoPE

融合归一化和旋转位置编码。支持传统和非传统RoPE变体。

SwiGLU

门控前馈网络的融合SiLU激活+逐元素乘法。

量化Embedding

从量化权重直接查找embedding。无需对整表进行反量化。

量化

转换任意模型

将HuggingFace模型转换为.jang格式的Python工具。选择配置,选择量化方法,然后运行。支持RTN、MSE最优网格搜索和GPTQ(Hessian引导)quantization。

支持6+架构系列:Llama、Qwen、Gemma、Phi、Mistral、Mamba/SSM、MoE,以及包括Qwen 3.5在内的混合模型。

开源 — Apache 2.0许可证
jang-tools
$ pip install jang-tools
$ jang convert --model Qwen/Qwen2.5-3B \
    --profile JANG_4S \
    --method gptq \
    --output ./Qwen2.5-3B-JANG_4S/
# 使用GPTQ(Hessian引导)量化中...
# Attention层:8-bit | MLP:4-bit
# 平均bits:4.5 | 大小:4.1 GB
# 完成 ✔
MLX Studio — JANG Converter
JANG 模型 Converter showing all quantization profiles
内存

用更少的RAM运行更大的模型

JANG_3M在7B以上模型中比4-bit节省25%,且质量相当。可以将以前无法装入的模型放入unified memory。

~4.1 GB
JANG_4S下的7B(对比标准 4.5 GB)
~8.2 GB
JANG_4S下的14B(对比4-bit 9 GB)
~41 GB
JANG_4S下的70B(对比4-bit 45 GB)
25%
JANG_3M对比4-bit的节省率
模型

已验证的 smaller-win 发布

首页现在只展示与上方精选证据相关的模型发布。完整 Hugging Face 账号仍保留链接,但不再显示无关的最新模型列表。

打开精选 MiniMax 发布 打开完整 JANGQ-AI 账号
原生集成

在MLX Studio中运行JANG模型

MLX Studio提供原生JANG支持,包含OpenAI兼容API、prefix caching、paged KV cache、KV quantization(q4/q8)、continuous batching以及20多种智能编程工具。加载任何.jang模型并在本地部署——兼容Cursor、Continue、Aider及所有OpenAI API客户端。由vMLX Engine驱动,现已开源——pip install vmlx。

MLX Studio vMLX Engine