JANG
The GGUF for MLX
128 GB Macで3970億パラメータ。92% MMLU。MLXはロードすらできません。
JANG_1Lは397Bモデルを112 GBに圧縮 — 128 GB MacBook Proで推論モード86.5% MMLUを達成。MLXは2~3 bitsでNaNを出力。MiniMax 230B? MLXは全bit水準で26.5%。Nemotron-H 120B? MLX 3-bitは完全に壊れています。JANGだけがApple Siliconでこれらのモデルを量子化実行できます。
JANGはattentionにより多くのbitsを、MLPにより少ないbitsを割り当て、standard quantizationがゴミやNaNを出力する場所でもモデルが正常動作。同じ速度、同じMetalカーネル — より良い出力。Apache 2.0オープンソース。
レイヤー感度に基づく可変ビット幅
Standard quantizationはすべてのテンソルに同じビット幅を適用します。Attentionレイヤー(パラメータの約12%)はMLPレイヤーよりも精度損失に敏感です — 過度に量子化するとattentionスコアが平坦になり、位置エンコーディングが劣化し、出力が退化します。
JANGはテンソルを感度の階層に分類し、それに応じてビット幅を割り当てます。Attentionレイヤーは5〜8 bitsを割り当てられ、MLPは2〜4 bitsに圧縮されます。オーバーヘッドは平均約0.3 bitsの追加です。
JANG vs MLX — 並列比較
各JANGモデルをサイズが最も近いMLX方式と比較。200問MMLU(10科目×各20問)、thinking/reasoningは記載箇所で有効化、temp 0.0。Apple M4 Max 128 GB / M4 Ultra 256 GB。
Qwen3.5-397B-A17B — 397 billion parameters — JANG vs MLX
397B on a 128 GB Mac — first ever. JANG_1L at 112 GB disk (120 GB GPU peak) fits on a 128 GB MacBook Pro and scores 86.5% MMLU with reasoning. MLX at 2-bit and 3-bit produces NaN — the model is too complex for standard quantization at low bit widths. MLX 4-bit runs at 94% but needs ~280 GB, far beyond any laptop. JANG_2L at 187 GB hits 92% on an M4 Ultra 256 GB.
Nemotron-3-Super-120B-A12B — NVIDIA Hybrid Mamba-2 SSM + Latent MoE + Attention
First working Nemotron-H quantization for Apple Silicon. NVIDIA’s hybrid architecture combines Mamba-2 SSM, Latent MoE, and standard attention — MLX 3-bit is broken on it. JANG_4M at 63 GB scores 93% MMLU with reasoning at 55 tok/s. JANG_2L fits on a 64 GB Mac at 43 GB with 86% MMLU.
MiniMax-M2.5 (230B) — JANG vs MLX
MLX is completely broken on MiniMax at every bit level — 4-bit (26.5%), 3-bit (24.5%), and 2-bit (25%) all score near random. JANG_2L at just 2.10 bits is the only way to run MiniMax quantized on Apple Silicon.
Qwen3.5-122B-A10B — ~4 bits
Qwen3.5-122B-A10B — ~2 bits
Qwen3.5-35B-A3B — ~4 bits
Qwen3.5-35B-A3B — ~2 bits
Download: All models on HuggingFace — 397B, Nemotron-H 120B, 122B, 35B, MiniMax 230B, and more
基本プロンプトでの3者比較
6つの事実問題で並列比較。全方式がMLXのネイティブMetalカーネルを使用。Temperature 0.0、最大80 tokens。M4 Max 128 GB。
MLX’s mixed_2_6 mode protects select v_proj and down_proj layers at 6-bit, but does not account for GatedDeltaNet linear attention layers, MoE expert routing tensors, or hybrid architecture components. JANG’s tier system classifies these architecture-specific tensors explicitly.
On this hybrid MoE model, MLX mixed_2_6 does not improve over 2-bit. The mixed_2_6 heuristic targets v_proj and down_proj in standard transformer layers but misses GatedDeltaNet attention and MoE routing tensors that are critical for this architecture.
サイズ、速度、スコア — JANG vs MLX
| モデル | 方法 | Bits | サイズ | MMLU |
|---|---|---|---|---|
| Qwen3.5-397B-A17B | JANG_2L | ~2.x | 187 GB | 92% |
| JANG_1L | ~2.2 | 112 GB | 86.5% | |
| MLX 4-bit | 4.0 | ~280 GB | 94% | |
| MLX 2-bit / 3-bit | 2-3 | — | NaN | |
| Nemotron-3-Super-120B | JANG_4M | ~4.2 | 63 GB | 93% |
| JANG_2L | ~2.x | 43 GB | 86% | |
| MLX 3-bit | 3.0 | — | Broken | |
| Qwen3.5-122B-A10B | JANG_2M | 2.14 | 44.7 GB | 79% |
| JANG_1L | 2.24 | 46.0 GB | 73% | |
| JANG_2L | 2.19 | 45.3 GB | — | |
| MLX mixed_2_6 | ~2.5 | 45 GB | 46% | |
| 2-bit | 2.0 | 36 GB | 56.5% | |
| Qwen3.5-35B-A3B | JANG_4K | 3.99 | 20.1 GB | 77.5% |
| MLX 4-bit | 4.0 | 18.2 GB | 75.5% | |
| JANG_4S | 4.04 | 20.4 GB | 82% | |
| JANG_2S | 2.17 | 12.8 GB | 65.5% | |
| JANG_2L v2 | 2.28 | 13.3 GB | 56% | |
| MLX mixed_2_6 | ~2.5 | 12.8 GB | ~40% | |
| MiniMax-M2.5 (230B) | JANG_2S | 2.06 | 81.6 GB | — |
| JANG_2L | 2.10 | 82.5 GB | 74% | |
| MLX 4-bit | 4.0 | 119.8 GB | 26.5% | |
| MLX 2-bit | 2.0 | 66.6 GB | 25.0% | |
Apple M4 Max 128 GB / M4 Ultra 256 GB · MMLU: 200-question (10 subjects × 20), reasoning enabled for 397B and Nemotron, thinking disabled for others · 2026-03
Qwen3.5-397B: JANG_1L at 112 GB (120 GB GPU peak) fits on 128 GB Macs — 86.5% MMLU with reasoning, 36 tok/s. JANG_2L at 187 GB hits 92% on M4 Ultra 256 GB. MLX 2/3-bit: NaN. MLX 4-bit: 94% but ~280 GB.
Nemotron-3-Super-120B: JANG_4M at 63 GB scores 93% MMLU, 55 tok/s. JANG_2L at 43 GB scores 86%, fits 64 GB Macs. MLX 3-bit: broken. First working Nemotron-H quantization for Apple Silicon.
MiniMax-M2.5 (230B): JANG_2L scores 74% MMLU at 82.5 GB vs MLX 4-bit at 26.5% (119.8 GB). MLX broken at ALL bit levels (26.5%, 24.5%, 25%). JANG is the only way to run MiniMax quantized.
Pipeline verification: JANG_4S matches MLX 4-bit exactly on 35B MMLU (82% = 82%), confirming the quantization pipeline is lossless at matched bit widths.
Denseモデル比較(1B〜7B)
品質劣化の境界での比較 — standard quantizationが退化した出力を生成し始めるビット幅。同じプロンプト、同じtemperature、同じモデル。すべてM4 Maxで。
At 2.5 effective bits, JANG_2S gets 6/6 correct while 2-bit gets 0/6. JANG protects the 8 critical full-attention layers at 6-bit while compressing the 24 linear-attention layers and all MLP at 2-bit.
ハイライト — 7Bモデル
JANG_3M (3.4 bits)
3-bit(3.5 bits)
JANG_3L (3.6 bits)
3-bit(3.5 bits)
JANG_4S (4.1 bits)
4-bit (4.5 bits)
JANG_2S (2.5 bits)
2-bit(2.5 bits)
追加7B結果
JANG_3L (3.6 bits)
3-bit
JANG_3M (3.4 bits)
3-bit
JANG_3L (3.6 bits)
3-bit
JANG_2M (2.7 bits)
2-bit
JANG_4L (4.5 bits)
4-bit
JANG_2S (2.5 bits)
2-bit
小型モデル(1B–3B)
JANG_3M (3.4 bits)
3-bit
JANG_2S (2.5 bits)
2-bit
JANG_4S (4.1 bits)
4-bit
JANG_4L (4.5 bits)
4-bit
JANG (4.12 bits)
4-bit
JANG_4S (4.1 bits)
4-bit
JANG 3.37 bitsが4-bitを上回ります
Qwen2.5-3B · “What is 2+2?” · Logit MSE vs bf16 reference · Lower is better
Apple M4 Max · 107 GB unified memory · affine quantization · group_size=64
JANG at 3.37 bits (MSE 11.10) beats 4.00 bits (MSE 11.31) — 16% fewer bits with better quality.
テスト済み全モデル
| モデル | パラメータ | アーキテクチャ | テスト | 失敗モード |
|---|---|---|---|---|
| Qwen3.5-397B-A17B | 397B | MoE, Hybrid | MMLU | MLX 2/3-bit → NaN |
| Nemotron-3-Super-120B | 120B | Hybrid Mamba-2 SSM + Latent MoE + Attn | MMLU | MLX 3-bit → broken |
| MiniMax-M2.5 | 230B | MoE 256 experts, top-8 | MMLU | MLX all bits → random (25%) |
| Qwen3.5-122B-A10B | 122B | MoE 256 experts, Hybrid | MMLU | 2-bit → 56.5%, mixed_2_6 → 46% |
| Qwen3.5-35B-A3B | 35B | MoE 256 experts, Hybrid GDN+FA | MMLU+QA | 2-bit → degenerate, mixed_2_6 → broken |
| Qwen3.5-4B | 4B | Hybrid: 24 linear + 8 full attn | 6 | 2-bit → 0/6 correct |
| Mistral-7B | 7B | Mistral GQA 4:1, sliding window | 13 | 3-bit → number sequences |
| Qwen2.5-7B | 7B | Qwen GQA 4:1 | 9 | 3-bit → repetition loop |
| Qwen2.5-3B | 3B | Qwen GQA 8:1 | 6 | 4-bit → echo/loop |
| SmolLM2-1.7B | 1.7B | Llama MHA | 11 | 3-bit → number sequences |
| TinyLlama-1.1B | 1.1B | Llama GQA 8:1 | 11 | 4-bit → topic derail |
| Phi-2 | 2.7B | Phi MHA, GELU MLP | 9 | 2-bit → empty output |
Apple M4 Max 128 GB / M4 Ultra 256 GB · MLX affine quantization · group_size=64 · same tokenizer · same prompt template · 12 models · 1B to 397B
JANG_{bits}{size}
超圧縮からほぼ無損失まで11の定義済みプロファイル。S = Small(最大圧縮)、M = Medium(バランス)、L = Large(最高品質)。
| プロファイル | MLP | Attention | Embed | lm_head | 平均Bits |
|---|---|---|---|---|---|
| JANG_1L | 2-bit | 8-bit | 8-bit | 8-bit | ~2.2 |
| JANG_2S | 2-bit | 6-bit | 4-bit | 6-bit | ~2.5 |
| JANG_2M | 2-bit | 8-bit | 4-bit | 8-bit | ~2.7 |
| JANG_2L | 2-bit | 8-bit | 6-bit | 8-bit | ~2.9 |
| JANG_3S | 3-bit | 4-bit | 4-bit | 6-bit | ~3.1 |
| JANG_3M | 3-bit | 6-bit | 4-bit | 6-bit | ~3.4 |
| JANG_3L | 3-bit | 8-bit | 4-bit | 8-bit | ~3.6 |
| JANG_4S | 4-bit | 5-bit | 4-bit | 6-bit | ~4.1 |
| JANG_4M | 4-bit | 6-bit | 4-bit | 6-bit | ~4.2 |
| JANG_4L | 4-bit | 8-bit | 4-bit | 8-bit | ~4.5 |
| JANG_6M | 6-bit | 8-bit | 6-bit | 8-bit | ~6.2 |
Swift + Metal推論エンジン
14個のカスタムMetal GPUカーネル。Zero-copy mmapロード。デコードとプリフィルの融合逆量子化。
Dequant + GEMV
単一トークンdecodeのための逆量子化 + 行列-ベクトル乗算を融合。すべてのビット幅(2, 3, 4, 5, 6, 8)を1つのカーネルで処理します。
Dequant + GEMM
プロンプトprefillのための逆量子化 + 行列-行列乗算を融合。Apple GPUのthreadgroupメモリに最適化されたタイリング処理。
GQA Attention
Grouped-query attention decode + causal prefill。標準、sliding window、ハイブリッドアーキテクチャをサポートします。
RMSNorm + RoPE
正規化とrotary position embeddingを融合。従来型および非従来型のRoPEバリアントをサポートします。
SwiGLU
ゲート付きフィードフォワードネットワークのためのSiLU活性化 + 要素ごとの乗算を融合。
量子化Embedding
量子化された重みから直接embeddingを検索します。テーブル全体の逆量子化は不要です。
あらゆるモデルを変換
HuggingFaceモデルを.jangフォーマットに変換するPythonツールです。プロファイルを選択し、量子化手法を選んで実行するだけです。RTN、MSE最適グリッドサーチ、GPTQ(Hessianベース)quantizationをサポートしています。
6以上のアーキテクチャファミリーをサポート:Llama、Qwen、Gemma、Phi、Mistral、Mamba/SSM、MoE、Qwen 3.5を含むハイブリッドモデル。
より少ないRAMでより大きなモデルを実行
JANG_3Mは7B以上のモデルで4-bitと同等の品質を維持しながら25%を節約します。以前は収まらなかったモデルをunified memoryに格納できます。
HuggingFaceの事前量子化モデル
ダウンロード可能。JANGローダーを通じてvMLX Engine / MLX Studioと互換性があります。
MLX StudioでJANGモデルを実行
MLX StudioはOpenAI互換API、prefix caching、paged KV cache、KV quantization(q4/q8)、continuous batching、20以上のエージェントコーディングツールとともにネイティブJANGサポートを提供します。任意の.jangモデルを読み込んでローカルでサーブできます — Cursor、Continue、Aider、およびすべてのOpenAI APIクライアントに対応。vMLX Engineを搭載、現在オープンソース — pip install vmlx。