JANG
The GGUF for MLX
Apple Silicon用 MLX 混合精度量子化。
MLXの均一量子化はすべてのレイヤーに同じビット幅を適用します。低ビット(2-3)ではアテンションレイヤーが最初に劣化します — 出力が繰り返しループや退化シーケンスに崩壊します。JANGは感度に基づいてテンソルごとに可変ビット幅を割り当てます:アテンションにより多くのビット、MLPにより少ないビット。
モデルはGPUメモリ内で量子化されたまま保持され、MLXのネイティブ quantized_matmul カーネルを使用してオンザフライで逆量子化されます — float16展開なし、速度ペナルティなし。フォーマットはsafetensorsベース。量子化ツールとランタイムはApache 2.0オープンソース。
レイヤー感度に基づく可変ビット幅
均一量子化はすべてのテンソルに同じビット幅を適用します。アテンションレイヤー(パラメータの約12%)はMLPレイヤーよりも精度損失に敏感です — 過度に量子化されるとアテンションスコアが平坦化し、位置エンコーディングが劣化し、出力が退化します。
JANGはテンソルを感度階層に分類し、それに応じてビット幅を割り当てます。アテンションレイヤーに5–8 bits、MLPに2–4 bits圧縮。オーバーヘッドは平均約0.3 bits。
JANG vs MLX — side by side
Each JANG model compared against the closest MLX method by size. 50-question MMLU, thinking disabled, temp 0.0. Apple M4 Max 128 GB.
Qwen3.5-122B-A10B — ~4 bits — NEW
Qwen3.5-122B-A10B — ~2 bits
Qwen3.5-35B-A3B — ~4 bits
Qwen3.5-35B-A3B — ~2 bits
Qwen3.5-122B-A10B — JANG_1L — 200-question MMLU
All scores verified from HuggingFace model cards. Download: JANG_4K · JANG_2S · JANG_1L
追加7B結果
JANG_3L (3.6 bits)
3-bit
JANG_3M (3.4 bits)
3-bit
JANG_3L (3.6 bits)
3-bit
JANG_2M (2.7 bits)
2-bit
JANG_4L (4.5 bits)
4-bit
JANG_2S (2.5 bits)
2-bit
小型モデル(1B〜3B)
JANG_3M (3.4 bits)
3-bit
JANG_2S (2.5 bits)
2-bit
JANG_4S (4.1 bits)
4-bit
JANG_4L (4.5 bits)
4-bit
JANG (4.12 bits)
4-bit
JANG_4S (4.1 bits)
4-bit
JANG 3.37 bitsが均一4-bitを上回る
Qwen2.5-3B · “What is 2+2?” · Logit MSE vs bf16 reference · Lower is better
Apple M4 Max · 107 GB unified memory · affine quantization · group_size=64
JANG 3.37 bits(MSE 11.10)が均一4.00 bits(MSE 11.31)を上回る — 16%少ないビットでより高い品質。
テスト済みの全モデル
| Model | Params | Architecture | テスト | 失敗モード |
|---|---|---|---|---|
| Mistral-7B | 7B | Mistral GQA 4:1, sliding window | 13 | 3-bit → number sequences, 4b → loops |
| TinyLlama-1.1B | 1.1B | Llama GQA 8:1 | 11 | 4-bit → topic derail |
| SmolLM2-1.7B | 1.7B | Llama MHA | 11 | 3-bit → number sequences |
| Phi-2 | 2.7B | Phi MHA, GELU MLP | 9 | 2-bit → empty output |
| Qwen2.5-7B | 7B | Qwen GQA 4:1 | 9 | 3-bit → repetition loop |
| Qwen2.5-3B | 3B | Qwen GQA 8:1 | 6 | 4-bit → echo/loop |
| Qwen3.5-4B | 4B | Hybrid: 24 linear + 8 full attn | 6 | 2-bit → 0/6 correct |
すべてのテスト:Apple M4 Max · 107 GB統合メモリ · MLX affine量子化 · group_size=64 · 同一トークナイザー · 同一プロンプトテンプレート · 45実験 · 8モデル · Qwen3.5-9Bダウンロード済み、テスト保留中
JANG_{bits}{size}
超圧縮からほぼ無損失まで11の定義済みプロファイル。S = Small(最大圧縮)、M = Medium(バランス)、L = Large(最高品質)。
| Profile | MLP | Attention | Embed | lm_head | Avg Bits |
|---|---|---|---|---|---|
| JANG_1L | 2-bit | 8-bit | 8-bit | 8-bit | ~2.2 |
| JANG_2S | 2-bit | 6-bit | 4-bit | 6-bit | ~2.5 |
| JANG_2M | 2-bit | 8-bit | 4-bit | 8-bit | ~2.7 |
| JANG_2L | 2-bit | 8-bit | 6-bit | 8-bit | ~2.9 |
| JANG_3S | 3-bit | 4-bit | 4-bit | 6-bit | ~3.1 |
| JANG_3M | 3-bit | 6-bit | 4-bit | 6-bit | ~3.4 |
| JANG_3L | 3-bit | 8-bit | 4-bit | 8-bit | ~3.6 |
| JANG_4S | 4-bit | 5-bit | 4-bit | 6-bit | ~4.1 |
| JANG_4M | 4-bit | 6-bit | 4-bit | 6-bit | ~4.2 |
| JANG_4L | 4-bit | 8-bit | 4-bit | 8-bit | ~4.5 |
| JANG_6M | 6-bit | 8-bit | 6-bit | 8-bit | ~6.2 |
Swift + Metal 推論エンジン
14カスタムMetal GPUカーネル。ゼロコピーmmapロード。デコードとプリフィル用融合逆量子化。
Dequant + GEMV
Fused dequantization + matrix-vector multiply for single-token decode. All bit widths (2, 3, 4, 5, 6, 8) in one kernel.
Dequant + GEMM
Fused dequantization + matrix-matrix multiply for prompt prefill. Tiled for Apple GPU threadgroup memory.
GQA Attention
Grouped-query attention decode + causal prefill. Supports standard, sliding window, and hybrid architectures.
RMSNorm + RoPE
Fused normalization and rotary position embedding. Traditional and non-traditional RoPE variants.
SwiGLU
Fused SiLU activation + element-wise multiply for gated feed-forward networks.
Quantized Embedding
Direct embedding lookup from quantized weights. No full-table dequantization needed.
あらゆるモデルを変換
HuggingFaceモデルを.jangフォーマットに変換するPythonツール。プロファイルを選択し、量子化方法を選び、実行。RTN、MSE最適グリッドサーチ、GPTQ(ヘッセ行列ベース)量子化をサポート。
6以上のアーキテクチャファミリ:Llama、Qwen、Gemma、Phi、Mistral、Mamba/SSM、MoE、Qwen 3.5を含むハイブリッドモデル。
より少ないRAMでより大きなモデルを実行
JANG_3Mは7B以上のモデルで均一4-bitと同等の品質で25%節約。以前は収まらなかったモデルを統合メモリに収容。
HuggingFace事前量子化モデル
ダウンロード可能。JANGローダー経由でvMLX Engine / MLX Studioと互換。
MLX StudioでJANGモデルを実行
MLX StudioはOpenAI互換API、プレフィックスキャッシング、ページドKVキャッシュ、KV量子化(q4/q8)、連続バッチング、20以上のエージェントコーディングツールとともにネイティブJANGサポート。.jangモデルをロードしてローカルでサービング — Cursor、Continue、Aider、すべてのOpenAI APIクライアントと互換。vMLX Engineで駆動、オープンソース — pip install vmlx。