JANG
MLXより小さく、出力はより鋭い。
JANGが小さいまま大差で勝つケースだけを表示します。
ベンチマークを厳しくフィルタしました。僅差の勝利、より大きいJANG設定、未検証の推定値は除外しています。ここにある比較は、JANGがMLX基準より小さく、品質差が明確なものだけです。
主な証拠は、MiniMax-M2.5で82.5 GBのJANGが119.8 GBのMLX 4-bitに+47.5 MMLU、Qwen3.5-122Bで44.7 GBのJANGが45 GBのMLX mixed_2_6に+33点です。
レイヤー感度に基づく可変ビット幅
Standard quantizationはすべてのテンソルに同じビット幅を適用します。Attentionレイヤー(パラメータの約12%)はMLPレイヤーよりも精度損失に敏感です — 過度に量子化するとattentionスコアが平坦になり、位置エンコーディングが劣化し、出力が退化します。
JANGはテンソルを感度の階層に分類し、それに応じてビット幅を割り当てます。Attentionレイヤーは5〜8 bitsを割り当てられ、MLPは2〜4 bitsに圧縮されます。オーバーヘッドは平均約0.3 bitsの追加です。
小さく、大差で勝つケースのみ。
JANGがMLX基準より小さく、MMLUまたはcoherencyで大きく勝つ検証済み比較だけを残しました。僅差の勝利、大きいJANG設定、未検証の推定値は削除しました。
MiniMax-M2.5 (230B) — MMLUで大差、MLX 4-bitより小さい
JANGが圧倒的に高品質で、かつ大幅に小さいため掲載しています。82.5 GB 対 119.8 GBで、MLX 4-bit、3-bit、2-bitはいずれもほぼランダムです。
Qwen3.5-122B-A10B — 同サイズ帯のMLX mixed基準よりJANGがまだ小さい
最も近い同メモリMLX比較のため掲載しています。JANGはわずかに小さく、それでもMMLUで+33ポイント差を出します。
JANG_3M
MLX 3-bit
JANG_4S
MLX 4-bit
JANG
MLX 4-bit
JANG_3M
MLX 3-bit
JANG_4S
MLX 4-bit
Qwen2.5-3B: 3.37 bits beats 4.00-bit MSE
低いほど良好です。JANG MLP=3 / attention=6は3.37 bitsで11.10 MSE、MLX 4-bitは11.31 MSEです。
掲載モデル: 小さく大差で勝つものだけ
| モデル | JANG | MLX基準 | 掲載理由 |
|---|---|---|---|
| MiniMax-M2.5 | JANG_2L · 82.5 GB · 74% | 4-bit · 119.8 GB · 26.5% | +47.5 MMLU、37.3 GB小さい |
| Qwen3.5-122B-A10B | JANG_2M · 44.7 GB · 79% | mixed_2_6 · 45 GB · 46% | +33 MMLU、わずかに小さい |
| Mistral-7B | JANG_3M / JANG_4S | 3-bit / 4-bit MLX | 少ないbit、一貫した出力 |
| Qwen2.5-3B | JANG_4S / 3.37-bit proof | 4-bit MLX | 少ないbit、より良いMSE/coherency |
| SmolLM2-1.7B | JANG_3M · 3.4 bits | 3-bit MLX · 3.5 bits | より小さく直接回答 |
| TinyLlama-1.1B | JANG_4S · 4.1 bits | 4-bit MLX · 4.5 bits | より小さく話題逸脱を回避 |
JANG_{bits}{size}
超圧縮からほぼ無損失まで11の定義済みプロファイル。S = Small(最大圧縮)、M = Medium(バランス)、L = Large(最高品質)。
| プロファイル | MLP | Attention | Embed | lm_head | 平均Bits |
|---|---|---|---|---|---|
| JANG_1L | 2-bit | 8-bit | 8-bit | 8-bit | ~2.2 |
| JANG_2S | 2-bit | 6-bit | 4-bit | 6-bit | ~2.5 |
| JANG_2M | 2-bit | 8-bit | 4-bit | 8-bit | ~2.7 |
| JANG_2L | 2-bit | 8-bit | 6-bit | 8-bit | ~2.9 |
| JANG_3S | 3-bit | 4-bit | 4-bit | 6-bit | ~3.1 |
| JANG_3M | 3-bit | 6-bit | 4-bit | 6-bit | ~3.4 |
| JANG_3L | 3-bit | 8-bit | 4-bit | 8-bit | ~3.6 |
| JANG_4S | 4-bit | 5-bit | 4-bit | 6-bit | ~4.1 |
| JANG_4M | 4-bit | 6-bit | 4-bit | 6-bit | ~4.2 |
| JANG_4L | 4-bit | 8-bit | 4-bit | 8-bit | ~4.5 |
| JANG_6M | 6-bit | 8-bit | 6-bit | 8-bit | ~6.2 |
Swift + Metal推論エンジン
14個のカスタムMetal GPUカーネル。Zero-copy mmapロード。デコードとプリフィルの融合逆量子化。
Dequant + GEMV
単一トークンdecodeのための逆量子化 + 行列-ベクトル乗算を融合。すべてのビット幅(2, 3, 4, 5, 6, 8)を1つのカーネルで処理します。
Dequant + GEMM
プロンプトprefillのための逆量子化 + 行列-行列乗算を融合。Apple GPUのthreadgroupメモリに最適化されたタイリング処理。
GQA Attention
Grouped-query attention decode + causal prefill。標準、sliding window、ハイブリッドアーキテクチャをサポートします。
RMSNorm + RoPE
正規化とrotary position embeddingを融合。従来型および非従来型のRoPEバリアントをサポートします。
SwiGLU
ゲート付きフィードフォワードネットワークのためのSiLU活性化 + 要素ごとの乗算を融合。
量子化Embedding
量子化された重みから直接embeddingを検索します。テーブル全体の逆量子化は不要です。
あらゆるモデルを変換
HuggingFaceモデルを.jangフォーマットに変換するPythonツールです。プロファイルを選択し、量子化手法を選んで実行するだけです。RTN、MSE最適グリッドサーチ、GPTQ(Hessianベース)quantizationをサポートしています。
6以上のアーキテクチャファミリーをサポート:Llama、Qwen、Gemma、Phi、Mistral、Mamba/SSM、MoE、Qwen 3.5を含むハイブリッドモデル。
より少ないRAMでより大きなモデルを実行
JANG_3Mは7B以上のモデルで4-bitと同等の品質を維持しながら25%を節約します。以前は収まらなかったモデルをunified memoryに格納できます。
検証済み smaller-win リリース
ホームページには、上の厳選証拠に紐づくモデルリリースだけを表示します。Hugging Face全体へのリンクは残し、無関係な最新モデル一覧は表示しません。
MLX StudioでJANGモデルを実行
MLX StudioはOpenAI互換API、prefix caching、paged KV cache、KV quantization(q4/q8)、continuous batching、20以上のエージェントコーディングツールとともにネイティブJANGサポートを提供します。任意の.jangモデルを読み込んでローカルでサーブできます — Cursor、Continue、Aider、およびすべてのOpenAI APIクライアントに対応。vMLX Engineを搭載、現在オープンソース — pip install vmlx。