オープンソース · 厳選勝利のみ

JANG

MLXより小さく、出力はより鋭い。

JANGが小さいまま大差で勝つケースだけを表示します。

ベンチマークを厳しくフィルタしました。僅差の勝利、より大きいJANG設定、未検証の推定値は除外しています。ここにある比較は、JANGがMLX基準より小さく、品質差が明確なものだけです。

主な証拠は、MiniMax-M2.5で82.5 GBのJANGが119.8 GBのMLX 4-bitに+47.5 MMLU、Qwen3.5-122Bで44.7 GBのJANGが45 GBのMLX mixed_2_6に+33点です。

Smaller-than-MLX proof set MMLUで大差の勝利のみ Coherency failures filtered No close wins No larger JANG configs Open source · Apache 2.0
+47.5
MLX 4-bit超過MMLU
37.3 GB
MiniMaxで小さい容量
+33
MLX mixed_2_6超過MMLU
3.37-bit
少ないビットで低MSE
仕組み

レイヤー感度に基づく可変ビット幅

Standard quantizationはすべてのテンソルに同じビット幅を適用します。Attentionレイヤー(パラメータの約12%)はMLPレイヤーよりも精度損失に敏感です — 過度に量子化するとattentionスコアが平坦になり、位置エンコーディングが劣化し、出力が退化します。

JANGはテンソルを感度の階層に分類し、それに応じてビット幅を割り当てます。Attentionレイヤーは5〜8 bitsを割り当てられ、MLPは2〜4 bitsに圧縮されます。オーバーヘッドは平均約0.3 bitsの追加です。

Attention
8-bit — 保護
MLP
2-bit — 圧縮
Embed
4-bit
lm_head
6-bit
Result
JANG_2M → 2.7 avg bits → coherent output
3-bit → 3.0 avg bits → repetition loops
厳選された証拠

小さく、大差で勝つケースのみ。

JANGがMLX基準より小さく、MMLUまたはcoherencyで大きく勝つ検証済み比較だけを残しました。僅差の勝利、大きいJANG設定、未検証の推定値は削除しました。

MiniMax-M2.5 (230B) — MMLUで大差、MLX 4-bitより小さい

JANG
JANG_2L
82.5 GB · 2.10 bits · 1問あたり0.9秒
74.0%
MMLU (200q) · 148/200
+47.5ポイント · 37.3 GB小さい
MLX基準
4-bit
119.8 GB · 4.0 bits · 1問あたり0.9秒
26.5%
MMLU (200q) · 53/200

JANGが圧倒的に高品質で、かつ大幅に小さいため掲載しています。82.5 GB 対 119.8 GBで、MLX 4-bit、3-bit、2-bitはいずれもほぼランダムです。

科目別の証拠 — MiniMax-M2.5
科目JANG_2LMLX 4-bitMLX 3-bitMLX 2-bit
抽象代数学10/203/202/205/20
解剖学15/207/205/205/20
天文学20/207/206/204/20
大学CS13/204/205/206/20
大学物理13/208/206/206/20
高校生物学18/204/205/206/20
高校化学18/204/205/205/20
高校数学8/206/206/203/20
論理的誤謬18/205/204/205/20
世界宗教15/205/205/205/20
合計148/200 (74%)53/200 (26.5%)49/200 (24.5%)50/200 (25%)

Qwen3.5-122B-A10B — 同サイズ帯のMLX mixed基準よりJANGがまだ小さい

JANG
JANG_2M
44.7 GB · 2.14 bits
79%
MMLU (200q) · 158/200
+33ポイント · 0.3 GB小さい
MLX基準
mixed_2_6
45 GB · ~2.5 bits
46%
MMLU (200q) · 92/200

最も近い同メモリMLX比較のため掲載しています。JANGはわずかに小さく、それでもMMLUで+33ポイント差を出します。

Mistral-7B-v0.3 — 光合成
JANG_3M3.4 bits vs 3.5-bit MLX
“What is photosynthesis?”
JANG_3M
植物が日光を使う仕組みを正しく説明します。
MLX 3-bit
数字列へ退化します。
掲載: JANGは少ないbitで一貫性を保ちます。
Mistral-7B — 算術
JANG_4S4.1 bits vs 4.5-bit MLX
“What is 2+2?”
JANG_4S
“4”
MLX 4-bit
質問を繰り返します。
掲載: より小さいbit幅でcoherencyに明確に勝ちます。
Qwen2.5-3B — 翻訳 / 事実QA
JANG_4S4.1–4.12 bits vs 4.5-bit MLX
“Translate 'thank you' to Spanish.” / “Is a tomato a fruit or vegetable?”
JANG
直接回答します: “gracias”; トマトは果物です。
MLX 4-bit
プロンプトをオウム返し、または反復します。
掲載: 4-bitより小さく、coherencyで明確に勝ちます。
SmolLM2-1.7B — クモの脚
JANG_3M3.4 bits vs 3.5-bit MLX
“How many legs does a spider have?”
JANG_3M
8と答えます。
MLX 3-bit
数字列を出力します。
掲載: 少ないbitで直接回答します。
TinyLlama-1.1B — 水の化学式
JANG_4S4.1 bits vs 4.5-bit MLX
“What is the chemical formula for water?”
JANG_4S
話題から外れません。
MLX 4-bit
別の化学問題へ脱線します。
掲載: 4-bitより小さく、より一貫しています。
Logit MSEの証拠

Qwen2.5-3B: 3.37 bits beats 4.00-bit MSE

低いほど良好です。JANG MLP=3 / attention=6は3.37 bitsで11.10 MSE、MLX 4-bitは11.31 MSEです。

MLX 4-bit
11.31 MSE — 4.00 bits
JANG
11.10 MSE — 3.37 bits
要約

掲載モデル: 小さく大差で勝つものだけ

モデルJANGMLX基準掲載理由
MiniMax-M2.5JANG_2L · 82.5 GB · 74%4-bit · 119.8 GB · 26.5%+47.5 MMLU、37.3 GB小さい
Qwen3.5-122B-A10BJANG_2M · 44.7 GB · 79%mixed_2_6 · 45 GB · 46%+33 MMLU、わずかに小さい
Mistral-7BJANG_3M / JANG_4S3-bit / 4-bit MLX少ないbit、一貫した出力
Qwen2.5-3BJANG_4S / 3.37-bit proof4-bit MLX少ないbit、より良いMSE/coherency
SmolLM2-1.7BJANG_3M · 3.4 bits3-bit MLX · 3.5 bitsより小さく直接回答
TinyLlama-1.1BJANG_4S · 4.1 bits4-bit MLX · 4.5 bitsより小さく話題逸脱を回避
プロファイル

JANG_{bits}{size}

超圧縮からほぼ無損失まで11の定義済みプロファイル。S = Small(最大圧縮)、M = Medium(バランス)、L = Large(最高品質)。

プロファイルMLPAttentionEmbedlm_head平均Bits
JANG_1L2-bit8-bit8-bit8-bit~2.2
JANG_2S2-bit6-bit4-bit6-bit~2.5
JANG_2M2-bit8-bit4-bit8-bit~2.7
JANG_2L2-bit8-bit6-bit8-bit~2.9
JANG_3S3-bit4-bit4-bit6-bit~3.1
JANG_3M3-bit6-bit4-bit6-bit~3.4
JANG_3L3-bit8-bit4-bit8-bit~3.6
JANG_4S4-bit5-bit4-bit6-bit~4.1
JANG_4M4-bit6-bit4-bit6-bit~4.2
JANG_4L4-bit8-bit4-bit8-bit~4.5
JANG_6M6-bit8-bit6-bit8-bit~6.2
ランタイム

Swift + Metal推論エンジン

14個のカスタムMetal GPUカーネル。Zero-copy mmapロード。デコードとプリフィルの融合逆量子化。

jang — Terminal
$ jang run --model Qwen2.5-3B-JANG_4L.jang
# モデル読み込み(zero-copy mmap)...
# プロファイル:JANG_4L(MLP=4, attn=8, 平均=4.5 bits)
# サイズ:1.8 GB — 0.39秒で読み込み完了
> What is photosynthesis?
Photosynthesis is the process by which green plants and some other organisms use sunlight to synthesize foods from carbon dioxide and water. It generally involves the green pigment chlorophyll and generates oxygen as a byproduct.

Dequant + GEMV

単一トークンdecodeのための逆量子化 + 行列-ベクトル乗算を融合。すべてのビット幅(2, 3, 4, 5, 6, 8)を1つのカーネルで処理します。

Dequant + GEMM

プロンプトprefillのための逆量子化 + 行列-行列乗算を融合。Apple GPUのthreadgroupメモリに最適化されたタイリング処理。

GQA Attention

Grouped-query attention decode + causal prefill。標準、sliding window、ハイブリッドアーキテクチャをサポートします。

RMSNorm + RoPE

正規化とrotary position embeddingを融合。従来型および非従来型のRoPEバリアントをサポートします。

SwiGLU

ゲート付きフィードフォワードネットワークのためのSiLU活性化 + 要素ごとの乗算を融合。

量子化Embedding

量子化された重みから直接embeddingを検索します。テーブル全体の逆量子化は不要です。

量子化

あらゆるモデルを変換

HuggingFaceモデルを.jangフォーマットに変換するPythonツールです。プロファイルを選択し、量子化手法を選んで実行するだけです。RTN、MSE最適グリッドサーチ、GPTQ(Hessianベース)quantizationをサポートしています。

6以上のアーキテクチャファミリーをサポート:Llama、Qwen、Gemma、Phi、Mistral、Mamba/SSM、MoE、Qwen 3.5を含むハイブリッドモデル。

オープンソース — Apache 2.0ライセンス
jang-tools
$ pip install jang-tools
$ jang convert --model Qwen/Qwen2.5-3B \
    --profile JANG_4S \
    --method gptq \
    --output ./Qwen2.5-3B-JANG_4S/
# GPTQ(Hessianベース)で量子化中...
# Attentionレイヤー:8-bit | MLP:4-bit
# 平均bits:4.5 | サイズ:4.1 GB
# 完了 ✔
MLX Studio — JANG Converter
JANG モデル Converter showing all quantization profiles
メモリ

より少ないRAMでより大きなモデルを実行

JANG_3Mは7B以上のモデルで4-bitと同等の品質を維持しながら25%を節約します。以前は収まらなかったモデルをunified memoryに格納できます。

~4.1 GB
JANG_4Sで7B(4-bit 4.5 GB比)
~8.2 GB
JANG_4Sで14B(4-bit 9 GB比)
~41 GB
JANG_4Sで70B(4-bit 45 GB比)
25%
JANG_3Mの4-bit比の節約率
モデル

検証済み smaller-win リリース

ホームページには、上の厳選証拠に紐づくモデルリリースだけを表示します。Hugging Face全体へのリンクは残し、無関係な最新モデル一覧は表示しません。

厳選MiniMaxリリースを開く JANGQ-AI全体を開く
ネイティブ統合

MLX StudioでJANGモデルを実行

MLX StudioはOpenAI互換API、prefix caching、paged KV cache、KV quantization(q4/q8)、continuous batching、20以上のエージェントコーディングツールとともにネイティブJANGサポートを提供します。任意の.jangモデルを読み込んでローカルでサーブできます — Cursor、Continue、Aider、およびすべてのOpenAI APIクライアントに対応。vMLX Engineを搭載、現在オープンソース — pip install vmlx。

MLX Studio vMLX Engine