JANG
MLX보다 작게, 출력은 더 선명하게.
JANG이 더 작으면서 크게 이긴 사례만 표시합니다.
벤치마크 페이지를 강하게 필터링했습니다. 근소한 승리, 더 큰 JANG 설정, 추정치는 제외했습니다. 여기 표시된 비교는 JANG이 MLX 기준보다 작고 품질 차이가 명확한 경우입니다.
핵심 증거는 MiniMax-M2.5: 82.5 GB JANG이 119.8 GB MLX 4-bit보다 +47.5 MMLU, Qwen3.5-122B: 44.7 GB JANG이 45 GB MLX mixed_2_6보다 +33점입니다.
레이어 민감도에 기반한 가변 비트 폭
Standard quantization은 모든 텐서에 동일한 비트 폭을 적용합니다. Attention 레이어(파라미터의 약 12%)는 MLP 레이어보다 정밀도 손실에 더 민감합니다 — 너무 공격적으로 양자화하면 attention 스코어가 평탄해지고, 위치 인코딩이 저하되며, 출력이 퇴화됩니다.
JANG은 텐서를 민감도 등급으로 분류하고 그에 따라 비트 폭을 할당합니다. Attention 레이어는 5~8 bits를 할당받고 MLP는 2~4 bits로 압축됩니다. 오버헤드는 평균 약 0.3 bits 추가입니다.
더 작고 크게 이긴 사례만.
JANG이 MLX 기준보다 더 작으면서 MMLU 또는 coherency에서 큰 차이로 이긴 검증 사례만 남겼습니다. 근소한 승리, 더 큰 JANG 설정, 미검증 추정치는 제거했습니다.
MiniMax-M2.5 (230B) — MMLU 대승, MLX 4-bit보다 작음
JANG이 훨씬 더 좋고 훨씬 더 작기 때문에 유지했습니다: 82.5 GB vs 119.8 GB이며, MLX 4-bit, 3-bit, 2-bit는 모두 무작위 추측에 가깝습니다.
Qwen3.5-122B-A10B — 같은 크기대의 MLX mixed 기준보다 JANG이 여전히 작음
가장 가까운 동일 메모리 MLX 비교이기 때문에 유지했습니다. JANG은 약간 더 작으면서도 MMLU +33점 차이를 냅니다.
JANG_3M
MLX 3-bit
JANG_4S
MLX 4-bit
JANG
MLX 4-bit
JANG_3M
MLX 3-bit
JANG_4S
MLX 4-bit
Qwen2.5-3B: 3.37 bits beats 4.00-bit MSE
낮을수록 좋습니다. JANG MLP=3 / attention=6은 3.37 bits에서 11.10 MSE에 도달하며, MLX 4-bit는 11.31 MSE입니다.
표시 모델: 더 작고 결정적으로 이긴 사례만
| 모델 | JANG | MLX 기준 | 표시 이유 |
|---|---|---|---|
| MiniMax-M2.5 | JANG_2L · 82.5 GB · 74% | 4-bit · 119.8 GB · 26.5% | +47.5 MMLU, 37.3 GB 더 작음 |
| Qwen3.5-122B-A10B | JANG_2M · 44.7 GB · 79% | mixed_2_6 · 45 GB · 46% | +33 MMLU, 약간 더 작음 |
| Mistral-7B | JANG_3M / JANG_4S | 3-bit / 4-bit MLX | 더 적은 bit, 일관된 출력 |
| Qwen2.5-3B | JANG_4S / 3.37-bit proof | 4-bit MLX | 더 적은 bit, 더 나은 MSE/coherency |
| SmolLM2-1.7B | JANG_3M · 3.4 bits | 3-bit MLX · 3.5 bits | 더 작고 직접 답변 |
| TinyLlama-1.1B | JANG_4S · 4.1 bits | 4-bit MLX · 4.5 bits | 더 작고 주제 이탈 방지 |
JANG_{bits}{size}
초압축부터 거의 무손실까지 11개 사전 정의 프로필. S = Small (최대 압축), M = Medium (균형), L = Large (최고 품질).
| 프로필 | MLP | Attention | Embed | lm_head | 평균 Bits |
|---|---|---|---|---|---|
| JANG_1L | 2-bit | 8-bit | 8-bit | 8-bit | ~2.2 |
| JANG_2S | 2-bit | 6-bit | 4-bit | 6-bit | ~2.5 |
| JANG_2M | 2-bit | 8-bit | 4-bit | 8-bit | ~2.7 |
| JANG_2L | 2-bit | 8-bit | 6-bit | 8-bit | ~2.9 |
| JANG_3S | 3-bit | 4-bit | 4-bit | 6-bit | ~3.1 |
| JANG_3M | 3-bit | 6-bit | 4-bit | 6-bit | ~3.4 |
| JANG_3L | 3-bit | 8-bit | 4-bit | 8-bit | ~3.6 |
| JANG_4S | 4-bit | 5-bit | 4-bit | 6-bit | ~4.1 |
| JANG_4M | 4-bit | 6-bit | 4-bit | 6-bit | ~4.2 |
| JANG_4L | 4-bit | 8-bit | 4-bit | 8-bit | ~4.5 |
| JANG_6M | 6-bit | 8-bit | 6-bit | 8-bit | ~6.2 |
Swift + Metal 추론 엔진
14개 커스텀 Metal GPU 커널. Zero-copy mmap 로딩. Decode와 prefill을 위한 융합 역양자화.
Dequant + GEMV
단일 토큰 decode를 위한 역양자화 + 행렬-벡터 곱셈 융합. 모든 비트 폭(2, 3, 4, 5, 6, 8)을 하나의 커널에서 처리합니다.
Dequant + GEMM
프롬프트 prefill을 위한 역양자화 + 행렬-행렬 곱셈 융합. Apple GPU threadgroup 메모리에 최적화된 타일링 처리.
GQA Attention
Grouped-query attention decode + causal prefill. 표준, sliding window, 하이브리드 아키텍처를 지원합니다.
RMSNorm + RoPE
정규화와 rotary position embedding을 융합. 전통적 및 비전통적 RoPE 변형을 지원합니다.
SwiGLU
게이트 피드포워드 네트워크를 위한 SiLU 활성화 + 요소별 곱셈 융합.
양자화된 Embedding
양자화된 가중치에서 직접 embedding을 조회합니다. 전체 테이블 역양자화가 필요 없습니다.
모든 모델 변환
HuggingFace 모델을 .jang 포맷으로 변환하는 Python 도구입니다. 프로필을 선택하고, 양자화 방법을 선택한 후 실행하면 됩니다. RTN, MSE 최적 그리드 서치, GPTQ (Hessian 기반) quantization을 지원합니다.
6개 이상의 아키텍처 계열 지원: Llama, Qwen, Gemma, Phi, Mistral, Mamba/SSM, MoE, Qwen 3.5 등 하이브리드 모델.
더 적은 RAM으로 더 큰 모델 실행
JANG_3M은 7B 이상 모델에서 4-bit 대비 25%를 절약하면서 동등한 품질을 유지합니다. 이전에는 불가능했던 모델을 unified memory에 적재할 수 있습니다.
검증된 smaller-win 릴리스
홈페이지에는 위의 선별된 증거와 연결된 모델 릴리스만 표시합니다. 전체 Hugging Face 계정은 링크로 남기되, 관련 없는 최신 모델 목록은 표시하지 않습니다.
MLX Studio에서 JANG 모델 실행
MLX Studio는 OpenAI 호환 API, prefix caching, paged KV cache, KV quantization (q4/q8), continuous batching, 20개 이상의 에이전트 코딩 도구와 함께 네이티브 JANG 지원을 제공합니다. 모든 .jang 모델을 로드하고 로컬에서 서빙할 수 있습니다 — Cursor, Continue, Aider 및 모든 OpenAI API 클라이언트와 호환됩니다. vMLX Engine 기반, 현재 오픈소스 — pip install vmlx.