오픈소스 · 선별된 승리만

JANG

MLX보다 작게, 출력은 더 선명하게.

JANG이 더 작으면서 크게 이긴 사례만 표시합니다.

벤치마크 페이지를 강하게 필터링했습니다. 근소한 승리, 더 큰 JANG 설정, 추정치는 제외했습니다. 여기 표시된 비교는 JANG이 MLX 기준보다 작고 품질 차이가 명확한 경우입니다.

핵심 증거는 MiniMax-M2.5: 82.5 GB JANG이 119.8 GB MLX 4-bit보다 +47.5 MMLU, Qwen3.5-122B: 44.7 GB JANG이 45 GB MLX mixed_2_6보다 +33점입니다.

Smaller-than-MLX proof set MMLU 대승만 Coherency failures filtered No close wins No larger JANG configs Open source · Apache 2.0
+47.5
MLX 4-bit 대비 MMLU
37.3 GB
MiniMax에서 더 작음
+33
MLX mixed_2_6 대비 MMLU
3.37-bit
더 적은 비트, 더 낮은 MSE
작동 원리

레이어 민감도에 기반한 가변 비트 폭

Standard quantization은 모든 텐서에 동일한 비트 폭을 적용합니다. Attention 레이어(파라미터의 약 12%)는 MLP 레이어보다 정밀도 손실에 더 민감합니다 — 너무 공격적으로 양자화하면 attention 스코어가 평탄해지고, 위치 인코딩이 저하되며, 출력이 퇴화됩니다.

JANG은 텐서를 민감도 등급으로 분류하고 그에 따라 비트 폭을 할당합니다. Attention 레이어는 5~8 bits를 할당받고 MLP는 2~4 bits로 압축됩니다. 오버헤드는 평균 약 0.3 bits 추가입니다.

Attention
8-bit — 보호됨
MLP
2-bit — 압축됨
Embed
4-bit
lm_head
6-bit
Result
JANG_2M → 2.7 avg bits → coherent output
3-bit → 3.0 avg bits → repetition loops
선별 증거

더 작고 크게 이긴 사례만.

JANG이 MLX 기준보다 더 작으면서 MMLU 또는 coherency에서 큰 차이로 이긴 검증 사례만 남겼습니다. 근소한 승리, 더 큰 JANG 설정, 미검증 추정치는 제거했습니다.

MiniMax-M2.5 (230B) — MMLU 대승, MLX 4-bit보다 작음

JANG
JANG_2L
82.5 GB · 2.10 bits · 문항당 0.9초
74.0%
MMLU (200q) · 148/200
+47.5점 · 37.3 GB 더 작음
MLX 기준
4-bit
119.8 GB · 4.0 bits · 문항당 0.9초
26.5%
MMLU (200q) · 53/200

JANG이 훨씬 더 좋고 훨씬 더 작기 때문에 유지했습니다: 82.5 GB vs 119.8 GB이며, MLX 4-bit, 3-bit, 2-bit는 모두 무작위 추측에 가깝습니다.

과목별 증거 — MiniMax-M2.5
과목JANG_2LMLX 4-bitMLX 3-bitMLX 2-bit
추상대수학10/203/202/205/20
해부학15/207/205/205/20
천문학20/207/206/204/20
대학 컴퓨터과학13/204/205/206/20
대학 물리학13/208/206/206/20
고등학교 생물학18/204/205/206/20
고등학교 화학18/204/205/205/20
고등학교 수학8/206/206/203/20
논리적 오류18/205/204/205/20
세계 종교15/205/205/205/20
합계148/200 (74%)53/200 (26.5%)49/200 (24.5%)50/200 (25%)

Qwen3.5-122B-A10B — 같은 크기대의 MLX mixed 기준보다 JANG이 여전히 작음

JANG
JANG_2M
44.7 GB · 2.14 bits
79%
MMLU (200q) · 158/200
+33점 · 0.3 GB 더 작음
MLX 기준
mixed_2_6
45 GB · ~2.5 bits
46%
MMLU (200q) · 92/200

가장 가까운 동일 메모리 MLX 비교이기 때문에 유지했습니다. JANG은 약간 더 작으면서도 MMLU +33점 차이를 냅니다.

Mistral-7B-v0.3 — 광합성
JANG_3M3.4 bits vs 3.5-bit MLX
“What is photosynthesis?”
JANG_3M
식물이 햇빛을 사용하는 과정을 정확히 설명합니다.
MLX 3-bit
숫자열로 퇴화합니다.
유지: JANG은 더 적은 bit를 쓰면서도 일관성을 유지합니다.
Mistral-7B — 산술
JANG_4S4.1 bits vs 4.5-bit MLX
“What is 2+2?”
JANG_4S
“4”
MLX 4-bit
질문을 반복합니다.
유지: 더 낮은 bit 폭과 명확한 coherency 승리입니다.
Qwen2.5-3B — 번역 / 사실 QA
JANG_4S4.1–4.12 bits vs 4.5-bit MLX
“Translate 'thank you' to Spanish.” / “Is a tomato a fruit or vegetable?”
JANG
직접 답합니다: “gracias”; 토마토는 과일입니다.
MLX 4-bit
프롬프트를 따라 하거나 반복합니다.
유지: 4-bit보다 작고 coherency가 명확히 우수합니다.
SmolLM2-1.7B — 거미 다리
JANG_3M3.4 bits vs 3.5-bit MLX
“How many legs does a spider have?”
JANG_3M
8이라고 답합니다.
MLX 3-bit
숫자열을 출력합니다.
유지: 더 적은 bit와 직접 답변입니다.
TinyLlama-1.1B — 물의 화학식
JANG_4S4.1 bits vs 4.5-bit MLX
“What is the chemical formula for water?”
JANG_4S
주제를 유지합니다.
MLX 4-bit
다른 화학 질문으로 이탈합니다.
유지: 4-bit보다 작고 더 일관적입니다.
Logit MSE 증거

Qwen2.5-3B: 3.37 bits beats 4.00-bit MSE

낮을수록 좋습니다. JANG MLP=3 / attention=6은 3.37 bits에서 11.10 MSE에 도달하며, MLX 4-bit는 11.31 MSE입니다.

MLX 4-bit
11.31 MSE — 4.00 bits
JANG
11.10 MSE — 3.37 bits
요약

표시 모델: 더 작고 결정적으로 이긴 사례만

모델JANGMLX 기준표시 이유
MiniMax-M2.5JANG_2L · 82.5 GB · 74%4-bit · 119.8 GB · 26.5%+47.5 MMLU, 37.3 GB 더 작음
Qwen3.5-122B-A10BJANG_2M · 44.7 GB · 79%mixed_2_6 · 45 GB · 46%+33 MMLU, 약간 더 작음
Mistral-7BJANG_3M / JANG_4S3-bit / 4-bit MLX더 적은 bit, 일관된 출력
Qwen2.5-3BJANG_4S / 3.37-bit proof4-bit MLX더 적은 bit, 더 나은 MSE/coherency
SmolLM2-1.7BJANG_3M · 3.4 bits3-bit MLX · 3.5 bits더 작고 직접 답변
TinyLlama-1.1BJANG_4S · 4.1 bits4-bit MLX · 4.5 bits더 작고 주제 이탈 방지
프로필

JANG_{bits}{size}

초압축부터 거의 무손실까지 11개 사전 정의 프로필. S = Small (최대 압축), M = Medium (균형), L = Large (최고 품질).

프로필MLPAttentionEmbedlm_head평균 Bits
JANG_1L2-bit8-bit8-bit8-bit~2.2
JANG_2S2-bit6-bit4-bit6-bit~2.5
JANG_2M2-bit8-bit4-bit8-bit~2.7
JANG_2L2-bit8-bit6-bit8-bit~2.9
JANG_3S3-bit4-bit4-bit6-bit~3.1
JANG_3M3-bit6-bit4-bit6-bit~3.4
JANG_3L3-bit8-bit4-bit8-bit~3.6
JANG_4S4-bit5-bit4-bit6-bit~4.1
JANG_4M4-bit6-bit4-bit6-bit~4.2
JANG_4L4-bit8-bit4-bit8-bit~4.5
JANG_6M6-bit8-bit6-bit8-bit~6.2
런타임

Swift + Metal 추론 엔진

14개 커스텀 Metal GPU 커널. Zero-copy mmap 로딩. Decode와 prefill을 위한 융합 역양자화.

jang — Terminal
$ jang run --model Qwen2.5-3B-JANG_4L.jang
# 모델 로딩 (zero-copy mmap)...
# 프로필: JANG_4L (MLP=4, attn=8, 평균=4.5 bits)
# 크기: 1.8 GB — 0.39초에 로딩 완료
> What is photosynthesis?
Photosynthesis is the process by which green plants and some other organisms use sunlight to synthesize foods from carbon dioxide and water. It generally involves the green pigment chlorophyll and generates oxygen as a byproduct.

Dequant + GEMV

단일 토큰 decode를 위한 역양자화 + 행렬-벡터 곱셈 융합. 모든 비트 폭(2, 3, 4, 5, 6, 8)을 하나의 커널에서 처리합니다.

Dequant + GEMM

프롬프트 prefill을 위한 역양자화 + 행렬-행렬 곱셈 융합. Apple GPU threadgroup 메모리에 최적화된 타일링 처리.

GQA Attention

Grouped-query attention decode + causal prefill. 표준, sliding window, 하이브리드 아키텍처를 지원합니다.

RMSNorm + RoPE

정규화와 rotary position embedding을 융합. 전통적 및 비전통적 RoPE 변형을 지원합니다.

SwiGLU

게이트 피드포워드 네트워크를 위한 SiLU 활성화 + 요소별 곱셈 융합.

양자화된 Embedding

양자화된 가중치에서 직접 embedding을 조회합니다. 전체 테이블 역양자화가 필요 없습니다.

양자화

모든 모델 변환

HuggingFace 모델을 .jang 포맷으로 변환하는 Python 도구입니다. 프로필을 선택하고, 양자화 방법을 선택한 후 실행하면 됩니다. RTN, MSE 최적 그리드 서치, GPTQ (Hessian 기반) quantization을 지원합니다.

6개 이상의 아키텍처 계열 지원: Llama, Qwen, Gemma, Phi, Mistral, Mamba/SSM, MoE, Qwen 3.5 등 하이브리드 모델.

오픈소스 — Apache 2.0 라이선스
jang-tools
$ pip install jang-tools
$ jang convert --model Qwen/Qwen2.5-3B \
    --profile JANG_4S \
    --method gptq \
    --output ./Qwen2.5-3B-JANG_4S/
# GPTQ (Hessian 기반)로 양자화 중...
# Attention 레이어: 8-bit | MLP: 4-bit
# 평균 bits: 4.5 | 크기: 4.1 GB
# 완료 ✔
MLX Studio — JANG Converter
JANG 모델 Converter showing all quantization profiles
메모리

더 적은 RAM으로 더 큰 모델 실행

JANG_3M은 7B 이상 모델에서 4-bit 대비 25%를 절약하면서 동등한 품질을 유지합니다. 이전에는 불가능했던 모델을 unified memory에 적재할 수 있습니다.

~4.1 GB
JANG_4S에서 7B (4-bit 4.5 GB 대비)
~8.2 GB
JANG_4S에서 14B (4-bit 9 GB 대비)
~41 GB
JANG_4S에서 70B (4-bit 45 GB 대비)
25%
JANG_3M의 4-bit 대비 절감률
모델

검증된 smaller-win 릴리스

홈페이지에는 위의 선별된 증거와 연결된 모델 릴리스만 표시합니다. 전체 Hugging Face 계정은 링크로 남기되, 관련 없는 최신 모델 목록은 표시하지 않습니다.

선별 MiniMax 릴리스 열기 전체 JANGQ-AI 계정 열기
네이티브 통합

MLX Studio에서 JANG 모델 실행

MLX Studio는 OpenAI 호환 API, prefix caching, paged KV cache, KV quantization (q4/q8), continuous batching, 20개 이상의 에이전트 코딩 도구와 함께 네이티브 JANG 지원을 제공합니다. 모든 .jang 모델을 로드하고 로컬에서 서빙할 수 있습니다 — Cursor, Continue, Aider 및 모든 OpenAI API 클라이언트와 호환됩니다. vMLX Engine 기반, 현재 오픈소스 — pip install vmlx.

MLX Studio vMLX Engine