Open Source · solo victorias curadas

JANG

Más pequeño que MLX. Salida más precisa.

Solo casos donde JANG gana por mucho usando menos memoria o menos bits.

La página de benchmarks ahora está filtrada de forma estricta: sin victorias marginales, sin configuraciones JANG más grandes, sin estimaciones. Si aparece aquí, JANG es más pequeño que el baseline MLX y la brecha de calidad es clara.

Los puntos más fuertes son MiniMax-M2.5: JANG 82.5 GB supera a MLX 4-bit 119.8 GB por +47.5 MMLU, y Qwen3.5-122B: JANG 44.7 GB supera a MLX mixed_2_6 45 GB por +33 puntos.

Smaller-than-MLX proof set Solo victorias amplias en MMLU Coherency failures filtered No close wins No larger JANG configs Open source · Apache 2.0
+47.5
MMLU sobre MLX 4-bit
37.3
GB menos en MiniMax
+33
MMLU sobre MLX mixed_2_6
3.37-bit
Menos bits, mejor MSE
Cómo funciona

Anchos de bits variables según la sensibilidad de las capas

La standard quantization aplica el mismo ancho de bits a cada tensor. Las capas de attention (~12% de los parámetros) son más sensibles a la pérdida de precisión que las capas MLP — cuando se cuantiza de forma demasiado agresiva, las puntuaciones de attention se aplanan, la codificación posicional se degrada y la salida degenera.

JANG clasifica los tensores en niveles de sensibilidad y asigna anchos de bits según corresponda. Las capas de attention reciben 5–8 bits mientras que MLP se comprime a 2–4 bits. El costo adicional es de ~0.3 bits extra en promedio.

Attention
8-bit — protegido
MLP
2-bit — comprimido
Embed
4-bit
lm_head
6-bit
Result
JANG_2M → 2.7 avg bits → coherent output
3-bit → 3.0 avg bits → repetition loops
Pruebas curadas

Solo las victorias grandes siendo más pequeño.

Filtrado a comparaciones probadas donde JANG es más pequeño que el baseline MLX y gana por un margen grande en MMLU o coherency. Se eliminaron victorias pequeñas, configs JANG más grandes y estimaciones sin prueba.

MiniMax-M2.5 (230B) — victoria amplia en MMLU, más pequeño que MLX 4-bit

JANG
JANG_2L
82.5 GB · 2.10 bits · 0.9s/pregunta
74.0%
MMLU (200q) · 148/200
+47.5 puntos · 37.3 GB menos
Referencia MLX
4-bit
119.8 GB · 4.0 bits · 0.9s/pregunta
26.5%
MMLU (200q) · 53/200

Se conserva porque JANG es mucho mejor y mucho más pequeño: 82.5 GB frente a 119.8 GB, mientras MLX 4-bit, 3-bit y 2-bit quedan cerca del azar.

Prueba por área — MiniMax-M2.5
ÁreaJANG_2LMLX 4-bitMLX 3-bitMLX 2-bit
Álgebra abstracta10/203/202/205/20
Anatomía15/207/205/205/20
Astronomía20/207/206/204/20
Informática universitaria13/204/205/206/20
Física universitaria13/208/206/206/20
Biología secundaria18/204/205/206/20
Química secundaria18/204/205/205/20
Matemáticas secundaria8/206/206/203/20
Falacias lógicas18/205/204/205/20
Religiones del mundo15/205/205/205/20
Total148/200 (74%)53/200 (26.5%)49/200 (24.5%)50/200 (25%)

Qwen3.5-122B-A10B — referencia MLX mixed del mismo rango, JANG sigue siendo más pequeño

JANG
JANG_2M
44.7 GB · 2.14 bits
79%
MMLU (200q) · 158/200
+33 puntos · 0.3 GB menos
Referencia MLX
mixed_2_6
45 GB · ~2.5 bits
46%
MMLU (200q) · 92/200

Se conserva porque es la comparación MLX más cercana en memoria: JANG es ligeramente más pequeño y aun así logra +33 puntos MMLU.

Mistral-7B-v0.3 — fotosíntesis
JANG_3M3.4 bits vs 3.5-bit MLX
“What is photosynthesis?”
JANG_3M
Explicación correcta de cómo las plantas usan la luz solar.
MLX 3-bit
Degenera en secuencias numéricas.
Se conserva: JANG usa menos bits y mantiene coherencia.
Mistral-7B — aritmética
JANG_4S4.1 bits vs 4.5-bit MLX
“What is 2+2?”
JANG_4S
“4”
MLX 4-bit
Repite la pregunta en bucle.
Se conserva: menor ancho de bits y victoria clara en coherencia.
Qwen2.5-3B — traducción / QA factual
JANG_4S4.1–4.12 bits vs 4.5-bit MLX
“Translate 'thank you' to Spanish.” / “Is a tomato a fruit or vegetable?”
JANG
Responde directamente: “gracias”; el tomate es una fruta.
MLX 4-bit
Repite o imita el prompt.
Se conserva: más pequeño que 4-bit y con victorias claras en coherencia.
SmolLM2-1.7B — patas de araña
JANG_3M3.4 bits vs 3.5-bit MLX
“How many legs does a spider have?”
JANG_3M
Responde 8.
MLX 3-bit
Salida de secuencia numérica.
Se conserva: menos bits y respuesta directa.
TinyLlama-1.1B — fórmula del agua
JANG_4S4.1 bits vs 4.5-bit MLX
“What is the chemical formula for water?”
JANG_4S
Mantiene el tema.
MLX 4-bit
Se desvía a otra pregunta de química.
Se conserva: más pequeño que 4-bit y más coherente.
Prueba de Logit MSE

Qwen2.5-3B: 3.37 bits beats 4.00-bit MSE

Más bajo es mejor. JANG MLP=3 / attention=6 alcanza 11.10 MSE a 3.37 bits frente a MLX 4-bit con 11.31 MSE.

MLX 4-bit
11.31 MSE — 4.00 bits
JANG
11.10 MSE — 3.37 bits
Resumen

Modelos mostrados: solo victorias decisivas siendo más pequeños

ModeloJANGReferencia MLXMotivo
MiniMax-M2.5JANG_2L · 82.5 GB · 74%4-bit · 119.8 GB · 26.5%+47.5 MMLU, 37.3 GB menos
Qwen3.5-122B-A10BJANG_2M · 44.7 GB · 79%mixed_2_6 · 45 GB · 46%+33 MMLU, ligeramente más pequeño
Mistral-7BJANG_3M / JANG_4S3-bit / 4-bit MLXMenos bits, salida coherente
Qwen2.5-3BJANG_4S / 3.37-bit proof4-bit MLXMenos bits, mejor MSE/coherencia
SmolLM2-1.7BJANG_3M · 3.4 bits3-bit MLX · 3.5 bitsMás pequeño y responde directo
TinyLlama-1.1BJANG_4S · 4.1 bits4-bit MLX · 4.5 bitsMás pequeño y evita desviarse
Perfiles

JANG_{bits}{size}

11 perfiles predefinidos desde ultra-comprimido hasta casi sin pérdida. S = Small (máxima compresión), M = Medium (equilibrado), L = Large (mejor calidad).

PerfilMLPAttentionEmbedlm_headBits promedio
JANG_1L2-bit8-bit8-bit8-bit~2.2
JANG_2S2-bit6-bit4-bit6-bit~2.5
JANG_2M2-bit8-bit4-bit8-bit~2.7
JANG_2L2-bit8-bit6-bit8-bit~2.9
JANG_3S3-bit4-bit4-bit6-bit~3.1
JANG_3M3-bit6-bit4-bit6-bit~3.4
JANG_3L3-bit8-bit4-bit8-bit~3.6
JANG_4S4-bit5-bit4-bit6-bit~4.1
JANG_4M4-bit6-bit4-bit6-bit~4.2
JANG_4L4-bit8-bit4-bit8-bit~4.5
JANG_6M6-bit8-bit6-bit8-bit~6.2
Motor

Motor de inferencia Swift + Metal

14 kernels GPU Metal personalizados. Carga mmap sin copia. Decuantización fusionada para decode y prefill.

jang — Terminal
$ jang run --model Qwen2.5-3B-JANG_4L.jang
# Cargando modelo (zero-copy mmap)...
# Perfil: JANG_4L (MLP=4, attn=8, prom=4.5 bits)
# Tamaño: 1.8 GB — cargado en 0.39s
> What is photosynthesis?
Photosynthesis is the process by which green plants and some other organisms use sunlight to synthesize foods from carbon dioxide and water. It generally involves the green pigment chlorophyll and generates oxygen as a byproduct.

Dequant + GEMV

Decuantización fusionada + multiplicación matriz-vector para decode de un solo token. Todos los anchos de bits (2, 3, 4, 5, 6, 8) en un solo kernel.

Dequant + GEMM

Decuantización fusionada + multiplicación matriz-matriz para prefill de prompt. Optimizado con tiles para memoria threadgroup de GPU Apple.

GQA Attention

Decode de grouped-query attention + prefill causal. Soporta arquitecturas estándar, sliding window e híbridas.

RMSNorm + RoPE

Normalización fusionada con rotary position embedding. Variantes de RoPE tradicionales y no tradicionales.

SwiGLU

Activación SiLU fusionada + multiplicación por elemento para redes feed-forward con compuertas.

Embedding cuantizado

Búsqueda directa de embedding desde pesos cuantizados. No requiere decuantización de tabla completa.

Cuantizar

Convierte cualquier modelo

Herramientas Python para convertir modelos de HuggingFace al formato .jang. Seleccione un perfil, elija su método de cuantización y ejecute. Soporta RTN, búsqueda de cuadrícula MSE-óptima y cuantización GPTQ (guiada por Hessian).

6+ familias de arquitecturas: Llama, Qwen, Gemma, Phi, Mistral, Mamba/SSM, MoE y modelos híbridos incluyendo Qwen 3.5.

Código abierto — Licencia Apache 2.0
jang-tools
$ pip install jang-tools
$ jang convert --model Qwen/Qwen2.5-3B \
    --profile JANG_4S \
    --method gptq \
    --output ./Qwen2.5-3B-JANG_4S/
# Cuantizando con GPTQ (guiado por Hessian)...
# Capas Attention: 8-bit | MLP: 4-bit
# Bits promedio: 4.5 | Tamaño: 4.1 GB
# Listo ✔
MLX Studio — JANG Converter
Convertidor de modelos JANG con todos los perfiles de cuantización
Memoria

Ejecuta modelos más grandes con menos RAM

JANG_3M ahorra un 25% frente a 4-bit con calidad comparable en modelos 7B+. Ejecute modelos en unified memory que antes no cabían.

~4.1 GB
7B en JANG_4S (vs 4.5 GB 4-bit)
~8.2 GB
14B en JANG_4S (vs 9 GB 4-bit)
~41 GB
70B en JANG_4S (vs 45 GB 4-bit)
25%
Ahorro en JANG_3M vs 4-bit
Modelos

Releases probadas con menor tamaño

La home ahora solo muestra releases ligados a la evidencia curada. La cuenta completa de Hugging Face sigue enlazada, pero ya no se listan modelos recientes no relacionados.

Abrir release MiniMax curada Abrir cuenta JANGQ-AI completa
Integración nativa

Ejecute modelos JANG en MLX Studio

MLX Studio cuenta con soporte nativo de JANG con API compatible con OpenAI, prefix caching, paged KV cache, KV quantization (q4/q8), continuous batching y más de 20 herramientas de codificación agénticas. Cargue cualquier modelo .jang y sírvalo localmente — funciona con Cursor, Continue, Aider y cualquier cliente de API OpenAI. Impulsado por vMLX Engine, ahora código abierto — pip install vmlx.

MLX Studio vMLX Engine