JANG
Más pequeño que MLX. Salida más precisa.
Solo casos donde JANG gana por mucho usando menos memoria o menos bits.
La página de benchmarks ahora está filtrada de forma estricta: sin victorias marginales, sin configuraciones JANG más grandes, sin estimaciones. Si aparece aquí, JANG es más pequeño que el baseline MLX y la brecha de calidad es clara.
Los puntos más fuertes son MiniMax-M2.5: JANG 82.5 GB supera a MLX 4-bit 119.8 GB por +47.5 MMLU, y Qwen3.5-122B: JANG 44.7 GB supera a MLX mixed_2_6 45 GB por +33 puntos.
Anchos de bits variables según la sensibilidad de las capas
La standard quantization aplica el mismo ancho de bits a cada tensor. Las capas de attention (~12% de los parámetros) son más sensibles a la pérdida de precisión que las capas MLP — cuando se cuantiza de forma demasiado agresiva, las puntuaciones de attention se aplanan, la codificación posicional se degrada y la salida degenera.
JANG clasifica los tensores en niveles de sensibilidad y asigna anchos de bits según corresponda. Las capas de attention reciben 5–8 bits mientras que MLP se comprime a 2–4 bits. El costo adicional es de ~0.3 bits extra en promedio.
Solo las victorias grandes siendo más pequeño.
Filtrado a comparaciones probadas donde JANG es más pequeño que el baseline MLX y gana por un margen grande en MMLU o coherency. Se eliminaron victorias pequeñas, configs JANG más grandes y estimaciones sin prueba.
MiniMax-M2.5 (230B) — victoria amplia en MMLU, más pequeño que MLX 4-bit
Se conserva porque JANG es mucho mejor y mucho más pequeño: 82.5 GB frente a 119.8 GB, mientras MLX 4-bit, 3-bit y 2-bit quedan cerca del azar.
Qwen3.5-122B-A10B — referencia MLX mixed del mismo rango, JANG sigue siendo más pequeño
Se conserva porque es la comparación MLX más cercana en memoria: JANG es ligeramente más pequeño y aun así logra +33 puntos MMLU.
JANG_3M
MLX 3-bit
JANG_4S
MLX 4-bit
JANG
MLX 4-bit
JANG_3M
MLX 3-bit
JANG_4S
MLX 4-bit
Qwen2.5-3B: 3.37 bits beats 4.00-bit MSE
Más bajo es mejor. JANG MLP=3 / attention=6 alcanza 11.10 MSE a 3.37 bits frente a MLX 4-bit con 11.31 MSE.
Modelos mostrados: solo victorias decisivas siendo más pequeños
| Modelo | JANG | Referencia MLX | Motivo |
|---|---|---|---|
| MiniMax-M2.5 | JANG_2L · 82.5 GB · 74% | 4-bit · 119.8 GB · 26.5% | +47.5 MMLU, 37.3 GB menos |
| Qwen3.5-122B-A10B | JANG_2M · 44.7 GB · 79% | mixed_2_6 · 45 GB · 46% | +33 MMLU, ligeramente más pequeño |
| Mistral-7B | JANG_3M / JANG_4S | 3-bit / 4-bit MLX | Menos bits, salida coherente |
| Qwen2.5-3B | JANG_4S / 3.37-bit proof | 4-bit MLX | Menos bits, mejor MSE/coherencia |
| SmolLM2-1.7B | JANG_3M · 3.4 bits | 3-bit MLX · 3.5 bits | Más pequeño y responde directo |
| TinyLlama-1.1B | JANG_4S · 4.1 bits | 4-bit MLX · 4.5 bits | Más pequeño y evita desviarse |
JANG_{bits}{size}
11 perfiles predefinidos desde ultra-comprimido hasta casi sin pérdida. S = Small (máxima compresión), M = Medium (equilibrado), L = Large (mejor calidad).
| Perfil | MLP | Attention | Embed | lm_head | Bits promedio |
|---|---|---|---|---|---|
| JANG_1L | 2-bit | 8-bit | 8-bit | 8-bit | ~2.2 |
| JANG_2S | 2-bit | 6-bit | 4-bit | 6-bit | ~2.5 |
| JANG_2M | 2-bit | 8-bit | 4-bit | 8-bit | ~2.7 |
| JANG_2L | 2-bit | 8-bit | 6-bit | 8-bit | ~2.9 |
| JANG_3S | 3-bit | 4-bit | 4-bit | 6-bit | ~3.1 |
| JANG_3M | 3-bit | 6-bit | 4-bit | 6-bit | ~3.4 |
| JANG_3L | 3-bit | 8-bit | 4-bit | 8-bit | ~3.6 |
| JANG_4S | 4-bit | 5-bit | 4-bit | 6-bit | ~4.1 |
| JANG_4M | 4-bit | 6-bit | 4-bit | 6-bit | ~4.2 |
| JANG_4L | 4-bit | 8-bit | 4-bit | 8-bit | ~4.5 |
| JANG_6M | 6-bit | 8-bit | 6-bit | 8-bit | ~6.2 |
Motor de inferencia Swift + Metal
14 kernels GPU Metal personalizados. Carga mmap sin copia. Decuantización fusionada para decode y prefill.
Dequant + GEMV
Decuantización fusionada + multiplicación matriz-vector para decode de un solo token. Todos los anchos de bits (2, 3, 4, 5, 6, 8) en un solo kernel.
Dequant + GEMM
Decuantización fusionada + multiplicación matriz-matriz para prefill de prompt. Optimizado con tiles para memoria threadgroup de GPU Apple.
GQA Attention
Decode de grouped-query attention + prefill causal. Soporta arquitecturas estándar, sliding window e híbridas.
RMSNorm + RoPE
Normalización fusionada con rotary position embedding. Variantes de RoPE tradicionales y no tradicionales.
SwiGLU
Activación SiLU fusionada + multiplicación por elemento para redes feed-forward con compuertas.
Embedding cuantizado
Búsqueda directa de embedding desde pesos cuantizados. No requiere decuantización de tabla completa.
Convierte cualquier modelo
Herramientas Python para convertir modelos de HuggingFace al formato .jang. Seleccione un perfil, elija su método de cuantización y ejecute. Soporta RTN, búsqueda de cuadrícula MSE-óptima y cuantización GPTQ (guiada por Hessian).
6+ familias de arquitecturas: Llama, Qwen, Gemma, Phi, Mistral, Mamba/SSM, MoE y modelos híbridos incluyendo Qwen 3.5.
Ejecuta modelos más grandes con menos RAM
JANG_3M ahorra un 25% frente a 4-bit con calidad comparable en modelos 7B+. Ejecute modelos en unified memory que antes no cabían.
Releases probadas con menor tamaño
La home ahora solo muestra releases ligados a la evidencia curada. La cuenta completa de Hugging Face sigue enlazada, pero ya no se listan modelos recientes no relacionados.
Ejecute modelos JANG en MLX Studio
MLX Studio cuenta con soporte nativo de JANG con API compatible con OpenAI, prefix caching, paged KV cache, KV quantization (q4/q8), continuous batching y más de 20 herramientas de codificación agénticas. Cargue cualquier modelo .jang y sírvalo localmente — funciona con Cursor, Continue, Aider y cualquier cliente de API OpenAI. Impulsado por vMLX Engine, ahora código abierto — pip install vmlx.