¿Alguna vez se preguntó si su Mac Mini M4 Pro podría convertirse en una potencia de LLM? La respuesta corta: no exactamente, pero puede ejecutar modelos Deepseek R1 localmente sin depender de los servidores de IA basados en la nube. Aquí le mostramos cómo configurarlo usando Docker y abrir WebUI para una experiencia perfecta y similar a ChatGPT mientras mantiene sus datos privados y bajo su control.
Con la configuración correcta, su Mac Mini puede manejar tareas de ajuste, generación de texto y recuperación sin necesidad de un servidor dedicado. En lugar de solo ejecutar AI en una ventana de terminal básica, Docker y Open WebUI proporcionan una interfaz de usuario suave para administrar sus modelos.
Y si le importa la IA soberana, esta configuración garantiza que todo se ejecute localmente, sin llamadas de API, sin registro de terceros y sin dependencias en la nube. Ya sea que esté probando modelos B-Parameter, ejecutar puntos de referencia o ajustar la lógica para el aprendizaje de refuerzo, esta guía paso a paso lo guiará a través de la implementación de DeepSeek R1 en su propio hardware.
Tl; dr: por qué esto es emocionante
- Sin límites de API: Tu posee. No hay restricciones de terceros.
- Sin dependencia de la nube: AI se ejecuta completamente en su máquina.
- Rápido y optimizado: Use la configuración de aceleración y ajuste de GPU para el rendimiento máximo.
- Ui tipo chatgpt: Open Webui convierte su IA en un chatbot moderno, no se necesita una terminal fea.
- Expandible: Modelos de ajuste fino, ejecutar tareas de recuperación y personalizar según sea necesario.
En pocas palabras: si desea una IA real en su computadora, así es como lo hace: más rápido, más inteligente y completamente en su control.
Mac Mini y Deepseek son una pareja hecha en el cielo
Utilicé un Mac Mini M4 Pro, que puede ejecutar IA localmente para texto, imágenes y razonamiento avanzado. Olvida las suscripciones en la nube, la latencia o el envío de datos a terceros.
Con 64 GB de memoria unificada, una GPU de 20 núcleos y un chip M4 Pro, esta máquina puede manejar algunas tareas de IA serias. Sin embargo, la interfaz terminal apesta. Sin corrector ortográfico, sin historial de chat, sin personalización de la interfaz de usuario.
Ahí es donde entran Docker y Open Webui. Convierten su terminal Barebones en una experiencia similar a ChatGPT, completa con chats guardados, una interfaz intuitiva y múltiples modelos a su alcance.
Para ser claros, somos no Usando la API Deepseek. Estoy ejecutando modelos Deepseek R1 localmente usando llama.cpp (o ollama) sin confiar en ninguna API de la nube.
Cava más profundo: ¿Qué es Deepseek? Una bendición para los vendedores y una amenaza para la gran tecnología
Correr Deepseek localmente: lo que necesita saber
Deepseek R1 incluye una gama de modelos basados en texto más una variante de visión 70B para el análisis de imágenes. Aquí hay un resumen de sus diversos tamaños de modelo.
| Modelo | Ram necesario | Requerido CPU | GPU necesaria? | Mejor caso de uso |
| 1.5B ✅ | 8GB+ | Cualquier CPU moderna | ❌ No | Escritura básica, chat, respuestas rápidas |
| 8b ✅ | 16 GB+ | 4+ núcleos (Intel i5/Ryzen 5/m1) | ❌ No | Razonamiento general, escritura más larga, codificación |
| 14b ✅ | 32 GB+ | 6+ núcleos (Intel I7/Ryzen 7/m2) | ❌ No | Razonamiento, codificación, investigación más profundo |
| 32b ⚠️ | 32-64GB+ | 8+ núcleos (M3 Pro, Ryzen 9, i9) | ✅ Sí (recomendado de metal/cuuda) | Codificación compleja de resolución de problemas, asistida por AI-AI |
| 70b ⚠️ | 64 GB+ | Más de 12 núcleos (M4 Pro, Threadripper) | ✅ Sí (GPU de alto VRAM recomendado) | Flujos de trabajo de IA pesados, investigación avanzada |
| 70b visión ⚠️ | 64 GB+ | Más de 12 núcleos (M4 Pro, Threadripper) | ✅ Sí (recomendado de metal/cuuda) | Análisis de imágenes, imágenes generadas por IA |
| 1.671b ❌ | 512GB+ | 128+ núcleos (solo servidor) | ✅ Debe tener múltiples GPU | Solo en la nube: requiere servidores AI Enterprise |
¿Listo? Establezcamos esto rápidamente, y luego nos sumergiremos en optimizaciones para que pueda empujar la CPU, la GPU y la memoria al máximo.
La forma más rápida de hacer un juego profundo corriendo
Si solo desea comenzar en este momento, esta es su configuración «rápida y fácil pero fea» para ejecutarse en la terminal.
1. Instale Ollama (el motor AI)
Primero, necesita Ollama, el tiempo de ejecución que maneja los modelos de IA locales. Nota: Es posible que deba instalar Python si su computadora aún no la tiene.
Instalarlo:
/bin/bash -c "$(curl -fsSL https://ollama.com/download)"
Compruebe si está instalado:
ollama --version
2. Descargue Deepseek R1 (elija un tamaño de modelo)
Deepseek R1 viene en múltiples tamaños. Cuanto más grande sea el modelo, más inteligente se vuelve y más lento se ejecuta.
Elija un modelo basado en su hardware:
ollama pull deepseek-r1:8b # Fast, lightweight
ollama pull deepseek-r1:14b # Balanced performance
ollama pull deepseek-r1:32b # Heavy processing
ollama pull deepseek-r1:70b # Max reasoning, slowest
3. Ejecute Deepseek R1 (modo básico)
Para probar el modelo dentro del terminal feo (por ahora):
ollama run deepseek-r1:8b
Esto funciona, pero es como usar la API ChatGPT temprana sin interfaz de usuario.
Ahora, hagamos que sea más divertido de usar todos los días.
Actualización a una interfaz tipo CHATGPT usando Docker y Abra WebUI
Ahora que Deepseek R1 está instalado, abandonemos la experiencia de la terminal y mueva todo a una interfaz de usuario de chat basada en la web con Docker + Open WebUI.
Instalar Docker (requerido para Open WebUI)
Docker ejecuta Open WebUI, que le brinda una interfaz de chat moderna en lugar de usar la terminal desnuda.
Instalar Docker:
Ahora, puede instalar Open WebUI.
Instale Open WebUI (su chatgpt local)
Con Docker instalado, ahora ejecutamos Webui abierto para que pueda chatear con Deepseek dentro de su navegador.
Ejecute este comando en la terminal:
docker run -d --name open-webui -p 3000:3000 -v open-webui-data:/app/data --pull=always ghcr.io/open-webui/open-webui:main
Esto hace tres cosas:
- Instala Open WebUI.
- Inicia un servidor en
http://localhost:3000. - Lo ejecuta en segundo plano.
A continuación, abre Chrome y ve a:
http://localhost:3000
¡Su instalación debería estar funcionando! ¡Ahora tienes una IA de estilo chatgpt que se ejecuta localmente!
Conecte Open WebUI a Deepseek R1 y ahora tendrá una interfaz de estilo chatGPT.
Tabla de variables de rendimiento de IA locales
A continuación se muestra una tabla única de «Variables de rendimiento» que muestra todas las perillas clave que puede convertir (en Ollama o Llama.cpp) para empujar su Mac Mini, o cualquier máquina, al máximo.
El hardware (núcleos de CPU, GPU VRAM, RAM total) es su límite fijo, pero estas variables lo ayudan a marcar cómo se usa realmente ese hardware.
| Variable | Comando / envío | Que hace | Rango típico | Impacto en la velocidad y la memoria | Compensaciones / notas |
| Hilos de CPU | OLLAMA_THREADS=No --num-threads N (Ollama)--Threads N (llama.cpp) |
Asigna cuántos hilos de CPU (núcleos lógicos) se usan en paralelo. | 1 – 256
(Su Real Max depende de los núcleos de CPU totales; por ejemplo, 14 núcleos → 28 hilos en M4 Pro) |
Velocidad: más hilos → Procesamiento de token más rápido (hasta rendimientos decrecientes).
MEMORIA: Aumento ligeramente aumentado. |
– Si es demasiado alto, puede ver ganancias mínimas o incluso una sobrecarga de programación de CPU. – Comience alrededor de la mitad o igual a su recuento central (por ejemplo, 8 o 16) y pruebe. |
| Capas de GPU | --n-gpu-layers N (Llama.cpp)
|
Especifica cuántas capas de modelo descargar en la GPU. | 0 – 999
(o hasta capas totales en su modelo) |
Velocidad: Más alto = más aceleración de GPU, grandes aceleraciones si GPU tiene suficiente VRAM.
Memoria: los modelos grandes pueden exceder el VRAM si presiona esto demasiado alto. |
– Para 70b o más, empujar más de 300 capas a GPU puede ser enorme para la velocidad, pero necesita suficiente VRAM (metal o CUDA).
– En M4 Pro, pruebe alrededor de 100–400 capas de GPU. |
| Tamaño por lotes | --batch-size N(Llama.cpp) |
Número de tokens procesados por iteración (tamaño de «mini lote»). | 1 – 512 (o más) | Velocidad: lotes más grandes → Más tokens procesados a la vez, rendimiento más rápido.
Memoria: lote superior = más RAM o VRAM usado. |
– Ollama no es compatible actualmente --batch-size completamente.
-Si recibe errores fuera de memoria, baje esto. |
| Prioridad | nice -n -20 (Caparazón) |
Aumenta la prioridad del proceso para que sus tareas de IA obtengan tiempo de CPU antes de cualquier otra cosa. | -20 a 19 (el más agresivo es -20) | Velocidad: el proceso AI roba tiempo de CPU de otras aplicaciones.
Memoria: sin impacto directo, solo programar prioridad. |
– Si está multitarea, su Mac puede sentirse lento en otras aplicaciones.
– Útil si desea cada onza de CPU para tareas de LLM. |
| Tamaño de contexto | --context-size N (Ollama/llama.cpp) o -c N |
Establece cuántas fichas puede «recordar» el modelo en un solo contexto de chat. | 512 – 4096+ | Velocidad: contexto más grande = más tokens para procesar cada iteración.
Memoria: el tamaño de contexto más alto utiliza más VRAM/RAM. |
– Solo aumente si necesita un contexto más largo o indicaciones más grandes.
– Mantenga el valor predeterminado (2,048 o 4,096) para el uso normal. |
| Temperatura | --temp N (Ollama/Llama.cpp) |
Controla cuán «creativas» o «aleatorias» son las salidas de la IA. | 0.0 – 2.0 (típico: 0.7–1.0) | Velocidad: sin efecto real en el rendimiento, simplemente cambia el estilo de texto. | – 0.0 es determinista, 1.0 está equilibrado, 2.0 puede volverse loco.
– Esto no empuja hardware, pero vale la pena saberlo. |
| Múltiples instancias | and (Procesos de fondo de concha) o sesiones terminales separadas |
Ejecuta múltiples copias del modelo a la vez para saturar la CPU/GPU si un solo modelo no lo hace. | 2+ carreras separadas | Velocidad: el uso combinado puede acercarse al 100% de CPU/GPU si una instancia sola no lo satura.
Memoria: el doble del uso, puede conducir a fuera de memoria rápidamente. |
– Por lo general, no se recomienda si desea una velocidad máxima en un chat.
– Excelente si desea 2+ tareas paralelas o comparaciones de modelos. |
| Intercambio de memoria | Configuración del sistema (MacOS Auto-Manage) | Permite que los macOS intercambien la memoria a SSD cuando se quede sin RAM. | No se puede configurar directamente a los usuarios | Velocidad: si excede la RAM, el sistema cambia al disco, muy lento. | – Más de un fallas seguros que un refuerzo de rendimiento.
– Si estás presionando mucho, necesitas un modelo más pequeño. |
| Tokens concurrentes | --prompt-batch-size N(varía) |
Algunas horquillas o versiones de Llama.cpp tienen una configuración separada para la concurrencia en la generación de tokens. | 1 – 128 (varía con horquilla) | Velocidad: una concurrencia más alta puede generar tokens más rápido en modo por lotes.
Memoria: más concurrencia = más uso de RAM. |
– No siempre presente en las ramas principales.
-Ideal para uso o transmisión de múltiples clientes. |
Consejos rápidos para empujar su computadora más allá del 20% de uso
Hilos máximos
- Colocar
--threads or OLLAMA_THREADSa algo cerca de su recuento lógico de núcleo (por ejemplo, 28 si 14 núcleos físicos o pruebe 64-128).
Altas capas de GPU
- Si estás usando llama.cpp o ollama con
--nglempuje (por ejemplo, 100–400 capas de GPU para 70b). - Tenga cuidado con los límites de VRAM si lo establece demasiado alto.
Aumentar el tamaño del lote
- En Llama.cpp:
--batch-size 256o512puede duplicar o triplicar su rendimiento. - Si ve errores de memoria o desaceleraciones, vuelva a marcarlo.
Usa una buena prioridad
nice -n -20 ollama run deepseek-r1:70b… Para acaparar el tiempo de la CPU.- Pero su Mac podría tartamudear si hace tareas pesadas en segundo plano.
No exagere el contexto
- Mantener
--context-sizeEn predeterminado, a menos que necesite una memoria de chat más larga. - El gran contexto significa más gastos generales de memoria.
Evite ejecutar múltiples instancias
- Si su objetivo es impulsar un chat con el uso del 100%, no gire múltiples modelos.
- En su lugar, arroje todos los recursos en una sola sesión con hilos altos y tamaño por lotes.
Cómo monitorear el uso
Para aprovechar al máximo su configuración de Deepseek R1, vigile su uso de hardware. Aquí está cómo.
Monitor de actividad (macOS)
- Verifique la CPU (debe hacer pico) y el historial de GPU (debería escalar).
Terminal
htop→ Uso de la CPU en todos los núcleos.sudo powermetrics --samplers cpu_power,gpu_power -i 500→ Uso de GPU en vivo.
Si su CPU todavía está inactiva por debajo del 20%, intente aumentar incrementalmente los hilos, las capas de la GPU y el tamaño de lotes. Eventualmente, verá la subida de uso de recursos o alcanzará un límite de memoria.

Puntos de referencia de rendimiento: tiempos reales
Para darle una tarea significativa, como «Escribir el juego Tetris en Python», grabamos cuánto tiempo tardó cada modelo en producir código:
- 1.8b: ~ 3 minutos 40 segundos
- 1.8b (segunda ejecución, control): ~ 3 minutos 54 segundos
- 1.14b: ~ 6 minutos 53 segundos
- 32B: ~ 7 minutos 10 segundos
- 1.70b: ~ 13 minutos 81 segundos (aprox. 13:48)
Curiosamente, los modelos más pequeños funcionan más rápido, pero 32B fueron ligeramente más lentos que 14B. Mientras tanto, ir hasta 70b casi duplica el tiempo nuevamente.
Si necesita código rápido o respuestas cortas, el punto óptimo es típicamente 14B o 32B, suficiente potencia de razonamiento pero no dolorosamente lento.
El kilometraje puede variar según las tareas de enfriamiento, fondo de su Mac y configuraciones de aceleración de GPU.
Siempre experimente con recuentos de hilos, tamaños de lotes y asignaciones de memoria para encontrar la mejor compensación para su sistema.
Por qué el modelo 1.671b no funcionó (y no para la mayoría de las personas)
Intentar correr Deepseek R1: 1.671b en un Mac Mini M4 Pro es como tratar de remolcar un camión con un Tesla. Es poderoso, pero este trabajo requiere un vehículo de 18 ruedas (es decir, un centro de datos con bastidores de GPU).
Sabía que no lo haría, pero quería ver qué haría mi Mac Mini … y simplemente canceló (se estrelló) el …
Versión en Inglés Cómo ejecutar Deepseek localmente en su computadora






