DeepSeek R1 en tu Raspberry Pi: La IA Open Source que le Planta Cara a OpenAI

Foto del autor
Escrito por Carlos

Geek por naturaleza

Los chinos lo han vuelto a hacer. Y esta vez, han dado un golpe bastante fuerte a la competencia, en especial a OpenAI.

Una startup china, con solo 6 millones de dólares en financiación y usando GPUs con la mitad del ancho de banda de memoria que las de OpenAI, ha creado DeepSeek R1, un modelo de código abierto que supera a los más avanzados de OpenAI en muchas métricas.

Aquí tenéis el vídeo completo en Youtube:

Pero lo más interesante no es solo su rendimiento, sino dos cosas que lo hacen realmente especial:

  • Es open source.
  • Puede destilar otros modelos para hacerlos más eficientes en hardware más modesto.

Por eso, en los últimos días, hemos visto titulares como:

  • «Ejecuta DeepSeek Localmente»
  • «Ejecuta DeepSeek en tu Raspberry Pi»

¿Es cierto? Sí, pero…

Técnicamente, sí puedes ejecutar DeepSeek en una Raspberry Pi. Pero lo que no te cuentan es que no es el mismo modelo que pruebas vía web. DeepSeek R1 671B, el que realmente compite con OpenAI, pesa más de 400 GB y necesita una GPU de altísima potencia (bueno, muchas).

La diferencia con OpenAI es que, si tienes el hardware necesario, puedes ejecutarlo en casa. Solo necesitas:

  1. Ollama (un software gratuito para ejecutar modelos de IA en local).
  2. Descargar los más de 400 GB del modelo.
  3. ¡A jugar!

Si tienes unas cuantas NVIDIA 4090 o A100 por casa (como cualquiera, ¿no?), no hay problema. Pero como la mayoría no tenemos GPUs de gama alta en el cajón de la cocina, la alternativa es usar modelos destilados.

¿Qué es un modelo destilado?

Un modelo destilado es básicamente una versión más pequeña y eficiente del modelo original. Pierde algo de capacidad, pero gana en velocidad y en la posibilidad de ejecutarse en hardware más modesto.

La pregunta clave es: ¿cuánto pierde?

Cuanto más pequeño es el modelo, más limitaciones tiene. Y eso se nota en los resultados.

Probando DeepSeek en diferentes entornos

He hecho pruebas en tres dispositivos:

  • Mi workstation con una RTX 3060 (12GB VRAM). Puedo ejecutar el modelo 14B decentemente y hasta el 32B, aunque ya en RAM con velocidades mediocres.
  • La versión en la nube de DeepSeek. Sin limitaciones de hardware.
  • Una Raspberry Pi 8GB. Aquí el modelo más grande que puedo correr es el 7B, pero a solo 1 token por segundo, lo que lo hace prácticamente inutilizable.

Para probar su conocimiento, le pregunté quién es Jean-Luc Picard.

  • El modelo 14B dio una respuesta correcta.
  • El modelo 7B se fumó algo muy turbio.
  • El modelo 1.5B… bueno, mi hija habría dado una mejor respuesta.

Cuando probé con algo más general, la respuesta del 1.5B fue… rara.

Aquí es donde entra la lógica: el modelo base pesa 400 GB, el modelo 1.5B pesa poco más de 1 GB… y la Wikipedia ocupa casi 100GB. No se puede sacar información de donde no la hay.

¿Para qué sirven los modelos destilados?

A pesar de sus limitaciones, los modelos pequeños tienen usos interesantes:

  • Ayuda matemática y revisión de código.
  • Generación de código. Un modelo 14B puede crear una automatización para Home Assistant, pero el 1.5B se inventará cualquier cosa.
  • Corrección de errores en código Python. Cuanto más genérico el problema, mejor la respuesta.

Lo que no harán bien:

  • Responder preguntas de cultura general.
  • Dar información factual.
  • Contar chistes. Ni siquiera el modelo grande tiene un gran sentido del humor…

Probé a pedirle a los modelos que generaran una web para vender un curso. Los tres lo hicieron, pero cuanto más destilado, más simple y fea era la web. Pierde calidad en la generación de contenido más complejo.

¿Puedes ejecutar DeepSeek en una Raspberry Pi?

Sí, pero… quizás no sea lo que esperabas.

Aún así, lo que ha logrado DeepSeek es impresionante. Han creado modelos destilados que funcionan en hardware limitado y mejoran a muchos modelos anteriores en casi todas las métricas.

Lo importante es saber qué se puede y qué no se puede hacer con un LLM en local. A menos que tengas un servidor con GPUs de gama alta, no esperes tener un ChatGPT en casa.

¿Y si usamos un modelo pequeño para domótica?

¿Podría un modelo ligero interpretar comandos para nuestra casa inteligente?

Esa es una prueba que os enseñaré en un futuro vídeo en el canal… y os adelanto que los resultados sorprenden.

Así que, si te interesa, suscríbete al canal y no te pierdas lo que viene.

Nos vemos en el próximo post. ¡Cuidaros y sed buenos! 😜

Deja un comentario