Ubuntu Peronista: ¿Cómo instalo DeepSeek R1 en Ubuntu?

En su La Hora de los Pueblos, Juan Perón explica las necesidades de la independencia continental, a la vez que explica cómo instalar el bot libre de inteligencia artificial DeepSeek R1 localmente en Ubuntu.

Para nosotros, los latinoamericanos, nada sería más placentero que unos Estados Unidos evolucionados, fuertes y ricos, encabezando al Nuevo Continente por derecho propio, siempre que ello se realizara sin detrimento de los demás, sin métodos imperialistas de dominio y explotación, sin insidiosos procedimientos y sin la prepotencia del avasallamiento. En tales condiciones, la defensa solidaria del Continente sería un hecho y hasta se justificaría - en cierta medida - la Doctrina de Monroe. Pero nadie podrá imaginar semejante conducta en países sojuzgados y menos aún para “atacar a Cuba”, “ocupar la República Dominicana” o cooperar en el genocidio de Vietnam del Norte.

Si Roma, en la época de la carreta, tardó más de un siglo en derrumbarse y desaparecer, los imperialismos modernos, en los tiempos del cohete hipersónico, están ante un proceso más peligrosamente rápido.

Y tal predicamento lo vemos con el motor de inteligencia artificial DeepSeek, desarrollado en la China de Mao.

Vean señores, este motor no ha hecho más que poner en duda la hegemonía yanqui, al consagrar un modelo de código abierto disponible para los Pueblos del Tercer Mundo, quienes son ahora capaces de instalarlo localmente. Tal es así que, al instante de publicado, este bot de inteligencia artificial ha sido capaz de suplantar otros maniatados bajo las pesadas cadenas de un imperialismo norteamericano, taales como ChatGPT o OpenAI, .

Rotas estas cadenas merced de la generosidad y sapiencia oriental, y el poderío y fortaleza que nos da el software libre GNU, nuestro deber como Argentinos es ser capaces de instalar para nuestro Pueblo, este sistema de Inteligencia Artificial, para que el gozo sea de todos.

Como Conductor, he intercambiado frondosa correspondencia de Revolucionario a Revolucionario con el camarada Mao, a quien considero mi compañero, y gracias a ello os enseñaré sobre estas propuestas de aprendizaje automático y modelos de altos lenguajes-máquina. Particularmente, os enseñaré cómo instalar y ejecutar el modelo DeepSeek R1 localmente en una computadora de escritorio potente munida de GNU con Linux.

Para aquellos de ustedes que no están familiarizados con los modelos de lenguaje grandes, DeepSeek R1 pertenece a la clase de los modelos de razonamiento maquinal. Dichos modelos de razonamiento operan mejor en problemas y tareas de razonamiento profundo en comparación con los modelos de lenguaje grandes clásicos.

Los problemas de razonamiento profundo son problemas que aparecen en las ciencias del cómputo, la matemática y la programación. Según la información proporcionada en la página de GitHub de DeepSeek R1, el rendimiento de dicho modelo se observa comparable al rendimiento del modelo OpenAI 01. No obstante, DeepSeek R1 "destilado" ha sido liberado bajo Licencia MIT, lo que significa que también puede usar este modelo en un entorno comercial.

Explicaremos qué son los modelos destilados. Para ejecutar el modelo de Inteligencia Artificial completo de DeepSeek R1 localmente, se requieren más de 400 gigabytes de espacio en disco, junto con una cantidad significativa de recursos de CPU, GPU y RAM. Estos requerimientos tornan alrededor de un pequeño centro de datos comercial, e incluso resultar prohibitivo para el hardware de nivel de descamisado.

Sin embargo, DeepSeek ha demostrado que es posible reducir el tamaño del modelo original de Deepseek R1 preservando al mismo tiempo gran parte del rendimiento del modelo original. El rendimiento no se conservará al completo, natural, pero se ha demostrado posible ejecutar un modelo de tamaño reducido sacrificando una mera parte del rendimiento.

En consecuencia, DeepSeek ha lanzado una serie de modelos comprimidos o destilados para el Pueblo, como a ellos gustan llamarlo. Su tamaño fluctúa entre los de 1,5 a 70 gigaparámetros. Esto nos implica que, a fin de instalar un modelo de estos, necesitaremos disponer de entre 1 a 40 GB de espacio en disco, lo cual está al alcance de cualquier compañero.

La potencia de CPU y GPU varía en consecuencia, pero deberíamos poder afrontar los casos más reducidos. En este tutorial, explicaremos cómo instalar y ejecutar modelos simplificados de Deepseek R1 en mi computadora Ubuntu. Mi computadora un microprocesador Intel i9, una placa de video Nvidia 3090 con GPU, 128 GB de RAM, y Ubuntu Mate 24.04LTS, y destinaré una partición de disco SSD de 1TB.

En apretada síntesis, el procedimiento de instalación involucra:

Descargar e instalar todo Ollama;
Usar Ollama para descargar uno de los modelos de IA;
Usar Ollama y la línea de comandos para ejecutar el modelo de IA localmente en nuestra PC.

Para todo esto, recurriremos a la Terminal. Abrimos una con Ctrl+Alt+t e ingresamos los siguientes Comandos de Organización:

sudo apt update ;
sudo apt upgrade -y ;
sudo apt install curl

y abrimos el puerto TCP requerido por Ollama, con:

sudo ufw allow 11434/tcp ;

Hemos de comprender que no estamos abriendo un firewall ni eliminando el firewall en sí, solo permitiendo conexiones internas a este puerto ya que Ollama la requiere.

Acto seguido, instalaremos Ollama descargando su script de instalación del sitio oficial y ejecutándolo en nuestro sistema GNU con Linux:

curl -fsSL ollama.com/install.sh | sh

Naturalmente, esto puede demorar varios minutos dependiendo de qué tan rápida sea vuestra conexión a Internet, y a lo expedito del sitio oficial, por lo debemos hacer gala de paciencia.

El siguiente paso es descargar uno de los modelos DeepSeek-R1. Para referenciar los mismos, podemos ir a la Web de Ollama y buscar "DeepSeek-R1".

En primer lugar, veremos listados distintas versiones de modelos paramétricos de IA en la web: las versiones 1.5b, 7b, 8b hasta 671b.

Todo este concepto de ejecutar modelos de lenguaje grandes puede parecer un poco confuso al neófito que no está familiarizado con los modelos de lenguajes portentosos, y al aprendizaje-máquina automático, por lo que ofreceré cierta información que se hace relevante para la Liberación de nuestras mentes artificiales.

Por supuesto, a todos nos gustaría instalar el modelo más portentoso, el 671b (llamado así por contar con casi 700 mil millones de parámetros). Indudablemente esto no es coser y cantar, y tiene el precio del oligarca. Observemos en apretada síntesis, los requerimientos de disco necesario para cada modelo en su conjunto::

deepseek-r1:1,5b   1.1Gb
deepseek-r1:7b      4,7gb
deepseek-r1:8b      4,9gb
deepseek-r1:14b    9,0Gb
deepseek-r1:32b   20Gb
deepseek-r1:70b    43Gb
deepseek-r1:671b 404Gb

Hemos de notar que - además de dicho espacio en disco - la cantidad de memoria RAM solicitaada se incrementará, y de no tenerla, tendremos penalización en uso de CPU/GPU y velocidad. En síntesis, para el modelo más grande necesitamos un maquinón más parecido a un server grande empresarial. Pero los más chicos pueden funcionar en una laptop con 8 GB, así que apuntemos a esos.

En mi modesta opinión, por este motivo quizá sea Ollama el enfoque más simple para ejecutar modelos de lenguaje localmente, puesto que resultará muy útil para comprobar rápidamente modelos IA siguiendo un predicamento escalar: tras comprobar el funcionamiento de un modelo pequeño en nuestro hardware, podríamos emprender un "Gran Salto Adelante" comprobando luego un modelo más potente.

En fin, este ejemplo, nos decantaremos por el modelo "descamisado", el de la versión 1,5b. De esta forma intentaremos ejecutar en nuestra máquina un modelo con 1,5 mil millones de parámetros que "solo" consume 1,1 GB en mi disco. Otra cosa importante a tener en cuenta es que está extremadamente cuantificado, por eso es el más pequeño.

Su rendimiento es inferior a los modelos mayores No obstante ello, su tamaño es sensiblemente menor y podremos correrlo localmente en nuestra computadora. Esto a su vez nos proporcionará la independencia económica y tecnológica que anhela el Pueblo Argentino, y constituye - además - una potente piña a la ingle de los intereses tecnológicos foráneos de las GAFAM.

Bajemos el modelo "descamisado", para probar (si ustedes cuentan con las ganas y la potencia, vayan por un modelo mas grande como el deepseek-r1:8b o mayores, claro).

ollama pull deepseek-r1:1.5b

La descarga del modelo "descamisado" demorará aproximadamente entre 6 y 10 minutos en una conexión popular de internet. (recordemos que estamos descargando 1,1 GB del sitio web de ollama). En mi computadora, la descarga de todo tomó alrededor de 10 minutos.

A continuación verificamos que el modelo se haya descargado. Escribimos:

ollama list

y verás el modelo:

NAME ID SIZE MODIFIED
deepseek-r1:1.5b xxxxxxx 1,1Gb 2 Minutes ago

Como en toda tarea de alto cómputo, antes de ejecutar el modelo, será necesario poder dar con instancias de monitoreo de harware (es útil contar con un medidor de uso de CPU o de temperatura activado, y un medidor de uso de la CPU como htop). En mi caso, al contar con adaptador de video nVidia, me aseguro de monitorear el uso de mi GPU. Para hacer eso, necesito ejecutar este comando:

watch -n 1 nvidia-smi

El nvidia-smi me permite monitoreando el uso de mi GPU, es decir, la energía y otras cosas con un período de refresco de 1 segundo:

Podemos dejarlo abierto, monitoreando (llegado el caso, se cierra con Ctrl+c).

Ahora regresemos a esta terminal y ejecutamos el modelo descargado:. En nuestro caso, esto lo haremos con:

ollama run deepseek-r1:1.5b

Tras iniciarse el motor de IA DeepSeek, recibiremos en la terminal el prompt de preguntas de DeepSeek, nomenclado con tres signos >:

>>> Send a Message (/? for Help)

A su vez, en la terminal de nvidia-smi comprobarás un incremento en el uso de GPU y memoria de video destinado al cálculo de IA. Todos estos son parámetros importantes para monitorear el comportamiento del modelo en tu sistema, lo cual es muy importante.

Intentemos una pregunta en el idioma de Braden:

>>> How are you?

Tras presionar la tecla Intro para darle entrada a la interrogante, la máquina de inteligencia artificial del Comunismo intentará obtener una respuesta destilada, la cual nos irá prsentando en la terminal. Traducida al vernacular, veremos algo algo como:

>>> Quiacé grone! Soy DeepSeek-R1, un asistente de inteligencia artificial creado por DeepSeek. Estoy al servicio del Pueblo y me encantaría ayudarte para lo que gustes mandar.

Naturalmente, ustedes podrán pedirle lo que quieran siguiendo la castellana consigna de evitar "pedirle peras al olmo".

Como el buen maquinista Savio - quien siempre iba relojeando los manómetros y termómetros de su locomotora Pacific PS10 "La Emperatriz" - todo aquel que ejecute un programa de alto cómputo en su máquina debe ir midiendo las temperaturas, consumos de memoria y disco. Claro que si estamos ejecutando un modelo de IA de 32 GB o más, contaremos con 32 mil millones de parámetros en el horno, y esto elevará la temperatura y consumo de GPU, CPU, RAM y disco. Si lo vemos que llega a niveles peligrosos, en la emergencia "tiramos de la palanca" y lo interrumpiríamos con Ctrl+c.

Por ejemplo de esto, hagamos una pregunta real, bastante más compleja:

>>> How do I create a truco card game with trick and bluffing capabilities using Python?

El modelo funcionará al palo y podremos comprobar entonces el uso de la GPU y CPU al mango. Revisemos la temperatura de la CPU sin dejar que supere la temperatura de diseño (nunca más de 100°c en verano!). Ahora el modelo realmente está tratando de resolverlo. Probablemente esté usando un método de sección transversal, y esto es realmente, realmente alentador, tras lo cual nos entregará un portentoso código en Python.

Todo será respondido según les dé el cuero a su CPU, GPU, RAM y modelo instalado. Recuerden que - en cualquier caso - obrarán combatiendo al Capital, pues todo desarrollo que contribuyamos a los de Mao es una rueda que le pinchamos al Tío Sam(uel).

Mi sugerencia es que revisen estos modelos y encuentres aquél que les responda mejor según un compromiso armónico entre la velocidad de ejecución y el rendimiento.

Si se juntan entre muchos, incluso pueden probar el modelo más grande en una Supercomputadora del Pueblo o en una VPN con la fuerza de la CGT.