
Simon Willison tiene un plan para el fin del mundo. Se trata de una memoria USB en la que ha guardado un par de sus modelos LLM de peso abierto favoritos, modelos que han sido compartidos públicamente por sus creadores y que, en principio, pueden descargarse y ejecutarse con hardware local. Si la civilización humana llegara a colapsar, Willison planea utilizar todo el conocimiento codificado en sus miles de millones de parámetros para ayudar. «Es como tener una versión extraña, condensada y defectuosa de Wikipedia, para poder ayudar a reiniciar la sociedad con la ayuda de mi pequeña memoria USB», afirma.
Sin embargo, no hace falta planear el fin del mundo para querer ejecutar un LLM en tu propio dispositivo. Willison, que escribe un popular blog sobre LLM locales y desarrollo de software, tiene muchos compañeros: LocalLLaMA, un subreddit dedicado a ejecutar LLM en tu propio hardware, cuenta con medio millón de miembros.
Para las personas que se preocupan por la privacidad, quieren liberarse del control de las grandes empresas de LLM o simplemente disfrutan trasteando, los modelos locales ofrecen una alternativa atractiva a ChatGPT y sus homólogos basados en la web.
El mundo de los LLM locales solía tener una barrera de entrada muy alta: al principio, era imposible ejecutar nada útil sin invertir en costosas GPU. Pero los investigadores han tenido tanto éxito en reducir y acelerar los modelos que ahora cualquiera con un ordenador portátil, o incluso un smartphone, puede participar en la acción. «Hace un par de años, habría dicho que los ordenadores personales no son lo suficientemente potentes para ejecutar los buenos modelos. Se necesita un rack de servidores de 50 000 dólares para ejecutarlos», afirma Willison. «Y se me ha demostrado que estaba equivocado una y otra vez».
Por qué te puede interesar descargar tu propio LLM
Entrar en los modelos locales requiere un poco más de esfuerzo que, por ejemplo, navegar por la interfaz online de ChatGPT. Pero la propia accesibilidad de una herramienta como ChatGPT tiene un coste. «Es el clásico adagio: si algo es gratis, tú eres el producto», afirma Elizabeth Seger, directora de política digital de Demos, un think tank con sede en Londres (Reino Unido).
OpenAI, que ofrece planes de pago y gratuitos, entrena sus modelos con los chats de los usuarios de forma predeterminada. No es demasiado difícil excluirse de este entrenamiento, y antes también era posible eliminar por completo los datos de los chats de los sistemas de OpenAI, hasta que una reciente decisión judicial en la demanda en curso de The New York Times contra OpenAI obligó a la empresa a conservar todas las conversaciones de los usuarios con ChatGPT.
Google, que tiene acceso a una gran cantidad de datos sobre sus usuarios, también entrena sus modelos con las interacciones de los usuarios gratuitos y de pago con Gemini, y la única forma de excluirse de ese entrenamiento es configurar el historial de chat para que se elimine automáticamente, lo que significa que también se pierde el acceso a las conversaciones anteriores. En general, Anthropic no entrena sus modelos utilizando las conversaciones de los usuarios, pero sí lo hace con las conversaciones que han sido marcadas para su revisión de confianza y seguridad.
El entrenamiento puede presentar riesgos particulares para la privacidad debido a la forma en que los modelos internalizan y, a menudo, recapitulan sus datos de entrenamiento. Muchas personas confían en los LLM con conversaciones profundamente personales, pero si los modelos se entrenan con esos datos, esas conversaciones podrían no ser tan privadas como los usuarios creen, según algunos expertos.
«Algunas de tus historias personales pueden quedar integradas en algunos de los modelos y, con el tiempo, acabar siendo divulgadas en bits y bytes a otras personas», afirma Giada Pistilli, directora de ética de la empresa Hugging Face, que gestiona una enorme biblioteca de LLM y otros recursos de IA que se pueden descargar gratuitamente.
Para Pistilli, optar por modelos locales en lugar de chatbots en línea tiene implicaciones que van más allá de la privacidad. «La tecnología significa poder«, afirma. «Y quien posee la tecnología, posee el poder». Los estados, las organizaciones e incluso los individuos podrían tener un motivo e para romper la concentración del poder de la IA en manos de unas pocas empresas mediante la ejecución de sus propios modelos locales.
Romper con las grandes empresas de IA también significa tener más control sobre la experiencia con los LLM. Los LLM en línea cambian constantemente bajo los pies de los usuarios: en abril, ChatGPT empezó de repente a adular a los usuarios mucho más que antes, y hace dos semanas Grok empezó a llamarse MechaHitler en X.
Los proveedores modifican sus modelos sin previo aviso y, aunque esos ajustes a veces pueden mejorar el rendimiento del modelo, también pueden provocar comportamientos indeseables. Los LLM locales pueden tener sus peculiaridades, pero al menos son coherentes. La única persona que puede cambiar tu modelo local eres tú.
Por supuesto, cualquier modelo que quepa en un ordenador personal va a ser menos potente que las principales ofertas online de las grandes empresas de IA. Pero trabajar con modelos más débiles tiene una ventaja: pueden inmunizarte contra las limitaciones más perniciosas de sus homólogos más grandes. Los modelos pequeños pueden, por ejemplo, tener alucinaciones con más frecuencia y de forma más evidente que Claude, GPT y Gemini, y ver esas alucinaciones puede ayudarte a tomar conciencia de cómo y cuándo los modelos más grandes también pueden mentir.
«Ejecutar modelos locales es en realidad un ejercicio muy bueno para desarrollar una intuición más amplia sobre lo que estas cosas pueden hacer», afirma Willison.
Cómo empezar
Los LLM locales no son solo para programadores expertos. Si te sientes cómodo utilizando la interfaz de línea de comandos de tu ordenador, que te permite explorar archivos y ejecutar aplicaciones mediante indicaciones de texto, Ollama es una excelente opción. Una vez instalado el software, puedes descargar y ejecutar cualquiera de los cientos de modelos que ofrecen con un solo comando.
Si no quieres tocar nada que se parezca ni remotamente a un código, puedes optar por LM Studio, una aplicación fácil de usar que elimina gran parte de las conjeturas a la hora de ejecutar LLM locales. Puedes explorar los modelos de Hugging Face directamente desde la aplicación, que proporciona mucha información para ayudarte a tomar la decisión correcta. Algunos modelos populares y ampliamente utilizados están etiquetados como Staff Picks (Selección del personal), y cada modelo está etiquetado según si se puede ejecutar íntegramente en la rápida GPU de tu máquina, si es necesario compartirlo entre tu GPU y una CPU más lenta, o si es demasiado grande para caber en tu dispositivo. Una vez que hayas elegido un modelo, puedes descargarlo, cargarlo y empezar a interactuar con él utilizando la interfaz de chat de la aplicación.
A medida que experimentes con diferentes modelos, empezarás a hacerte una idea de lo que tu máquina puede manejar. Según Willison, cada mil millones de parámetros del modelo requieren aproximadamente un GB de RAM para funcionar, y he comprobado que esa aproximación es bastante precisa: mi portátil de 16 GB consiguió ejecutar el Qwen3 14B de Alibaba siempre que cerraba casi todas las demás aplicaciones. Si tienes problemas de velocidad o usabilidad, siempre puedes optar por modelos más pequeños: yo también obtuve respuestas razonables con el Qwen3 8B.
Y si reduces aún más, puedes incluso ejecutar modelos en tu teléfono móvil. Mi viejo iPhone 12 fue capaz de ejecutar Llama 3.2 1B de Meta utilizando una aplicación llamada LLM Farm. No es un modelo especialmente bueno, se desvía rápidamente hacia tangentes extrañas y alucina constantemente, pero intentar sacar algo tan caótico hacia la usabilidad puede ser entretenido. Si alguna vez estoy en un avión sin wifi y desesperado por una respuesta probablemente falsa a una pregunta de trivial, ahora sé dónde buscar.
Algunos de los modelos que pude ejecutar en mi portátil fueron lo suficientemente eficaces como para que me imagine utilizándolos en mi trabajo periodístico. Y aunque no creo que vaya a depender de los modelos basados en teléfonos para nada en un futuro próximo, disfruté mucho jugando con ellos. «Creo que la mayoría de la gente probablemente no necesita hacer esto, y está bien», dice Willison. «Pero para quienes quieren hacerlo, es muy divertido».