IA local: Hardware, Software y Casos de Uso

La pregunta surge ahora en casi todas las conversaciones con nuestros clientes: «Nos gustaría usar la IA en serio, pero nuestros datos no deben salir de casa. ¿Eso es siquiera posible?» La respuesta corta es sí. Y en 2026 será mucho más fácil donar que hace dos años.

La razón es un doble desarrollo. Por un lado, los modelos de lenguaje abiertos se han vuelto tan buenos que apenas están por detrás de los grandes servicios en la nube para la mayoría de las tareas de oficina. Por otro lado, ahora hay suficiente potencia de cálculo en un solo servidor para que un pequeño equipo pueda trabajar productivamente con él. La IA local ya no es un proyecto de investigación, sino una opción tangible para toda empresa mediana que quiera mantener sus datos bajo control.

Nosotros mismos hemos seguido este camino: tanto para nuestro propio equipo de cinco como para varios proyectos de clientes. En este artículo, compartimos lo que ha demostrado ser exitoso: en términos de hardware, pila de software y, sobre todo, la cuestión de qué merece la pena el esfuerzo.

Lo que realmente significa la IA local

La IA local (también conocida como IA local o IA autoalojada ) se refiere a modelos de IA que se ejecutan en el propio hardware de la empresa, en lugar de a través de la nube de un proveedor externo. Todas las entradas y documentos permanecen en la red propia de la empresa. No hay facturación de token por solicitud ni conexión a una API de terceros.

La diferencia práctica puede verse en un ejemplo. Si envías un borrador de contrato a un servicio en la nube, este texto sale de tus instalaciones, se procesa en servidores de terceros y está sujeto a los términos y condiciones del proveedor. Si tienes el mismo diseño resumido por un modelo en tu propio servidor, nada de esto ocurre. Ese es exactamente el núcleo: la soberanía de los datos. Para industrias con contenido sensible – derecho, recursos humanos, contabilidad, investigación – esto a menudo no es algo agradable, pero sí la condición para poder usar IA en absoluto.

Además, hay dos ventajas sobrias de las que rara vez se habla: los costes pueden planificarse porque una solicitud no se factura por separado, y el sistema funciona incluso si la conexión a Internet falla o un proveedor cambia su modelo de precios de la noche a la mañana.

Ferretería: Lo que hay en el armario

Cuando se trata de hardware, mucha gente comete el mismo error: primero mira la CPU. En realidad, casi todo en la IA lo decide la tarjeta gráfica, y específicamente la memoria de vídeo (VRAM). En pocas palabras, cuanto mayor sea el modelo que quieras cargar, más VRAM necesitas. El resto del ordenador es un accesorio.

La buena noticia: no tienes que empezar en la clase lujo. Una tarjeta de consumo actual con entre 24 y 32 GB de VRAM, como una GeForce RTX 4090 o RTX 5090, ya es suficiente para ejecutar modelos potentes de forma fluida hasta alrededor de 30.000 millones de parámetros. Esto abarca una cantidad asombrosa: resúmenes, borradores, investigación, ayuda con el código.

Si quieres más – modelos más grandes, documentos más largos, varios empleados a la vez – acabas con una tarjeta profesional. La medida actual de las cosas en la mesa es la NVIDIA RTX PRO 6000 Blackwell con 96 GB de VRAM. Esta tarjeta ejecuta un modelo de 70 mil millones de parámetros con un alcance cómodo para múltiples consultas paralelas. La pega: dependiendo del precio diario, cuesta aproximadamente entre 8.000 y 9.200 euros. Para ello, reemplaza toda una gama de suscripciones en la nube – cada año de nuevo.

Escenario Ejemplo de GPU VRAM Tamaño de modelo adecuado Inversión aproximada
Primeras pruebas, 1 persona RTX 4090 24 GB hasta ~14B desde ~2.000 €
Equipo pequeño, vida cotidiana RTX 5090 32 GB hasta ~30B desde ~3.000 €
Múltiples usuarios, modelos grandes RTX PRO 6000 Blackwell 96 GB hasta ~70B ~8.000–9.200 €

En general: RAM generosa (al menos 64, mejor 128 GB), un SSD NVMe rápido para los archivos del modelo y una fuente de alimentación razonable. Y sí, una tarjeta así consume energía notablemente a plena carga (la versión profesional hasta 600 vatios) y necesita refrigeración. Sin embargo, en un armario de oficina normal en la sala de servidores, esto es fácilmente manejable.

Regla general: No es el modelo más grande lo que cuenta, sino el modelo que responde lo suficientemente rápido en tu tarjeta.

Software: La pila que conecta todo

El hardware es solo la mitad de la batalla. Solo el software convierte la tarjeta gráfica en un asistente útil. Afortunadamente, esta pila ahora puede ensamblarse completamente a partir de bloques de construcción de código abierto, sin tasas de licencia y sin necesidad de vinculación por parte del fabricante.

El propio modelo

Aquí, la situación ha cambiado rápidamente. Tres familias en particular interesan a las empresas de habla alemana: los modelos Qwen (alemán muy potente, más de 100 idiomas, siempre bajo la permisiva licencia Apache 2.0), Mistral de Francia (europeo, escaso, bueno siguiendo instrucciones) y Gemma de Google (fuerte en una sola tarjeta, pero la licencia merece una segunda revisión antes de su uso comercial). La versión que está actualmente por delante cambia prácticamente cada mes; Las propias familias son la opción más fiable.

Un truco importante se llama cuantización: en este proceso, un modelo se comprime de tal manera que puede sobrevivir con menos memoria sin perder calidad significativa. Un nivel como «Q4» es un buen punto de partida en la práctica: reduce aproximadamente a la mitad el requisito de memoria, la diferencia en las respuestas suele ser apenas perceptible para tareas de oficina.

Las herramientas que lo rodean

Solo tienes que probar Ollama o LM Studio : el primer modelo funcionará en minutos. Para una operación multiusuario productiva, la empresa depende de un motor de inferencia real como vLLM, que atiende eficazmente varias solicitudes en paralelo. OpenWebUI se ha consolidado como una interfaz que se siente como un chat familiar.

Sin embargo, el valor añadido real suele crearse solo mediante RAG (Generación Aumentada por Recuperación). Simplificado: El modelo accede a tus propios documentos, busca los pasajes apropiados en ellos y responde en base a esto, con referencia a la fuente. Esto requiere un modelo de incrustación (como bge-m3 para contenido multilingüe) y una base de datos vectorial como Qdrant. Si también quieres procesar el habla, puedes añadir Whisper para la transcripción. Eso suena a mucho, pero es un kit de construcción probado y documentado, no uno hecho por uno mismo.

Casos de uso del trabajo cotidiano

La tecnología es una cosa, el beneficio concreto es otra. En nuestra experiencia, las siguientes apuestas pagan más rápido:

  • Asistente de conocimiento sobre tu propia documentación. Manuales, directrices, informes de proyectos, ofertas antiguas – buscables por RAG, con respuestas en oraciones completas en vez de una lista negra. Ahorra exactamente la búsqueda que a nadie le gusta hacer.
  • Procesa documentos y correos electrónicos. Clasifica el correo entrante, resume los archivos adjuntos largos, prepara respuestas borradores. Especialmente en el caso de correspondencia confidencial, las operaciones locales suelen ser el argumento decisivo aquí.
  • Conexión a ERP y sistemas especializados. Se vuelve realmente emocionante cuando la IA no responde en el vacío, sino que accede a datos empresariales reales – por ejemplo, a través de la interfaz OData con el sistema SAP, con transferencia limpia de derechos (propagación principal), de modo que todos solo ven lo que se les permite ver. Esta es nuestra competencia principal, y aquí es precisamente donde reside la mayor influencia.
  • Apoyo en el desarrollo. Explicar el código, diseñar pruebas, encargarse de tareas rutinarias – completamente offline, sin que una sola línea de código fuente salga de casa.
  • Temas sensibles. Recursos humanos, derecho, contabilidad: siempre que se trate de datos personales o críticos para el negocio, la IA local suele ser la única forma de utilizar la IA cumpliendo con las normas.

Nube o local: el intercambio honesto

No vendemos IA local como una panacea. Hay buenas razones para usar la nube: está lista, escala sin límites y siempre ofrece los modelos más recientes y de gama alta. Si solo trabajas ocasionalmente y con contenido no crítico, suele ser más barato.

Cambiar a local merece la pena si al menos uno de estos puntos se aplica: tus datos son sensibles y no deben salir de casa. Utilizan IA regularmente, por lo que los costes continuos de los tokens son significativos. O simplemente no quieres depender de los precios y condiciones de un solo proveedor. Para un equipo de unos cinco a diez usuarios habituales, la experiencia ha demostrado que la factura se inclina a favor de su propio hardware: una inversión única en lugar de una cuota de suscripción permanente.

En la práctica, por cierto, la respuesta rara vez es un estricto o uno o otro. Muchas empresas adoptan un enfoque de dos frentes: lo sensible permanece local, lo no crítico puede ir a la nube. Un módulo de enrutamiento como LiteLLM distribuye las solicitudes automáticamente: el usuario no nota nada.

Preguntas frecuentes sobre la IA local

¿Qué es la IA local?

La IA local se refiere a modelos de IA que se ejecutan en el hardware propio de la empresa en lugar de a través de la nube del proveedor. Todos los datos permanecen internos, no hay costes de tokens ni conexión a APIs externas.

¿Qué hardware necesitas para la IA local?

El factor decisivo es la GPU o su memoria de vídeo (VRAM). Una tarjeta con 24 a 32 GB es suficiente para modelos de hasta unos 30.000 millones de parámetros. Para modelos 70B y usuarios en paralelo múltiple, una tarjeta profesional como la NVIDIA RTX PRO 6000 Blackwell con 96GB de VRAM es adecuada.

¿Cumple con el RGPD de la IA local?

La IA local simplifica enormemente la protección de datos porque los datos personales no salen de la red propia. Ya no es necesario el procesamiento encargado por terceros y las transferencias a terceros países. Las obligaciones del RGPD para el procesamiento interno permanecen, pero son mucho más fáciles de cumplir.

¿Qué modelos de código abierto son adecuados para empresas de habla alemana?

Modelos multilingües de peso abierto como la familia Qwen (alemán fuerte, licencia Apache 2.0), Mistral de Francia y Google Gemma están muy bien adaptados. En la práctica, no es tanto el tamaño del modelo lo que cuenta, sino la combinación del tamaño adecuado, una preparación de datos limpia y una buena calidad de recuperación.

¿Merece la pena la IA local para las pequeñas empresas?

A menudo entre cinco y diez usuarios habituales. Una inversión puntual en hardware en el rango bajo de cinco dígitos sustituye las tarifas en la nube continuas, protege los datos sensibles y hace que el volumen de uso sea planificable, sin depender de un proveedor externo.

Thilo Kiefer

Thilo Kiefer

CEO y gerente de productos de complementos de SAP

Para mí la verdadera innovación surge cuando la tecnología está al servicio de las personas y no al revés.