Lokale KI: Hardware, Software und Anwendungsfälle

Die Frage taucht inzwischen in fast jedem Gespräch mit unseren Kunden auf: „Wir würden KI gerne ernsthaft einsetzen – aber unsere Daten dürfen das Haus nicht verlassen. Geht das überhaupt?“ Die kurze Antwort lautet: Ja. Und 2026 ist sie deutlich einfacher zu geben als noch vor zwei Jahren.

Der Grund ist eine doppelte Entwicklung. Auf der einen Seite sind offene Sprachmodelle so gut geworden, dass sie bei den meisten Büroaufgaben kaum hinter den großen Cloud-Diensten liegen. Auf der anderen Seite passt mittlerweile genug Rechenleistung in einen einzelnen Server, dass ein kleines Team damit produktiv arbeiten kann. Lokale KI ist damit kein Forschungsprojekt mehr, sondern eine handfeste Option für jeden Mittelständler, der seine Daten im Griff behalten will.

Wir haben diesen Weg selbst beschritten – für unser eigenes fünfköpfiges Team und für eine Reihe von Kundenprojekten. In diesem Beitrag teilen wir, was sich dabei bewährt hat: bei der Hardware, beim Software-Stack und vor allem bei der Frage, wofür sich der Aufwand lohnt.

Was lokale KI eigentlich bedeutet

Lokale KI (auch On-Premise-KI oder selbst gehostete KI) bezeichnet KI-Modelle, die auf eigener Hardware im Unternehmen laufen – statt über die Cloud eines externen Anbieters. Alle Eingaben und Dokumente bleiben im eigenen Netzwerk. Es gibt keine Token-Abrechnung pro Anfrage und keine Verbindung zu einer fremden API.

Der praktische Unterschied lässt sich an einem Beispiel festmachen. Schicken Sie einen Vertragsentwurf an einen Cloud-Dienst, verlässt dieser Text Ihr Haus, wird auf fremden Servern verarbeitet und unterliegt den Bedingungen des Anbieters. Lassen Sie denselben Entwurf von einem Modell auf Ihrem eigenen Server zusammenfassen, passiert nichts davon. Genau das ist der Kern: Datensouveränität. Für Branchen mit sensiblen Inhalten – Recht, Personal, Buchhaltung, Forschung – ist das oft kein Nice-to-have, sondern die Bedingung dafür, KI überhaupt einsetzen zu dürfen.

Dazu kommen zwei nüchterne Vorteile, über die selten geredet wird: Die Kosten sind planbar, weil eine Anfrage nicht extra abgerechnet wird, und das System funktioniert auch dann, wenn die Internetleitung mal ausfällt oder ein Anbieter sein Preismodell über Nacht ändert.

Hardware: Was im Schrank steckt

Beim Thema Hardware machen viele denselben Denkfehler: Sie schauen zuerst auf die CPU. In Wahrheit entscheidet bei KI fast alles die Grafikkarte – und an ihr ganz konkret der Videospeicher (VRAM). Vereinfacht gesagt: Je größer das Modell, das Sie laden wollen, desto mehr VRAM brauchen Sie. Der Rest des Rechners ist Beiwerk.

Die gute Nachricht: Man muss nicht in der Oberklasse einsteigen. Eine aktuelle Consumer-Karte mit 24 bis 32 GB VRAM, etwa eine GeForce RTX 4090 oder RTX 5090, reicht bereits, um leistungsfähige Modelle bis rund 30 Milliarden Parameter flüssig laufen zu lassen. Damit deckt man erstaunlich viel ab – Zusammenfassungen, Entwürfe, Recherche, Code-Hilfe.

Wer mehr will – größere Modelle, längere Dokumente, mehrere Mitarbeiter gleichzeitig – landet bei einer professionellen Karte. Das aktuelle Maß der Dinge auf dem Schreibtisch ist die NVIDIA RTX PRO 6000 Blackwell mit 96 GB VRAM. Auf dieser einen Karte läuft ein 70-Milliarden-Parameter-Modell mit komfortablem Spielraum für mehrere parallele Anfragen. Der Haken: Sie kostet je nach Tagespreis grob zwischen 8.000 und 9.200 Euro. Dafür ersetzt sie eine ganze Reihe von Cloud-Abonnements – und das jedes Jahr aufs Neue.

Szenario GPU (Beispiel) VRAM Passende Modellgröße Grobe Investition
Erste Tests, 1 Person RTX 4090 24 GB bis ~14B ab ~2.000 €
Kleines Team, Alltag RTX 5090 32 GB bis ~30B ab ~3.000 €
Mehrere Nutzer, große Modelle RTX PRO 6000 Blackwell 96 GB bis ~70B ~8.000–9.200 €

Drumherum gilt: Großzügig Arbeitsspeicher (mindestens 64, besser 128 GB), eine schnelle NVMe-SSD für die Modelldateien und ein vernünftiges Netzteil. Und ja – so eine Karte zieht unter Volllast spürbar Strom (die Profi-Variante bis 600 Watt) und braucht Kühlung. In einem normalen Büroschrank im Serverraum ist das aber gut beherrschbar.

Faustregel: Nicht das größtmögliche Modell zählt, sondern das Modell, das auf Ihrer Karte schnell genug antwortet.

Software: Der Stack, der alles verbindet

Die Hardware ist nur die halbe Miete. Erst die Software macht aus der Grafikkarte einen brauchbaren Assistenten. Erfreulicherweise ist dieser Stack heute komplett aus quelloffenen Bausteinen zusammensetzbar – ohne Lizenzgebühren und ohne Anbieterbindung.

Das Modell selbst

Hier hat sich die Lage rasant gedreht. Für deutschsprachige Unternehmen sind vor allem drei Familien interessant: die Qwen-Modelle (sehr starkes Deutsch, über 100 Sprachen, durchgängig unter der freizügigen Apache-2.0-Lizenz), Mistral aus Frankreich (europäisch, schlank, gut im Befolgen von Anweisungen) und Googles Gemma (stark auf einer einzelnen Karte – bei der Lizenz lohnt vor dem kommerziellen Einsatz aber ein zweiter Blick). Welche Version gerade die Nase vorn hat, ändert sich praktisch monatlich; die Familien selbst sind die verlässlichere Wahl.

Ein wichtiger Trick heißt Quantisierung: Dabei wird ein Modell so komprimiert, dass es mit weniger Speicher auskommt, ohne nennenswert an Qualität zu verlieren. Eine Stufe wie „Q4″ ist in der Praxis ein guter Startpunkt – sie halbiert grob den Speicherbedarf, der Unterschied in den Antworten ist für Büroaufgaben meist kaum spürbar.

Die Werkzeuge drumherum

Zum Ausprobieren genügt Ollama oder LM Studio – damit läuft das erste Modell in Minuten. Für den produktiven Mehrnutzerbetrieb setzt man auf eine echte Inferenz-Engine wie vLLM, die mehrere Anfragen effizient parallel bedient. Als Oberfläche, die sich anfühlt wie ein gewohnter Chat, hat sich OpenWebUI etabliert.

Der eigentliche Mehrwert entsteht aber meist erst durch RAG (Retrieval-Augmented Generation). Vereinfacht: Das Modell bekommt Zugriff auf Ihre eigenen Dokumente, sucht darin die passenden Stellen heraus und antwortet auf dieser Grundlage – mit Quellenangabe. Dafür braucht es ein Einbettungsmodell (etwa bge-m3 für mehrsprachige Inhalte) und eine Vektordatenbank wie Qdrant. Wer auch Sprache verarbeiten will, ergänzt Whisper für die Transkription. Das klingt nach viel – ist aber ein erprobter, dokumentierter Baukasten, kein Eigenbau ins Blaue.

Anwendungsfälle aus dem Arbeitsalltag

Technik ist die eine Sache, der konkrete Nutzen die andere. Folgende Einsätze zahlen sich nach unserer Erfahrung am schnellsten aus:

  • Wissensassistent über die eigene Dokumentation. Handbücher, Richtlinien, Projektberichte, alte Angebote – per RAG durchsuchbar, mit Antwort in ganzen Sätzen statt einer Trefferliste. Spart genau die Sucherei, die niemand gerne macht.
  • Dokumente und E-Mails verarbeiten. Eingangspost klassifizieren, lange Anhänge zusammenfassen, Antwortentwürfe vorbereiten. Gerade bei vertraulichem Schriftverkehr ist der lokale Betrieb hier oft das entscheidende Argument.
  • Anbindung an ERP und Fachsysteme. Richtig spannend wird es, wenn die KI nicht im luftleeren Raum antwortet, sondern auf echte Geschäftsdaten zugreift – etwa per OData-Schnittstelle auf das SAP-System, mit sauberer Rechteweitergabe (Principal Propagation), sodass jeder nur sieht, was er sehen darf. Das ist unsere Kernkompetenz, und genau dort liegt der größte Hebel.
  • Unterstützung in der Entwicklung. Code erklären, Tests entwerfen, Routinearbeit abnehmen – komplett offline, ohne dass eine Zeile Quellcode das Haus verlässt.
  • Sensible Fachbereiche. Personal, Recht, Buchhaltung: überall dort, wo personenbezogene oder geschäftskritische Daten im Spiel sind, ist lokale KI häufig der einzige Weg, KI überhaupt regelkonform einzusetzen.

Cloud oder lokal – die ehrliche Abwägung

Wir verkaufen Ihnen lokale KI nicht als Allheilmittel. Es gibt gute Gründe für die Cloud: Sie ist sofort startklar, skaliert grenzenlos und stellt immer die absolut neuesten Spitzenmodelle bereit. Wer nur gelegentlich und mit unkritischen Inhalten arbeitet, fährt damit oft günstiger.

Der Wechsel zu lokal lohnt sich dann, wenn mindestens einer dieser Punkte zutrifft: Ihre Daten sind sensibel und dürfen das Haus nicht verlassen. Sie nutzen KI regelmäßig, sodass laufende Token-Kosten ins Gewicht fallen. Oder Sie wollen schlicht nicht von den Preisen und Bedingungen eines einzelnen Anbieters abhängig sein. Für ein Team ab etwa fünf bis zehn regelmäßigen Nutzern kippt die Rechnung erfahrungsgemäß zugunsten der eigenen Hardware – eine einmalige Investition statt einer dauerhaften Abogebühr.

In der Praxis ist die Antwort übrigens selten ein striktes Entweder-oder. Viele Unternehmen fahren zweigleisig: das Sensible bleibt lokal, das Unkritische darf in die Cloud. Ein Routing-Baustein wie LiteLLM verteilt die Anfragen automatisch – der Nutzer merkt davon nichts.

Häufige Fragen zu lokaler KI

Was ist lokale KI?

Lokale KI (On-Premise-KI) bezeichnet KI-Modelle, die auf eigener Hardware im Unternehmen laufen, statt über die Cloud eines Anbieters. Alle Daten bleiben im Haus, es fallen keine Token-Kosten an und es besteht keine Anbindung an externe APIs.

Welche Hardware braucht man für lokale KI?

Entscheidend ist die GPU bzw. ihr Videospeicher (VRAM). Für den Einstieg reicht eine Karte mit 24 bis 32 GB für Modelle bis rund 30 Milliarden Parameter. Für 70B-Modelle und mehrere parallele Nutzer eignet sich eine professionelle Karte wie die NVIDIA RTX PRO 6000 Blackwell mit 96 GB VRAM.

Ist lokale KI DSGVO-konform?

Lokale KI vereinfacht den Datenschutz erheblich, weil personenbezogene Daten das eigene Netzwerk nicht verlassen. Auftragsverarbeitung durch Dritte und Drittlandtransfer entfallen. Die DSGVO-Pflichten für die interne Verarbeitung bleiben bestehen, sind aber deutlich leichter zu erfüllen.

Welche Open-Source-Modelle eignen sich für deutschsprachige Unternehmen?

Gut geeignet sind mehrsprachige Open-Weight-Modelle wie die Qwen-Familie (starkes Deutsch, Apache-2.0-Lizenz), Mistral aus Frankreich sowie Google Gemma. In der Praxis zählt weniger die Modellgröße als die Kombination aus passender Größe, sauberer Datenaufbereitung und guter Retrieval-Qualität.

Lohnt sich lokale KI für kleine Unternehmen?

Häufig schon ab fünf bis zehn regelmäßigen Nutzern. Eine einmalige Hardware-Investition im niedrigen fünfstelligen Bereich ersetzt laufende Cloud-Gebühren, schützt sensible Daten und macht das Nutzungsvolumen planbar – ohne Abhängigkeit von einem externen Anbieter.

Thilo Kiefer

Thilo Kiefer

CEO und Produktmanager SAP Add-Ons

Echte Innovation entsteht für mich dort, wo Technik den Menschen dient und nicht umgekehrt.