KI & Automation

Lokale LLMs im Unternehmen. Wann es sich lohnt und wie es geht

Welche Branchen wirklich von lokaler KI profitieren, was es konkret kostet und welche Tools es neben Ollama gibt. Ein Überblick ohne Marketingsprache.

Julien Hoffmann

8. Mai 20266 Min Lesezeit

Eines vorweg. Die meisten Mitarbeitenden nutzen ChatGPT, Gemini oder Claude bereits. Ob offiziell oder nicht. Für schnellen Schriftverkehr, Recherche, Zusammenfassungen. Das ist die Realität in fast jedem Unternehmen 2026. Die Frage ist nicht mehr ob KI genutzt wird, sondern wo die Daten dabei landen.

Lokale LLMs sind die saubere Antwort darauf. Kein Verbot, das ohnehin niemand einhält, sondern eine Infrastruktur, die KI intern nutzbar macht ohne Daten nach außen zu schicken.

Was "lokal" bedeutet

Ein lokales LLM ist ein Sprachmodell, das vollständig auf eigener Infrastruktur läuft. Keine Anfrage verlässt das Netz. Das Modell liest und schreibt nur innerhalb der eigenen Umgebung. Technisch basiert das auf Open Source Modellen wie Llama 3, Mistral oder Qwen, die frei herunterladbar und ohne Lizenzgebühren betreibbar sind.

Daten abfragen statt durchwühlen

Einer der stärksten Anwendungsfälle ist RAG, also Retrieval Augmented Generation. Dahinter steckt ein simples Prinzip. Das Modell bekommt Zugriff auf eigene Dokumente und kann darin suchen, kombinieren und antworten.

Mandantenakten, Kundenkorrespondenz, interne Prozessdokumente, Verträge. Alles wird für das Modell durchsuchbar. Statt stundenlang in Ordnern zu suchen, stellt man eine Frage und bekommt eine Antwort direkt aus den eigenen Daten. Das ist kein Ersatz für ein Dokumentenmanagementsystem, aber eine Ebene darüber, die echte Arbeitszeit spart.

Automatisierung ganzer Arbeitsprozesse

LLMs lassen sich in Automatisierungstools wie n8n oder Make einbinden. Dann chatten Mitarbeitende nicht mehr nur mit der KI, sondern ganze Prozesse laufen automatisch durch.

Eingehende Rechnungen werden gelesen, relevante Felder extrahiert und direkt ins Buchhaltungssystem übertragen.
Support-E-Mails werden kategorisiert, priorisiert und an den richtigen Ansprechpartner weitergeleitet.
Aus Meetingtranskripten entstehen automatisch strukturierte Protokolle.
Verträge werden auf bestimmte Klauseln geprüft, ohne dass jemand jedes Dokument manuell öffnen muss.

Das sind keine Zukunftsszenarien. Das sind Setups, die sich heute mit lokalen Modellen und n8n produktiv betreiben lassen.

Für wen es sich lohnt

Das Datenschutzthema sei genannt. Wer mit sensiblen Daten arbeitet, also Kanzleien, Arztpraxen, Steuerberater, Unternehmensberatungen, kann KI lokal betreiben ohne dass Mandats- oder Patientendaten das Haus verlassen. Das war bisher die größte Hürde.

Darüber hinaus lohnt sich lokales Hosting für Entwicklerteams, die keinen Quellcode an externe APIs schicken wollen, und für Unternehmen mit hohem Anfragevolumen, bei denen API-Kosten irgendwann die Hardware-Kosten übersteigen.

Weitere Vorteile

Kein Vendor Lock-in. Wer heute auf OpenAI setzt, ist abhängig von deren Preisen, Verfügbarkeit und API-Änderungen. Lokal bedeutet, das Modell läuft morgen noch, egal was der Anbieter entscheidet.

Finetuning. Open Source Modelle lassen sich auf eigene Daten trainieren. Eigenes Fachvokabular, eigene Corporate Language, eigene Antwortmuster. Ein Modell, das so klingt und antwortet wie das Unternehmen selbst.

Kein Internetausfall-Problem gilt nur bei echtem On-Premise-Betrieb auf eigener Hardware. Wer das Modell bei Hetzner oder einem anderen Cloud-Anbieter hostet, ist weiterhin auf die Internetverbindung angewiesen. Das ist kein Nachteil gegenüber Cloud-APIs, aber kein Vorteil gegenüber einem eigenen Server im Keller.

Was es kostet

Drei realistische Wege:

Eigener Rechner im Büro. Ein neuerer Mac mit 32 GB RAM oder ein Linux-Rechner mit einer vernünftigen GPU reicht für kleine Modelle. Einmalkosten, keine monatlichen Gebühren, kein Internetausfall-Problem. Dafür begrenzte Leistung und kein einfacher Remotezugriff für das Team ohne weitere Konfiguration.

Gemieteter Server bei Hetzner. Für Teams, die nicht selbst Hardware betreiben wollen, ist das der pragmatischste Einstieg. GPU-Server gibt es ab 184 Euro pro Monat mit NVIDIA RTX 4000 Ada, Rechenzentrum in Deutschland, DSGVO-konform. Zum Vergleich kostet ein vergleichbarer AWS-Server als Dauerinstanz über 700 Euro pro Monat. Für kleinere Modelle reicht sogar ein CPU-Only-Server für 7 bis 14 Euro pro Monat. Damit laufen keine großen Modelle, aber für einfache interne Assistenten ist das ein unkomplizierter Einstieg.

Für größere Produktivlasten liegen die realistischen Kosten höher. Ein dedizierter Server mit 48 GB VRAM kostet je nach Anbieter zwischen 400 und 700 Euro pro Monat. Der Break-even gegenüber Cloud-APIs kommt bei konstantem Anfragevolumen oft nach wenigen Monaten.

Welche Tools es gibt

Ollama ist der Einstieg für die meisten. CLI-basiert, einfach, per REST-API direkt in andere Tools einbindbar.

LM Studio ist die Desktop-Variante mit grafischer Oberfläche. Modelle herunterladen, ausprobieren, ohne Terminal. Gut für Einzelpersonen, die lokal testen wollen.

Open WebUI bringt eine ChatGPT-ähnliche Oberfläche ins Team. Jeder bekommt einen Browser-Zugang, das Modell läuft zentral auf dem Server. In Kombination mit Ollama das verbreitetste Team-Setup für lokale LLMs.

AnythingLLM ist stärker auf RAG und Teamarbeit ausgelegt. Interne Dokumente werden durchsuchbar gemacht, es gibt granulare Zugriffskontrollen und integrierte Vektordatenbanken. Wer Dokumentenabfrage intern abbilden will, ist hier richtig.

vLLM ist eher für Entwickler und größere Setups gedacht. Optimiert auf hohen Durchsatz bei vielen gleichzeitigen Anfragen. Kein GUI, dafür deutlich effizienter als Ollama unter Last.

Was lokal nicht kann

GPT-4 oder Claude sind beim komplexen Reasoning und bei kreativen Aufgaben aktuell noch besser als die meisten Open Source Modelle. Lokale Modelle haben außerdem kein aktuelles Weltwissen. Sie kennen nur das, womit sie trainiert wurden, und das liegt oft Monate oder Jahre zurück. Wer fragt "Was hat sich letzte Woche in der Gesetzgebung geändert?" bekommt keine verlässliche Antwort. Für aktuelle Informationen braucht es entweder RAG mit eigenen aktuellen Dokumenten oder weiterhin einen Cloud-Dienst mit Websuche. Für klar definierte interne Anwendungsfälle wie Dokumentenzusammenfassung, FAQ-Beantwortung oder Textaufbereitung reicht ein gutes 7B-Modell aber vollkommen.

Wer jetzt eine funktionierende lokale Infrastruktur aufbaut, hat in zwei Jahren einen echten Vorsprung. Und das Argument Datenhoheit gewinnt jedes Compliance-Gespräch.

Häufige Fragen

Was ist ein lokales LLM?

Ein lokales LLM ist ein Sprachmodell, das vollständig auf eigener Infrastruktur läuft. Keine Anfrage verlässt das Netz. Technisch basiert das auf Open Source Modellen wie Llama 3, Mistral oder Qwen, die frei herunterladbar und ohne Lizenzgebühren betreibbar sind.

Was ist RAG?

RAG steht für Retrieval Augmented Generation. Das Modell bekommt Zugriff auf eigene Dokumente und kann darin suchen, kombinieren und antworten. Das betrifft Mandantenakten, Verträge oder interne Prozessdokumente, die für das Modell durchsuchbar werden, ohne dass die Daten das Haus verlassen.

Was kostet lokales LLM-Hosting?

Ein einfacher CPU-Server bei Hetzner kostet ab 7 Euro pro Monat, reicht aber nur für kleine Modelle. GPU-Server mit NVIDIA RTX 4000 Ada beginnen bei rund 184 Euro pro Monat. Für größere Produktivlasten mit 48 GB VRAM liegen die Kosten zwischen 400 und 700 Euro monatlich. Eigene Hardware im Büro bedeutet einmalige Anschaffungskosten ohne laufende Gebühren.

Welche Tools gibt es neben Ollama?

LM Studio für lokale Tests mit grafischer Oberfläche. Open WebUI für eine teamfähige ChatGPT-ähnliche Oberfläche im Browser. AnythingLLM für RAG und Dokumentenabfrage mit Zugriffskontrollen. Und vLLM für hochperformante Setups mit vielen gleichzeitigen Anfragen.

Für wen lohnt sich ein lokales LLM?

Primär für Branchen mit sensiblen Daten. Kanzleien, Arztpraxen, Steuerberater, Unternehmensberatungen zum Beispiel. Außerdem für Entwicklerteams, die keinen Quellcode an externe APIs schicken wollen, und für Unternehmen mit hohem Anfragevolumen, bei denen API-Kosten irgendwann die Hardware-Kosten übersteigen.

Kann ein lokales LLM mit GPT-4 oder Claude mithalten?

Beim komplexen Reasoning und kreativen Aufgaben noch nicht. Für klar definierte Anwendungsfälle wie Dokumentenzusammenfassung, FAQ-Beantwortung oder Textaufbereitung reicht ein gutes 7B-Modell vollkommen. Der Vorteil ist nicht überlegene Qualität, sondern vollständige Datenkontrolle.

#LLM#Ollama#RAG#DSGVO#On-Premise#n8n#Open Source#KMU#Hetzner