Dein eigener KI-Assistent – ohne OpenAI, ohne Datenschutz-Risiko

Du nutzt ChatGPT für dein Unternehmen? Dann verlassen deine Daten gerade das Land. Jede Kundenanfrage, jede interne Notiz, jeder Entwurf – alles landet auf Servern in den USA. Und dort gelten andere Regeln als hier. Die gute Nachricht: Du kannst KI nutzen, ohne deine Daten aus der Hand zu geben. Mit einem eigenen KI-Assistenten, der auf deiner Hardware läuft.

Was ist Ollama?

Ollama ist eine Laufzeitumgebung für große Sprachmodelle (LLMs), die auf deinem eigenen Server läuft. Stell dir das so vor: Statt deine Fragen an OpenAI zu schicken und auf eine Antwort zu warten, läuft das Sprachmodell direkt bei dir. Lokal. Ohne Internetverbindung, ohne API-Key, ohne monatliche Rechnung.

Das Projekt ist Open Source und macht es einfach, verschiedene Modelle herunterzuladen und zu nutzen. Ein Befehl reicht:

ollama run llama3.1

Danach hast du einen KI-Assistenten, der auf deiner eigenen Maschine antwortet. Keine Registrierung, kein Account, kein Tracking.

Die wichtigsten Eigenschaften:

Lokale Ausführung – kein Byte verlässt deinen Server
Einfache Installation – ein Befehl, fertig
Modellwechsel – verschiedene Modelle für verschiedene Aufgaben
API-kompatibel – gleiche Schnittstelle wie OpenAI, bestehende Tools funktionieren
Ressourcenschonend – kleinere Modelle laufen auch auf CPUs

Welche Modelle laufen lokal?

Die Auswahl an Open-Source-Modellen ist in den letzten zwei Jahren explodiert. Hier ein Überblick über die wichtigsten Optionen:

Modell	Größe	Qualität	Geschwindigkeit	Bester Einsatz
Llama 3.1 8B	4,7 GB	Sehr gut	Schnell	Allrounder, Kundenanfragen
Llama 3.1 70B	40 GB	Exzellent	Langsam (braucht GPU)	Komplexe Analysen, Texterstellung
Qwen 2.5 7B	4,4 GB	Sehr gut	Schnell	Mehrsprachig, gut auf Deutsch
Qwen 2.5 32B	18 GB	Exzellent	Mittel	Bestes Preis-Leistungs-Verhältnis
Gemma 2 9B	5,4 GB	Gut	Schnell	Leichtgewicht, effizient
Mistral 7B	4,1 GB	Gut	Sehr schnell	Schnelle Antworten, Zusammenfassungen

Meine Empfehlung für den Einstieg: Qwen 2.5 in der 7B-Variante. Es versteht Deutsch besser als die meisten Alternativen, läuft auf bescheidener Hardware und liefert Antworten, die für den Unternehmensalltag absolut ausreichen.

Für anspruchsvollere Aufgaben – etwa das Zusammenfassen langer Verträge oder das Schreiben von technischen Dokumentationen – greife ich zu Qwen 2.5 32B oder Llama 3.1 70B. Die brauchen mehr Ressourcen, liefern aber Ergebnisse, die sich nicht hinter ChatGPT verstecken müssen.

Praxisbeispiel: KI-Assistent für Kundenanfragen

Theorie ist gut, Praxis besser. Ich betreibe selbst einen KI-Assistenten, der Kundenanfragen beantwortet – und du kannst ihn live ausprobieren.

So funktioniert das:

Wissensbasis aufbauen: Du fütterst den Assistenten mit deinen Unternehmensdaten – Produktinformationen, häufige Fragen, Preislisten, Anleitungen. Das passiert einmalig und bleibt lokal.
Anfrage kommt rein: Ein Kunde fragt per Chat, E-Mail oder Formular etwas. Die Frage geht an deinen lokalen KI-Assistenten.
Antwort in Sekunden: Das Modell durchsucht deine Wissensbasis, findet die relevanten Informationen und formuliert eine passende Antwort. Nicht generisch, sondern auf dein Unternehmen zugeschnitten.
Qualitätskontrolle: Du entscheidest, ob die Antwort direkt rausgeht oder vorher von einem Mitarbeiter geprüft wird. Beides lässt sich einrichten.

Konkrete Anwendungsfälle:

Handwerksbetrieb: “Wie lange dauert eine Badsanierung?” – Der Assistent kennt deine typischen Projektlaufzeiten und antwortet realistisch.
IT-Dienstleister: “Unterstützt ihr auch macOS?” – Antwort basiert auf deiner aktuellen Leistungsbeschreibung.
Onlineshop: “Wann wird meine Bestellung geliefert?” – Der Assistent kennt deine Versandzeiten und antwortet konkret.

Das Ergebnis: Weniger Routineanfragen für dein Team, schnellere Antworten für deine Kunden, keine Daten in fremden Händen.

Kosten: GPU vs. API-Kosten

Jetzt wird es interessant. Viele denken, lokale KI ist teuer wegen der Hardware. Lass uns rechnen.

Szenario: 500 Anfragen pro Tag, durchschnittlich 500 Tokens pro Anfrage

Posten	OpenAI API (GPT-4o)	Lokale KI mit Ollama
Einmalige Kosten	0 €	800-1.500 € (GPU-Server)
Monatliche Kosten	150-300 €	15-30 € (Strom)
Nach 6 Monaten	900-1.800 €	890-1.680 €
Nach 12 Monaten	1.800-3.600 €	980-1.860 €
Nach 24 Monaten	3.600-7.200 €	1.160-2.220 €

Die Überraschung: Nach 6 Monaten hat sich die GPU-Investition amortisiert. Ab dann sparst du jeden Monat bares Geld. Und mit steigendem Volumen wird der Unterschied immer größer.

Bei geringerem Volumen (50-100 Anfragen pro Tag) rechnet sich ein kleines Modell auf einem VPS für 20-30 €/Monat. Das ist günstiger als die meisten API-Pläne und du hast volle Kontrolle.

Nicht eingerechnet:

Zeitersparnis durch automatisierte Antworten (oft der größte Posten)
Kein Risiko von API-Preiserhöhungen (OpenAI hat die Preise schon mehrfach angepasst)
Keine Abhängigkeit von einem einzelnen Anbieter

DSGVO: Warum dein Datenschutzbeauftragter das liebt

Wenn du ChatGPT oder andere Cloud-KI-Dienste im Unternehmen nutzt, stehst du vor einem Problem: Personenbezogene Daten deiner Kunden werden an Server in den USA übermittelt. Das erfordert:

Einen Auftragsverarbeitungsvertrag mit OpenAI oder dem jeweiligen Anbieter
Eine Datenschutz-Folgenabschätzung (DSFA)
Die Information deiner Kunden über die Drittland-Übermittlung
Eine Rechtsgrundlage für die Übermittlung (die seit Schrems II umstritten ist)

Mit einem lokalen KI-Assistenten fällt das alles weg:

Keine Datenübermittlung – die Anfrage bleibt auf deinem Server
Kein AVV nötig – du verarbeitest die Daten selbst
Keine DSFA für den KI-Dienst – das Risiko einer Drittland-Übermittlung existiert nicht
Volle Transparenz – du weißt genau, welches Modell mit welchen Daten arbeitet

Das bedeutet nicht, dass du gar keinen Datenschutz brauchst. Die Verarbeitung der Kundendaten selbst musst du natürlich dokumentieren. Aber du eliminierst das größte Risiko: die unkontrollierte Weitergabe an Dritte.

In der Praxis heißt das: Dein Datenschutzbeauftragter schläft besser, und du musst nicht bei jeder Kundenanfrage überlegen, ob du die gerade an ein US-Unternehmen weiterleiten darfst.

Was du brauchst

Es gibt verschiedene Wege, je nach Anforderung und Budget:

Option 1: Dedizierter GPU-Server (für hohe Last)

NVIDIA GPU mit mindestens 8 GB VRAM (z. B. RTX 3060, RTX 4060)
32 GB RAM
500 GB SSD
Kosten: 800-1.500 € einmalig
Geeignet für: Mehrere Nutzer gleichzeitig, große Modelle, schnelle Antworten

Option 2: VPS mit CPU-Inferenz (für moderate Last)

VPS mit 8-16 vCPUs und 32 GB RAM
Kosten: 30-50 €/Monat
Geeignet für: Kleine Modelle (7B-8B), moderate Anfragenmengen
Vorteil: Kein Hardware-Kauf, sofort einsatzbereit

Option 3: Bestehende Hardware nutzen

Hast du schon einen Server? Dann installier Ollama einfach dazu
Mindestanforderung: 8 GB RAM für kleine Modelle
Docker-Container verfügbar, Integration in bestehende Infrastruktur einfach

Mein Setup: Ich nutze eine Kombination aus GPU-Server für die großen Modelle und einem VPS für die kleineren. Das gibt mir Flexibilität und Ausfallsicherheit. Aber für den Einstieg reicht Option 2 oder 3 völlig aus.

Häufige Fragen

Sind lokale Modelle so gut wie ChatGPT?

Das kommt auf die Aufgabe an. Für Alltagsaufgaben – E-Mails beantworten, Texte zusammenfassen, Kundenanfragen bearbeiten – sind Modelle wie Qwen 2.5 32B oder Llama 3.1 70B auf Augenhöhe mit GPT-4o. Bei sehr kreativen Aufgaben oder extrem komplexen Schlussfolgerungen hat GPT-4o noch einen Vorsprung. Aber: 90 % der Unternehmensanwendungen brauchen keine Spitzenleistung, sondern zuverlässige, schnelle Antworten auf vorhersehbare Fragen. Und da liefern lokale Modelle ab.

Brauche ich eine teure GPU?

Nicht unbedingt. Kleine Modelle (7B-8B Parameter) laufen auch auf CPUs – langsamer, aber funktional. Für einen Chatbot, der Kundenanfragen beantwortet, reicht das oft aus. Eine GPU beschleunigt die Antwortzeit von 5-10 Sekunden auf unter 1 Sekunde. Ob du das brauchst, hängt von deinem Einsatzszenario ab. Für interne Nutzung mit wenigen Anfragen pro Stunde ist eine CPU ausreichend. Für kundengerichtete Anwendungen mit Echtzeitanforderung lohnt sich die GPU.

Kann ich das Modell auf meine Unternehmensdaten trainieren?

Ja, aber du musst unterscheiden zwischen Fine-Tuning und RAG (Retrieval-Augmented Generation). Fine-Tuning bedeutet, das Modell mit deinen Daten nachzutrainieren – das ist aufwändig und braucht Expertise. RAG ist der pragmatischere Weg: Du gibst dem Modell Zugriff auf deine Dokumente (Wissensbasis), und es nutzt diese als Kontext für seine Antworten. Das funktioniert ohne Training, ist schnell eingerichtet und lässt sich laufend aktualisieren. Für die meisten Anwendungsfälle ist RAG die bessere Wahl.

Wie aktuell sind die Antworten?

Das Sprachmodell selbst hat einen Wissensstand, der dem Zeitpunkt seines Trainings entspricht – bei aktuellen Modellen ist das meist einige Monate alt. Aber mit RAG greift der Assistent auf deine aktuelle Wissensbasis zu. Wenn du dort deine Preisliste aktualisierst, antwortet der Assistent sofort mit den neuen Preisen. Das Modellwissen ist die Grundlage, deine Daten sind die aktuelle Wahrheit. Beides zusammen ergibt zuverlässige, aktuelle Antworten.

Du willst sehen, wie sich ein lokaler KI-Assistent anfühlt? Teste unseren KI-Assistenten live – stell ihm eine Frage, und du bekommst in Sekunden eine Antwort. Ohne Login, ohne Datenerfassung. Wenn du wissen willst, in welchem größeren Kontext das läuft: 65 Docker-Container – was ich damit mache zeigt dir das Gesamtbild. Und wenn du nicht nur Fragen beantworten, sondern ganze Abläufe automatisieren willst, lies weiter bei Workflows automatisieren ohne Code.