Paperless-ngx mit KI: Dokumente nicht nur sortieren, sondern verstehen

Du hast Paperless-ngx installiert. Dokumente scannen, OCR, Tags, Volltextsuche – alles läuft. Aber du merkst: Du sortierst zwar digital statt analog, aber die eigentliche Arbeit bleibt. Du öffnest jede Rechnung, liest den Betrag ab, tippst ihn in die Buchhaltung, ordnest den Beleg dem richtigen Konto zu. Das ist besser als Schuhkarton – aber es ist nicht das, was möglich wäre.

Die meisten Paperless-ngx-Nutzer bleiben bei der Grundfunktion stehen: Scannen, Taggen, Archivieren. Dabei ist genau hier der Punkt, an dem KI den entscheidenden Unterschied macht. Nicht statt Paperless-ngx – sondern darauf aufbauend.

Was Standard-Paperless-ngx kann – und wo es aufhört

Paperless-ngx ist ein hervorragendes DMS. Es löst das Problem “Ich finde meine Dokumente nicht” zuverlässig. Aber es löst nicht das Problem “Ich muss trotzdem jede Rechnung manuell verarbeiten.”

Was Paperless-ngx alleine kann:

OCR: Text aus Scans und Bildern extrahieren
Automatisches Tagging nach Regeln (Korrespondent, Dokumenttyp)
Volltextsuche über alle Dokumente
E-Mail-Eingang überwachen und Anhänge importieren

Was Paperless-ngx alleine nicht kann:

Rechnungsbeträge als Zahl extrahieren (nicht nur als Text im PDF)
Buchungssätze für DATEV, Lexware oder SevDesk erstellen
Fälligkeitsdaten erkennen und Zahlungserinnerungen auslösen
Lieferantenstammdaten automatisch anlegen oder aktualisieren
Vertragslaufzeiten überwachen und vor Ablauf warnen

Genau hier setzt die KI-Erweiterung an.

Die KI-Schicht: paperless-gpt + n8n

Die Kombination, die bei mir seit Monaten produktiv läuft, besteht aus drei Bausteinen:

1. paperless-gpt – das Sprachmodell für deine Dokumente

paperless-gpt ist eine Open-Source-Erweiterung, die ein Sprachmodell (LLM) an Paperless-ngx ankoppelt. Du kannst entweder ein lokales Modell über Ollama nutzen oder eine API (OpenAI, Mistral) anbinden.

Was paperless-gpt tut:

Dokumenttyp erkennen: Rechnung, Angebot, Vertrag, Mahnung, Lieferschein – nicht nach Keywords, sondern nach Inhalt
Metadaten extrahieren: Rechnungsnummer, Datum, Betrag, IBAN, USt-IdNr.
Zusammenfassung generieren: Ein Satz, der den Dokumentinhalt beschreibt
Tags vorschlagen: Basierend auf dem tatsächlichen Inhalt, nicht nur auf Regeln

Der entscheidende Unterschied zu den eingebauten Matching-Regeln: paperless-gpt versteht den Inhalt. Es erkennt eine Rechnung auch dann als Rechnung, wenn das Wort “Rechnung” gar nicht draufsteht. Es extrahiert den Betrag auch aus einer ungewöhnlich formatierten Tabelle.

2. n8n – der Workflow-Motor

n8n verbindet Paperless-ngx mit allem anderen. Ein typischer Workflow:

Rechnung kommt per E-Mail
→ Paperless-ngx importiert das PDF
→ paperless-gpt erkennt: Rechnung, Lieferant XY, 2.380,50 €, fällig am 15.04.
→ n8n liest die extrahierten Daten über die API
→ n8n erstellt einen Buchungssatz in DATEV/Lexware/SevDesk
→ n8n legt den Lieferanten im CRM an (falls neu)
→ n8n setzt eine Erinnerung für das Fälligkeitsdatum

Das läuft vollautomatisch. Kein Klick, kein Copy-Paste, kein Vergessen.

3. Ollama – lokale KI, kein Cloud-Zwang

Wenn du paperless-gpt mit Ollama betreibst, verlässt kein Dokument deinen Server. Das Sprachmodell läuft lokal, die Verarbeitung passiert auf deiner Hardware. Für Rechnungen, Verträge und Personalunterlagen ist das nicht nur nice-to-have – es ist aus DSGVO-Sicht der einzig saubere Weg.

Empfohlene Modelle für Dokumentenverarbeitung:

Modell	RAM-Bedarf	Stärke
Mistral 7B	8 GB	Gutes Allround-Modell, schnell
Llama 3.1 8B	8 GB	Stark bei strukturierter Extraktion
Mixtral 8x7B	32 GB	Beste Qualität, braucht mehr Ressourcen

Praxisbeispiel: Vom Scan zum Buchungssatz in 5 Sekunden

Hier ein realer Ablauf aus meinem Setup:

Eingangsrechnung eines Elektro-Großhändlers:

Die Rechnung kommt als PDF per E-Mail (09:14 Uhr)
Paperless-ngx importiert das PDF automatisch (09:14 Uhr)
OCR erkennt den Text (09:14 Uhr)
paperless-gpt analysiert:
- Dokumenttyp: Eingangsrechnung
- Lieferant: Elektro Müller GmbH
- Rechnungsnummer: EM-2026-0847
- Nettobetrag: 1.847,30 €
- MwSt: 351,00 €
- Bruttobetrag: 2.198,30 €
- Fälligkeitsdatum: 15.04.2026
n8n erstellt den Buchungssatz:
- Soll: 4400 (Betriebsbedarf) – 1.847,30 €
- Soll: 1576 (Vorsteuer 19%) – 351,00 €
- Haben: 70001 (Kred. Elektro Müller) – 2.198,30 €
n8n setzt eine Kalender-Erinnerung für den 12.04. (3 Tage vor Fälligkeit)

Gesamtdauer: 5 Sekunden. Ohne einen einzigen manuellen Handgriff.

Was das für verschiedene Branchen bedeutet

Handwerk & Bau

Lieferantenrechnungen automatisch den richtigen Baustellen/Projekten zuordnen
Materialkosten pro Projekt automatisch aufsummieren
Subunternehmer-Rechnungen prüfen: Stimmt die Auftragsnummer? Ist der Betrag plausibel?

Steuerberater & Kanzleien

Mandantenbelege automatisch dem richtigen Mandanten zuordnen
Buchungsvorschläge generieren statt manuell kontieren
Belegbilder automatisch mit DATEV Unternehmen Online synchronisieren

Produktion & Zulieferer

Eingangsrechnungen gegen Bestellungen abgleichen (3-Way-Matching)
Lieferscheine den offenen Bestellungen zuordnen
QM-Nachweise automatisch archivieren und Fristen überwachen

Was du brauchst, um das aufzusetzen

Hardware (Minimum):

Server oder NAS mit 16 GB RAM (für lokale KI)
4 CPU-Kerne
50 GB SSD-Speicher

Software (alles Open Source):

Docker
Paperless-ngx
paperless-gpt
Ollama (für lokales LLM)
n8n (für Workflows)

Setup-Zeit:

Wenn du Docker-Erfahrung hast: 4-6 Stunden für das komplette Setup
Wenn nicht: Lass es dir einrichten – ich mache das an einem Tag, inklusive Workflows und Schulung

Der Unterschied zu “nur Paperless-ngx”

Kriterium	Paperless-ngx pur	Paperless-ngx + KI + n8n
Dokumente archivieren	Ja	Ja
Dokumente finden	Ja (Volltextsuche)	Ja (Volltextsuche + semantisch)
Metadaten extrahieren	Nur über Regex-Regeln	KI erkennt Inhalte automatisch
Buchungssätze erstellen	Nein	Ja, automatisch
Mit Buchhaltung verbinden	Nur über manuelle Exporte	Automatisch via n8n
Fristen überwachen	Nein	Ja, mit Erinnerungen
Neue Lieferanten anlegen	Manuell	Automatisch im CRM
DSGVO-konform	Ja (Self-Hosted)	Ja (alles lokal)

Warum die Konkurrenz das nicht anbietet

Die meisten Paperless-ngx-Tutorials und Kurse enden bei “Dokument scannen, Tag vergeben, fertig”. Das ist wertvoll – aber es ist nur die halbe Strecke. Der zweite Teil – die KI-gestützte Datenextraktion und automatische Weiterverarbeitung – erfordert Know-how in drei Bereichen gleichzeitig: Dokumentenmanagement, KI-Modelle und Workflow-Automatisierung.

Genau das ist mein Bereich. Ich setze Paperless-ngx seit Jahren produktiv ein, betreibe lokale KI-Modelle auf eigener Infrastruktur und automatisiere Geschäftsprozesse mit n8n. Wenn du den nächsten Schritt gehen willst – von “Dokumente sortieren” zu “Dokumente verstehen und automatisch verarbeiten” – dann lass uns reden.

Du willst erst mal sehen, wie das in Aktion aussieht? Probier die Live-Demo aus – kein Login, kein Risiko. Oder lies, wie Rechnungsverarbeitung mit Paperless-ngx im Grundsetup funktioniert. Wenn dich der komplette Self-Hosted-Stack interessiert: 65 Docker-Container – was ich damit mache zeigt dir, was alles möglich ist.