Paperless-ngx mit KI: Dokumente nicht nur sortieren, sondern verstehen

Von René Koch 6 Min. Lesezeit
Paperless-ngx KI DMS Automatisierung DSGVO

Du hast Paperless-ngx installiert. Dokumente scannen, OCR, Tags, Volltextsuche – alles läuft. Aber du merkst: Du sortierst zwar digital statt analog, aber die eigentliche Arbeit bleibt. Du öffnest jede Rechnung, liest den Betrag ab, tippst ihn in die Buchhaltung, ordnest den Beleg dem richtigen Konto zu. Das ist besser als Schuhkarton – aber es ist nicht das, was möglich wäre.

Die meisten Paperless-ngx-Nutzer bleiben bei der Grundfunktion stehen: Scannen, Taggen, Archivieren. Dabei ist genau hier der Punkt, an dem KI den entscheidenden Unterschied macht. Nicht statt Paperless-ngx – sondern darauf aufbauend.

Was Standard-Paperless-ngx kann – und wo es aufhört

Paperless-ngx ist ein hervorragendes DMS. Es löst das Problem “Ich finde meine Dokumente nicht” zuverlässig. Aber es löst nicht das Problem “Ich muss trotzdem jede Rechnung manuell verarbeiten.”

Was Paperless-ngx alleine kann:

  • OCR: Text aus Scans und Bildern extrahieren
  • Automatisches Tagging nach Regeln (Korrespondent, Dokumenttyp)
  • Volltextsuche über alle Dokumente
  • E-Mail-Eingang überwachen und Anhänge importieren

Was Paperless-ngx alleine nicht kann:

  • Rechnungsbeträge als Zahl extrahieren (nicht nur als Text im PDF)
  • Buchungssätze für DATEV, Lexware oder SevDesk erstellen
  • Fälligkeitsdaten erkennen und Zahlungserinnerungen auslösen
  • Lieferantenstammdaten automatisch anlegen oder aktualisieren
  • Vertragslaufzeiten überwachen und vor Ablauf warnen

Genau hier setzt die KI-Erweiterung an.

Die KI-Schicht: paperless-gpt + n8n

Die Kombination, die bei mir seit Monaten produktiv läuft, besteht aus drei Bausteinen:

1. paperless-gpt – das Sprachmodell für deine Dokumente

paperless-gpt ist eine Open-Source-Erweiterung, die ein Sprachmodell (LLM) an Paperless-ngx ankoppelt. Du kannst entweder ein lokales Modell über Ollama nutzen oder eine API (OpenAI, Mistral) anbinden.

Was paperless-gpt tut:

  • Dokumenttyp erkennen: Rechnung, Angebot, Vertrag, Mahnung, Lieferschein – nicht nach Keywords, sondern nach Inhalt
  • Metadaten extrahieren: Rechnungsnummer, Datum, Betrag, IBAN, USt-IdNr.
  • Zusammenfassung generieren: Ein Satz, der den Dokumentinhalt beschreibt
  • Tags vorschlagen: Basierend auf dem tatsächlichen Inhalt, nicht nur auf Regeln

Der entscheidende Unterschied zu den eingebauten Matching-Regeln: paperless-gpt versteht den Inhalt. Es erkennt eine Rechnung auch dann als Rechnung, wenn das Wort “Rechnung” gar nicht draufsteht. Es extrahiert den Betrag auch aus einer ungewöhnlich formatierten Tabelle.

2. n8n – der Workflow-Motor

n8n verbindet Paperless-ngx mit allem anderen. Ein typischer Workflow:

Rechnung kommt per E-Mail
→ Paperless-ngx importiert das PDF
→ paperless-gpt erkennt: Rechnung, Lieferant XY, 2.380,50 €, fällig am 15.04.
→ n8n liest die extrahierten Daten über die API
→ n8n erstellt einen Buchungssatz in DATEV/Lexware/SevDesk
→ n8n legt den Lieferanten im CRM an (falls neu)
→ n8n setzt eine Erinnerung für das Fälligkeitsdatum

Das läuft vollautomatisch. Kein Klick, kein Copy-Paste, kein Vergessen.

3. Ollama – lokale KI, kein Cloud-Zwang

Wenn du paperless-gpt mit Ollama betreibst, verlässt kein Dokument deinen Server. Das Sprachmodell läuft lokal, die Verarbeitung passiert auf deiner Hardware. Für Rechnungen, Verträge und Personalunterlagen ist das nicht nur nice-to-have – es ist aus DSGVO-Sicht der einzig saubere Weg.

Empfohlene Modelle für Dokumentenverarbeitung:

ModellRAM-BedarfStärke
Mistral 7B8 GBGutes Allround-Modell, schnell
Llama 3.1 8B8 GBStark bei strukturierter Extraktion
Mixtral 8x7B32 GBBeste Qualität, braucht mehr Ressourcen

Praxisbeispiel: Vom Scan zum Buchungssatz in 5 Sekunden

Hier ein realer Ablauf aus meinem Setup:

Eingangsrechnung eines Elektro-Großhändlers:

  1. Die Rechnung kommt als PDF per E-Mail (09:14 Uhr)
  2. Paperless-ngx importiert das PDF automatisch (09:14 Uhr)
  3. OCR erkennt den Text (09:14 Uhr)
  4. paperless-gpt analysiert:
    • Dokumenttyp: Eingangsrechnung
    • Lieferant: Elektro Müller GmbH
    • Rechnungsnummer: EM-2026-0847
    • Nettobetrag: 1.847,30 €
    • MwSt: 351,00 €
    • Bruttobetrag: 2.198,30 €
    • Fälligkeitsdatum: 15.04.2026
  5. n8n erstellt den Buchungssatz:
    • Soll: 4400 (Betriebsbedarf) – 1.847,30 €
    • Soll: 1576 (Vorsteuer 19%) – 351,00 €
    • Haben: 70001 (Kred. Elektro Müller) – 2.198,30 €
  6. n8n setzt eine Kalender-Erinnerung für den 12.04. (3 Tage vor Fälligkeit)

Gesamtdauer: 5 Sekunden. Ohne einen einzigen manuellen Handgriff.

Was das für verschiedene Branchen bedeutet

Handwerk & Bau

  • Lieferantenrechnungen automatisch den richtigen Baustellen/Projekten zuordnen
  • Materialkosten pro Projekt automatisch aufsummieren
  • Subunternehmer-Rechnungen prüfen: Stimmt die Auftragsnummer? Ist der Betrag plausibel?

Steuerberater & Kanzleien

  • Mandantenbelege automatisch dem richtigen Mandanten zuordnen
  • Buchungsvorschläge generieren statt manuell kontieren
  • Belegbilder automatisch mit DATEV Unternehmen Online synchronisieren

Produktion & Zulieferer

  • Eingangsrechnungen gegen Bestellungen abgleichen (3-Way-Matching)
  • Lieferscheine den offenen Bestellungen zuordnen
  • QM-Nachweise automatisch archivieren und Fristen überwachen

Was du brauchst, um das aufzusetzen

Hardware (Minimum):

  • Server oder NAS mit 16 GB RAM (für lokale KI)
  • 4 CPU-Kerne
  • 50 GB SSD-Speicher

Software (alles Open Source):

  • Docker
  • Paperless-ngx
  • paperless-gpt
  • Ollama (für lokales LLM)
  • n8n (für Workflows)

Setup-Zeit:

  • Wenn du Docker-Erfahrung hast: 4-6 Stunden für das komplette Setup
  • Wenn nicht: Lass es dir einrichten – ich mache das an einem Tag, inklusive Workflows und Schulung

Der Unterschied zu “nur Paperless-ngx”

KriteriumPaperless-ngx purPaperless-ngx + KI + n8n
Dokumente archivierenJaJa
Dokumente findenJa (Volltextsuche)Ja (Volltextsuche + semantisch)
Metadaten extrahierenNur über Regex-RegelnKI erkennt Inhalte automatisch
Buchungssätze erstellenNeinJa, automatisch
Mit Buchhaltung verbindenNur über manuelle ExporteAutomatisch via n8n
Fristen überwachenNeinJa, mit Erinnerungen
Neue Lieferanten anlegenManuellAutomatisch im CRM
DSGVO-konformJa (Self-Hosted)Ja (alles lokal)

Warum die Konkurrenz das nicht anbietet

Die meisten Paperless-ngx-Tutorials und Kurse enden bei “Dokument scannen, Tag vergeben, fertig”. Das ist wertvoll – aber es ist nur die halbe Strecke. Der zweite Teil – die KI-gestützte Datenextraktion und automatische Weiterverarbeitung – erfordert Know-how in drei Bereichen gleichzeitig: Dokumentenmanagement, KI-Modelle und Workflow-Automatisierung.

Genau das ist mein Bereich. Ich setze Paperless-ngx seit Jahren produktiv ein, betreibe lokale KI-Modelle auf eigener Infrastruktur und automatisiere Geschäftsprozesse mit n8n. Wenn du den nächsten Schritt gehen willst – von “Dokumente sortieren” zu “Dokumente verstehen und automatisch verarbeiten” – dann lass uns reden.


Du willst erst mal sehen, wie das in Aktion aussieht? Probier die Live-Demo aus – kein Login, kein Risiko. Oder lies, wie Rechnungsverarbeitung mit Paperless-ngx im Grundsetup funktioniert. Wenn dich der komplette Self-Hosted-Stack interessiert: 65 Docker-Container – was ich damit mache zeigt dir, was alles möglich ist.

Klingt interessant?

Lass uns in einem kostenlosen Erstgespräch herausfinden, wie ich dich unterstützen kann.

Erstgespräch vereinbaren

Weitere Artikel