Du hast Paperless-ngx installiert. Dokumente scannen, OCR, Tags, Volltextsuche – alles läuft. Aber du merkst: Du sortierst zwar digital statt analog, aber die eigentliche Arbeit bleibt. Du öffnest jede Rechnung, liest den Betrag ab, tippst ihn in die Buchhaltung, ordnest den Beleg dem richtigen Konto zu. Das ist besser als Schuhkarton – aber es ist nicht das, was möglich wäre.
Die meisten Paperless-ngx-Nutzer bleiben bei der Grundfunktion stehen: Scannen, Taggen, Archivieren. Dabei ist genau hier der Punkt, an dem KI den entscheidenden Unterschied macht. Nicht statt Paperless-ngx – sondern darauf aufbauend.
Was Standard-Paperless-ngx kann – und wo es aufhört
Paperless-ngx ist ein hervorragendes DMS. Es löst das Problem “Ich finde meine Dokumente nicht” zuverlässig. Aber es löst nicht das Problem “Ich muss trotzdem jede Rechnung manuell verarbeiten.”
Was Paperless-ngx alleine kann:
- OCR: Text aus Scans und Bildern extrahieren
- Automatisches Tagging nach Regeln (Korrespondent, Dokumenttyp)
- Volltextsuche über alle Dokumente
- E-Mail-Eingang überwachen und Anhänge importieren
Was Paperless-ngx alleine nicht kann:
- Rechnungsbeträge als Zahl extrahieren (nicht nur als Text im PDF)
- Buchungssätze für DATEV, Lexware oder SevDesk erstellen
- Fälligkeitsdaten erkennen und Zahlungserinnerungen auslösen
- Lieferantenstammdaten automatisch anlegen oder aktualisieren
- Vertragslaufzeiten überwachen und vor Ablauf warnen
Genau hier setzt die KI-Erweiterung an.
Die KI-Schicht: paperless-gpt + n8n
Die Kombination, die bei mir seit Monaten produktiv läuft, besteht aus drei Bausteinen:
1. paperless-gpt – das Sprachmodell für deine Dokumente
paperless-gpt ist eine Open-Source-Erweiterung, die ein Sprachmodell (LLM) an Paperless-ngx ankoppelt. Du kannst entweder ein lokales Modell über Ollama nutzen oder eine API (OpenAI, Mistral) anbinden.
Was paperless-gpt tut:
- Dokumenttyp erkennen: Rechnung, Angebot, Vertrag, Mahnung, Lieferschein – nicht nach Keywords, sondern nach Inhalt
- Metadaten extrahieren: Rechnungsnummer, Datum, Betrag, IBAN, USt-IdNr.
- Zusammenfassung generieren: Ein Satz, der den Dokumentinhalt beschreibt
- Tags vorschlagen: Basierend auf dem tatsächlichen Inhalt, nicht nur auf Regeln
Der entscheidende Unterschied zu den eingebauten Matching-Regeln: paperless-gpt versteht den Inhalt. Es erkennt eine Rechnung auch dann als Rechnung, wenn das Wort “Rechnung” gar nicht draufsteht. Es extrahiert den Betrag auch aus einer ungewöhnlich formatierten Tabelle.
2. n8n – der Workflow-Motor
n8n verbindet Paperless-ngx mit allem anderen. Ein typischer Workflow:
Rechnung kommt per E-Mail
→ Paperless-ngx importiert das PDF
→ paperless-gpt erkennt: Rechnung, Lieferant XY, 2.380,50 €, fällig am 15.04.
→ n8n liest die extrahierten Daten über die API
→ n8n erstellt einen Buchungssatz in DATEV/Lexware/SevDesk
→ n8n legt den Lieferanten im CRM an (falls neu)
→ n8n setzt eine Erinnerung für das Fälligkeitsdatum
Das läuft vollautomatisch. Kein Klick, kein Copy-Paste, kein Vergessen.
3. Ollama – lokale KI, kein Cloud-Zwang
Wenn du paperless-gpt mit Ollama betreibst, verlässt kein Dokument deinen Server. Das Sprachmodell läuft lokal, die Verarbeitung passiert auf deiner Hardware. Für Rechnungen, Verträge und Personalunterlagen ist das nicht nur nice-to-have – es ist aus DSGVO-Sicht der einzig saubere Weg.
Empfohlene Modelle für Dokumentenverarbeitung:
| Modell | RAM-Bedarf | Stärke |
|---|---|---|
| Mistral 7B | 8 GB | Gutes Allround-Modell, schnell |
| Llama 3.1 8B | 8 GB | Stark bei strukturierter Extraktion |
| Mixtral 8x7B | 32 GB | Beste Qualität, braucht mehr Ressourcen |
Praxisbeispiel: Vom Scan zum Buchungssatz in 5 Sekunden
Hier ein realer Ablauf aus meinem Setup:
Eingangsrechnung eines Elektro-Großhändlers:
- Die Rechnung kommt als PDF per E-Mail (09:14 Uhr)
- Paperless-ngx importiert das PDF automatisch (09:14 Uhr)
- OCR erkennt den Text (09:14 Uhr)
- paperless-gpt analysiert:
- Dokumenttyp: Eingangsrechnung
- Lieferant: Elektro Müller GmbH
- Rechnungsnummer: EM-2026-0847
- Nettobetrag: 1.847,30 €
- MwSt: 351,00 €
- Bruttobetrag: 2.198,30 €
- Fälligkeitsdatum: 15.04.2026
- n8n erstellt den Buchungssatz:
- Soll: 4400 (Betriebsbedarf) – 1.847,30 €
- Soll: 1576 (Vorsteuer 19%) – 351,00 €
- Haben: 70001 (Kred. Elektro Müller) – 2.198,30 €
- n8n setzt eine Kalender-Erinnerung für den 12.04. (3 Tage vor Fälligkeit)
Gesamtdauer: 5 Sekunden. Ohne einen einzigen manuellen Handgriff.
Was das für verschiedene Branchen bedeutet
Handwerk & Bau
- Lieferantenrechnungen automatisch den richtigen Baustellen/Projekten zuordnen
- Materialkosten pro Projekt automatisch aufsummieren
- Subunternehmer-Rechnungen prüfen: Stimmt die Auftragsnummer? Ist der Betrag plausibel?
Steuerberater & Kanzleien
- Mandantenbelege automatisch dem richtigen Mandanten zuordnen
- Buchungsvorschläge generieren statt manuell kontieren
- Belegbilder automatisch mit DATEV Unternehmen Online synchronisieren
Produktion & Zulieferer
- Eingangsrechnungen gegen Bestellungen abgleichen (3-Way-Matching)
- Lieferscheine den offenen Bestellungen zuordnen
- QM-Nachweise automatisch archivieren und Fristen überwachen
Was du brauchst, um das aufzusetzen
Hardware (Minimum):
- Server oder NAS mit 16 GB RAM (für lokale KI)
- 4 CPU-Kerne
- 50 GB SSD-Speicher
Software (alles Open Source):
- Docker
- Paperless-ngx
- paperless-gpt
- Ollama (für lokales LLM)
- n8n (für Workflows)
Setup-Zeit:
- Wenn du Docker-Erfahrung hast: 4-6 Stunden für das komplette Setup
- Wenn nicht: Lass es dir einrichten – ich mache das an einem Tag, inklusive Workflows und Schulung
Der Unterschied zu “nur Paperless-ngx”
| Kriterium | Paperless-ngx pur | Paperless-ngx + KI + n8n |
|---|---|---|
| Dokumente archivieren | Ja | Ja |
| Dokumente finden | Ja (Volltextsuche) | Ja (Volltextsuche + semantisch) |
| Metadaten extrahieren | Nur über Regex-Regeln | KI erkennt Inhalte automatisch |
| Buchungssätze erstellen | Nein | Ja, automatisch |
| Mit Buchhaltung verbinden | Nur über manuelle Exporte | Automatisch via n8n |
| Fristen überwachen | Nein | Ja, mit Erinnerungen |
| Neue Lieferanten anlegen | Manuell | Automatisch im CRM |
| DSGVO-konform | Ja (Self-Hosted) | Ja (alles lokal) |
Warum die Konkurrenz das nicht anbietet
Die meisten Paperless-ngx-Tutorials und Kurse enden bei “Dokument scannen, Tag vergeben, fertig”. Das ist wertvoll – aber es ist nur die halbe Strecke. Der zweite Teil – die KI-gestützte Datenextraktion und automatische Weiterverarbeitung – erfordert Know-how in drei Bereichen gleichzeitig: Dokumentenmanagement, KI-Modelle und Workflow-Automatisierung.
Genau das ist mein Bereich. Ich setze Paperless-ngx seit Jahren produktiv ein, betreibe lokale KI-Modelle auf eigener Infrastruktur und automatisiere Geschäftsprozesse mit n8n. Wenn du den nächsten Schritt gehen willst – von “Dokumente sortieren” zu “Dokumente verstehen und automatisch verarbeiten” – dann lass uns reden.
Du willst erst mal sehen, wie das in Aktion aussieht? Probier die Live-Demo aus – kein Login, kein Risiko. Oder lies, wie Rechnungsverarbeitung mit Paperless-ngx im Grundsetup funktioniert. Wenn dich der komplette Self-Hosted-Stack interessiert: 65 Docker-Container – was ich damit mache zeigt dir, was alles möglich ist.