Du bist auf der Baustelle. In einem Kundengespräch. Im Auto. Im Keller, wo der Empfang schlecht ist. Und genau dann ruft jemand an, der einen Auftrag vergeben will. Du siehst die verpasste Nummer erst Stunden später. Rufst zurück. Mailbox. Am nächsten Tag nochmal. Keine Antwort. Der Auftrag ist weg.
Das passiert nicht einmal im Monat. Das passiert jede Woche. Und es kostet dich bares Geld.
Ich habe mir deshalb einen KI-gestützten Telefonassistenten gebaut. Ohne externen Dienst, ohne Callcenter, ohne monatliche Gebühren. Mit einer Fritz!Box, n8n und zwei KI-Schnittstellen. In diesem Artikel zeige ich dir Schritt für Schritt, wie das funktioniert – und wie du es nachmachen kannst.
Das Problem: Du bist nie erreichbar
Wenn du ein kleines Unternehmen führst, bist du selten am Schreibtisch. Handwerker sind auf Baustellen. Berater sitzen in Workshops. Freelancer stecken in konzentrierter Arbeit. Ein-Personen-Unternehmen haben schlicht niemanden, der das Telefon abnimmt.
Gleichzeitig erwarten Anrufer, dass jemand rangeht. Oder zumindest, dass etwas Sinnvolles passiert, wenn sie auf den Anrufbeantworter sprechen. Die Realität sieht anders aus: Die meisten hören ihre Mailbox erst abends ab. Oder morgen. Oder nie.
Das Problem ist nicht der verpasste Anruf. Das Problem ist die verpasste Information. Wer hat angerufen? Was wollte die Person? Wie dringend war es? Bis du das weißt, sind Stunden vergangen. Und in dieser Zeit hat der Anrufer vielleicht schon jemand anderen gefunden.
Klassische Lösungen wie Telefonsekretariate kosten 80 bis 200 Euro im Monat. Virtuelle Assistenten sind günstiger, aber selten sofort verfügbar. Und die meisten KI-Telefondienste schicken deine Gesprächsdaten durch fremde Server in den USA.
Ich wollte etwas Besseres. Etwas, das schnell ist, nichts kostet und meine Daten auf meinem Server lässt.
Die Lösung: Fritz!Box + KI
Die Idee ist simpel: Der Anrufbeantworter deiner Fritz!Box nimmt den Anruf entgegen. Die Nachricht wird als WAV-Datei per E-Mail an dich geschickt – das kann jede Fritz!Box von Haus aus. Ab da übernimmt ein n8n-Workflow: Er empfängt die Mail, extrahiert die Audiodatei, lässt sie von Whisper transkribieren und von Claude zusammenfassen. Am Ende bekommst du eine strukturierte Benachrichtigung – mit Name, Firma, Anliegen, Dringlichkeit und Rückrufnummer. Innerhalb von Sekunden nach dem Auflegen.
Kein manuelles Abhören. Kein Raten, was der Anrufer genuschelt hat. Kein “Ich höre das heute Abend ab”. Du liest die Zusammenfassung auf dem Handy und weißt sofort, ob du zurückrufen musst oder ob es warten kann.
Was du brauchst
Bevor wir loslegen, hier die Checkliste:
- Fritz!Box mit Anrufbeantworter-Funktion (funktioniert mit jedem Modell, das einen AB hat – Fritz!Box 7590, 7530, 7490 und viele weitere)
- E-Mail-Weiterleitung in der Fritz!Box konfiguriert (damit Sprachnachrichten als WAV per Mail ankommen)
- n8n-Instanz (self-hosted oder n8n Cloud)
- Whisper API-Zugang (OpenAI API oder self-hosted Whisper)
- Claude API-Zugang (Anthropic API)
Die Kosten: 0 Euro, wenn du Fritz!Box und n8n bereits hast. Die API-Kosten für Whisper und Claude liegen bei wenigen Cent pro Anruf. Eine typische 30-Sekunden-Nachricht kostet dich unter 0,01 Euro für die Transkription und unter 0,02 Euro für die Zusammenfassung. Selbst bei 20 Anrufen am Tag bleibst du unter einem Euro im Monat.
Schritt 1: Fritz!Box Anrufbeantworter einrichten
Öffne die Fritz!Box-Oberfläche unter fritz.box und navigiere zu Telefonie → Anrufbeantworter.
Anrufbeantworter aktivieren:
- Klicke auf “Anrufbeantworter einrichten” oder bearbeite den bestehenden
- Wähle die Rufnummern aus, für die der AB gelten soll
- Stelle die Verzögerung ein – ich empfehle 15 Sekunden (4-5 Klingeltöne)
- Nimm eine eigene Begrüßung auf (dazu gleich mehr)
E-Mail-Versand aktivieren:
- Unter dem Anrufbeantworter findest du die Option “Nachrichten per E-Mail senden”
- Trage deine E-Mail-Adresse ein – aber nicht deine persönliche, sondern eine dedizierte Adresse, die n8n überwacht (z.B.
telefon@deine-domain.de) - Aktiviere “Nachricht nach dem Versand auf der FRITZ!Box löschen” – so bleibt der Speicher frei
E-Mail-Einstellungen prüfen:
Unter System → Push Service → Absender muss ein SMTP-Server konfiguriert sein. Die Fritz!Box braucht das, um E-Mails senden zu können. Die meisten E-Mail-Provider funktionieren hier problemlos.
Teste den Anrufbeantworter, indem du dich selbst anrufst. Sprich eine kurze Nachricht auf. Wenn die WAV-Datei als E-Mail-Anhang bei dir ankommt, ist der erste Schritt erledigt.
Schritt 2: n8n Workflow erstellen
Jetzt kommt der spannende Teil. Der n8n-Workflow besteht aus 5-6 Nodes und macht die ganze Magie:
Node 1 – Email Trigger (IMAP)
Richte einen IMAP-Trigger ein, der das Postfach telefon@deine-domain.de überwacht. Sobald eine neue Mail von der Fritz!Box eingeht, startet der Workflow. Filtere auf den Absender deiner Fritz!Box, damit nicht jede beliebige Mail den Workflow auslöst.
Node 2 – Attachment extrahieren
Die Fritz!Box schickt die Sprachnachricht als WAV-Anhang. Nutze den “Extract Attachments”-Node, um die WAV-Datei aus der Mail zu lösen. Du bekommst die Audiodatei als Binary Data.
Node 3 – Whisper Transkription
Sende die WAV-Datei an die Whisper API. Wenn du die OpenAI API nutzt:
POST https://api.openai.com/v1/audio/transcriptions
Model: whisper-1
Language: de
Whisper liefert dir den gesprochenen Text als String zurück. Die Qualität ist beeindruckend – selbst genuschelte Handynachrichten mit Baustellenlärm im Hintergrund werden zuverlässig erkannt.
Wenn du Whisper self-hosted betreibst (z.B. mit faster-whisper im Docker-Container), zeigst du den HTTP-Request einfach auf deinen eigenen Server. Dann verlassen die Audiodaten dein Netzwerk nicht einmal für die Transkription.
Node 4 – Claude Zusammenfassung
Hier wird es richtig nützlich. Schicke den transkribierten Text an die Claude API mit einem präzisen Prompt:
Analysiere diese Telefonnachricht und extrahiere folgende Informationen:
- Name des Anrufers
- Firma/Unternehmen (falls genannt)
- Grund des Anrufs
- Dringlichkeit (hoch/mittel/niedrig)
- Rückrufnummer (falls genannt)
- Empfohlene Aktion (z.B. "Heute zurückrufen", "Angebot senden", "Kann warten")
Fasse die Nachricht in 2-3 Sätzen zusammen.
Transkription: [TEXT]
Claude versteht den Kontext erstaunlich gut. Auch wenn der Anrufer nur sagt “Ja, hallo, hier ist der Müller von der Schreinerei, rufen Sie mich mal zurück wegen dem Angebot” – Claude erkennt: Name, Firma, Anliegen (Angebot besprechen), Dringlichkeit (mittel) und empfiehlt dir, zeitnah zurückzurufen.
Node 5 – Benachrichtigung senden
Den letzten Schritt passt du an deine Präferenz an. Möglichkeiten:
- E-Mail an dich mit der formatierten Zusammenfassung
- Push-Nachricht über Ntfy, Pushover oder Gotify
- Messenger über Signal, Telegram oder Matrix
- CRM-Eintrag direkt in deinem CRM-System
Ich nutze eine Kombination: Eine Push-Nachricht auf dem Handy für sofortige Sichtbarkeit und parallel einen Eintrag im CRM mit allen Details. So geht nichts verloren und ich sehe auf dem Sperrbildschirm sofort, wer angerufen hat und was los ist.
Schritt 3: Die Zusammenfassung
Was Claude aus einer typischen Nachricht macht, sieht so aus:
Eingehende Sprachnachricht (Transkription):
“Ja hallo, hier spricht Thomas Weber von der Weber Elektrotechnik aus Freiburg. Wir hatten letzte Woche telefoniert wegen der Digitalisierung unserer Auftragszettel. Ich wollte fragen, ob Sie mir da mal ein Angebot schicken könnten. Meine Nummer ist 0761 123 456 78. Wäre schön, wenn Sie sich diese Woche noch melden könnten. Danke, tschüss.”
Zusammenfassung von Claude:
| Feld | Inhalt |
|---|---|
| Name | Thomas Weber |
| Firma | Weber Elektrotechnik, Freiburg |
| Anliegen | Angebot für Digitalisierung der Auftragszettel (Folgekontakt) |
| Dringlichkeit | Mittel – erwartet Antwort diese Woche |
| Rückrufnummer | 0761 123 456 78 |
| Empfohlene Aktion | Angebot erstellen und diese Woche zurückrufen |
Statt eine kratzige Sprachnachricht abzuhören und dir Stichpunkte auf einen Zettel zu kritzeln, hast du innerhalb von Sekunden alle relevanten Informationen strukturiert auf dem Bildschirm. Du weißt sofort, was zu tun ist.
Das funktioniert auch bei unstrukturierten Nachrichten. Wenn jemand nur sagt “Hier ist Schmidt, rufen Sie mal zurück”, erkennt Claude, dass Name und Rückrufnummer fehlen und die Dringlichkeit unklar ist. Die Empfehlung lautet dann: “Rückrufnummer aus Anrufliste ermitteln und zurückrufen.”
Die Ansage — so klingt sie professionell
Die beste Technik bringt nichts, wenn deine Ansage schlecht ist. Die Ansage entscheidet, ob der Anrufer eine Nachricht hinterlässt – oder einfach auflegt.
Drei Regeln für eine gute Ansage:
- Sag, wer du bist und was du machst – der Anrufer soll wissen, dass er richtig ist
- Erkläre kurz, warum du nicht rangehst – das nimmt den Frust
- Gib eine Alternative – Terminbuchung, Website, Rückruf-Versprechen
Meine Ansage, die im Einsatz ist:
“Hallo, du erreichst René Koch – KI-Beratung und Prozessautomatisierung für Unternehmen. Ich bin gerade in einem Gespräch oder auf einer Baustelle. Hinterlasse mir bitte deinen Namen, deine Nummer und worum es geht – ich melde mich noch heute zurück. Oder buche direkt einen Termin unter rene-koch.com. Bis gleich!”
Warum funktioniert das? Der Anrufer weiß sofort: Richtige Nummer. Die Person ist beschäftigt, nicht desinteressiert. Es gibt ein klares Versprechen (“noch heute zurück”). Und es gibt eine Alternative für Ungeduldige (Terminbuchung).
Das “Bis gleich!” am Ende ist bewusst gewählt. Es signalisiert: Ich melde mich bald. Nicht “Auf Wiederhören” – das klingt nach Abschied. “Bis gleich” klingt nach Nähe.
Was das in der Praxis bringt
Ich nutze dieses System seit Monaten selbst. Hier ist, was sich verändert hat:
Reaktionszeit: 30 Minuten statt nächster Tag. Früher habe ich Sprachnachrichten abends gesammelt abgehört und dann am nächsten Morgen zurückgerufen. Jetzt sehe ich die Zusammenfassung als Push-Nachricht und kann in der nächsten Pause reagieren. Das ist der Unterschied zwischen “Der meldet sich schnell” und “Der meldet sich irgendwann”.
Kein verpasster Lead mehr. Wenn jemand eine Nachricht hinterlässt, weiß ich innerhalb von Sekunden Bescheid. Nicht nach Stunden. Ich kann priorisieren: Dringender Auftrag? Sofort zurückrufen. Allgemeine Frage? Kann bis morgen warten. Werbeanruf? Ignorieren.
Professioneller Eindruck. Anrufer bekommen eine saubere Ansage, hinterlassen eine Nachricht und werden am selben Tag zurückgerufen. Das ist mehr als die meisten Wettbewerber bieten. Gerade bei kleinen Unternehmen, wo der Chef noch selbst ans Telefon geht, macht das einen echten Unterschied.
Dokumentation im CRM. Jeder Anruf wird automatisch dokumentiert. Wenn der Kunde zwei Wochen später nochmal anruft, sehe ich sofort: “Ah, der Weber aus Freiburg wegen der Auftragszettel. Hatte ich ein Angebot geschickt?” Kein Zettelchaos, kein “Wer war das nochmal?”
Kosten: praktisch null. Die Fritz!Box steht sowieso da. n8n läuft sowieso. Die API-Kosten für Whisper und Claude liegen bei ein paar Cent pro Nachricht. Selbst bei reger Nutzung ist das unter 5 Euro im Monat. Ein Telefonsekretariat kostet das Zwanzigfache.
Für wen sich das lohnt
Dieses Setup ist nicht für jedes Unternehmen sinnvoll. Wenn du ein Büro mit Empfang hast, brauchst du das nicht. Aber wenn einer dieser Punkte auf dich zutrifft, lohnt es sich:
-
Handwerksbetriebe: Du bist den ganzen Tag auf Baustellen. Dein Handy klingelt, aber du steckst gerade in einer Wand. Wenn du abends die drei verpassten Anrufe siehst, sind die Nummern ohne Kontext. Mit dem KI-Assistenten weißt du: Anruf 1 war der Bauherr wegen Terminverschiebung (dringend), Anruf 2 ein neuer Interessent für eine Badsanierung (Angebot erstellen), Anruf 3 ein Lieferant wegen Materialbestellung (kann morgen warten).
-
Berater und Coaches: Du bist in Workshops, Gesprächen, Fokusarbeit. Du kannst nicht alle 20 Minuten aufs Handy schauen. Aber nach der Session siehst du sofort, was angefallen ist.
-
Freelancer und Solo-Selbstständige: Du bist Geschäftsführer, Buchhalter, Marketing-Abteilung und Kundenservice in einer Person. Jede Entlastung zählt. Und ein KI-Assistent, der deine Anrufe zusammenfasst, ist eine enorme Entlastung.
-
Kleine Kanzleien und Praxen: Wenn die eine Mitarbeiterin am Empfang gerade im Gespräch ist oder Mittagspause hat, springt der KI-Assistent ein. Keine verpassten Mandanten- oder Patientenanrufe.
-
Ein-Mann-IT-Unternehmen: Du steckst in einer SSH-Session und willst nicht rausgerissen werden. Der Assistent dokumentiert, du priorisierst später.
Fazit
Du brauchst kein Callcenter, keinen teuren Telefondienst und kein kompliziertes Setup. Eine Fritz!Box, die du wahrscheinlich schon hast, ein n8n-Workflow mit 5-6 Nodes und zwei API-Schnittstellen reichen aus, um einen Telefonassistenten zu bauen, der besser funktioniert als die meisten kostenpflichtigen Dienste.
Deine Telefondaten bleiben auf deinem Server. Die Kosten sind minimal. Und du verpasst keinen wichtigen Anruf mehr – egal ob du auf der Baustelle stehst, im Kundengespräch sitzt oder einfach mal Feierabend hast.
Ich nutze dieses System selbst. Jeden Tag. Es ist eines der Tools, die ich in meiner eigenen KI-Transparenz-Dokumentation führe – weil ich finde, dass man offen damit umgehen sollte, wo man KI einsetzt.
Wenn du Hilfe beim Einrichten brauchst oder das System für dein Unternehmen anpassen willst – buche einen Termin und wir setzen das gemeinsam auf.