Ein realer Vorfall, eine Stunde Zeitverlust und die Gewissheit: KI scheitert oft krachend an technischen Fakten. (Achtung: Es folgt ein technischer Beitrag.)

TL;DR

Ich wollte eine automatische Eingangsbestätigung (Autoreply) für ein Postfach in Microsoft Exchange Online via Mailflow-Regel umsetzen. Microsoft Copilot und ChatGPT behaupteten beide steif und fest, die Aktion „Notify the recipient with a message“ würde eine Nachricht an den Absender schicken. Das ist aber falsch. Die Funktion tut genau das, was ihr Name sagt: Sie benachrichtigt den Empfänger. Ergebnis: Eine Stunde Arbeit für die Tonne.


Bilder funktionieren mit KI klar besser. Bei Daten und Fakten, die klar dokumentiert sind, scheitert sie noch zu oft!

Ausgangslage

  • Ziel: Jede externe Mail an jemand@firma.de soll automatisch eine Eingangsbestätigung erhalten.
  • Lösungsweg: Exchange-Bordmittel (Mailflow-Regeln).
  • Anforderung: Kein Reply-All, keine OOF-Loops, Ausschluss interner Absender.

Die Chronologie des Scheiterns

Beim Entwurf der Transportregel stellte sich die Frage nach der korrekten Aktion für die Benachrichtigung.

  1. Copilots Behauptung: Auf Nachfrage erklärte mir Copilot, die Aktion „Notify the recipient with a message“ schicke die Mail an den Absender. Die Bezeichnung sei lediglich irreführend durch die Microsoft-Entwickler gewählt worden.
  2. Die Verifikation: Da ich misstrauisch war, legte ich den Regel-Entwurf zusätzlich ChatGPT vor. Ohne meine Zielsetzung zu nennen, fragte ich, was diese Regel tut. ChatGPT lieferte die identische Lüge: Die Aktion sende eine Antwort an den Absender.
  3. Der Test: Ich vertraute der doppelten Bestätigung. Die Realität folgte prompt: Die Benachrichtigung ging an den Empfänger der Originalmail.

Was technisch korrekt ist

Die Bezeichnung im User Interface ist absolut präzise. „Notify the recipient with a message“ benachrichtigt den Empfänger. Punkt. Es gibt hier keine Übersetzungsfehler oder versteckten Logiken. Die KI-Aussagen waren schlichtweg falsch. Unabhängig von einander.

Das Problem: Halluzination mit System

Was mich an diesem Vorfall massiv stört:

  • Selbstsicherheit statt Präzision: Die Antworten klangen technisch fundiert, waren aber faktisch Müll.
  • Bestätigung trotz Nachfrage: Selbst meine explizite kritische Rückfrage führte nicht zur Korrektur, sondern zur Untermauerung der Falschaussage.
  • Das Versagen der Zweitmeinung: Dass zwei unabhängige Systeme (Copilot und ChatGPT) den exakt gleichen Fehler mit der fast identischen (falschen) Begründung reproduzieren, ist neu und gefährlich. Die zweite KI hat die Fehlannahme nicht korrigiert, sondern verfestigt.

Fazit

KI kann Texte zusammenfassen oder umformulieren. Sobald es um harte technische Fakten und Konfigurationen geht, bleibt sie ein Risikofaktor. Die zusätzliche Absicherung durch eine zweite KI bot hier keinen Mehrwert, sondern schuf eine falsche Sicherheit.

Lektion gelernt: Traue keinem System, das „behauptet“, statt zu wissen. Im Zweifel hilft nur der Blick in die offizielle Dokumentation oder der sofortige Test in der Sandbox – niemals das pure Vertrauen in die KI-Logik.

Hätten Gemini oder Perplexity anders geantwortet……..?