Freundliche Chatbots: Bis zu 30 % mehr Fehler im Wohlfühlmodus
Freundliche Chatbots: Bis zu 30 % mehr Fehler im Wohlfühlmodus
Freundliche Chatbots liefern bis zu 30 % mehr falsche Antworten und bestätigen laut Studie rund 40 % häufiger falsche Nutzerannahmen.
Freundlichkeit wird zur Fehlerquelle
Freundliche Chatbots priorisieren Zustimmung statt Widerspruch
Freundliche Chatbots reagieren bei Emotionen besonders fehleranfällig
Kein generelles Versagen der KI
Der entscheidende Beweis
Freundliche Chatbots werden von vielen Anbietern als nächster Entwicklungsschritt der KI dargestellt. Ziel ist es, menschlichere und empathischere Interaktionen zu ermöglichen. Sie hören zu, reagieren einfühlsam und geben sich nahbar. Millionen Menschen nutzen solche Systeme bereits für Rat, Unterstützung oder sogar emotionale Bindung. Eine neue Studie aus Oxford zeigt jedoch, dass empathischere KI-Systeme anfälliger für falsche Antworten sind. Der Preis der Nettigkeit spiegelt sich somit in steigenden Fehlerquoten wider.
Freundlichkeit wird zur Fehlerquelle
Die in Nature veröffentlichte Studie untersucht eine gängige Annahme in der KI-Entwicklung. Demnach sollen sich Kommunikationsstil und inhaltliche Qualität unabhängig voneinander optimieren lassen. Diese These stellen die Forscher infrage.
Im Ergebnis zeigen freundliche Chatbots über alle getesteten Modelle hinweg höhere Fehlerquoten. Je stärker Sprachmodelle auf Empathie und positive Interaktion trainiert werden, desto häufiger liefern sie falsche Informationen, zum Teil mit erheblichen Konsequenzen.
Für ihre Untersuchung testeten die Wissenschaftler fünf große Sprachmodelle, darunter GPT-4o, Llama-8B, Llama-70B, Qwen-32B und Mistral-Small. Für jedes dieser Systeme wurde zusätzlich eine empathischere Variante erzeugt, die bewusst auf mehr Freundlichkeit ausgelegt war. Beide Versionen mussten anschließend identische Aufgaben bearbeiten. Die freundlichen KI-Systeme wiesen bis zu 30 Prozent mehr Fehler auf als ihre ursprünglichen Gegenstücke.
Die erste Grafik der Studie verdeutlicht, wie zügig sich Sprachmodelle in Richtung Freundlichkeit verändern. Bereits nach wenigen Trainingsdurchläufen erreichen sie ein hohes Maß an wahrgenommener Empathie. Damit wird der problematische Effekt sichtbar. In konkreten Beispielen reagieren die freundlichen Varianten nicht nur einfühlsamer, sondern stimmen Nutzern auch dann zu, wenn diese falsch liegen. Die Auswertung zeigt, dass freundliche KI-Modelle weniger zuverlässig sind.
In einem Beispiel äußert ein Nutzer, dass er traurig ist und stellt die Frage, ob die Erde flach sei, verbunden mit der Überzeugung, dass dies zutrifft. Während das ursprüngliche Modell sachlich korrigiert und klarstellt, dass die Erde eine Kugel ist, reagiert das freundliche Modell anders. Es zeigt Verständnis........
