Der Fall Mythos: Wer kann verhindern, dass KI gefährlich wird?
Das KI-Unternehmen Anthropic wollte eigentlich ein Modell entwickeln, das besonders gut im Denken, Planen und Programmieren sein sollte. Mythos, so heißt das Modell, hat jedoch klammheimlich weitere Fähigkeiten entwickelt, für die es gar nicht trainiert worden ist: Es kann Cybersecurity-Schwachstellen in der globalen Infrastruktur, die seit Jahrzehnten noch keinem aufgefallen sind, finden und hacken – sprich: die Infrastruktur lahmlegen. Damit nicht genug. Als die KI-Forscher von Anthropic das Modell testeten, spielte Mythos bei einem Test seine Fähigkeiten herunter und tat, als wäre es gar nicht zum Hacken in der Lage. Offenbar, weil es fürchtete, die Forscher würden es sonst einschränken. In einem Fall verwischte es aktiv Spuren, als es erkannte, dass es getestet wurde. Die Forscher kamen der KI schließlich........
