Illustration, die das Konzept der KI veranschaulicht, wie anonyme Benutzeridentitäten durch eine digitale Figur und vernetzte Datenpunkte aufgedeckt werden.

Die Privatsphäre ist tot: KI kann jetzt anonyme Nutzer entlarven

Forschende der ETH Zürich, von Anthropic und des MATS-Programms haben eine KI-Methode entwickelt, die anonyme Online-Nutzer entlarven kann, indem sie deren Schreibmuster analysiert und diese über riesige Datensätze hinweg abgleicht. Die Studie von 2024 demonstriert, wie große Sprachmodelle systematisch identifizierende Merkmale aus Texten extrahieren und reale Identitäten mit hoher Genauigkeit bestimmen können, wodurch der Privatsphäreschutz, der Internetnutzer historisch geschützt hat – insbesondere verletzliche Bevölkerungsgruppen –, effektiv untergraben wird.

Die bahnbrechende Technologie erzielte bemerkenswerte Erfolgsquoten in Tests unter realen Bedingungen. Der KI-Agent identifizierte erfolgreich 67% der 338 Hacker News-Nutzer mit 90% Präzision, indem er laut der auf arXiv veröffentlichten Forschung eigenständig Web-Suchwerkzeuge nutzte. In Open-World-Szenarien, die Profile plattformübergreifend verknüpfen, erreichte das System einen Recall von 45,1% bei 99% Präzision, wenn Hacker News-Konten mit LinkedIn-Profilen abgeglichen wurden; damit übertraf es klassische Methoden, die lediglich 0,1% Recall erzielten.

Das System verwendet eine vierstufige Pipeline namens ESRC (Extract, Search, Reason, Calibrate), die unstrukturierten Text verarbeitet, um identitätsrelevante Merkmale zu extrahieren. Die Technologie nutzt führende Sprachmodelle, darunter die Gemini-Familie, OpenAIs GPT-Serie und Grok 4.1 Fast, um Demografie, Interessen und Schreibmuster zu analysieren. Der Agent führt anschließend Nearest-Neighbor-Suchen in riesigen Datenbanken durch, bevor er Übereinstimmungen anhand von Wahrscheinlichkeiten bewertet und Konfidenzwerte zuweist.

Gefährdete Bevölkerungsgruppen

Der Verlust der Online-Pseudonymität birgt unmittelbare Bedrohungen für Gruppen, die zu ihrer Sicherheit auf Anonymität angewiesen sind. Whistleblower sowie Journalistinnen und Journalisten riskieren Vergeltungsmaßnahmen für das Aufdecken von Fehlverhalten, während Aktivistinnen und Aktivisten Repressionen durch autoritäre Regime fürchten könnten. Überlebende von Missbrauch, die Pseudonyme verwenden, um ihren Tätern zu entkommen, und Personen, die sich mit sensiblen Identitätsthemen befassen, sehen sich nun einer beispiellosen Anfälligkeit für automatisierte Doxxing-Kampagnen und staatlich geförderte Überwachung gegenüber.

Bei groß angelegten Tests an 10.000 Reddit-Profilen identifizierte das System ein Drittel aller Nutzer bei einer Präzision von 99% und erreichte einen Recall von 68% bei 90% Präzision. Die Forschenden gehen davon aus, dass der Agent auch bei einer Datenbank von einer Million Nutzern einen Recall von 45% bei 90% Präzision beibehalten könnte, was die Skalierbarkeit demonstriert und die Bedenken bezüglich der Privatsphäre verstärkt.

Das Forschungsteam praktizierte eine verantwortungsvolle Offenlegung, indem es Code, Prompts und Datensätze unter Verschluss hielt. Laut The Verge sind Social-Media-Plattformen gefordert, das Scraping und die Massendatenextraktion einzudämmen, welche diese Angriffe ermöglichen. KI-Labore stehen unter Druck, Schutzmaßnahmen zu implementieren, die verhindern, dass ihre Modelle zur Deanonymisierung missbraucht werden.

Obwohl Luc Rocher vom Oxford Internet Institute darauf hinweist, dass die Experimente unter Laborbedingungen stattfanden und robuste Privatsphäre-Tools weiterhin Schutz bieten können, erfordert der grundlegende Wandel der Online-Privatsphäre-Möglichkeiten dringende Maßnahmen. Die kollektive Reaktion muss Plattformen dazu bewegen, Datenzugriffsrichtlinien zu verschärfen, KI-Entwickler bei der Überwachung der Tool-Nutzung zu unterstützen und Nutzerinnen und Nutzer dazu anzuhalten, vorsichtiger mit Informationen umzugehen, die in verschiedenen Online-Kontexten geteilt werden.

Sources

  • The Verge
  • arXiv