Illustration montrant le concept de l'IA révélant les identités anonymes des utilisateurs avec une silhouette numérique et des points de données interconnectés.

La vie privée est morte : l’IA peut désormais démasquer les utilisateurs anonymes

Des chercheurs de l’ETH Zurich, d’Anthropic et du programme MATS ont mis au point une méthode d’IA capable de démasquer les utilisateurs anonymes en ligne en analysant leurs styles d’écriture et en les recoupant avec d’immenses ensembles de données. Cette étude de 2024 démontre comment les grands modèles de langage peuvent extraire systématiquement des traits identifiables du texte et établir de vraies identités avec une grande précision, érodant ainsi les protections de la vie privée qui ont historiquement protégé les internautes, notamment les populations vulnérables.

Cette technologie de pointe a obtenu des taux de réussite remarquables lors de tests réels. L’agent IA a réussi à réidentifier 67 % des 338 utilisateurs de Hacker News avec une précision de 90 % en utilisant de façon autonome des outils de recherche web, selon les travaux publiés sur arXiv. Dans des scénarios en monde fermé reliant des profils entre plateformes, le système a atteint un rappel de 45,1 % avec 99 % de précision lors de l’appariement des comptes Hacker News avec des profils LinkedIn, surpassant largement les méthodes classiques qui n’obtenaient que 0,1 % de rappel.

Le système utilise un processus en quatre étapes nommé ESRC (Extract, Search, Reason, Calibrate) qui traite le texte non structuré pour en extraire des caractéristiques liées à l’identité. La technologie emploie des modèles linguistiques de premier plan, incluant la famille Gemini, la série GPT d’OpenAI et Grok 4.1 Fast, pour analyser les données démographiques, les intérêts et les habitudes rédactionnelles. L’agent effectue ensuite des recherches de plus proches voisins dans des bases de données massives avant de déduire des correspondances probables et d’attribuer des scores de confiance.

Populations vulnérables exposées au risque

L’érosion du pseudonymat en ligne pose des menaces immédiates aux groupes qui dépendent de l’anonymat pour leur sécurité. Les lanceurs d’alerte et les journalistes risquent des représailles pour avoir dénoncé des actes répréhensibles, tandis que les activistes pourraient être persécutés par des régimes autoritaires. Les survivants de violences utilisant des pseudonymes pour échapper à leurs agresseurs et les individus explorant des identités sensibles font désormais face à une vulnérabilité sans précédent contre les campagnes de doxxing automatisées et la surveillance étatique.

Dans des essais à grande échelle sur 10 000 profils Reddit, le système a identifié environ un tiers de tous les utilisateurs avec une précision de 99 % et a obtenu un rappel de 68 % avec 90 % de précision. Les chercheurs estiment que l’agent pourrait maintenir un rappel de 45 % avec 90 % de précision même face à une base de données d’un million d’utilisateurs, démontrant une évolutivité qui amplifie les inquiétudes relatives à la vie privée.

L’équipe de recherche a pratiqué une divulgation responsable en ne publiant pas son code, ses prompts ni ses jeux de données. Selon The Verge, les réseaux sociaux sont encouragés à « sévir contre le scraping et l’extraction massive de données » qui permettent ces attaques. Les laboratoires d’IA subissent des pressions pour instaurer des garde-fous empêchant que leurs modèles soient instrumentalisés à des fins de désanonymisation.

Bien que Luc Rocher, de l’Oxford Internet Institute, prévienne que ces expériences ont été menées en laboratoire et que des outils robustes de protection de la vie privée peuvent encore offrir une sécurité, ce bouleversement fondamental de la confidentialité en ligne exige une action urgente. Une réponse collective nécessite que les plateformes renforcent leurs politiques d’accès aux données, que les développeurs d’IA surveillent l’utilisation de leurs outils, et que les utilisateurs redoublent de prudence quant aux informations partagées dans divers contextes en ligne.

Sources

  • The Verge
  • arXiv

Liora (ex DataScientest) est un institut de formation technologique fondé en 2017, qui figure parmi les acteurs de référence du secteur. Liora propose des formations à distance, en bootcamp ou en temps partiel, dans les métiers de la data, du cloud, de l’intelligence artificielle, du développement informatique, de la cybersécurité et de la transformation digitale. La méthode pédagogie est basée sur 80% de pratique asynchrone via une plateforme propriétaire ready to code, et 20% d’accompagnement en direct avec mentors et coachs carrière. Les formations permettent de valider des certifications RNCP de niveau 6 ou 7, souvent accompagnées d’un certificat de reconnaissance délivré par de grandes institutions françaises (Mines Paris, La Sorbonne, ECE, INSEEC, etc.). Elles préparent également à des certifications officielles délivrées par des entreprises technologiques majeures comme Microsoft, AWS ou Google Cloud. À ce jour, Liora compte plus de 50 000 alumni, répartis à travers le monde.

Liora – Your future. Decoded.