Internet : l’illusion du libre-arbitre ? – Épisode 1
Dans cette série – Internet : l’illusion du libre-arbitre ? – Anaïs Maréchal s’intéresse à l’impact d’internet sur notre libre-arbitre. Aujourd’hui, tout le monde a conscience de la valeur importante de nos données personnelles. Cette prise de conscience collective, assortie de la mise en place de garde-fous, suffit-elle à protéger notre libre-arbitre ?
Cette personne n’existe pas. Voici l’accroche pour le moins étonnante du site internet thispersondoesnotexist.com. Chaque fois que vous ouvrez la page, ou l’actualisez, un nouveau faux humain (particulièrement réaliste !) est généré par une intelligence artificielle. Derrière cet exemple, se cache en fait un marché émergent, celui des données synthétiques. Faux patients, faux environnements urbains ou encore fausses conversations : une soixantaine d’entreprises dans le monde commercialisent des jeux de données synthétiques qui ressemblent à s’y méprendre à de vraies données.
L’objectif ? Compléter ou remplacer les vraies données. Les modèles d’intelligence artificielle se nourrissent de nos données pour devenir de plus en plus intelligents. Ils aident à prédire nos comportements pour mieux cibler la publicité, créer des voitures autonomes fiables, commercialiser des assistants vocaux capables de nous comprendre sans erreur, etc. Le marché de l’entraînement d’intelligence artificielle représentait en 2019 près d’un milliard de dollars, et il devrait croître de 22,5 % chaque année jusqu’en 2027.
Mais quelques grains de sable enrayent cette mécanique bien huilée. Ces avancées technologiques justifient-elles la collecte massive des données personnelles ? Ces dernières permettent à ceux qui les détiennent de bafouer une partie du libre-arbitre des citoyens. Des techniques de manipulation comme l’hypernudge favorisent la consommation de biens. Pire, le scandale Cambridge Analytica a révélé comment les données des utilisateurs de Facebook ont permis d’influencer les résultats de plusieurs scrutins, notamment l’élection de Donald Trump ou encore le référendum du Brexit. Alors, l’heure est à la protection, comme en témoigne l’adoption du Règlement général sur la protection des données (RGPD) en Union européenne en 2016. Le cabinet de conseil Gartner estime que 65 % de la population mondiale sera protégée par des réglementations sur la confidentialité des données d’ici à 2023. Pourtant, si nous avons tous vu fleurir ces bannières dédiées au consentement … nous avons tous un jour cliqué sur le bouton «J’accepte les cookies» pour accéder rapidement à la page souhaitée. Certains veulent donc aller plus loin, comme le philosophe Gaspard Koenig qui défend un droit de propriété des individus sur leurs données personnelles. Les marchands de données synthétiques nous font eux aussi une promesse : continuer à nourrir l’intelligence artificielle tout en protégeant les données personnelles.
Faux humains générés par une intelligence artificielle
Vous avez besoin d’une collection de mains, visages, ou encore d’un groupe de personnes d’âge et d’origine ethnique bien spécifique ? Direction Tel Aviv pour faire vos emplettes. La société Datagen peut générer des millions de fausses personnes très réalistes en 3D répondant à votre demande. Pour cela, l’entreprise commence par récupérer des scans d’un certain nombre de vrais humains en train de marcher, saisir un objet ou boire. Un algorithme d’apprentissage automatique – un type d’intelligence artificielle – apprend alors les caractéristiques des humains. Une fois celles-ci cernées, l’algorithme est capable de générer des humains réalistes, mais qui n’existent pas. Aucun faux humain ne ressemblera aux vraies personnes scannées !
«La génération de données synthétiques n’est pas nouvelle, précise Thomas Guyet, chercheur en science informatique à l’Institut de recherche en informatique et systèmes aléatoires en France. Mais l’essor des données de santé et des algorithmes d’apprentissage automatique, comme les vidéos deep fake, ont remobilisé l’intérêt autour des données synthétiques.» Elles peuvent revêtir de nombreuses formes : image, vidéo, texte ou encore tableau de données. À Nantes, la start-up Octopize crée de fausses bases de données médicales aux caractéristiques réalistes. S’il existe un lien entre le taux de cholestérol et le poids des vrais patients, ces données sont toutes deux modifiées chez le faux patient tout en conservant la relation. La société garantit ainsi qu’on ne peut pas identifier le vrai patient, mais que les études réalisées sur les faux patients donnent les mêmes conclusions.
À l’autre bout de la chaîne, les utilisateurs commencent à adopter ces nouvelles données. Amazon a éduqué son assistant vocal Alexa à trois nouvelles langues à l’aide de données synthétiques. Faute de tests en vie réelle durant la pandémie, Waymo, l’un des leaders sur le marché de la voiture autonome, a poursuivi l’entraînement de ses véhicules autonomes dans des environnements de synthèse.
Des prévisions de résiliation toujours réalistes
Les clients de La Mobilière ont également été transformés en humains de synthèse. Cette société suisse d’assurance et de prévoyance utilise les données personnelles de ses clients pour prédire leurs résiliations. Âge, adresse, composition du foyer, voiture qu’ils conduisent … une centaine d’informations par client nourrissent leur modèle de prédiction. «En 2020, nous avons travaillé avec la société Statice sur une preuve de concept pour nous préparer à l’arrivée de nouvelles réglementations sur la protection des données personnelles», raconte Georg Russ, data scientist à La Mobilière. Les informations concernant 1,5 million d’abonnés sont transformées par Statice en autant de données synthétiques. Ne reste à La Mobilière qu’à alimenter son modèle avec ces données artificielles pour réaliser les mêmes prévisions de résiliation. «Notre modèle fonctionne toujours aussi bien, la perte de précision est négligeable, précise Georg Russ. Cela pourrait nous permettre à l’avenir de réutiliser les données synthétiques en interne, sans risque et plus rapidement qu’auparavant ; ou encore de pouvoir partager nos données ainsi anonymisées.»
Alors les données synthétiques sont-elles la panacée ? «À ce stade, l’intérêt principal se situe dans la prospection, comme lorsqu’une banque veut simuler les retombées d’une augmentation du salaire minimum sur les crédits, répond Thomas Guyet. Mais pour la prédiction, elles ne font pas consensus.» La génération de données synthétiques repose sur un savant équilibre : un compromis entre réalisme et garantie du respect de la vie privée.
Certains assurent que l’efficacité – reposant sur le réalisme du jeu de données – est au rendez-vous. En novembre 2020, une équipe de recherche anglaise démontre la grande fidélité d’un jeu de données synthétiques créées à partir des données de santé des patients britanniques. Une autre équipe a testé la capacité de 39 data scientists à résoudre un problème, certains à partir de données réelles, d’autres de données synthétiques : les performances des deux groupes ont été similaires ! D’autres en revanche sont plus circonspects sur la qualité des jeux de données synthétiques. Dans un article publié en 2021, des chercheurs ont généré des images de synthèse à partir de radios des poumons et de photos de visages. Ils pointent l’impossibilité de maintenir simultanément un bon niveau de réalisme et de confidentialité au sein des images synthétiques.
Impossibilité de garantir la confidentialité des données
Pour La Mobilière, le contrat semble pourtant rempli concernant l’efficacité et la sécurité : «Nous avons tenté de nombreuses approches pour essayer de réidentifier nos clients parmi les données synthétiques, sans succès», relate Georg Russ. Les données synthétiques présentent un plus haut niveau de sécurité que les approches classiques de protection, consistant par exemple à supprimer certaines informations dans un jeu de données. De nombreuses études ont en effet démontré la possibilité d’identifier des individus à partir de très peu de données. Par exemple, concernant les données de mobilité, quatre points spatio-temporels suffisent pour identifier un individu dans 95 % des cas !
La protection des données personnelles – indispensables pour générer des données synthétiques – est loin d’être une problématique résolue. «Il est impossible de garantir à 100 % la confidentialité des données, assène Thomas Guyet. Sans aucune information, le jeu de données serait inutile.» Les données synthétiques semblent pourtant s’engouffrer dans une brèche juridique : considérées comme des données anonymisées (la réidentification des individus est impossible), elles sortent du cadre du RGPD. Thomas Guyet précise : «Différentes attaques peuvent être testées pour évaluer le risque d’identification de personnes, mais en pratique cela reste très difficile car le risque est très dépendant des informations tierces dont dispose l’attaquant.» Autre problématique : garantir qu’aucune donnée de synthèse ne soit trop proche d’une donnée réelle. Un exercice difficile quand on produit des bases de données contenant des milliers de faux humains en 3D ! L’avenir appartiendra-t-il vraiment aux faux humains ?
En attendant de le savoir, nous, vrais humains, sommes toujours les pourvoyeurs préférés de données personnelles… À découvrir dans le prochain épisode !