Les données personnelles, une mine d’or pour les chercheurs

Internet : l’illusion du libre-arbitre ? – Épisode 6

Dans cette série – Internet : l’illusion du libre-arbitre ? – Anaïs Maréchal s’intéresse à l’impact d’internet sur notre libre-arbitre. Cet épisode nous montre que la collecte de nos données personnelles permet des avancées scientifiques considérables. Mais est-ce vraiment sans risque pour notre vie privée ?

Début janvier 2022, des chercheurs démontrent qu’ils sont en mesure de prédire l’arrivée d’une nouvelle vague de Covid-19 plus tôt et plus précisément qu’avant. Comment ? Grâce aux données de géolocalisation de 800 000 téléphones, collectées durant un an, achetées à une société spécialisée. Ces données personnelles très informatives permettent aux scientifiques d’estimer le taux d’interaction entre les citoyens, et ainsi d’améliorer leurs modèles épidémiologiques. Et l’avancée est de taille : des chercheurs français estiment améliorer les prédictions d’hospitalisation et de décès de 50 % grâce aux données de localisation collectées par Facebook.

Les données personnelles sont une aide précieuse à la gestion et la compréhension de la pandémie de Covid-19, ainsi que d’autres maladies infectieuses comme le choléra ou Ebola. Quoi de mieux que l’enregistrement de nos déplacements pour connaître précisément nos interactions et ainsi suivre la propagation du virus ? Dès le printemps 2020, des entreprises spécialisées dans la collecte de données les mettent à la disposition de la communauté scientifique et des autorités sanitaires. Facebook offre les résultats d’enquêtes sur les symptômes et ses données de mobilité. Google fournit également ses rapports de mobilité issus de GoogleMaps, tout comme Apple avec Plans. Autre apport considérable de données personnelles lors de la pandémie de Covid-19 : laboratoires publics et compagnies privées partagent rapidement les génomes – sorte de carte d’identité génétique – de 100 000 personnes atteintes du Covid-19. Une information précieuse qui permet à la communauté scientifique d’identifier les prédispositions génétiques augmentant le risque de développer un Covid-19 grave.

Mais le fait que ces précieuses bases de données appartiennent à des entreprises privées est parfois un frein à la recherche. «Facebook considère qu’ils ont un droit de regard sur leur base de données en s’appuyant – légitimement – sur la propriété intellectuelle, détaille Lionel Maurel, directeur adjoint scientifique à l’Institut des sciences humaines et sociales du CNRS. Ils ont mis en place une communauté que les chercheurs doivent rejoindre pour pouvoir accéder à leurs données, ce qui leur donne un droit de regard. Cela pose des questions politiques et philosophiques.» Et aboutit parfois à une entrave au protocole de recherche. À l’été 2021, Facebook a par exemple suspendu les comptes, extensions et pages de plusieurs chercheurs de l’Université de New-York, comme le relate le média en ligne Protocol. L’équipe mène alors des recherches sur les publicités politiques et la désinformation sur Facebook. En Europe, le Digital Services Act, un règlement en cours d’adoption, devrait permettre de dépasser cette limite en créant un droit opposable aux grandes plateformes numériques.

Et si les États s’attellent aussi à la tâche, l’initiative est parfois semée d’obstacles. En France, la plateforme Health Data Hub créée en 2019, met en œuvre les orientations stratégiques du Système national des données de santé. En clair : la plateforme agrège toutes les données de santé des Français, dans le but de favoriser la recherche. Mais trois ans après sa création, en 2022, elle n’est toujours pas pleinement opérationnelle et vient de retirer sa demande d’autorisation auprès de la CNIL. En cause ? L’hébergeur, Microsoft Azure. Un choix dénoncé par certaines associations qui craignent un transfert des données vers les États-Unis, comme Interhop qui souligne dans un tweet : «La recherche ne doit pas se faire au détriment de la protection de la vie privée des patient.e.s.»

Les données personnelles apportent beaucoup à la recherche. À commencer par la santé, et ce bien avant la pandémie de Covid-19. Direction la Finlande. En 2017, l’un des premiers projets de médecine personnalisée de grande ampleur y voit le jour. Baptisé FinnGen, il réunit aujourd’hui les données de près de 500 000 volontaires. Ces derniers fournissent aux biobanques du pays des échantillons biologiques, qui sont ensuite croisés avec les registres nationaux de santé. Partagées dans le cadre de protocoles de recherche, les données permettent de tendre vers une médecine innovante, dite P4 : préventive, prédictive, personnalisée et participative, comme l’explique le laboratoire d’innovation numérique de la CNIL.

Autre champ de recherche important : le changement climatique. Là encore, les entreprises privées sont une source d’informations pour les chercheurs grâce à leur gigantesque réseau d’utilisateurs. Dans le cadre de son programme Data for Good, Meta (nouveau nom de Facebook) analyse le contenu – publications, commentaires, likes, etc. – de la plateforme concernant le changement climatique. Des cartes hebdomadaires de «conversation climatique» sont mises à disposition des chercheurs pour analyser, par exemple, la perception du public à l’égard des annonces relatives au changement climatique. Autre exemple : dans le cadre d’un projet de recherche, des chercheurs de l’Université de Yale ont réalisé un sondage d’ampleur internationale pour étudier l’adhésion du public aux actions climatiques.

Dans le domaine de l’intelligence artificielle, les avancées majeures sont attribuées par la communauté scientifique à l’essor de nouveaux outils et de la puissance de calcul, mais aussi à la masse de données désormais disponible. Lionel Maurel ajoute : «En sciences humaines et sociales, certains projets nécessitent d’avoir accès aux données personnelles : les enquêtes sociologiques sur les relations au sein d’associations, ou encore les projets sur les parcours de radicalisation.»

L’utilisation des données personnelles à des fins de recherche scientifique est légalement encadrée par le Règlement général sur la protection des données (RGPD) qui prévaut en Europe. Mais un régime spécial s’applique, certains assouplissements permettent de faciliter le traitement des données personnelles à des fins de recherche. «Les chercheurs peuvent conserver les données plus longtemps pour permettre à d’autres collègues de vérifier leurs résultats, détaille Lionel Maurel. Les finalités de l’usage des données peuvent également être moins précises, autorisant ainsi des recherches exploratoires.» Autre aménagement précieux pour les scientifiques européens : pas d’obligation du recueil du consentement. «La recherche publique est en effet considérée comme une mission d’intérêt public», explique Lionel Maurel. Il faut cependant noter que ces dérogations ne sont applicables que si elles sont nécessaires aux finalités du projet. De plus, les scientifiques ont pour obligation de prévoir des mesures techniques et organisationnelles pour la sauvegarde des droits fondamentaux et des intérêts des personnes concernées.

Faut-il craindre cette plus grande liberté laissée aux chercheurs ? Certains soulèvent les potentielles disparités d’interprétation du RGPD au niveau national : «[…] l’ensemble des droits dont dispose la personne concernée peut varier selon les instruments nationaux d’encadrement de l’éthique de la recherche», souligne le laboratoire d’innovation de la CNIL. D’autres craignent que la constitution de larges bases de données de santé – telles que le projet FinnGen – permette aux assureurs de mettre plus facilement la main dessus. Jusqu’à décourager les citoyens de participer à ce genre d’études. «Le risque de dérive me semble faible, les chercheurs ont des enjeux de réputation très forts vis-à-vis du reste de la communauté scientifique et des agences de financement, estime Lionel Maurel. Le risque majeur se situe plutôt au niveau de la garantie de la sécurité des données, sur laquelle des améliorations sont nécessaires.»

D’autres approches de gestion des données personnelles à des fins de recherche scientifique sont évoquées. Des scientifiques de l’Université d’Oxford proposent par exemple un concept de consentement dynamique pour les données de santé. Les participants pourraient, grâce à une interface avec les chercheurs, définir différents niveaux de consentement, les modifier, et également connaître l’utilisation faite de leurs données. D’autres appellent à la création de bases de données comportementales publiques, gérées démocratiquement, qui permettraient de mettre fin au monopole de certaines entreprises privées. «Face au mouvement concomitant d’ouverture des données de la recherche, le monopole des entreprises privées crée un déséquilibre, abonde Lionel Maurel. Avec le Digital gouvernance act, une notion intéressante d’altruisme des données est proposée, dans laquelle des intermédiaires rassembleraient des données volontairement offertes par les citoyens.»

Le moment est-il venu de reprendre la main sur nos données personnelles ? Dans le dernier épisode de cette série, nous vous emmènerons à la découverte des modes de gestion alternatifs de nos données …

Le libéralisme blessé – José María Lassalle

La révolte fiscale – Victor Fouquet

Le féminisme et la liberté – Dr. Sharon Presley

Le retour des philosophes – John Stuart Mill

Le retour des philosophes – Joseph Schumpeter

Le retour des philosophes – Robert Nozick

Les données personnelles, une mine d’or pour les chercheurs

Le retour des philosophes – John Stuart Mill

Newsletter de Liber-thé

Le libéralisme blessé – José María Lassalle

La révolte fiscale – Victor Fouquet

Le féminisme et la liberté – Dr. Sharon Presley

Le retour des philosophes – John Stuart Mill

Le retour des philosophes – Joseph Schumpeter

Le retour des philosophes – Robert Nozick

Les données personnelles, une mine d’or pour les chercheurs

Le retour des philosophes – John Stuart Mill

Abonnez-vous à la newsletter

Newsletter de Liber-thé