La quête d'une parfaite protection des données est-elle vaine?

Des services bancaires aux communications, notre vie moderne est rythmée par les données, entraînant des préoccupations constantes en termes de confidentialité. Un nouvel article de l’EPFL affirme que les nombreuses promesses en matière de systèmes de protection de la vie privée ne pourront jamais être tenues, et que nous devons accepter ces limites intrinsèques sans rechercher l’impossible.
Big data, network security concept © iStock / EPFL 2022

L’innovation axée sur les données sous la forme d’une médecine personnalisée, de meilleurs services publics ou d’une production industrielle plus écologique et plus efficace promet d’être très bénéfique pour les êtres humains et pour notre planète, et l’élargissement de l’accès aux données est jugé essentiel pour gérer cet avenir. Pourtant, les pratiques agressives de collecte et d’analyse de données nous alertent des risques pour les valeurs sociétales et les droits fondamentaux.

C’est pourquoi l’élargissement de l’accès aux données tout en garantissant la confidentialité des informations sensibles et personnelles est devenu l’un des enjeux les plus importants dans le déploiement des technologies axées sur les données. Un nouvel article du Laboratoire d’ingénierie de la sécurité et de la confidentialité (SPRING) de l’EPFL à la Faculté informatique et communications affirme qu’il est vain de promettre que l’utilisation des données ne pose pas de problème si l’on en fait bon usage et si la confidentialité est garantie.

Directrice du laboratoire SPRING et co-autrice de l’article, la professeure-assistante Carmela Troncoso explique qu’il existe deux approches traditionnelles en matière de protection de la vie privée: «La première consiste à utiliser la cryptographie, à traiter les données dans un domaine décrypté et à obtenir un résultat. Mais cette approche a des limites car il est nécessaire de créer des algorithmes très ciblés et pas seulement d’entreprendre des calculs génériques».

L’inconvénient de ce type de technologie de protection des données, selon l’article, est qu’elle ne résout pas l’un des problèmes les plus pertinents pour les praticiens et practiciennes: partager des données de grande qualité à un niveau individuel d’une façon qui protège la vie privée mais permet aux analystes d’extraire une valeur complète de l’ensemble de données de manière très flexible.

La seconde approche visant à résoudre cette difficulté est l’anonymisation des données, à savoir la suppression des noms, lieux et numéros postaux d’acheminement, mais selon Carmela Troncoso, le problème provient souvent des données elles-mêmes. «On connaît le célèbre exemple de Netflix où l’entreprise a décidé de publier des ensembles de données et d’organiser un concours public pour produire de meilleurs algorithmes de recommandation. Elle a supprimé les noms des clients mais quand les chercheurs ont comparé les évaluations des films avec celles d’autres plateformes, ils ont pu désanonymiser les personnes.»

Plus récemment, les données synthétiques sont apparues comme une nouvelle technique d’anonymisation. Toutefois, l’article explique que, contrairement aux promesses faites par ses défenseurs, elles sont soumises aux mêmes compromis confidentialité/utilité que l’anonymisation traditionnelle des données. «Comme expliqué dans notre article, les chercheurs et praticiens doivent accepter le compromis intrinsèque entre une grande flexibilité dans l’utilisation des données et une solide garantie en matière de confidentialité», affirme Theresa Stadler, assistante-doctorante au laboratoire SPRING et co-autrice de l’article.

«Cela peut signifier que l’étendue des applications axées sur les données doit être réduite et que les propriétaires de données devront faire des choix explicites quant à l’approche de partage de données la plus adaptée à leur cas d’utilisation», poursuit Theresa Stadler.

«La question est la suivante: la technologie a-t-elle empêché le système d’être nuisible ou a-t-elle simplement rendu le système tout aussi nuisible?»      Carmela Troncoso, Directrice du laboratoire SPRING

Un autre message important de l’article est l’idée d’un déploiement technologique plus lent et plus contrôlé. Aujourd’hui, un déploiement ultrarapide est la norme, avec l’idée de corriger le problème plus tard si cela se passe mal – une approche que Carmela Troncoso juge très dangereuse: «Nous devons commencer à accepter le fait qu’il y a des limites. Souhaitons-nous vraiment voir se poursuivre cette liberté d’utilisation des données sans protection de la vie privée et avec des répercussions majeures sur notre démocratie? C’est comme le jour de la marmotte, on en parle depuis 20 ans, et aujourd’hui c’est la même chose avec l’apprentissage machine. Nous publions des algorithmes, ils sont biaisés, et nous espérons qu’ils seront corrigés plus tard. Mais que se passe-t-il s’ils ne peuvent pas être corrigés?»

Fonctionnalité restreinte et confidentialité élevée ne font pas partie du modèle commercial des géants technologiques. Carmela Troncoso demande à chacun d’entre nous de réfléchir davantage à la manière dont ils résolvent ce problème critique.

«Dissimuler leurs pratiques nuisibles et fermer le marché sont les principales tâches de Google et Apple. Par exemple, Apple n’autorise pas les applications à collecter des informations, elle le fait elle-même en protégeant soi-disant la confidentialité, puis elle les vend. Ce que nous expliquons c’est qu’il n’existe pas d’approche qui protège la vie privée. La question est la suivante: la technologie a-t-elle empêché le système d’être nuisible ou a-t-elle simplement rendu le système tout aussi nuisible? La confidentialité n’est pas un objectif en soi, mais un moyen de nous protéger», conclut Carmela Troncoso.