Quand le big data permet d'affiner les systèmes statistiques suisses

Des chercheurs de l’EPFL ont utilisé les données anonymisées de clients de l’assureur La Mobilière pour prédire certains indicateurs socio-économiques dans 170 villes suisses. Une approche originale qui pourrait améliorer la pertinence et le degré de détail des statistiques publiques.

Rémi Carlier 04.03.2021

Réseaux sociaux, systèmes de géolocalisation, images de drones ou de satellites… Depuis quelques années, le volume massif de données numériques collectées, stockées et partagées permet une multitude de nouvelles manières d’explorer l’information et d’analyser le monde. En Suisse, l’Office fédéral de la statistique (OFS) s’intéresse à cette révolution du big data et aux opportunités qu’elle offre pour créer des scénarios prédictifs utiles à la société.

Les techniques traditionnelles comme le recensement ou les enquêtes font toujours référence pour établir les indicateurs socio-économiques de la population à l’échelle de la commune, du canton ou du pays. Mais ces approches peuvent aujourd’hui être complétées par des données secondaires, largement préexistantes, comme celles des abonnements de téléphonie mobile ou des cartes de crédit. « L’innovation sur les données vise à augmenter la qualité, la portée et le rapport coût/efficacité des produits statistiques tout en réduisant la charge imposée aux ménages et aux entreprises interrogés », peut-on lire dans la Stratégie d’innovation sur les données de l’OFS, publiée en 2017.

Données anonymes

Dans ce contexte, une équipe de chercheurs du Laboratoire des relations humaines-environnementales dans les systèmes urbains (HERUS) de l’EPFL s’est penchée pour la première fois sur l’utilité des données des assureurs. La Mobilière, principal partenaire du laboratoire, a fourni pour cette expérience les données anonymisées de ses centaines de milliers de clients telles que l’âge, le NPA du logement, le fait qu’ils possèdent ou non un véhicule ou une maison, le fait qu’ils travaillent ou non.

« L'idée était de voir s'il est possible d'utiliser ces informations pour prédire certains facteurs socio-économiques des villes, qui pourraient décrire la qualité de l'espace et de l'environnement urbains. L’avantage est que ces données sont peu coûteuses si l'entreprise est disposée à nous les fournir, car elles existent déjà, et il est possible d’effectuer les enquêtes chaque année sans frais supplémentaires », explique Emanuele Massaro, l’un des auteurs de l’étude publiée le 3 mars dans PLOS ONE.

«Les entreprises devraient davantage collaborer avec les chercheurs.» Emanuele Massaro

Grâce aux techniques d’exploration des données (data mining), l’équipe a extrait les informations utiles et les a agrégées à l’échelle des 170 communes suisses les plus peuplées, obtenant près de 600 000 profils identifiés par un code unique. « Le jeu de données de la Mobilière est très complet, il contient beaucoup d'informations différentes et nous avons pu créer plus de 30 variables, principalement pour sélectionner celles qui correspondent le mieux à chaque indicateur socio-économique », continue Lorenzo Donadio, étudiant en master Sciences et ingénierie de l’environnement à l’EPFL et premier auteur de l’étude.

Modèle de régression spatiale

Les chercheurs ont ainsi mis en place un modèle de régression spatiale permettant de prédire précisément douze variables correspondant à six catégories : population, transport, travail, espace et territoire, logement, et économie. « Bien sûr, nos prédictions ne peuvent pas remplacer les recensements, mais donnent des indicateurs annuels. Nous voulons aussi montrer que ces bases de données contiennent beaucoup d'informations pertinentes sur le plan social, au-delà du marketing et des études de marché, et donc que les entreprises devraient davantage collaborer avec les chercheurs », précise Emanuele Massaro.

Le modèle statistique, développé uniquement dans le cadre de la recherche, n’a pas d’application pratique possible en tant que tel. Il pourrait être utilisé à titre indicatif, mais les données traditionnelles du recensement restent nécessaires. En effet, les données relatives aux assurances sont biaisées en raison de certaines informations manquantes, comme celles sur les jeunes de moins de 18 ans, mais elles sont représentatives d'une grande partie de la population. « Nos recherches peuvent servir à la fois aux décideurs politiques au niveau des villes, mais aussi aux services publics de statistique qui pourraient intégrer ce type d'informations dans leur processus de modernisation. Les jeux de données des assureurs sont très précis car ils disposent d’informations très spécifiques sur leurs clients », affirme Emanuele Massaro.