Un outil d'analyse de données pour saisir la complexité du monde réel

Des scientifiques de l’EPFL ont mis au point une nouvelle méthode d’analyse de réseau qui leur permet de révéler et d’interpréter, pour la première fois, les interactions entre de multiples variables dans des données issues des neurosciences, de l’économie et de l’épidémiologie.
© XH4D iStock

De nombreux phénomènes, par exemple les signaux cérébraux, le cours des actions ou les hospitalisations liées à la COVID, peuvent être étudiés à l’aide de données de séries chronologiques. Ces dernières sont collectées sous forme de mesures répétées sur un intervalle de temps donné. La plupart des outils d’interprétation de données s’appuient sur ce que l’on appelle les statistiques par paire, qui prennent en compte l’interaction entre deux variables. Mais dans le monde réel, les événements dépendent souvent de plus de deux variables.

«Imaginez une conversation dans un bar entre deux personnes par rapport à une conversation entre trois ou quatre personnes. Pensez à la façon dont un couple communique par rapport à des échanges impliquant un couple avec un enfant: la dynamique change complètement en fonction du nombre de variables», explique Enrico Amico du Laboratoire de traitement d’images médicales (MIP:Lab). Enrico Amico est actuellement boursier FNS Ambizione au laboratoire, qui est cogéré par la Faculté des sciences et techniques de l’ingénieur de l’EPFL et la Faculté de médecine de l’Université de Genève.

«Pour faire simple, nous avons mis au point une méthode permettant de détecter et de déduire des informations d’ordre supérieur à partir de données réelles.»      Enrico Amico, Laboratoire de traitement d’images médicales

«En tant que neuroscientifique computationnel, je sais que l’activité neuronale est coordonnée par de nombreuses aires cérébrales. Mais lorsque je collecte des données sur le cerveau, je ne peux analyser que les séries chronologiques liées à des paires de nœuds de réseau, pas les interactions d’ordre supérieur (ou interactions de groupe)», déclare-t-il.

Conscients de la nécessité de disposer d’un cadre computationnel amélioré pour interpréter la complexité des phénomènes du monde réel, Enrico Amico et Andrea Santoro de l’Institut Neuro-X ont collaboré avec leurs collègues de l’Université d’Europe centrale d’Autriche et de l’Institut CENTAI d’Italie pour créer une méthode d’analyse de l’organisation d’ordre supérieur des données de séries temporelles multivariées. Leurs travaux novateurs ont été publiés dans la revue Nature Physics.

«Pour faire simple, nous avons mis au point une méthode permettant de détecter et de déduire des informations d’ordre supérieur à partir de données réelles. Elle fait partie d’une nouvelle branche passionnante des mathématiques d’ordre supérieur qui a des applications potentielles dans de nombreux systèmes du monde réel, depuis les neurosciences, la finance et l’épidémiologie jusqu’à la médecine, la climatologie, l’écologie, bref, tout ce que vous voulez», affirme Enrico Amico.

Révéler les interactions multivariées avec des «Polaroïds» de données

Les chercheuses et chercheurs ont appliqué leur nouvelle méthodologie à trois ensembles de données complexes du monde réel: sur l’activité cérébrale, les fluctuations du cours des actions et les épidémies du 20e siècle. Leur approche d’ordre supérieur a permis de distinguer des caractéristiques importantes dans chaque régime qui ne pouvaient pas être détectées par les statistiques standard par paire. Comme le dit Enrico Amico, chaque mesure de série temporelle était comme une sorte de «Polaroïd» de données tridimensionnelles, ou d’instantané de la configuration spatiale du système étudié.

Par exemple, dans le cas de l’activité cérébrale, la méthode des séries temporelles multivariées des chercheuses et chercheurs a permis de détecter les oscillations entre les interactions neuronales chaotiques et synchronisées qui se produisent dans un cerveau au repos. De même, dans l’exemple économique, leur méthode permettait de mieux distinguer les périodes de stabilité financière et les périodes de crise. Dans l’exemple épidémiologique, les chercheuses et chercheurs ont même pu détecter des interactions entre la propagation de différentes maladies, comme la grippe et la coqueluche.

«On pourrait imaginer que les épidémies se propagent de manière indépendante, mais avec notre approche, nous avons pu classer les différentes maladies avec une meilleure précision, et même voir comment la propagation d’une maladie interagit avec celle d’une autre.»

La puissance de calcul et la créativité sont essentielles

Enrico Amico explique que si les calculs multivariés n’ont pas été essayés auparavant, c’est principalement en raison des progrès récents en matière de puissance de calcul. Si le concept de l’analyse des séries chronologiques multivariées est assez simple, c’est beaucoup plus facile à dire qu’à faire, car la complexité de la modélisation mathématique croît de manière exponentielle avec chaque variable ajoutée.

«Nous pouvons utiliser les mathématiques anciennes de manière nouvelle grâce à la puissance de calcul moderne, et à l’accès aux big data. La puissance de calcul est essentielle, tout comme la créativité. Nous créons de nouvelles mathématiques, et la créativité est importante pour aborder ces questions.»

Alors, quand il s’agit du nombre de variables qui peuvent être analysées simultanément, y a-t-il une limite? En théorie peut-être, mais en pratique, non.

«Dans notre article, nous nous sommes penchés sur trois variables. Je pense que cinq variables seraient probablement la limite de la puissance de calcul maximale actuelle», indique Enrico Amico.

Plus d'informations

Financement

Projet COST SNSF «Mathematical models for interacting dynamics on networks» (subvention n°IZCOZ0_198144).

Références

Santoro, A., Battiston, F., Petri, G. et al., Higher-order organization of multivariate time series, Nat. Phys. (2023)