Nous devons faire face aux incertitudes des statistiques

Nous recherchons la certitude en période d'incertitude. Mais ce n'est pas quelque chose que les statistiques peuvent nécessairement fournir. Tanja Stadler explique pourquoi il est important de tenir compte de l'incertitude statistique en décrivant l'estimation de la valeur R du COVID-19 qu'elle réalise pour la Suisse.
Les estimations statistiques ont toujours un intervalle d'incertitude. (Photo : ETH Zurich)

Le nombre d'infections au COVID-19 en Suisse augmente-t-il actuellement de manière exponentielle ou est-il en baisse ? Et à quelle vitesse les nouveaux variants du virus se propagent-ils par rapport aux anciens ? Nous évaluons ces questions à l'aide d'une analyse statistique des données. Nous aimerions bien sûr être en mesure de fournir des réponses très claires et sans ambiguïté. C'est parfois possible, mais pas toujours. En fait, lorsqu'il s'agit de notre vie dans le monde réel et des maladies, les processus sous-jacents suivent rarement un schéma déterministe.

Quel que soit l'aspect de la vie auquel nous nous intéressons, il y a presque toujours un certain degré de fluctuation ou de variation. Pensez, par exemple, à votre trajet pour vous rendre au travail. La durée du trajet n'est jamais exactement la même, mais nous sommes tout de même très doué·es pour estimer combien de temps il va prendre. Ou prenez un garçon de sept ans. Selon la courbe de croissance, il devrait mesurer 1,25 mètre à cet âge. En fait, si sa taille se situe entre 1,15 et 1,35 mètre, il est encore tout à fait dans la norme.

«Une estimation ponctuelle n'est pas suffisante pour donner une image complète de la situation épidémiologique.»      Tanja Stadler

La pandémie ne fait pas exception. Si une personne porteuse du SRAS-CoV-2 infecte en moyenne une autre personne, cela signifie en réalité que certaines personnes porteuses de la maladie infectent plusieurs autres personnes, tandis que d'autres n'en infectent aucune. Un autre exemple est la période d'incubation, c'est-à-dire le temps qui s'écoule entre l'infection par le virus et l'apparition des premiers symptômes. En moyenne, cette période dure cinq jours. Mais en réalité, elle peut être de trois jours pour certains patient·es et de sept ou huit jours pour d'autres. En outre, il y a le nombre de nouvelles infections quotidiennes sur lequel nous basons nos évaluations. Ce nombre fluctue également d'un jour à l'autre.

L'étendue de l'incertitude est essentielle

Dans mon groupe, nous estimons la valeur R pour l'épidémie de COVID-19 en Suisse1. Si cette valeur est supérieure à 1, le virus se propage de manière exponentielle dans la population. Dans nos estimations, nous tenons compte des fluctuations, dont celles mentionnées ci-dessus. Cela signifie que les estimations que nous fournissons ne sont jamais une valeur précise, mais plutôt une fourchette de valeurs.

Nous pouvons donc dire que l'estimation de la valeur R pour la Suisse se situe actuellement entre 0,96 et 1,21. Cette affirmation est statistiquement robuste. L'intervalle entre les valeurs est ce que nous appelons l'intervalle d'incertitude. Nous indiquons également le chiffre qui se situe au milieu de cette fourchette - l'estimation ponctuelle. Il s'agit de la meilleure estimation pour une seule valeur. Cependant, il est important de ne pas surinterpréter ce chiffre.

Déclaration «fiable» et interprétation prudente

Si l'intervalle d'incertitude estimé de la valeur R n'est pas entièrement inférieur à 1 ou entièrement supérieur à 1, nous ne pouvons pas dire avec une signification statistique si nous sommes dans une phase de croissance exponentielle ; dans cette situation, il ne nous est pas possible de faire une déclaration «fiable». Nous pouvons seulement parler avec prudence de certaines tendances.

Les fluctuations sont très importantes dans les petits ensembles de données, alors qu'elles peuvent s'équilibrer dans les grands ensembles de données. Ainsi, plus l'ensemble des données disponibles est petit, plus la plage d'incertitude s'élargit. Ce schéma est par exemple observé dans les données des petits cantons de Suisse. Les données disponibles ne sont pas suffisantes pour faire des déclarations statistiquement significatives car les intervalles d'incertitude sont très larges.

Je préfère me concentrer sur les sept grandes régions de la Suisse. Les gens se déplacent beaucoup à l'intérieur de ces régions. En examinant ces régions, nous pouvons identifier des tendances. Pour l'instant, l'estimation ponctuelle de la valeur R estimée est supérieure à 1 dans les sept grandes régions de Suisse. Même s'il ne nous est pas possible de faire une déclaration de signification sur la valeur R estimée, nous pouvons quand même interpréter les données. Malheureusement, les estimations ponctuelles pour toutes les régions suggèrent fortement que le virus est actuellement dans une phase de croissance exponentielle en Suisse.

L'estimation de la valeur R seule ne suffit pas

Les estimations de la valeur R peuvent donner un aperçu de la direction dans laquelle la pandémie pourrait se développer. Toutefois, il faut toujours tenir compte de la marge d'incertitude et interpréter les données avec prudence. En outre, il est essentiel de prendre en compte d'autres paramètres liés à la pandémie afin d'obtenir une évaluation complète de la situation. Une estimation ponctuelle ne suffit pas à donner une image complète de la situation épidémiologique.

Nous aimerions avoir une certaine certitude en ces temps incertains. Mais ce n'est pas quelque chose que les statistiques peuvent nécessairement fournir. Nous ne pouvons pas nous débarrasser de l'incertitude statistique. Elle est une conséquence directe du fait que nous avons affaire à des événements du monde réel. Nous devons donc accepter l'incertitude et, en tant que société, trouver un moyen d'y faire face. Dans notre équipe, nous poursuivons l'objectif d'identifier les dynamiques épidémiologiques à partir des données dont nous disposons, de mettre en évidence les scénarios possibles et de quantifier ces scénarios en calculant les probabilités. Il appartient ensuite aux décideurs politiques et à la société dans son ensemble de décider comment utiliser ces connaissances scientifiques.

Modification du 15.03.2021 :
L'estimation du nombre R de la Suisse est continuellement mise à jour au fur et à mesure que de nouvelles données sont disponibles. Actuellement, la fourchette d'estimations la plus récente va de 1,00 à 1,26.