Notre attention réelle devient mesurable
Combien de fois par jour allumez-vous votre smartphone? Combien de temps l'écran est-il allumé et combien de temps les différentes applications sont-elles utilisées? Chaque smartphone moderne collecte automatiquement ces données et les met à la disposition de l'utilisatrice et de l'utilisateur sous des rubriques telles que «Bien-être numérique». Mais le temps passé devant l'écran et l'utilisation des applications ne sont pas égaux. Parfois, nous nous concentrons entièrement sur quelque chose pendant un long moment, tandis qu'à d'autres moments, nous ne regardons que brièvement l'écran ou sommes distraits à plusieurs reprises par les choses qui se passent autour de nous. Et parfois nous ne regardons pas du tout notre smartphone, parce que nous l'avons activé par accident.
Comprendre l'attention des utilisatrices et utilisateurs
«L'attention que nous portons à notre smartphone peut varier considérablement», explique Mihai Bâce: «Mais il n'a jamais été examiné dans des situations réelles de la vie quotidienne». Le doctorant de l'Institut des systèmes interactifs intelligents de l'ETH Zurich, en collaboration avec un étudiant en master et un professeur·e de l'Université de Stuttgart, a développé un système qui peut être utilisé pour mesurer l'attention visuelle portée au smartphone dans la vie quotidienne et pendant des semaines.
Il ne nécessite que la caméra frontale et les données des capteurs du téléphone. Jusqu'à présent, il fallait disposer d'un équipement de mesure encombrant avec des eye-trackers ou remplir des questionnaires qui, au mieux, ne permettaient de saisir qu'approximativement la vie normale.
Comprendre l'attention des utilisatrices et utilisateurs est l'un des défis les plus importants sur la voie des futures interfaces mobiles, comme le souligne Mihai Bâce. Ceux-ci devraient à leur tour devenir attentifs et prendre automatiquement en compte nos besoins actuels et la situation dans laquelle nous nous trouvons.
Ainsi, par exemple, les réglages manuels de non-interférence ne seront plus nécessaires pour éviter d'être arraché à une occupation concentrée par un message sans importance.
Et ces technologies semblent devenir de plus en plus nécessaires. En effet, les recherches de Mihai Bâce montrent que l'attention visuelle que nous portons au smartphone est aujourd'hui extrêmement fragmentée. En moyenne, le contact visuel avec l'écran ne dure qu'environ 7 secondes avant que le regard ne s'égare.
Et cela se produit quatre fois après chaque déverrouillage pendant environ 2 secondes. Le degré de distraction des utilisatrices et utilisateurs dépend de leur personnalité individuelle, mais aussi de l'environnement et du type d'application actuellement utilisé. Les applications médicales, par exemple, ou celles utilisées à des fins de formation, sont beaucoup plus distrayantes que les applications de divertissement.
Base pour un large éventail de recherches
Toutefois, Mihai Bâce ne voit pas seulement la grande valeur de son travail dans ces résultats d'études concrets obtenus avec le système: «Avant tout, notre système devrait également servir de base à d'autres scientifiques. Nous allons donc publier tous nos algorithmes ainsi que toutes les données vidéo.»
À l'avenir, non seulement les développeurs d'applications pourraient en bénéficier, mais aussi, par exemple, les sociologues ou les psychologues, qui pourraient utiliser le système pour mener des études sur l'influence de divers facteurs sur l'attention sans grand effort technique. Mais la médecine serait également un client potentiel pour cette technologie. Les changements dans le comportement d'attention pourraient être utilisés, par exemple, pour surveiller les patients et signaler les évolutions problématiques.
Lors du développement du système, une application a été utilisée qui, en plus d'enregistrer des vidéos de la caméra frontale à chaque fois que le téléphone portable est déverrouillé et de collecter en parallèle divers capteurs et métadonnées, contenait également des fonctionnalités de protection et de vérification des données.
Par exemple, les participantes et les participants à l'étude ont pu décider eux-mêmes, par le biais d'un volet d'examen, quelles vidéos devaient être diffusées pour évaluation, et par le biais d'un jeu d'annotation, des séquences vidéo pouvaient être évaluées par d'autres participants. À l'aide de ce troisième volet, les résultats de la reconnaissance automatique du contact visuel ont été vérifiés pendant la phase de développement.
Les infrastructures, un défi majeur
Dans une première expérience avec 32 personns et sur une période de plus de deux semaines, les scientifiques ont enregistré des séquences vidéo totalisant 472 heures, puis les ont évaluées à l'aide d'un système novateur de reconnaissance adaptative du contact visuel. Les vidéos individuelles peuvent avoir une taille de plusieurs centaines de mégaoctets. Cela signifie qu'il fallait beaucoup d'espace de stockage sur les smartphones, et que les temps de chargement étaient par conséquent longs. Et c'était précisément l'un des plus grands défis.
Comme les utilisatrices et les utilisateurs éteignent rapidement ou du moins minimisent l'utilisation d'une application qui interfère avec leur vie quotidienne, il a fallu trouver des mécanismes qui n'imposent pas une charge excessive à la mémoire du téléphone portable ou qui ne bloquent pas les capacités de transmission des smartphones.
En outre, la protection des données doit être assurée à tout moment - seul ce qui a été explicitement communiqué via le composant d'examen peut être téléchargé sur le serveur d'évaluation. «L'application a été examinée par le comité d'éthique de l'ETH Zurich, et nous n'effectuons délibérément pas de reconnaissance faciale. La seule chose que l'on détermine, c'est s'il y a un contact visuel avec l'écran», souligne Mihai Bâce.
À l'avenir, lorsque notre smartphone comprendra mieux nos besoins, il ne sera plus nécessairement basé sur l'évaluation de données personnelles sensibles. Avec le système informatique, cela pourrait à l'avenir peut-être aussi être réalisé par la reconnaissance automatique du niveau d'attention humaine.