L'IA fournit des réponses fiables avec une charge de calcul réduite

Des scientifiques de l'ETH Zurich ont développé une méthode qui rend les réponses de l'IA de plus en plus fiables. Leur algorithme sélectionne spécifiquement les données pertinentes pour la question. En outre, même des modèles d'IA jusqu'à 40 fois plus petits atteignent les mêmes performances de sortie que les meilleurs grands modèles d'IA.
Un nouvel algorithme mis au point par des scientifiques de l'ETH Zurich améliore les modèles linguistiques à grande échelle (LLM) afin que les réponses sélectionnées soient plus précises et pertinentes. (Illustration : générée par IA / ETH Zurich)

En bref

  • Le nouvel algorithme SIFT, développé par les informaticiennes et informaticiens de l'ETH Zurich, réduit continuellement l'incertitude des réponses de l'IA en utilisant des données d'enrichissement sélectionnées et adaptées à la question spécifique.
  • L'algorithme reconnaît les informations pertinentes pour la question et sélectionne des données spécifiques pour le traitement de l'IA, ce qui réduit l'incertitude et améliore les réponses.
  • Cette méthode est particulièrement avantageuse pour les utilisatrices et utilisateurs qui souhaitent combiner leurs propres données spécialisées avec un modèle d'IA général et réduire la puissance de calcul nécessaire.

ChatGPT et consorts nous surprennent souvent par la précision de leurs réponses, mais malheureusement, ils nous donnent aussi régulièrement des raisons de douter. Le principal problème des moteurs de réponse puissants de l'IA (intelligence artificielle) est qu'ils nous fournissent des réponses parfaites et des absurdités évidentes avec la même facilité. L'un des principaux défis réside dans la manière dont les grands modèles de langage (LLM) qui sous-tendent l'IA gèrent l'incertitude. Jusqu'à présent, il était très difficile d'évaluer si les grands modèles linguistiques conçus pour le traitement et la génération de textes fondaient leurs réponses sur une base solide de données ou s'ils opéraient sur un terrain incertain.

Des scientifiques de l'Institut d'apprentissage automatique du département d'informatique de l'ETH Zurich ont mis au point une méthode qui peut être utilisée pour réduire spécifiquement l'incertitude de l'IA. «Notre algorithme peut enrichir le modèle linguistique général de l'IA avec des données supplémentaires provenant du domaine pertinent d'une question. En combinaison avec la question spécifique, nous pouvons alors extraire des profondeurs du modèle et des données d'enrichissement précisément les connexions qui sont les plus susceptibles de générer une réponse correcte», explique Jonas Hübotter du groupe Learning & Adaptive Systems, qui a développé la nouvelle méthode dans le cadre de ses études de doctorat.

Enrichir l'IA avec des données spécifiques

«La méthode est particulièrement adaptée aux entreprises, aux scientifiques et aux autres utilisatrices et utilisateurs qui souhaitent utiliser l'IA générale dans un domaine spécialisé qui n'est que partiellement ou pas du tout couvert par les données d'entraînement de l'IA», ajoute Andreas Krause, chef du groupe de recherche et directeur du Centre d'IA de l'ETH Zurich.

Par exemple, les utilisateurs et utilisatrices peuvent introduire leurs données stockées localement dans un grand modèle linguistique (LLM), tel que Llama. L'algorithme SIFT (Selecting Informative data for Fine-Tuning), développé par les informaticien·nes de l'ETH Zurich, peut alors utiliser les données supplémentaires fournies pour sélectionner les informations spécifiques les plus étroitement liées à la question.

Vecteurs de relation dans un espace multidimensionnel

L'algorithme utilise la structure selon laquelle les informations linguistiques sont organisées dans le grand modèle linguistique (LLM) de l'IA pour trouver des informations connexes. Les modèles divisent les informations linguistiques de leurs données d'apprentissage en parties de mots. Les relations sémantiques et syntaxiques entre les parties de mots sont ensuite organisées sous forme de flèches de connexion - connues dans le domaine sous le nom de vecteurs - dans un espace multidimensionnel. Les dimensions de l'espace, qui peuvent se compter en milliers, proviennent des paramètres de relation que le LLM identifie de manière indépendante pendant la formation à l'aide des données générales.

Angle entre les flèches comme mesure de la corrélation

Les flèches relationnelles pointant dans la même direction dans cet espace vectoriel indiquent une forte corrélation. Plus l'angle entre deux vecteurs est grand, moins les deux unités d'information sont liées l'une à l'autre.

L'algorithme SIFT développé par les scientifques de l'ETH Zurich utilise désormais la direction du vecteur de relation de la requête d'entrée (invite) pour identifier les relations d'information qui sont étroitement liées à la question mais qui se complètent en même temps en termes de contenu. «L'angle entre les vecteurs correspond à la pertinence du contenu, et nous pouvons utiliser les angles pour sélectionner des données spécifiques qui réduisent l'incertitude», explique Jonas Hübotter.

Moins de chevauchement d'informations redondantes

En revanche, la méthode la plus couramment utilisée à ce jour pour sélectionner les informations adaptées à la réponse, connue sous le nom de méthode du voisin le plus proche, tend à accumuler les informations redondantes qui sont largement disponibles. La différence entre les deux méthodes apparaît clairement à l'examen d'un exemple d'interrogation composée de plusieurs éléments d'information.

Pour répondre à la question en deux parties «Quel est l'âge de Roger Federer et combien d'enfants a-t-il ?», la méthode du plus proche voisin considère que des informations similaires telles que «Roger Federer a 43 ans» et «Roger Federer est né le 8 août 1981» sont tout aussi pertinentes. Les informations sur ses enfants, qui sont pertinentes pour la deuxième partie de la question, sont parfois manquantes. Elles sont recouvertes par les informations relatives à la date de naissance, qui apparaissent beaucoup plus fréquemment dans les données d'apprentissage de l'IA. L'algorithme SIFT tient toutefois compte de la complémentarité des informations incluses, c'est-à-dire du fait que les vecteurs d'information pointent dans des directions différentes, ce qui permet d'identifier les informations pertinentes pour les deux aspects de la question.

Des réponses plus fiables avec des modèles beaucoup plus petits

Cependant, la sélection ciblée des informations n'améliore pas seulement la qualité des réponses. Elle peut également être utilisée pour réduire la puissance de calcul toujours croissante requise par les applications d'IA. En mesurant indirectement l'incertitude, le modèle peut décider lui-même de la quantité de données supplémentaires nécessaires pour fournir une réponse suffisamment fiable. Par conséquent, la surcharge de calcul requise par un LLM peut être systématiquement adaptée à la complexité de la question et à la disponibilité des informations pertinentes.

Étant donné que SIFT adapte continuellement la pondération des directions des flèches à ses calculs pendant la recherche de données, le modèle enrichi devient de plus en plus fiable au fur et à mesure qu'il est utilisé. «Lors de tests effectués avec des ensembles de données standard, nous avons utilisé SIFT pour surpasser même les meilleurs modèles d'IA actuels avec des modèles jusqu'à 40 fois plus petits», souligne Jonas Hübotter.

Identifier la valeur ajoutée des données pertinentes

D'autres applications de l'algorithme SIFT s'ouvrent en termes d'évaluation des données, comme l'explique Andreas Krause : «Nous pouvons suivre les données d'enrichissement sélectionnées par SIFT. Elles sont étroitement liées à la question et donc particulièrement pertinentes pour ce domaine. Cela pourrait être utilisé en médecine, par exemple, pour déterminer quelles analyses de laboratoire ou quelles valeurs de mesure sont significatives pour un diagnostic spécifique et lesquelles le sont moins».

Jonas Hübotter présente actuellement son approche à la Conférence internationale sur les représentations d'apprentissage (ICLR) à Singapour. En décembre, les scientifiques de l'ETH Zurich ont remporté le prix du meilleur article scientifique pour leur méthode lors de la conférence annuelle NeurIPS sur les systèmes de traitement de l'information neuronale dans l'atelier «Finetuning in Modern Machine Learning».

Plus d'informations

Hübotter, J, Bongni, S, Hakimi, I, Krause, A. Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs. In: Proc. International Conference on Learning Representations (ICLR), 2025. DOI: https://doi.org/10.48550/arXiv.2410.08020 (Preprint publication on ArXive)