Comment influencer la synthèse des protéines

Des travaux menés à l'ETH Zurich prédisent dans quelle mesure le mécanisme de synthèse des protéines cellulaires s'attache à des milliards de séquences génétiques différentes. Cet amarrage a un impact important sur la quantité de protéine produite. Pour développer leur modèle, les scientifiques combinent expériences de biologie synthétique et algorithmes d'apprentissage automatique.
Les ribosomes sont des machines à synthétiser les protéines (en jaune) dans les cellules en lisant l'information génétique de l'ARN messager (en violet) (Graphique : Science Photo Library)

Le génome des bactéries, des plantes et des humains peut être désormais très facilement déchiffré. Pourtant il soulève encore de nombreuses questions, comme les copies ARN des gènes et les sites sur lesquels les ribosomes, les machines biologiques chargées de la synthèse des protéines, s'arriment afin de lire l'information génétique. Une connaissance approfondie de ces sites d'attache manquait encore.

Une équipe interdisciplinaire du Département de la science et de l'ingénierie des biosystèmes (D-BSSE) de l'ETH Zurich à Bâle a développé une approche qui permet pour la première fois d'obtenir des informations détaillées sur un nombre incroyablement élevé de ces sites dans les bactéries. Cette approche combine des méthodes expérimentales de la biologie synthétique et de l'apprentissage machine.

Contrôler finement la production de protéines

Les sites d'attache sont de courtes séquences d'ARN situés avant chaque gène. Dans le passé, des scientifiques avaient développé des sites artificiels. Les ribosomes s'attachent très bien à certains d'entre eux, mais moins à d'autres. Plus les ribosomes s'arriment fortement, plus ils lisent facilement les informations du gène et plus ils produisent la protéine correspondante.

Lorsque les biotechnologistes utilisent des bactéries pour produire des médicaments, par exemple, ils peuvent influencer la quantité produite en choisissant les sites d'attache des ribosomes. "Ce contrôle est particulièrement intéressant et important lorsque des réseaux de gènes complexes sont introduits dans des cellules dans le but de produire plusieurs protéines simultanément. Il faut ensuite coordonner de manière optimale leur quantité", explique Markus Jeschek, chef de groupe au D-BSSE.

Une expérience de 300'000 séquences

Il a développé une méthode pour déterminer comment les ribosomes s'arriment à plus de 300 000 séquences d'ARN générées synthétiquement, en collaboration avec Yaakov Benenson et Karsten Borgwardt, professeurs à l'ETH Zurich. Auparavant, cela n'était possible que pour quelques centaines de séquences par expérience.

Leur approche utilise le "séquençage profond", la technique la plus moderne pour déterminer les séquences d'ADN et d'ARN. En laboratoire, les scientifiques ont créé plus de 300 000 sites d'amarrage de ribosomes différents en une seule étape et ont fusionné chacun d'entre eux avec un gène d'une enzyme qui modifie un morceau d'ADN. Ils ont introduit les constructions géniques correspondantes dans les bactéries afin de déterminer la force avec laquelle les ribosomes s'attachent à l'ARN dans des cas individuels. Plus le site de fixation fonctionne bien, plus la cellule produit d'enzymes et plus le morceau d'ADN est susceptible d'être altéré. Après l'expérience, les scientifiques peuvent lire ce changement en effectuant un séquençage avec la séquence d'ARN respective du site d'attache.

Approche universelle

Mais ces 300 000 séquences ne représentent qu'une petite partie des milliards de sites de liaison des ribosomes théoriquement concevables. Les scientifiques ont donc examiné leurs données à l'aide d'algorithmes d'apprentissage automatique. "Ils reconnaissent des relations statistiques complexes dans de grands ensembles de données. Avec leur aide, nous pouvons prédire dans quelle mesure les ribosomes se lient à une certaine séquence d'ARN", explique Karsten Borgwardt, professeur de Data mining. Ces modèles de prédiction ont été mis à disposition gratuitement sous forme de logiciel afin que d'autres scientifiques puissent également les utiliser. Un service en ligne facile à utiliser sera bientôt publié.

L'approche choisie par les scientifiques est universelle, soulignent Yaakov Benenson et Markus Jeschek. Ils envisagent de l'utiliser également dans d'autres organismes, y compris les cellules humaines. "L'influence de l'information génétique sur la quantité d'une protéine produite dans une cellule présente également un intérêt pour l'homme", explique Yaakov Benenson. "Surtout dans le contexte des maladies génétiques."

Plus d'informations

Références

Höllerer S, Papaxanthos L, Gumpinger AC, Fischer K, Beisel C, Borgwardt K, Benenson Y, Jeschek M : L'enregistrement phénotypique à grande échelle basé sur l'ADN et l'apprentissage approfondi permettent une cartographie séquence-fonction très précise. Nature Communications 2020, doi : 10.1038/s41467-​020-17222-4