Projet « Serratus » un outil permettant d´identifier des virus dans les bases de données

La diversité des virus sur notre planète est littéralement insaisissable et la science n´en connaît jusqu’à présent qu’une fraction. La pandémie actuelle de SRAS-CoV2 a montré les conséquences dévastatrices des maladies virales émergentes pour l’humanité. C’est pourquoi pouvoir répertorier la diversité des virus présents dans le monde  grâce à l’outil informatique et la rendre disponible  pour la science est un grand pas en avant.

Découvertes fortuites dans la forêt tropicale

Les banques de données publiques sont devenues un immense réservoir de données génétiques, alimenté par les chercheurs du monde entier. Ces données proviennent de recherche biologique qui produisent des données de séquençage, que ce soit pour étudier le microbiome du sol de la forêt amazonienne ou la propagation de maladies comme le virus du SRAS-CoV-2. Généralement, ces études génèrent des données de séquences génétiques non seulement de l’organisme  étudié, mais aussi d’autres organismes dont l’ADN est présent de manière aléatoire dans les échantillons. De telles données aléatoires peuvent être particulièrement intéressantes pour d’autres chercheurs, bien que ces données ne sont pas au cœur de l’étude initiale et sont donc généralement ignorées. Elles sont néanmoins présentes dans les bases de données publiques.

Une infrastructure pour une recherche efficace

Pour rendre exploitable ce trésor caché, les chercheurs devaient jusque-là chercher dans d´immenses quantités de données dispersées. En effet, les bases de données publiques en libre accès contiennent des données de séquences de l’ordre du pétaoctet (c’est-à-dire des millions de gigaoctets). Les chercheurs du projet international « Serratus » ont développé à cet effet une infrastructure basée sur le cloud. Serratus est une infrastructure de cloud computing open source qui permet la comparaison de séquences à l’échelle du pétaoctet.

« Notre infrastructure permet d´effectuer une recherche efficace dans les archives de lecture de séquences, l’un des magasins de séquences publics les plus populaires », explique Pierre Barbera, membre du groupe Computational Molecular Evolution à l’Institut d’études théoriques de Heidelberg (HITS) et coauteur de l’étude. Il a créé un logiciel pour calculer et analyser les arbres phylogénétiques de toutes les espèces étudiées. Des chercheurs de l’Institut Max Planck de biologie à Tübingen participent également au projet. Ils ont apporté au projet leur logiciel de biocomputation « DIAMOND », qui, à l’instar d’un moteur de recherche sur Internet, répertorie en quelques heures les concordances entre les éléments constitutifs des protéines d’êtres vivants séquencés. Jusqu’à récemment, de tels calculs nécessitaient des mois de travail, même avec des ordinateurs très performants et l’ancien « gold standard » BLAST. La version étendue « DIAMOND v2 » est développée en collaboration avec le Max Planck Computing and Data Facility à Garching.

Nombre de nouveaux virus découverts multiplié par dix

Grâce à ce nouvel outil, les chercheurs ont pu identifier plus de 130 000 nouveaux virus à ARN, ce qui représente une multiplication par dix des espèces virales connues. Parmi eux se trouvaient des membres de la famille des coronavirus jusqu’alors inconnus, étroitement liés au virus du SRAS-CoV-2, de nouveaux virus apparentés au virus de l’hépatite D ainsi que de nouveaux bactériophages, c’est-à-dire des virus spécifiquement dirigés contre les bactéries.

Outre les deux équipes allemandes, des chercheurs de l’Institut Pasteur (Paris, France), de l’Université de Saint-Pétersbourg (Russie), de l’Université de Valence, de l’Université de Colombie-Britannique (Canada) et de l’Université de Berkeley (États-Unis) ont participé à l’étude. Le premier auteur est bioinformaticien, il s´agit de Artem Babaian (Université de Cambridge, Grande-Bretagne).

Les résultats viennent d’être publiés dans la revue spécialisée « Nature ». Les données du projet sont accessibles au public sur le site https://serratus.io, ce qui permet aux chercheurs d’y accéder à tout moment pour les étudier plus en détail.

Titre de la publication :

Edgar, R.C., Taylor, J., Lin, V. et al. Petabase-scale sequence alignment catalyses viral discovery. Nature, 26 janvier 2022.

DOI : 10.1038/s41586-021-04332-2 / https://www.nature.com/articles/s41586-021-04332-2

Contact pour les médias :

Dr. Peter Saueressig

Responsable de la communication

Institut d’études théoriques de Heidelberg (HITS)

Tél : +49-6221-533-245

peter.saueressig@h-its.org

http://www.h-its.org

________________________________________

Contacts scientifiques :

Dr. Pierre Barbera

Institut d’études théoriques de Heidelberg (HITS)

pierre.barbera@h-its.org

________________________________________

Publication originale :

Edgar, R.C., Taylor, J., Lin, V. et al. Petabase-scale sequence alignment catalyses viral discovery. Nature, 26 janvier 2022.

DOI : 10.1038/s41586-021-04332-2 / https://www.nature.com/articles/s41586-021-04332-2