Identifier les classes composées grâce à l’apprentissage automatique – ScienceDaily

0
5


Tout ce qui vit a des métabolites, produit des métabolites et consomme des métabolites. Ces molécules sont des produits intermédiaires et finaux issus de processus chimiques dans le métabolisme d’un organisme. Par conséquent, ils ont non seulement une importance énorme pour nos vies, mais ils fournissent également des informations précieuses sur la condition d’un être vivant ou d’un environnement. Par exemple, les métabolites peuvent être utilisés pour détecter des maladies ou, dans le domaine de la technologie environnementale, pour examiner des échantillons d’eau potable. Cependant, la diversité de ces composés chimiques pose des difficultés dans la recherche scientifique. A ce jour, seules quelques molécules et leurs propriétés sont connues. Si un échantillon est analysé en laboratoire, seule une proportion relativement faible de celui-ci peut être identifiée, alors que la majorité des molécules restent inconnues.

Des bioinformaticiens de l’Université Friedrich Schiller de Jena, en Allemagne, ainsi que des collègues de Finlande et des États-Unis, ont maintenant développé une méthode unique permettant de prendre en compte tous les métabolites d’un échantillon, augmentant ainsi considérablement les connaissances acquises lors de l’examen de ces molécules. L’équipe rend compte de ses recherches réussies dans la revue scientifique Biotechnologie de la nature.

Apprendre, reconnaître et attribuer des propriétés structurelles

“La spectrométrie de masse, l’une des méthodes expérimentales les plus largement utilisées pour analyser les métabolites, identifie uniquement les molécules qui peuvent être attribuées de manière unique en les comparant à une base de données. Toutes les autres molécules, jusque-là inconnues, contenues dans l’échantillon ne fournissent pas beaucoup d’informations,” explique le professeur Sebastian Böcker de l’Université de Jena. «Grâce à notre nouvelle méthode, appelée CANOPUS, nous obtenons également des informations précieuses à partir des métabolites non identifiés dans un échantillon, car nous pouvons les attribuer à des classes de composés existantes.

CANOPUS fonctionne en deux phases: premièrement, la méthode génère une «empreinte moléculaire» à partir du spectre de fragmentation mesuré par spectrométrie de masse. Celui-ci contient des informations sur les propriétés structurelles de la molécule mesurée. Dans la deuxième phase, la méthode utilise l’empreinte moléculaire pour attribuer le métabolite à une classe de composé spécifique sans avoir à l’identifier.

Apprendre à partir des données

«Les méthodes d’apprentissage automatique nécessitent généralement de grandes quantités de données pour être entraînées. En revanche, notre processus en deux étapes permet dans la première étape de s’entraîner sur une quantité relativement petite de données de dizaines de milliers de spectres de masse de fragmentation. Ensuite , dans la deuxième étape, les propriétés structurelles caractéristiques qui sont importantes pour une classe de composés peuvent être déterminées à partir de millions de structures », explique le Dr Kai Dührkop de l’Université de Jena.

Le système identifie donc ces propriétés structurelles dans une molécule inconnue au sein d’un échantillon et les attribue ensuite à une classe de composés spécifique. «Ces informations suffisent à elles seules à répondre à de nombreuses questions importantes», souligne Böcker. “L’identification précise d’un métabolite serait beaucoup plus complexe et n’est souvent pas nécessaire du tout.” La méthode CANOPUS utilise un réseau neuronal profond prévoyant environ 2500 classes de composés.

Avec leur méthode, les bioinformaticiens de Jena ont comparé, par exemple, la flore intestinale de souris chez lesquelles un groupe expérimental avait été traité avec des antibiotiques. Les examens montrent quels métabolites la souris et sa flore intestinale produisent. Ces résultats de recherche peuvent fournir des informations importantes sur le système digestif et métabolique humain. À travers deux autres exemples d’application, qu’ils présentent dans leur étude, les scientifiques d’Iéna démontrent la fonctionnalité et la puissance de la méthode CANOPUS.

Moteur de recherche de molécules Jena utilisé des millions de fois

Avec la nouvelle méthode, les bioinformaticiens d’Iéna élargissent les possibilités du moteur de recherche de structures moléculaires «CSI: FingerID», qu’ils mettent à la disposition de la communauté internationale de recherche depuis environ cinq ans. Des chercheurs du monde entier utilisent désormais ce service des milliers de fois par jour pour comparer un spectre de masse d’un échantillon avec diverses bases de données en ligne, afin d’identifier plus précisément un métabolite. «Nous approchons de la cent millionième demande et nous sommes convaincus que CANOPUS augmentera encore le nombre d’utilisateurs», déclare Sebastian Böcker.

Le nouveau procédé renforce le domaine de la métabolomique – c’est-à-dire la recherche sur ces petites molécules omniprésentes – et augmente son potentiel dans de nombreux domaines de recherche, comme la pharmacie. De nombreuses substances pharmaceutiques actives utilisées depuis des décennies, comme la pénicilline, sont des métabolites; d’autres pourraient être développés avec leur aide.

LEAVE A REPLY

Please enter your comment!
Please enter your name here