Publications Linearis

French (Canada)
French (Canada)

Recherche de pointe en IA et en métabolomique

Extraction d’une signature de la COVID-19 à partir d’un ensemble de données multi-omique

Bauvin B. et coll. (Frontiers in Bioinformatics. 2025; 5 : 1645785. doi:10.3389/fbinf.2025.1645785)

Bauvin B, Godon T, Bachelot G, Carpentier C, Huusaari R, Deraspe M, Rousu J, Quach C, Corbeil J. (Front Bioinform. 2025; 5: 1645785. doi : 10.3389/fbinf.2025.1645785)

Nous présentons une signature multiomique de la COVID-19 élaborée dans le cadre d’une initiative québécoise exhaustive qui a constitué un vaste ensemble de données d’échantillons de patients positifs et négatifs à la COVID-19. En allant au-delà des études symptomatiques traditionnelles qui reposent sur des descripteurs limités, notre recherche intègre des données cliniques, protéomiques et métabolomiques afin de classifier le statut COVID-19 à l’aide de milliers de caractéristiques. Notre approche d’apprentissage automatique multi-vues extrait des signatures distinctives de la COVID-19 à partir de données multiomiques avec une efficacité remarquable. En appliquant des méthodes d’ensemble, nous avons développé des modèles précis et interprétables pour des données de haute dimension contenant significativement plus de caractéristiques que d’échantillons, atteignant une exactitude équilibrée de 89 % ± 5 %. Grâce à notre nouvelle méthodologie de pertinence des caractéristiques, nous avons identifié des signatures condensées de 12 et 50 caractéristiques qui ont amélioré l’exactitude de classification d’au moins 3 % par rapport à l’ensemble de caractéristiques initial. Cette approche a permis d’extraire et d’interpréter avec succès une signature multiomique robuste caractérisant les personnes positives à la COVID-19 à partir d’un ensemble de données vaste et complexe, ce qui représente une avancée importante dans la découverte de biomarqueurs de la COVID-19.

MetaboAnalyst 6.0 : vers une plateforme unifiée pour le traitement, l’analyse et l’interprétation des données métabolomiques

Pang Z. et coll. (Nucleic Acids Res. 5 juill. 2024;52(W1):W398-W406. doi : 10.1093/nar/gkae253. PMID : 38587201; PMCID : PMC11223798.)

Pang Z, Lu Y, Zhou G, Hui F, Xu L, Viau C, Spigelman AF, MacDonald PE, Wishart DS, Li S, Xia J. (Nucleic Acids Res. 5 juill. 2024;52(W1):W398-W406. doi : 10.1093/nar/gkae253. PMID : 38587201; PMCID : PMC11223798.)

Publié : 08 avril 2024

Résumé

Nous présentons MetaboAnalyst version 6.0 comme une plateforme unifiée pour le traitement, l’analyse et l’interprétation des données provenant d’études de métabolomique ciblées et non ciblées à l’aide de la chromatographie liquide – spectrométrie de masse (LC–MS). Les deux principaux objectifs du développement de la version 6.0 sont de prendre en charge le traitement et l’annotation des données de SM en tandem (MS2), ainsi que de soutenir l’analyse des données provenant d’études d’exposomique et d’expériences connexes. Les principales fonctionnalités de MetaboAnalyst 6.0 comprennent : (i) un module de traitement des spectres considérablement amélioré avec prise en charge des données MS2 et de l’algorithme asari; (ii) un module d’annotation des pics MS2 fondé sur des bases de données de référence MS2 complètes avec annotation au niveau des fragments; (iii) un nouveau module d’analyse statistique dédié à la gestion de plans d’étude complexes comportant de multiples facteurs ou des descripteurs phénotypiques; (iv) un module d’analyse causale pour estimer les relations causales métabolite – phénotype à partir de la randomisation mendélienne à deux échantillons, et (v) un module d’analyse dose-réponse pour les calculs de dose de référence. De plus, nous avons également amélioré les fonctions de visualisation de MetaboAnalyst, mis à jour sa base de données de composés et ses ensembles de métabolites, et considérablement élargi la prise en charge de son analyse de voies à environ 130 espèces. MetaboAnalyst 6.0 est offert gratuitement à https://www.metaboanalyst.ca

Détection guidée par la multiomique sanguine d’une tumeur pancréatique précancéreuse

Anwar M. et coll. (OMICS. 2024 avr;28(4):182-192. doi : 10.1089/omi.2023.0278. Publication électronique le 17 avr 2024. PMID : 38634790.)

Anwar MA, Keshteli AH, Yang H, Wang W, Li X, Messier HM, Cullis PR, Borchers CH, Fraser R, Wishart DS. (OMICS. 2024 avr;28(4):182-192. doi : 10.1089/omi.2023.0278)

Affiliations

Résumé

Il y a plus de dix ans, l’analyse multiomique longitudinale a été lancée pour la détection précoce des maladies et des interventions de santé de précision adaptées individuellement. Toutefois, les coûts élevés de traitement des échantillons, l’étendue des mesures multiomiques ainsi que la complexité de l’analyse des données ont rendu cette approche de la médecine de précision/personnalisée peu pratique. Nous décrivons ici, dans un rapport de cas, une approche plus pratique qui utilise moins de mesures, un échantillonnage annuel et une prise de décision plus rapide. Nous montrons également comment cette approche offre une possibilité de détecter une affection extrêmement rare et potentiellement mortelle avant qu’elle ne se manifeste pleinement. Plus précisément, nous décrivons dans le présent rapport de cas comment la surveillance multiomique longitudinale (LMOM) a aidé à détecter une tumeur pancréatique précancéreuse et a mené à une intervention chirurgicale réussie. Le patient, inscrit à une LMOM annuelle basée sur le sang depuis 2018, a présenté des changements marqués dans les résultats annuels de métabolomique et de protéomique de juin 2021 et 2022, ce qui a motivé des tests diagnostiques cliniques supplémentaires pour le cancer du pancréas. À l’aide de l’imagerie par résonance magnétique abdominale, une lésion de 2,6 cm dans la queue du pancréas du patient a été détectée. Le liquide tumoral provenant d’une biopsie par aspiration présentait des niveaux d’antigène carcinoembryonnaire 10 000 fois supérieurs à la normale. Après résection chirurgicale de la tumeur, les résultats histopathologiques ont confirmé qu’il s’agissait d’une tumeur pancréatique précancéreuse. Les tests omiques postopératoires ont indiqué que la plupart des niveaux de métabolites et de protéines étaient revenus aux niveaux de 2018 du patient. Ce rapport de cas illustre le potentiel de la LMOM sanguine pour la médecine de précision/personnalisée, ainsi que de nouvelles façons de concevoir l’innovation médicale en vue d’un diagnostic précoce potentiellement salvateur du cancer du pancréas. La LMOM sanguine justifie de futures recherches translationnelles programmatiques ayant pour objectifs la médecine de précision, ainsi que des diagnostics et traitements du cancer adaptés individuellement.

Mots-clés : diagnostic; surveillance longitudinale; multiomique; cancer du pancréas; médecine personnalisée; oncologie de précision.

Avis de non-responsabilité de PubMed

Apprentissage de représentations moléculaires auto-supervisées pour la prédiction des interactions médicament-médicament

Kpanou R. et coll. (BMC Bioinformatics, 30 janv. 2024;25(1):47. doi : 10.1186/s12859-024-05643-7)

Kpanou R, Dallaire P, Rousseau E, Corbeil J. (BMC Bioinformatics, 30 janv. 2024;25(1):47. doi : 10.1186/s12859-024-05643-7)

Date de publication : 2024/1/30

Description :

Les interactions médicamenteuses (IM) constituent une préoccupation majeure en santé en raison de leur potentiel à causer des effets indésirables et à compromettre la sécurité des patients. Les modèles d’apprentissage automatique supervisé pour la prédiction des IM doivent être optimisés afin d’apprendre des caractéristiques abstraites et transférables, et de se généraliser à des espaces chimiques plus vastes, principalement en raison de la rareté des données d’IM étiquetées de haute qualité. Inspirés par les récentes avancées en vision par ordinateur, nous présentons SMR–DDI, un cadre auto-supervisé qui exploite l’apprentissage contrastif pour intégrer les médicaments dans un espace de caractéristiques fondé sur les échafaudages moléculaires. Les échafaudages moléculaires représentent les motifs structuraux de base qui déterminent les activités pharmacologiques, ce qui les rend précieux pour l’apprentissage de représentations informatives. Plus précisément, nous avons préentraîné SMR–DDI sur un jeu de données moléculaires non étiquetées à grande échelle. Nous avons généré des vues augmentées pour chaque molécule au moyen de l’énumération SMILES et optimisé le processus d’intégration au moyen de …

Le métabolome urinaire des nouveau-nés présentant des complications périnatales

López-Hernández Y. et al. L’urinaire (Metabolites. 10 janv. 2024;14(1):41. doi : 10.3390/metabo14010041. PMID : 38248844; PMCID : PMC10819924.)

López-Hernández Y, Lima-Rogel V, Mandal R, Zheng J, Zhang L, Oler E, García-López DA, Torres-Calzada C, Mejía-Elizondo AR, Poelsner J, López JA, Zubkowski A, Wishart DS. L’urinaire (Metabolites. 10 janv. 2024;14(1):41. doi : 10.3390/metabo14010041.)

Affiliations

Résumé

Les conditions pathologiques maternelles telles que les infections et les maladies chroniques, ainsi que les événements imprévus pendant le travail, peuvent entraîner des issues périnatales mettant la vie en danger. Ces issues peuvent avoir des conséquences irréversibles tout au long de la vie d’un individu. La métabolomique urinaire peut fournir des renseignements précieux sur les adaptations physiologiques précoces chez les nouveau-nés en santé, ainsi que sur les perturbations métaboliques chez les nourrissons prématurés ou présentant des complications à la naissance. Dans la présente étude, nous avons mesuré 180 métabolites et rapports de métabolites dans l’urine de 13 nouveau-nés en santé (ayant reçu leur congé de l’hôpital) et de 38 nouveau-nés gravement malades (admis à l’unité de soins intensifs néonatals (USIN)). Nous avons utilisé un dosage métabolomique ciblé en spectrométrie de masse en tandem (MS/MS), développé à l’interne (TMIC Mega), combinant la chromatographie liquide (LC-MS/MS) et l’analyse par injection en flux (FIA-MS/MS), afin d’analyser quantitativement jusqu’à 26 classes de composés. Les concentrations urinaires moyennes (et les intervalles) de 167 métabolites différents provenant de 38 nouveau-nés gravement malades admis à l’USIN durant leurs 24 premières heures de vie ont été déterminées. Des ensembles similaires de valeurs urinaires ont été déterminés pour les 13 nouveau-nés en santé. Ces données de référence ont été téléversées dans la Human Metabolome Database. Les concentrations urinaires et les intervalles de 37 métabolites sont rapportés pour la première fois chez les nouveau-nés. Des différences significatives ont été observées dans les niveaux urinaires de 44 métabolites entre les nouveau-nés en santé et ceux admis à l’USIN. Des métabolites tels que les acylcarnitines, les acides aminés et leurs dérivés, les amines biogènes, les sucres et les acides organiques sont dérégulés chez les nouveau-nés atteints de dysplasie bronchopulmonaire (DBP), d’asphyxie, ou exposés au SRAS-CoV-2 pendant la période intra-utérine. L’urine peut constituer une source précieuse d’information pour comprendre les altérations métaboliques associées aux issues périnatales mettant la vie en danger.

Mots-clés : LC-MS/MS; USIN; asphyxie; dysplasie bronchopulmonaire; métabolites; métabolomique; nouveau-nés.

Avis de non-responsabilité de PubMed

PathBank 2.0 — la base de données des voies métaboliques pour la métabolomique des organismes modèles

Wishart D. et coll. (Nucleic Acids Res. 5 janv. 2024;52(D1):D654-D662. doi : 10.1093/nar/gkad1041. Erratum dans : Nucleic Acids Res. 12 avr. 2024;52(6):3486. doi : 10.1093/nar/gkae191. PMID : 37962386; PMCID : PMC10767802.)

Wishart DS, Kruger R, Sivakumaran A, Harford K, Sanford S, Doshi R, Kehrtarpal N, Fatokun O, Doucet D, Zubkowski A, Jackson H, Sykes G, Ramirez-Gaona M, Marcu A, Li C, Yee K, Garros C, Rayat DY, Coleongco J, Nandyala T, Gautam V, Oler E. (Nucleic Acids Res. 5 janv. 2024;52(D1):D654-D662. doi : 10.1093/nar/gkad1041.)

Affiliations

Erratum dans

Résumé

PathBank (https://pathbank.org) et sa base de données prédécesseure, la Small Molecule Pathway Database (SMPDB), fournissent des informations complètes sur les voies métaboliques pour la communauté de la métabolomique depuis 2010. Au cours des 14 dernières années, ces bases de données de voies ont considérablement grandi et évolué afin de répondre aux besoins de la communauté de la métabolomique et de s’adapter aux changements continus de la technologie informatique. La mise à jour de cette année, PathBank 2.0, apporte un certain nombre d’améliorations et de mises à niveau importantes qui devraient rendre la base de données plus utile et plus attrayante pour un plus large éventail d’utilisateurs. En particulier, ces améliorations comprennent : (i) une augmentation importante du nombre de voies primaires ou canoniques (de 1720 à 6951) ; (ii) une augmentation massive du nombre total de voies (de 110 234 à 605 359) ; (iii) des améliorations significatives de la qualité des schémas de voies et des descriptions de voies ; (iv) un fort accent sur les voies du métabolisme des médicaments et des mécanismes d’action des médicaments ; (v) le fait de rendre la plupart des images de voies plus compatibles avec les diapositives et les manuscrits ; (vi) l’ajout d’outils pour favoriser un meilleur filtrage et une meilleure sélection des voies grâce à une taxonomie des voies plus complète ; (vii) l’ajout d’outils d’analyse des voies pour visualiser et calculer l’enrichissement des voies. De nombreuses autres améliorations mineures et mises à jour du contenu, de l’interface et de la performance générale du site Web de PathBank ont également été effectuées. Dans l’ensemble, nous croyons que ces mises à niveau et mises à jour devraient grandement améliorer la facilité d’utilisation de PathBank et ses applications potentielles pour l’interprétation des données de métabolomique.

© Les auteur(s) 2023. Publié par Oxford University Press au nom de Nucleic Acids Research.

Avis de non-responsabilité de PubMed

DrugBank 6.0 : la base de connaissances DrugBank pour 2024

Knox C. et coll. (Nucleic Acids Res. 5 janv. 2024;52(D1):D1265-D1275. doi : 10.1093/nar/gkad976. PMID : 37953279; PMCID : PMC10767804.)

Knox C, Wilson M, Klinger CM, Franklin M, Oler E, Wilson A, Pon A, Cox J, Chin NEL, Strawbridge SA, Garcia-Patino M, Kruger R, Sivakumaran A, Sanford S, Doshi R, Khetarpal N, Fatokun O, Doucet D, Zubkowski A, Rayat DY, Jackson H, Harford K, Anjum A, Zakir M, Wang F, Tian S, Lee B, Liigand J, Peters H, Wang RQR, Nguyen T, So D, Sharp M, da Silva R, Gabriel C, Scantlebury J, Jasinski M, Ackerman D, Jewison T, Sajed T, Gautam V, Wishart DS. (Nucleic Acids Res. 5 janv. 2024;52(D1):D1265-D1275. doi : 10.1093/nar/gkad976.)

Affiliations

Résumé

Lancé pour la première fois en 2006, DrugBank (https://go.drugbank.com) est devenu la ressource de connaissances « référence » pour les médicaments, les cibles médicamenteuses et l’information pharmaceutique connexe. DrugBank est largement utilisé dans de nombreuses applications diversifiées de recherche biomédicale et clinique, et enregistre en moyenne plus de 30 millions de consultations par année. Depuis sa dernière mise à jour en 2018, nous avons activement amélioré la quantité et la qualité des données sur les médicaments dans cette base de connaissances. Dans cette plus récente version (DrugBank 6.0), le nombre de médicaments approuvés par la FDA est passé de 2646 à 4563 (une augmentation de 72 %), le nombre de médicaments expérimentaux est passé de 3394 à 6231 (une augmentation de 38 %), le nombre d’interactions médicament-médicament est passé de 365 984 à 1 413 413 (une augmentation de 300 %), et le nombre d’interactions médicament-aliment est passé de 1195 à 2475 (une augmentation de 200 %). En plus de cette expansion notable de la taille de la base de données, nous avons ajouté des milliers de nouvelles voies colorées et richement annotées illustrant les mécanismes d’action des médicaments et leur métabolisme. De même, les ensembles de données existants ont été considérablement améliorés et élargis, par l’ajout de davantage d’information sur les indications des médicaments, les interactions médicament-médicament, les interactions médicament-aliment et de nombreux autres types de données pertinents pour 11 891 médicaments. Nous avons également ajouté des spectres MS/MS expérimentaux et prédits, des spectres RMN 1D/2D, ainsi que des données de CCS (section efficace de collision), de RT (temps de rétention) et de RI (indice de rétention) pour 9464 des 11 710 médicaments à petite molécule de DrugBank. Ces améliorations et d’autres devraient rendre DrugBank 6.0 encore plus utile à un public de recherche beaucoup plus large, allant des chimistes médicinaux aux spécialistes de la métabolomique en passant par les pharmacologues.

© L’auteur/Les auteurs 2023. Publié par Oxford University Press au nom de Nucleic Acids Research.

Avis de non-responsabilité PubMed

La prédiction des spectres MS/MS basée sur l’apprentissage profond facilite l’identification automatisée de nouvelles substances psychoactives.

Wang F. et coll. (Anal Chem. 19 déc. 2023;95(50):18326-18334. doi : 10.1021/acs.analchem.3c02413. Publication en ligne le 4 déc. 2023. PMID : 38048435; PMCID : PMC10733899.)

Wang F, Pasin D, Skinnider MA, Liigand J, Kleis JN, Brown D, Oler E, Sajed T, Gautam V, Harrison S, Greiner R, Foster LJ, Dalsgaard PW, Wishart DS. (Anal Chem. 19 déc. 2023;95(50):18326-18334. doi : 10.1021/acs.analchem.3c02413.)

Résumé

Le marché des drogues illicites a été remodelé par l’émergence de plus de 1u001600 nouvelles substances psychoactives (NSP) au cours de la dernière décennie, ce qui pose un défi majeur aux laboratoires de médecine légale et de toxicologie chargés de les détecter et de les identifier. La spectrométrie de masse en tandem (MS/MS) est la principale méthode utilisée pour le dépistage des NSP dans les matières saisies ou les échantillons biologiques. Les flux de travail les plus contemporains nécessitent des étalons de référence MS/MS exigeants en main-d’œuvre et coûteux, qui peuvent ne pas être disponibles pour les NSP récemment apparues sur le marché illicite. Nous présentons ici NPS-MS, une méthode d’apprentissage profond capable de prédire avec précision les spectres MS/MS de NSP connues et hypothétiques à partir de leurs seules structures chimiques. NPS-MS est entraîné par apprentissage par transfert à partir d’un modèle générique de prédiction MS/MS sur un vaste ensemble de données de spectres MS/MS. Nous montrons que cette approche permet une identification plus précise des NSP à partir de spectres MS/MS acquis expérimentalement que toute méthode existante. Nous démontrons l’application de NPS-MS pour identifier un nouveau dérivé de la phencyclidine (PCP) dans une poudre inconnue saisie au Danemark sans utiliser d’étalons de référence. Nous prévoyons que NPS-MS permettra aux laboratoires de médecine légale d’identifier plus rapidement les NSP, tant connues que nouvellement émergentes. NPS-MS est accessible sous forme de serveur Web à l’adresse https://nps-ms.ca/, qui offre des capacités de prédiction de spectres MS/MS pour des composés NSP donnés. De plus, il propose l’identification de spectres MS/MS par rapport à une vaste base de données comprenant environ 8,7 millions de composés NSP prédits de DarkNPS et 24,5 millions de spectres ESI-QToF-MS/MS prédits pour ces composés.

Algorithme d’amplification d’échantillons (SamBA) – Un classificateur d’ensemble glouton interprétable fondé sur l’expertise locale pour des données volumineuses

Bauvin B. et coll. (PMLR 216 : 130–140, 2023)

Bauvin B, Capponi C, Clerc F, Germain P, Koço S, Corbeil J. (Actes de la trente-neuvième conférence sur l’incertitude en intelligence artificielle. PMLR 216:130–140. 2023.)

Résumé

Les méthodes d’ensemble constituent une famille d’algorithmes très diversifiée, avec un large éventail d’applications. L’une des plus couramment utilisées est le boosting, notamment AdaBoost. AdaBoost repose sur l’apprentissage glouton de classificateurs de base qui corrigent l’erreur des itérations précédentes. Ensuite, il les combine au moyen d’un vote majoritaire pondéré, fondé sur leur qualité sur l’ensemble complet d’apprentissage. Dans cet article, nous proposons un cadre de classification binaire supervisée qui propage vers la fonction de prédiction les connaissances locales acquises durant les itérations de boosting. À partir de ce cadre général, nous présentons SamBA, une méthode d’ensemble gloutonne interprétable conçue pour des jeux de données « fat », comportant un grand nombre de dimensions et un petit nombre d’échantillons. SamBA apprend des classificateurs locaux et les combine, à l’aide d’une fonction de similarité, afin d’optimiser son efficacité d’extraction de l’information dans les données. Nous proposons une analyse théorique de SamBA, offrant des garanties de convergence et de généralisation. De plus, nous mettons en lumière le comportement empirique de SamBA au moyen d’une analyse expérimentale approfondie, réalisée sur des jeux de données biologiques réels et générés, en le comparant à des méthodes d’ensemble de pointe ainsi qu’à des approches fondées sur la similarité

Base de données protéique flexible basée sur des k-mers d’acides aminés

Déraspe M. et coll. (Sci Rep 1 juin 2022;12(1):9101)

Déraspe M, Boisvert S, Laviolette F, Roy PH, Corbeil J. (Sci Rep. 2022; 12(1): 9101. doi: 10.1038/s41598-022-12843-9)

L’identification des protéines est l’une des étapes les plus intensives en calcul dans les études de génomique. Elle repose généralement sur des aligneurs qui ne prennent pas en charge l’information riche sur les protéines et nécessitent des étapes supplémentaires de pipeline pour l’identification des protéines. Nous présentons kAAmer, un moteur de base de données de protéines fondé sur des k-mers d’acides aminés qui permet une identification efficace des protéines tout en prenant en charge l’intégration d’annotations flexibles sur ces protéines. De plus, la base de données est conçue pour être utilisée comme microservice, afin d’être hébergée et interrogée à distance.

Une tâche fondamentale en génomique est l’identification et l’annotation des régions codantes de l’ADN qui se traduisent en protéines via un code génétique. Les bases de données de protéines augmentent en taille à mesure que de nouveaux variants, des gènes orthologues et de nouveaux gènes, souvent trouvés dans les études de métagénomique, sont séquencés. Cela est particulièrement vrai dans le monde microbien, où la diversité des protéomes bactériens suit leur évolution rapide. Par exemple, UniProtKB (Swiss-Prot/TrEMBL)1 et NCBI RefSeq 2 contiennent plus de 100 millions de protéines bactériennes et ce nombre augmente rapidement. L’identification des protéines repose souvent sur des logiciels d’alignement précis, mais lents, tels que BLAST ou des logiciels fondés sur des profils de modèles de Markov cachés (HMM) 3,4 . Bien que d’autres approches (telles que DIAMOND 5 ) aient considérablement amélioré la vitesse de recherche de protéines dans de grands jeux de données, du point de vue des bases de données, beaucoup peut être fait pour offrir une expérience plus polyvalente. Une telle approche consisterait à exposer la base de données comme un service permanent, pouvant utiliser des ressources de calcul pour une performance accrue (p. ex. mappage mémoire) et tirer parti du nuage pour des analyses à distance via une API HTTP. Une autre approche consisterait à enrichir les résultats avec des informations complètes sur les cibles protéiques afin de faciliter les pipelines d’analyse subséquents en génomique et en métagénomique.

Réseaux de flux génératifs

Bengio Y. (Page Web de Yoshua Bengio 2022)

Bengio Y. (Page Web de Yoshua Bengio 2022)

(Voir le tutoriel GFlowNet et la liste d’articles ici)

J’ai rarement été aussi enthousiaste à propos d’une nouvelle orientation de recherche. Nous les appelons GFlowNets, pour Generative Flow Networks. Ils se situent à l’intersection de l’apprentissage par renforcement, des modèles génératifs profonds et de la modélisation probabiliste fondée sur l’énergie. Ils sont aussi liés aux modèles variationnels et à l’inférence, et je crois qu’ils ouvrent de nouvelles portes pour la modélisation bayésienne non paramétrique, l’apprentissage actif génératif, et l’apprentissage non supervisé ou auto-supervisé de représentations abstraites afin de démêler à la fois les facteurs causaux explicatifs et les mécanismes qui les relient. Ce que je trouve enthousiasmant, c’est qu’ils ouvrent tellement de portes, mais en particulier pour mettre en œuvre les biais inductifs du système 2 dont je discute dans plusieurs de mes articles et conférences depuis 2017, et qui, selon moi, sont importants pour intégrer la causalité et traiter la généralisation hors distribution de manière rationnelle. Ils permettent aux réseaux neuronaux de modéliser des distributions sur des structures de données comme des graphes (par exemple des molécules, comme dans l’article NeurIPS, ou des graphes explicatifs et causaux, dans des travaux en cours et à venir), d’en échantillonner ainsi que d’estimer toutes sortes de quantités probabilistes (comme les énergies libres, des probabilités conditionnelles sur des sous-ensembles arbitraires de variables, ou des fonctions de partition) qui, autrement, semblent inabordables.

HMDB 5.0 : la base de données du métabolome humain pour 2022

Wishart D. et coll. (Nucleic Acids Res 7 janv. 2022;50(D1):D622-D631.

Wishart DS, Guo A, Oler E, Wang F, Anjum A, Peters H, Dizon R, Sayeeda Z, Tian S, Lee BL, Berjanskii M, Mah R, Yamamoto M, Jovel J, Torres-Calzada C, Hiebert-Giesbrecht M, Lui VW, Varshavi D, Varshavi D, Allen D, Arndt D, Khetarpal N, Sivakumaran A, Harford K, Sanford S, Yee K, Cao X, Budinski Z, Liigand J, Zhang L, Zheng J, Mandal R, Karu N, Dambrova M, Schiöth HB, Greiner R, Gautam V. (Nucleic Acids Res. 2022; 50(D1) : D622–D631. doi : 10.1093/nar/gkab1062)

Résumé

La Human Metabolome Database ou HMDB (https://hmdb.ca) fournit des informations de référence complètes sur les métabolites humains ainsi que sur leurs propriétés biologiques, physiologiques et chimiques associées depuis 2007. Au cours des 15 dernières années, la HMDB a considérablement grandi et évolué afin de répondre aux besoins de la communauté de la métabolomique et de s’adapter aux changements continus des technologies Internet et informatiques. La mise à jour de cette année, HMDB 5.0, apporte un certain nombre d’améliorations et de mises à niveau importantes à la base de données. Celles-ci devraient rendre la HMDB plus utile et plus attrayante pour un plus large éventail d’utilisateurs. En particulier, ces améliorations comprennent : (i) une augmentation importante du nombre d’entrées de métabolites (de 114 100 à 217 920 composés); (ii) des améliorations de la qualité et de la profondeur des descriptions de métabolites; (iii) l’ajout de nouveaux outils de visualisation des structures, des spectres et des voies métaboliques; (iv) l’inclusion de nombreux nouveaux ensembles de données spectrales, beaucoup plus précisément prédits, y compris des spectres RMN prédits, des spectres MS prédits avec plus de précision, des indices de rétention prédits et des données de section efficace de collision prédites; et (v) des améliorations aux fonctions de recherche de la HMDB afin de faciliter une meilleure identification des composés

Intégration et présentation complètes d’expériences d’apprentissage supervisé multi-vues à l’aide de SuMMIT

Bauvin B. et coll. (PMRL 183:139–150, 2022)

Bauvin B, Corbeil J, Benielli D, Koço S, Capponi C. (Actes du quatrième atelier international sur l’apprentissage dans des domaines déséquilibrés : théorie et applications. PMLR 183. 2022.)

Résumé

SuMMIT (Supervised Multi Modal Integration Tool) est un logiciel offrant de nombreuses fonctionnalités pour exécuter, ajuster et analyser des expériences de tâches de classification supervisée, spécialement conçues pour des ensembles de données multi-vues. SuMMIT fait partie d’une plateforme 1 qui regroupe plusieurs outils pour traiter des ensembles de données multi-vues, tels que scikit-multimodallearn (Benielli et al., 2021) ou MAGE (Bauvin et al., 2021). Cet article présente des cas d’utilisation de SuMMIT, y compris l’optimisation des hyperparamètres, démontrant l’utilité d’une telle plateforme pour gérer la complexité du benchmarking multi-vues sur un ensemble de données déséquilibré. SuMMIT est propulsé par Python3 et basé sur scikit-learn, ce qui le rend facile à utiliser et à étendre en y branchant ses propres algorithmes spécifiques, fonctions de score ou en ajoutant de nouvelles fonctionnalités2. Grâce à l’intégration continue, nous encourageons le développement collaboratif. Mots-clés : Multimodal, Supervisé, Classification, Benchmarking, Python, Recherche reproductible, Modularité, Explicabilité, Interprétabilité

Sur la robustesse de la généralisation des modèles d’interactions médicament–médicament

Kpanou R. et coll. (BMC Bioinformatic, 4 oct. 2021;22(1):477).

Kpanou R, Osseni MA, Tossou P, Laviolette F, Corbeil J. (BMC Bioinformatics. 2021; 22(1) : 477. doi : 10.1186/s12859-021-04398-9)

Résumé

Contexte : Les méthodes d’apprentissage profond sont une valeur sûre dans de nombreux domaines et projets. L’un de ces projets consiste à prédire la présence d’interactions médicamenteuses indésirables (DDI). Les modèles générés peuvent prédire, avec une précision raisonnable, les phénotypes découlant des interactions médicamenteuses à l’aide de leurs structures moléculaires. Néanmoins, cette tâche doit être améliorée pour être véritablement utile. Compte tenu de la complexité de la tâche de prédiction, une analyse comparative approfondie des modèles fondés sur la structure pour la prédiction des DDI a été réalisée afin d’évaluer leurs inconvénients et leurs avantages.

Résultats : Nous avons rigoureusement testé divers modèles fondés sur la structure qui prédisent les interactions médicamenteuses en utilisant différentes stratégies de partitionnement pour simuler divers scénarios du monde réel. En plus des effets de différentes configurations d’entraînement et de test sur la robustesse et la capacité de généralisation des modèles, nous explorons ensuite la contribution d’approches traditionnelles telles que l’apprentissage multitâche et l’augmentation des données

L’analyse par apprentissage automatique identifie les gènes qui différencient les cancers du sein triples négatifs

Kothari C. et coll. (Sci Rep, 26 juin 2020;10(1):10464.)

Kothari C, Osseni MA, Agbo L, Ouellette G, Déraspe M, Laviolette F, Corbeil J, Lambert JP, Diorio C, Durocher F. (Sci Rep. 2020; 10(1): 10464. doi: 10.1038/s41598-020-67525-1)

Le cancer du sein triple négatif (CSTN) est l’une des formes les plus agressives de cancer du sein (CS), avec la mortalité la plus élevée en raison d’un taux élevé de rechute, de résistance et de l’absence de traitement efficace. Diverses approches moléculaires ont été utilisées pour cibler le CSTN, mais avec peu de succès. Ici, à l’aide d’algorithmes d’apprentissage automatique, nous avons analysé les données disponibles sur le CS provenant du Cancer Genome Atlas Network (TCGA) et avons identifié deux gènes potentiels, TBC1D9 (membre 9 de la famille à domaine TBC1) et MFGE8 (protéine facteur 8 de type EGF des globules gras du lait), qui pourraient différencier avec succès le CSTN du non‑CSTN, indépendamment de leur hétérogénéité. TBC1D9 est sous‑exprimé dans le CSTN comparativement aux patientes non‑CSTN, tandis que MFGE8 est surexprimé. La surexpression de TBC1D9 est associée à un meilleur pronostic, alors que la surexpression de MFGE8 est corrélée à un mauvais pronostic. L’analyse des interactions protéine–protéine par spectrométrie de masse après purification par affinité (AP‑MS) et des expériences de biotinylation de proximité (BioID) a mis en évidence un rôle de TBC1D9 dans le maintien de l’intégrité cellulaire, tandis que MFGE8 serait impliqué dans divers processus de survie tumorale. Ces gènes prometteurs pourraient servir de biomarqueurs pour le CSTN et méritent une investigation plus approfondie, car ils ont le potentiel d’être développés comme cibles thérapeutiques pour le CSTN.

Alignement des spectres de masse à l’aide de masses de verrouillage virtuelles

Brochu F. et coll. (Sci Rep. 11 juin 2019;9(1):8469. doi : 10.1038/s41598-019-44923-8)

Brochu F, Plante PL, Drouin A, Gagnon D, Richard D, Durocher F, Diorio C, Marchand M, Corbeil J, Laviolette F. (Sci Rep. 2019; 9(1) : 8469. doi : 10.1038/s41598-019-44923-8)

La spectrométrie de masse est une méthode de grande valeur pour évaluer le contenu métabolomique d’un échantillon biologique. L’avènement récent de technologies d’ionisation rapide, comme la désorption thermique par diode laser (LDTD) et l’analyse directe en temps réel (DART), a rendu possible la spectrométrie de masse à haut débit. Elle est utilisée pour l’analyse comparative à grande échelle de populations d’échantillons. En pratique, de nombreux facteurs découlant de l’environnement, du protocole et même de l’instrument lui-même peuvent entraîner de légers écarts entre les spectres, ce qui rend l’analyse comparative automatisée difficile. Dans ce travail, une séquence/chaîne de traitement d’algorithmes visant à corriger les variations entre les spectres est proposée. Les algorithmes corrigent plusieurs spectres en identifiant les pics communs à tous et, à partir de ceux-ci, calculent une correction propre à chaque spectre. Nous montrons que ces algorithmes augmentent la comparabilité au sein de grands ensembles de données de spectres, facilitant l’analyse comparative, comme l’apprentissage automatique.

Prédiction des sections efficaces de collision en mobilité ionique à l’aide d’un réseau neuronal profond : DeepCCS

Plante P. et coll. (Ana Chem, 16 avr. 2019;91(8):5191-5199)

Plante PL, Francovic-Fontaine É, May JC, McLean JA, Baker ES, Laviolette F, Marchand M, Corbeil J. (Anal Chem. 2019; 91(8) : 5191–5199. doi : 10.1021/acs.analchem.8b05821)

Résumé

Les mesures métabolomiques non ciblées utilisant la spectrométrie de masse sont un outil puissant pour découvrir de nouvelles petites molécules d’importance environnementale et biologique. Cependant, l’étape d’identification des petites molécules demeure un énorme défi en raison des difficultés de fragmentation ou d’informations non spécifiques sur les ions fragments. Les méthodes actuelles pour relever ce défi dépendent souvent de bases de données ou exigent l’utilisation de la résonance magnétique nucléaire (RMN), qui présentent leurs propres difficultés. L’utilisation des valeurs de section efficace de collision en phase gazeuse (CCS) obtenues à partir de mesures de spectrométrie de mobilité ionique (IMS) a récemment démontré qu’elle réduit le nombre de fausses identifications positives de métabolites. Bien que prometteuse, la quantité d’information CCS empirique actuellement disponible est limitée; il est donc nécessaire de développer des méthodes prédictives de CCS. Dans cet article, nous élargissons les capacités expérimentales actuelles de l’IMS en prédisant les valeurs de CCS à l’aide d’un algorithme d’apprentissage profond. Nous avons développé et entraîné avec succès un modèle de prédiction des valeurs de CCS ne nécessitant que des informations sur la notation SMILES d’un composé et le type d’ion. L’utilisation de données provenant de cinq laboratoires différents utilisant des instruments différents a permis d’entraîner et de tester l’algorithme sur plus de 2 400 molécules. Les prédictions de CCS obtenues ont atteint un coefficient de détermination de 0,97 et une erreur relative médiane de 2,7 % pour une large gamme

Classificateurs génotype-phénotype interprétables avec des garanties de performance

Drouin A. et coll. (Sci Rep, 11 mars 2019;9(1):4071)

Drouin A, Letarte G, Raymond F, Marchand M, Corbeil J, Laviolette F. (Sci Rep. 2019; 9(1) : 4071. doi : 10.1038/s41598-019-40561-2)

Comprendre la relation entre le génome d’une cellule et son phénotype est un problème central en médecine de précision. Néanmoins, la prédiction du phénotype à partir du génotype comporte de grands défis pour les algorithmes d’apprentissage automatique, ce qui limite leur utilisation dans ce contexte. La grande dimensionnalité des données tend à nuire à la généralisation et met à l’épreuve l’extensibilité de la plupart des algorithmes d’apprentissage. De plus, la plupart des algorithmes produisent des modèles complexes et difficiles à interpréter. Nous atténuons ces limites en proposant de solides garanties de performance, fondées sur la théorie de la compression d’échantillons, pour des algorithmes d’apprentissage basés sur des règles qui produisent des modèles hautement interprétables. Nous montrons que ces garanties peuvent être exploitées pour accélérer l’apprentissage et améliorer l’interprétabilité des modèles. Notre approche est validée au moyen d’une application à la prédiction génomique de la résistance aux antimicrobiens, un enjeu important de santé publique. Des modèles très précis ont été obtenus pour 12 espèces et 56 antibiotiques, et leur interprétation a révélé des mécanismes de résistance connus, ainsi que certains potentiellement nouveaux. Une implémentation libre, basée sur disque, à la fois efficace en mémoire et en calcul, est fournie avec ce travail. L’implémentation est prête à l’emploi, ne requiert aucune connaissance préalable en apprentissage automatique et est accompagnée de tutoriels complets.

Extraction d’une signature de la COVID-19 à partir d’un ensemble de données multi-omique

Bauvin B. et coll. (Frontiers in Bioinformatics. 2025; 5 : 1645785. doi:10.3389/fbinf.2025.1645785)

Bauvin B, Godon T, Bachelot G, Carpentier C, Huusaari R, Deraspe M, Rousu J, Quach C, Corbeil J. (Front Bioinform. 2025; 5: 1645785. doi : 10.3389/fbinf.2025.1645785)

Nous présentons une signature multiomique de la COVID-19 élaborée dans le cadre d’une initiative québécoise exhaustive qui a constitué un vaste ensemble de données d’échantillons de patients positifs et négatifs à la COVID-19. En allant au-delà des études symptomatiques traditionnelles qui reposent sur des descripteurs limités, notre recherche intègre des données cliniques, protéomiques et métabolomiques afin de classifier le statut COVID-19 à l’aide de milliers de caractéristiques. Notre approche d’apprentissage automatique multi-vues extrait des signatures distinctives de la COVID-19 à partir de données multiomiques avec une efficacité remarquable. En appliquant des méthodes d’ensemble, nous avons développé des modèles précis et interprétables pour des données de haute dimension contenant significativement plus de caractéristiques que d’échantillons, atteignant une exactitude équilibrée de 89 % ± 5 %. Grâce à notre nouvelle méthodologie de pertinence des caractéristiques, nous avons identifié des signatures condensées de 12 et 50 caractéristiques qui ont amélioré l’exactitude de classification d’au moins 3 % par rapport à l’ensemble de caractéristiques initial. Cette approche a permis d’extraire et d’interpréter avec succès une signature multiomique robuste caractérisant les personnes positives à la COVID-19 à partir d’un ensemble de données vaste et complexe, ce qui représente une avancée importante dans la découverte de biomarqueurs de la COVID-19.

MetaboAnalyst 6.0 : vers une plateforme unifiée pour le traitement, l’analyse et l’interprétation des données métabolomiques

Pang Z. et coll. (Nucleic Acids Res. 5 juill. 2024;52(W1):W398-W406. doi : 10.1093/nar/gkae253. PMID : 38587201; PMCID : PMC11223798.)

Pang Z, Lu Y, Zhou G, Hui F, Xu L, Viau C, Spigelman AF, MacDonald PE, Wishart DS, Li S, Xia J. (Nucleic Acids Res. 5 juill. 2024;52(W1):W398-W406. doi : 10.1093/nar/gkae253. PMID : 38587201; PMCID : PMC11223798.)

Publié : 08 avril 2024

Résumé

Nous présentons MetaboAnalyst version 6.0 comme une plateforme unifiée pour le traitement, l’analyse et l’interprétation des données provenant d’études de métabolomique ciblées et non ciblées à l’aide de la chromatographie liquide – spectrométrie de masse (LC–MS). Les deux principaux objectifs du développement de la version 6.0 sont de prendre en charge le traitement et l’annotation des données de SM en tandem (MS2), ainsi que de soutenir l’analyse des données provenant d’études d’exposomique et d’expériences connexes. Les principales fonctionnalités de MetaboAnalyst 6.0 comprennent : (i) un module de traitement des spectres considérablement amélioré avec prise en charge des données MS2 et de l’algorithme asari; (ii) un module d’annotation des pics MS2 fondé sur des bases de données de référence MS2 complètes avec annotation au niveau des fragments; (iii) un nouveau module d’analyse statistique dédié à la gestion de plans d’étude complexes comportant de multiples facteurs ou des descripteurs phénotypiques; (iv) un module d’analyse causale pour estimer les relations causales métabolite – phénotype à partir de la randomisation mendélienne à deux échantillons, et (v) un module d’analyse dose-réponse pour les calculs de dose de référence. De plus, nous avons également amélioré les fonctions de visualisation de MetaboAnalyst, mis à jour sa base de données de composés et ses ensembles de métabolites, et considérablement élargi la prise en charge de son analyse de voies à environ 130 espèces. MetaboAnalyst 6.0 est offert gratuitement à https://www.metaboanalyst.ca

Détection guidée par la multiomique sanguine d’une tumeur pancréatique précancéreuse

Anwar M. et coll. (OMICS. 2024 avr;28(4):182-192. doi : 10.1089/omi.2023.0278. Publication électronique le 17 avr 2024. PMID : 38634790.)

Anwar MA, Keshteli AH, Yang H, Wang W, Li X, Messier HM, Cullis PR, Borchers CH, Fraser R, Wishart DS. (OMICS. 2024 avr;28(4):182-192. doi : 10.1089/omi.2023.0278)

Affiliations

Résumé

Il y a plus de dix ans, l’analyse multiomique longitudinale a été lancée pour la détection précoce des maladies et des interventions de santé de précision adaptées individuellement. Toutefois, les coûts élevés de traitement des échantillons, l’étendue des mesures multiomiques ainsi que la complexité de l’analyse des données ont rendu cette approche de la médecine de précision/personnalisée peu pratique. Nous décrivons ici, dans un rapport de cas, une approche plus pratique qui utilise moins de mesures, un échantillonnage annuel et une prise de décision plus rapide. Nous montrons également comment cette approche offre une possibilité de détecter une affection extrêmement rare et potentiellement mortelle avant qu’elle ne se manifeste pleinement. Plus précisément, nous décrivons dans le présent rapport de cas comment la surveillance multiomique longitudinale (LMOM) a aidé à détecter une tumeur pancréatique précancéreuse et a mené à une intervention chirurgicale réussie. Le patient, inscrit à une LMOM annuelle basée sur le sang depuis 2018, a présenté des changements marqués dans les résultats annuels de métabolomique et de protéomique de juin 2021 et 2022, ce qui a motivé des tests diagnostiques cliniques supplémentaires pour le cancer du pancréas. À l’aide de l’imagerie par résonance magnétique abdominale, une lésion de 2,6 cm dans la queue du pancréas du patient a été détectée. Le liquide tumoral provenant d’une biopsie par aspiration présentait des niveaux d’antigène carcinoembryonnaire 10 000 fois supérieurs à la normale. Après résection chirurgicale de la tumeur, les résultats histopathologiques ont confirmé qu’il s’agissait d’une tumeur pancréatique précancéreuse. Les tests omiques postopératoires ont indiqué que la plupart des niveaux de métabolites et de protéines étaient revenus aux niveaux de 2018 du patient. Ce rapport de cas illustre le potentiel de la LMOM sanguine pour la médecine de précision/personnalisée, ainsi que de nouvelles façons de concevoir l’innovation médicale en vue d’un diagnostic précoce potentiellement salvateur du cancer du pancréas. La LMOM sanguine justifie de futures recherches translationnelles programmatiques ayant pour objectifs la médecine de précision, ainsi que des diagnostics et traitements du cancer adaptés individuellement.

Mots-clés : diagnostic; surveillance longitudinale; multiomique; cancer du pancréas; médecine personnalisée; oncologie de précision.

Avis de non-responsabilité de PubMed

Apprentissage de représentations moléculaires auto-supervisées pour la prédiction des interactions médicament-médicament

Kpanou R. et coll. (BMC Bioinformatics, 30 janv. 2024;25(1):47. doi : 10.1186/s12859-024-05643-7)

Kpanou R, Dallaire P, Rousseau E, Corbeil J. (BMC Bioinformatics, 30 janv. 2024;25(1):47. doi : 10.1186/s12859-024-05643-7)

Date de publication : 2024/1/30

Description :

Les interactions médicamenteuses (IM) constituent une préoccupation majeure en santé en raison de leur potentiel à causer des effets indésirables et à compromettre la sécurité des patients. Les modèles d’apprentissage automatique supervisé pour la prédiction des IM doivent être optimisés afin d’apprendre des caractéristiques abstraites et transférables, et de se généraliser à des espaces chimiques plus vastes, principalement en raison de la rareté des données d’IM étiquetées de haute qualité. Inspirés par les récentes avancées en vision par ordinateur, nous présentons SMR–DDI, un cadre auto-supervisé qui exploite l’apprentissage contrastif pour intégrer les médicaments dans un espace de caractéristiques fondé sur les échafaudages moléculaires. Les échafaudages moléculaires représentent les motifs structuraux de base qui déterminent les activités pharmacologiques, ce qui les rend précieux pour l’apprentissage de représentations informatives. Plus précisément, nous avons préentraîné SMR–DDI sur un jeu de données moléculaires non étiquetées à grande échelle. Nous avons généré des vues augmentées pour chaque molécule au moyen de l’énumération SMILES et optimisé le processus d’intégration au moyen de …

Le métabolome urinaire des nouveau-nés présentant des complications périnatales

López-Hernández Y. et al. L’urinaire (Metabolites. 10 janv. 2024;14(1):41. doi : 10.3390/metabo14010041. PMID : 38248844; PMCID : PMC10819924.)

López-Hernández Y, Lima-Rogel V, Mandal R, Zheng J, Zhang L, Oler E, García-López DA, Torres-Calzada C, Mejía-Elizondo AR, Poelsner J, López JA, Zubkowski A, Wishart DS. L’urinaire (Metabolites. 10 janv. 2024;14(1):41. doi : 10.3390/metabo14010041.)

Affiliations

Résumé

Les conditions pathologiques maternelles telles que les infections et les maladies chroniques, ainsi que les événements imprévus pendant le travail, peuvent entraîner des issues périnatales mettant la vie en danger. Ces issues peuvent avoir des conséquences irréversibles tout au long de la vie d’un individu. La métabolomique urinaire peut fournir des renseignements précieux sur les adaptations physiologiques précoces chez les nouveau-nés en santé, ainsi que sur les perturbations métaboliques chez les nourrissons prématurés ou présentant des complications à la naissance. Dans la présente étude, nous avons mesuré 180 métabolites et rapports de métabolites dans l’urine de 13 nouveau-nés en santé (ayant reçu leur congé de l’hôpital) et de 38 nouveau-nés gravement malades (admis à l’unité de soins intensifs néonatals (USIN)). Nous avons utilisé un dosage métabolomique ciblé en spectrométrie de masse en tandem (MS/MS), développé à l’interne (TMIC Mega), combinant la chromatographie liquide (LC-MS/MS) et l’analyse par injection en flux (FIA-MS/MS), afin d’analyser quantitativement jusqu’à 26 classes de composés. Les concentrations urinaires moyennes (et les intervalles) de 167 métabolites différents provenant de 38 nouveau-nés gravement malades admis à l’USIN durant leurs 24 premières heures de vie ont été déterminées. Des ensembles similaires de valeurs urinaires ont été déterminés pour les 13 nouveau-nés en santé. Ces données de référence ont été téléversées dans la Human Metabolome Database. Les concentrations urinaires et les intervalles de 37 métabolites sont rapportés pour la première fois chez les nouveau-nés. Des différences significatives ont été observées dans les niveaux urinaires de 44 métabolites entre les nouveau-nés en santé et ceux admis à l’USIN. Des métabolites tels que les acylcarnitines, les acides aminés et leurs dérivés, les amines biogènes, les sucres et les acides organiques sont dérégulés chez les nouveau-nés atteints de dysplasie bronchopulmonaire (DBP), d’asphyxie, ou exposés au SRAS-CoV-2 pendant la période intra-utérine. L’urine peut constituer une source précieuse d’information pour comprendre les altérations métaboliques associées aux issues périnatales mettant la vie en danger.

Mots-clés : LC-MS/MS; USIN; asphyxie; dysplasie bronchopulmonaire; métabolites; métabolomique; nouveau-nés.

Avis de non-responsabilité de PubMed

PathBank 2.0 — la base de données des voies métaboliques pour la métabolomique des organismes modèles

Wishart D. et coll. (Nucleic Acids Res. 5 janv. 2024;52(D1):D654-D662. doi : 10.1093/nar/gkad1041. Erratum dans : Nucleic Acids Res. 12 avr. 2024;52(6):3486. doi : 10.1093/nar/gkae191. PMID : 37962386; PMCID : PMC10767802.)

Wishart DS, Kruger R, Sivakumaran A, Harford K, Sanford S, Doshi R, Kehrtarpal N, Fatokun O, Doucet D, Zubkowski A, Jackson H, Sykes G, Ramirez-Gaona M, Marcu A, Li C, Yee K, Garros C, Rayat DY, Coleongco J, Nandyala T, Gautam V, Oler E. (Nucleic Acids Res. 5 janv. 2024;52(D1):D654-D662. doi : 10.1093/nar/gkad1041.)

Affiliations

Erratum dans

Résumé

PathBank (https://pathbank.org) et sa base de données prédécesseure, la Small Molecule Pathway Database (SMPDB), fournissent des informations complètes sur les voies métaboliques pour la communauté de la métabolomique depuis 2010. Au cours des 14 dernières années, ces bases de données de voies ont considérablement grandi et évolué afin de répondre aux besoins de la communauté de la métabolomique et de s’adapter aux changements continus de la technologie informatique. La mise à jour de cette année, PathBank 2.0, apporte un certain nombre d’améliorations et de mises à niveau importantes qui devraient rendre la base de données plus utile et plus attrayante pour un plus large éventail d’utilisateurs. En particulier, ces améliorations comprennent : (i) une augmentation importante du nombre de voies primaires ou canoniques (de 1720 à 6951) ; (ii) une augmentation massive du nombre total de voies (de 110 234 à 605 359) ; (iii) des améliorations significatives de la qualité des schémas de voies et des descriptions de voies ; (iv) un fort accent sur les voies du métabolisme des médicaments et des mécanismes d’action des médicaments ; (v) le fait de rendre la plupart des images de voies plus compatibles avec les diapositives et les manuscrits ; (vi) l’ajout d’outils pour favoriser un meilleur filtrage et une meilleure sélection des voies grâce à une taxonomie des voies plus complète ; (vii) l’ajout d’outils d’analyse des voies pour visualiser et calculer l’enrichissement des voies. De nombreuses autres améliorations mineures et mises à jour du contenu, de l’interface et de la performance générale du site Web de PathBank ont également été effectuées. Dans l’ensemble, nous croyons que ces mises à niveau et mises à jour devraient grandement améliorer la facilité d’utilisation de PathBank et ses applications potentielles pour l’interprétation des données de métabolomique.

© Les auteur(s) 2023. Publié par Oxford University Press au nom de Nucleic Acids Research.

Avis de non-responsabilité de PubMed

DrugBank 6.0 : la base de connaissances DrugBank pour 2024

Knox C. et coll. (Nucleic Acids Res. 5 janv. 2024;52(D1):D1265-D1275. doi : 10.1093/nar/gkad976. PMID : 37953279; PMCID : PMC10767804.)

Knox C, Wilson M, Klinger CM, Franklin M, Oler E, Wilson A, Pon A, Cox J, Chin NEL, Strawbridge SA, Garcia-Patino M, Kruger R, Sivakumaran A, Sanford S, Doshi R, Khetarpal N, Fatokun O, Doucet D, Zubkowski A, Rayat DY, Jackson H, Harford K, Anjum A, Zakir M, Wang F, Tian S, Lee B, Liigand J, Peters H, Wang RQR, Nguyen T, So D, Sharp M, da Silva R, Gabriel C, Scantlebury J, Jasinski M, Ackerman D, Jewison T, Sajed T, Gautam V, Wishart DS. (Nucleic Acids Res. 5 janv. 2024;52(D1):D1265-D1275. doi : 10.1093/nar/gkad976.)

Affiliations

Résumé

Lancé pour la première fois en 2006, DrugBank (https://go.drugbank.com) est devenu la ressource de connaissances « référence » pour les médicaments, les cibles médicamenteuses et l’information pharmaceutique connexe. DrugBank est largement utilisé dans de nombreuses applications diversifiées de recherche biomédicale et clinique, et enregistre en moyenne plus de 30 millions de consultations par année. Depuis sa dernière mise à jour en 2018, nous avons activement amélioré la quantité et la qualité des données sur les médicaments dans cette base de connaissances. Dans cette plus récente version (DrugBank 6.0), le nombre de médicaments approuvés par la FDA est passé de 2646 à 4563 (une augmentation de 72 %), le nombre de médicaments expérimentaux est passé de 3394 à 6231 (une augmentation de 38 %), le nombre d’interactions médicament-médicament est passé de 365 984 à 1 413 413 (une augmentation de 300 %), et le nombre d’interactions médicament-aliment est passé de 1195 à 2475 (une augmentation de 200 %). En plus de cette expansion notable de la taille de la base de données, nous avons ajouté des milliers de nouvelles voies colorées et richement annotées illustrant les mécanismes d’action des médicaments et leur métabolisme. De même, les ensembles de données existants ont été considérablement améliorés et élargis, par l’ajout de davantage d’information sur les indications des médicaments, les interactions médicament-médicament, les interactions médicament-aliment et de nombreux autres types de données pertinents pour 11 891 médicaments. Nous avons également ajouté des spectres MS/MS expérimentaux et prédits, des spectres RMN 1D/2D, ainsi que des données de CCS (section efficace de collision), de RT (temps de rétention) et de RI (indice de rétention) pour 9464 des 11 710 médicaments à petite molécule de DrugBank. Ces améliorations et d’autres devraient rendre DrugBank 6.0 encore plus utile à un public de recherche beaucoup plus large, allant des chimistes médicinaux aux spécialistes de la métabolomique en passant par les pharmacologues.

© L’auteur/Les auteurs 2023. Publié par Oxford University Press au nom de Nucleic Acids Research.

Avis de non-responsabilité PubMed

La prédiction des spectres MS/MS basée sur l’apprentissage profond facilite l’identification automatisée de nouvelles substances psychoactives.

Wang F. et coll. (Anal Chem. 19 déc. 2023;95(50):18326-18334. doi : 10.1021/acs.analchem.3c02413. Publication en ligne le 4 déc. 2023. PMID : 38048435; PMCID : PMC10733899.)

Wang F, Pasin D, Skinnider MA, Liigand J, Kleis JN, Brown D, Oler E, Sajed T, Gautam V, Harrison S, Greiner R, Foster LJ, Dalsgaard PW, Wishart DS. (Anal Chem. 19 déc. 2023;95(50):18326-18334. doi : 10.1021/acs.analchem.3c02413.)

Résumé

Le marché des drogues illicites a été remodelé par l’émergence de plus de 1u001600 nouvelles substances psychoactives (NSP) au cours de la dernière décennie, ce qui pose un défi majeur aux laboratoires de médecine légale et de toxicologie chargés de les détecter et de les identifier. La spectrométrie de masse en tandem (MS/MS) est la principale méthode utilisée pour le dépistage des NSP dans les matières saisies ou les échantillons biologiques. Les flux de travail les plus contemporains nécessitent des étalons de référence MS/MS exigeants en main-d’œuvre et coûteux, qui peuvent ne pas être disponibles pour les NSP récemment apparues sur le marché illicite. Nous présentons ici NPS-MS, une méthode d’apprentissage profond capable de prédire avec précision les spectres MS/MS de NSP connues et hypothétiques à partir de leurs seules structures chimiques. NPS-MS est entraîné par apprentissage par transfert à partir d’un modèle générique de prédiction MS/MS sur un vaste ensemble de données de spectres MS/MS. Nous montrons que cette approche permet une identification plus précise des NSP à partir de spectres MS/MS acquis expérimentalement que toute méthode existante. Nous démontrons l’application de NPS-MS pour identifier un nouveau dérivé de la phencyclidine (PCP) dans une poudre inconnue saisie au Danemark sans utiliser d’étalons de référence. Nous prévoyons que NPS-MS permettra aux laboratoires de médecine légale d’identifier plus rapidement les NSP, tant connues que nouvellement émergentes. NPS-MS est accessible sous forme de serveur Web à l’adresse https://nps-ms.ca/, qui offre des capacités de prédiction de spectres MS/MS pour des composés NSP donnés. De plus, il propose l’identification de spectres MS/MS par rapport à une vaste base de données comprenant environ 8,7 millions de composés NSP prédits de DarkNPS et 24,5 millions de spectres ESI-QToF-MS/MS prédits pour ces composés.

Algorithme d’amplification d’échantillons (SamBA) – Un classificateur d’ensemble glouton interprétable fondé sur l’expertise locale pour des données volumineuses

Bauvin B. et coll. (PMLR 216 : 130–140, 2023)

Bauvin B, Capponi C, Clerc F, Germain P, Koço S, Corbeil J. (Actes de la trente-neuvième conférence sur l’incertitude en intelligence artificielle. PMLR 216:130–140. 2023.)

Résumé

Les méthodes d’ensemble constituent une famille d’algorithmes très diversifiée, avec un large éventail d’applications. L’une des plus couramment utilisées est le boosting, notamment AdaBoost. AdaBoost repose sur l’apprentissage glouton de classificateurs de base qui corrigent l’erreur des itérations précédentes. Ensuite, il les combine au moyen d’un vote majoritaire pondéré, fondé sur leur qualité sur l’ensemble complet d’apprentissage. Dans cet article, nous proposons un cadre de classification binaire supervisée qui propage vers la fonction de prédiction les connaissances locales acquises durant les itérations de boosting. À partir de ce cadre général, nous présentons SamBA, une méthode d’ensemble gloutonne interprétable conçue pour des jeux de données « fat », comportant un grand nombre de dimensions et un petit nombre d’échantillons. SamBA apprend des classificateurs locaux et les combine, à l’aide d’une fonction de similarité, afin d’optimiser son efficacité d’extraction de l’information dans les données. Nous proposons une analyse théorique de SamBA, offrant des garanties de convergence et de généralisation. De plus, nous mettons en lumière le comportement empirique de SamBA au moyen d’une analyse expérimentale approfondie, réalisée sur des jeux de données biologiques réels et générés, en le comparant à des méthodes d’ensemble de pointe ainsi qu’à des approches fondées sur la similarité

Base de données protéique flexible basée sur des k-mers d’acides aminés

Déraspe M. et coll. (Sci Rep 1 juin 2022;12(1):9101)

Déraspe M, Boisvert S, Laviolette F, Roy PH, Corbeil J. (Sci Rep. 2022; 12(1): 9101. doi: 10.1038/s41598-022-12843-9)

L’identification des protéines est l’une des étapes les plus intensives en calcul dans les études de génomique. Elle repose généralement sur des aligneurs qui ne prennent pas en charge l’information riche sur les protéines et nécessitent des étapes supplémentaires de pipeline pour l’identification des protéines. Nous présentons kAAmer, un moteur de base de données de protéines fondé sur des k-mers d’acides aminés qui permet une identification efficace des protéines tout en prenant en charge l’intégration d’annotations flexibles sur ces protéines. De plus, la base de données est conçue pour être utilisée comme microservice, afin d’être hébergée et interrogée à distance.

Une tâche fondamentale en génomique est l’identification et l’annotation des régions codantes de l’ADN qui se traduisent en protéines via un code génétique. Les bases de données de protéines augmentent en taille à mesure que de nouveaux variants, des gènes orthologues et de nouveaux gènes, souvent trouvés dans les études de métagénomique, sont séquencés. Cela est particulièrement vrai dans le monde microbien, où la diversité des protéomes bactériens suit leur évolution rapide. Par exemple, UniProtKB (Swiss-Prot/TrEMBL)1 et NCBI RefSeq 2 contiennent plus de 100 millions de protéines bactériennes et ce nombre augmente rapidement. L’identification des protéines repose souvent sur des logiciels d’alignement précis, mais lents, tels que BLAST ou des logiciels fondés sur des profils de modèles de Markov cachés (HMM) 3,4 . Bien que d’autres approches (telles que DIAMOND 5 ) aient considérablement amélioré la vitesse de recherche de protéines dans de grands jeux de données, du point de vue des bases de données, beaucoup peut être fait pour offrir une expérience plus polyvalente. Une telle approche consisterait à exposer la base de données comme un service permanent, pouvant utiliser des ressources de calcul pour une performance accrue (p. ex. mappage mémoire) et tirer parti du nuage pour des analyses à distance via une API HTTP. Une autre approche consisterait à enrichir les résultats avec des informations complètes sur les cibles protéiques afin de faciliter les pipelines d’analyse subséquents en génomique et en métagénomique.

Réseaux de flux génératifs

Bengio Y. (Page Web de Yoshua Bengio 2022)

Bengio Y. (Page Web de Yoshua Bengio 2022)

(Voir le tutoriel GFlowNet et la liste d’articles ici)

J’ai rarement été aussi enthousiaste à propos d’une nouvelle orientation de recherche. Nous les appelons GFlowNets, pour Generative Flow Networks. Ils se situent à l’intersection de l’apprentissage par renforcement, des modèles génératifs profonds et de la modélisation probabiliste fondée sur l’énergie. Ils sont aussi liés aux modèles variationnels et à l’inférence, et je crois qu’ils ouvrent de nouvelles portes pour la modélisation bayésienne non paramétrique, l’apprentissage actif génératif, et l’apprentissage non supervisé ou auto-supervisé de représentations abstraites afin de démêler à la fois les facteurs causaux explicatifs et les mécanismes qui les relient. Ce que je trouve enthousiasmant, c’est qu’ils ouvrent tellement de portes, mais en particulier pour mettre en œuvre les biais inductifs du système 2 dont je discute dans plusieurs de mes articles et conférences depuis 2017, et qui, selon moi, sont importants pour intégrer la causalité et traiter la généralisation hors distribution de manière rationnelle. Ils permettent aux réseaux neuronaux de modéliser des distributions sur des structures de données comme des graphes (par exemple des molécules, comme dans l’article NeurIPS, ou des graphes explicatifs et causaux, dans des travaux en cours et à venir), d’en échantillonner ainsi que d’estimer toutes sortes de quantités probabilistes (comme les énergies libres, des probabilités conditionnelles sur des sous-ensembles arbitraires de variables, ou des fonctions de partition) qui, autrement, semblent inabordables.

HMDB 5.0 : la base de données du métabolome humain pour 2022

Wishart D. et coll. (Nucleic Acids Res 7 janv. 2022;50(D1):D622-D631.

Wishart DS, Guo A, Oler E, Wang F, Anjum A, Peters H, Dizon R, Sayeeda Z, Tian S, Lee BL, Berjanskii M, Mah R, Yamamoto M, Jovel J, Torres-Calzada C, Hiebert-Giesbrecht M, Lui VW, Varshavi D, Varshavi D, Allen D, Arndt D, Khetarpal N, Sivakumaran A, Harford K, Sanford S, Yee K, Cao X, Budinski Z, Liigand J, Zhang L, Zheng J, Mandal R, Karu N, Dambrova M, Schiöth HB, Greiner R, Gautam V. (Nucleic Acids Res. 2022; 50(D1) : D622–D631. doi : 10.1093/nar/gkab1062)

Résumé

La Human Metabolome Database ou HMDB (https://hmdb.ca) fournit des informations de référence complètes sur les métabolites humains ainsi que sur leurs propriétés biologiques, physiologiques et chimiques associées depuis 2007. Au cours des 15 dernières années, la HMDB a considérablement grandi et évolué afin de répondre aux besoins de la communauté de la métabolomique et de s’adapter aux changements continus des technologies Internet et informatiques. La mise à jour de cette année, HMDB 5.0, apporte un certain nombre d’améliorations et de mises à niveau importantes à la base de données. Celles-ci devraient rendre la HMDB plus utile et plus attrayante pour un plus large éventail d’utilisateurs. En particulier, ces améliorations comprennent : (i) une augmentation importante du nombre d’entrées de métabolites (de 114 100 à 217 920 composés); (ii) des améliorations de la qualité et de la profondeur des descriptions de métabolites; (iii) l’ajout de nouveaux outils de visualisation des structures, des spectres et des voies métaboliques; (iv) l’inclusion de nombreux nouveaux ensembles de données spectrales, beaucoup plus précisément prédits, y compris des spectres RMN prédits, des spectres MS prédits avec plus de précision, des indices de rétention prédits et des données de section efficace de collision prédites; et (v) des améliorations aux fonctions de recherche de la HMDB afin de faciliter une meilleure identification des composés

Intégration et présentation complètes d’expériences d’apprentissage supervisé multi-vues à l’aide de SuMMIT

Bauvin B. et coll. (PMRL 183:139–150, 2022)

Bauvin B, Corbeil J, Benielli D, Koço S, Capponi C. (Actes du quatrième atelier international sur l’apprentissage dans des domaines déséquilibrés : théorie et applications. PMLR 183. 2022.)

Résumé

SuMMIT (Supervised Multi Modal Integration Tool) est un logiciel offrant de nombreuses fonctionnalités pour exécuter, ajuster et analyser des expériences de tâches de classification supervisée, spécialement conçues pour des ensembles de données multi-vues. SuMMIT fait partie d’une plateforme 1 qui regroupe plusieurs outils pour traiter des ensembles de données multi-vues, tels que scikit-multimodallearn (Benielli et al., 2021) ou MAGE (Bauvin et al., 2021). Cet article présente des cas d’utilisation de SuMMIT, y compris l’optimisation des hyperparamètres, démontrant l’utilité d’une telle plateforme pour gérer la complexité du benchmarking multi-vues sur un ensemble de données déséquilibré. SuMMIT est propulsé par Python3 et basé sur scikit-learn, ce qui le rend facile à utiliser et à étendre en y branchant ses propres algorithmes spécifiques, fonctions de score ou en ajoutant de nouvelles fonctionnalités2. Grâce à l’intégration continue, nous encourageons le développement collaboratif. Mots-clés : Multimodal, Supervisé, Classification, Benchmarking, Python, Recherche reproductible, Modularité, Explicabilité, Interprétabilité

Sur la robustesse de la généralisation des modèles d’interactions médicament–médicament

Kpanou R. et coll. (BMC Bioinformatic, 4 oct. 2021;22(1):477).

Kpanou R, Osseni MA, Tossou P, Laviolette F, Corbeil J. (BMC Bioinformatics. 2021; 22(1) : 477. doi : 10.1186/s12859-021-04398-9)

Résumé

Contexte : Les méthodes d’apprentissage profond sont une valeur sûre dans de nombreux domaines et projets. L’un de ces projets consiste à prédire la présence d’interactions médicamenteuses indésirables (DDI). Les modèles générés peuvent prédire, avec une précision raisonnable, les phénotypes découlant des interactions médicamenteuses à l’aide de leurs structures moléculaires. Néanmoins, cette tâche doit être améliorée pour être véritablement utile. Compte tenu de la complexité de la tâche de prédiction, une analyse comparative approfondie des modèles fondés sur la structure pour la prédiction des DDI a été réalisée afin d’évaluer leurs inconvénients et leurs avantages.

Résultats : Nous avons rigoureusement testé divers modèles fondés sur la structure qui prédisent les interactions médicamenteuses en utilisant différentes stratégies de partitionnement pour simuler divers scénarios du monde réel. En plus des effets de différentes configurations d’entraînement et de test sur la robustesse et la capacité de généralisation des modèles, nous explorons ensuite la contribution d’approches traditionnelles telles que l’apprentissage multitâche et l’augmentation des données

L’analyse par apprentissage automatique identifie les gènes qui différencient les cancers du sein triples négatifs

Kothari C. et coll. (Sci Rep, 26 juin 2020;10(1):10464.)

Kothari C, Osseni MA, Agbo L, Ouellette G, Déraspe M, Laviolette F, Corbeil J, Lambert JP, Diorio C, Durocher F. (Sci Rep. 2020; 10(1): 10464. doi: 10.1038/s41598-020-67525-1)

Le cancer du sein triple négatif (CSTN) est l’une des formes les plus agressives de cancer du sein (CS), avec la mortalité la plus élevée en raison d’un taux élevé de rechute, de résistance et de l’absence de traitement efficace. Diverses approches moléculaires ont été utilisées pour cibler le CSTN, mais avec peu de succès. Ici, à l’aide d’algorithmes d’apprentissage automatique, nous avons analysé les données disponibles sur le CS provenant du Cancer Genome Atlas Network (TCGA) et avons identifié deux gènes potentiels, TBC1D9 (membre 9 de la famille à domaine TBC1) et MFGE8 (protéine facteur 8 de type EGF des globules gras du lait), qui pourraient différencier avec succès le CSTN du non‑CSTN, indépendamment de leur hétérogénéité. TBC1D9 est sous‑exprimé dans le CSTN comparativement aux patientes non‑CSTN, tandis que MFGE8 est surexprimé. La surexpression de TBC1D9 est associée à un meilleur pronostic, alors que la surexpression de MFGE8 est corrélée à un mauvais pronostic. L’analyse des interactions protéine–protéine par spectrométrie de masse après purification par affinité (AP‑MS) et des expériences de biotinylation de proximité (BioID) a mis en évidence un rôle de TBC1D9 dans le maintien de l’intégrité cellulaire, tandis que MFGE8 serait impliqué dans divers processus de survie tumorale. Ces gènes prometteurs pourraient servir de biomarqueurs pour le CSTN et méritent une investigation plus approfondie, car ils ont le potentiel d’être développés comme cibles thérapeutiques pour le CSTN.

Alignement des spectres de masse à l’aide de masses de verrouillage virtuelles

Brochu F. et coll. (Sci Rep. 11 juin 2019;9(1):8469. doi : 10.1038/s41598-019-44923-8)

Brochu F, Plante PL, Drouin A, Gagnon D, Richard D, Durocher F, Diorio C, Marchand M, Corbeil J, Laviolette F. (Sci Rep. 2019; 9(1) : 8469. doi : 10.1038/s41598-019-44923-8)

La spectrométrie de masse est une méthode de grande valeur pour évaluer le contenu métabolomique d’un échantillon biologique. L’avènement récent de technologies d’ionisation rapide, comme la désorption thermique par diode laser (LDTD) et l’analyse directe en temps réel (DART), a rendu possible la spectrométrie de masse à haut débit. Elle est utilisée pour l’analyse comparative à grande échelle de populations d’échantillons. En pratique, de nombreux facteurs découlant de l’environnement, du protocole et même de l’instrument lui-même peuvent entraîner de légers écarts entre les spectres, ce qui rend l’analyse comparative automatisée difficile. Dans ce travail, une séquence/chaîne de traitement d’algorithmes visant à corriger les variations entre les spectres est proposée. Les algorithmes corrigent plusieurs spectres en identifiant les pics communs à tous et, à partir de ceux-ci, calculent une correction propre à chaque spectre. Nous montrons que ces algorithmes augmentent la comparabilité au sein de grands ensembles de données de spectres, facilitant l’analyse comparative, comme l’apprentissage automatique.

Prédiction des sections efficaces de collision en mobilité ionique à l’aide d’un réseau neuronal profond : DeepCCS

Plante P. et coll. (Ana Chem, 16 avr. 2019;91(8):5191-5199)

Plante PL, Francovic-Fontaine É, May JC, McLean JA, Baker ES, Laviolette F, Marchand M, Corbeil J. (Anal Chem. 2019; 91(8) : 5191–5199. doi : 10.1021/acs.analchem.8b05821)

Résumé

Les mesures métabolomiques non ciblées utilisant la spectrométrie de masse sont un outil puissant pour découvrir de nouvelles petites molécules d’importance environnementale et biologique. Cependant, l’étape d’identification des petites molécules demeure un énorme défi en raison des difficultés de fragmentation ou d’informations non spécifiques sur les ions fragments. Les méthodes actuelles pour relever ce défi dépendent souvent de bases de données ou exigent l’utilisation de la résonance magnétique nucléaire (RMN), qui présentent leurs propres difficultés. L’utilisation des valeurs de section efficace de collision en phase gazeuse (CCS) obtenues à partir de mesures de spectrométrie de mobilité ionique (IMS) a récemment démontré qu’elle réduit le nombre de fausses identifications positives de métabolites. Bien que prometteuse, la quantité d’information CCS empirique actuellement disponible est limitée; il est donc nécessaire de développer des méthodes prédictives de CCS. Dans cet article, nous élargissons les capacités expérimentales actuelles de l’IMS en prédisant les valeurs de CCS à l’aide d’un algorithme d’apprentissage profond. Nous avons développé et entraîné avec succès un modèle de prédiction des valeurs de CCS ne nécessitant que des informations sur la notation SMILES d’un composé et le type d’ion. L’utilisation de données provenant de cinq laboratoires différents utilisant des instruments différents a permis d’entraîner et de tester l’algorithme sur plus de 2 400 molécules. Les prédictions de CCS obtenues ont atteint un coefficient de détermination de 0,97 et une erreur relative médiane de 2,7 % pour une large gamme

Classificateurs génotype-phénotype interprétables avec des garanties de performance

Drouin A. et coll. (Sci Rep, 11 mars 2019;9(1):4071)

Drouin A, Letarte G, Raymond F, Marchand M, Corbeil J, Laviolette F. (Sci Rep. 2019; 9(1) : 4071. doi : 10.1038/s41598-019-40561-2)

Comprendre la relation entre le génome d’une cellule et son phénotype est un problème central en médecine de précision. Néanmoins, la prédiction du phénotype à partir du génotype comporte de grands défis pour les algorithmes d’apprentissage automatique, ce qui limite leur utilisation dans ce contexte. La grande dimensionnalité des données tend à nuire à la généralisation et met à l’épreuve l’extensibilité de la plupart des algorithmes d’apprentissage. De plus, la plupart des algorithmes produisent des modèles complexes et difficiles à interpréter. Nous atténuons ces limites en proposant de solides garanties de performance, fondées sur la théorie de la compression d’échantillons, pour des algorithmes d’apprentissage basés sur des règles qui produisent des modèles hautement interprétables. Nous montrons que ces garanties peuvent être exploitées pour accélérer l’apprentissage et améliorer l’interprétabilité des modèles. Notre approche est validée au moyen d’une application à la prédiction génomique de la résistance aux antimicrobiens, un enjeu important de santé publique. Des modèles très précis ont été obtenus pour 12 espèces et 56 antibiotiques, et leur interprétation a révélé des mécanismes de résistance connus, ainsi que certains potentiellement nouveaux. Une implémentation libre, basée sur disque, à la fois efficace en mémoire et en calcul, est fournie avec ce travail. L’implémentation est prête à l’emploi, ne requiert aucune connaissance préalable en apprentissage automatique et est accompagnée de tutoriels complets.