Contexte
Les études de biosurveillance ont démontré que l’Homme est exposé à des mélanges complexes de substances chimiques durant toute sa durée de vie, observation traduite aujourd’hui dans le concept d’‘exposome’. L'exposition aux substances chimiques exogènes (par exemple les contaminants d’origine anthropique) à certaines concentrations et durant des fenêtres de sensibilité particulières (période périnatale, puberté…) peut avoir un impact sur certains processus biologiques internes et à terme contribuer à l’apparition et/ou au développement de certaines maladies. La mise en évidence des associations causales entre exposition chimique et santé dans les études observationnelles reste toutefois un grand défi actuel. D’une part les études observationnelles sont soumises au contrôle statistique des différentes variables qui peuvent influencer les expositions et les issues de santé, connues comme variables confondantes. D’autre part la nature des études épidémiologiques est dirigée pour relever des mécanismes biologiques. A cet égard, la nouvelle génération de technologies omiques (e.g . metabolomique, epigenetique) apparait comme un levier pour révéler les potentiels liens fonctionnels entre certains marqueurs d’exposition chimique et certains marqueurs d’effet. Néanmoins les méthodes conventionnelles de régression ne sont pas adaptées pour l’intégration des données omiques. L’un des défis méthodologiques est en particulier le caractère multicorrélé (énormément de liens entre les nombreuses variables). Au cours de la dernière décennie, de nouvelles méthodes statistiques et computationnelles multi-tableaux ont été proposées pour intégrer plusieurs tableaux de données tels que les couches de données type « Omiques » (e.g. transcriptomique, protéomique) (Li et al 2012 ; Tenenhaus and Tenenhaus 2011). Les facteurs de confusion, couramment observés dans les études biologiques à haut débit, peuvent cependant affecter les performances de ces méthodes et d'autres analyses en aval (Lin et al 2016). En outre, l’intégration et les différentes stratégies de prise en compte des variables de confusion dans les approches de type multi-tableaux (ou multiblocs) restent peu explorés.
Missions / Contenu du poste
Objectifs
Dans ce contexte, le projet proposé a pour objet global de développer et de mettre en œuvre une stratégie d’intégration de l’effet des variables de confusion afin de progresser dans l’étude du lien environnement-santé. Les principaux objectifs de ce projet sont :
(1) de réaliser un état de l’art concernant les méthodes et démarches actuellement disponibles pour considérer des variables de confusion et/ou supprimer la variabilité non désirable ;
(2) d’évaluer l’influence des différentes démarches permettant de gérer les variables de confusion dans l’intégration de données exposomiques et métabolomiques à travers deux cas d’étude.
Méthodologie envisagée
- État de l’art concernant l’étude de l'impact des variables de confusion lors de l’utilisation de modèles dit multiblocs lorsqu’il s’agit d’étudier des données multi-omiques dans le but d’identifier d’éventuels chemins d’actions menant à un impact sur la santé humaine. Une bibliographie approfondie devra permettre à la fois de comprendre l’enjeu de considérer les variables de confusion dans le cadre susmentionné, mais également d’identifier des méthodes permettant de les considérer, qui seront étudiées par la suite.
- Évaluation de l’impact des démarches permettant de gérer les variables de confusion dans l’application de modèles multiblocs, préalablement choisis et étudiés, avec l’objectif d’identifier des données métabolomiques et exposomiques dans deux cas d’études :
- Cas d’étude 1, intégration de données multi-plateforme analytique autour du lait maternel. Des données de phénotypage moléculaire (exposomique, nutrimetabolomique) de lait maternel ont été générées dans le cadre du Projet régional LactOMICS pour 60 échantillons prélevés chez des mères d’enfants nés prématurés (Cano-Sancho et al., 2020).
- Cas d’étude 2, intégration de données de biomarqueurs endogènes inflammatoires (oxylipines et cytokines) et exposomiques en lien avec l’âge gestationnel. Ce cas d’étude s’appuie sur les données publiées par Aung et al. (2019). Dans ce cas d’étude, le but est d’identifier les cascades d’effets allant de l’‘exposome’ chimique, à la santé humaine (âge gestationnel), en passant par la dysfonction métabolique indicatrice des profils inflammatoires.
Cette partie fera notamment appel à la mise en œuvre de démarches de comparaison des résultats lorsque l’on fait varier des variables potentiellement confondantes. Des solutions mettant en œuvre aussi bien des connaissances théoriques sur les effets de ces types de variables, mais également une capacité à produire un protocole et un code sous R permettant l’évaluation de leurs impacts dans notre cas d’étude, seront attendues. Les outils logiciels utilisés seront différents packages sous environnement R.
Résultats attendus
- Catalogue des méthodes existent dans la littérature pour prendre en compte et mesurer l’impact des variables de confusion dans un cadre multiblocs appliqué à l’intégration de données -omiques en études de santé, et en particulier environnementale.
- Identification des impacts des variables confondantes en fonction de leurs caractéristiques à l’aide d‘un protocole d’évaluation de cet impact.
Compétences requises / profil attendu
Solides connaissances en statistiques et analyse de données (Master 2 en statistiques / bioinformatique). Maîtrise du langage de programmation R. Intérêt pour le traitement de données de santé.
Contacter par mail, , en joignant CV et lettre de motivation.