Offre de thèse à CentraleSupélec / Université Rennes 2
Informations générales
Sujet : Apprentissage de représentations multimodales pour l'analyse du comportement dans les interactions humaines
Mots-clés : Intelligence artificielle, apprentissage de représentation, apprentissage profond, parole audiovisuelle, posture humaine, interactions humaines, comportement.
Contrat : Contrat doctoral de 36 mois entièrement financé dans le cadre du projet ANR « CMiO ».
Salaire : 2200 euros brut par mois.
Date de début : A partir de l’automne 2024 (flexible).
Lieu : Campus de Rennes de CentraleSupélec.
Affiliations : Equipe AIMAC du laboratoire IETR (UMR CNRS 6164) et LP3C, Université Rennes 2.
Directeurs de thèse : Renaud Séguier, co-directeur : Alain Somat
Encadrants de thèse : Simon Leglaive et Kévin Nadarajah
Date limite de dépôt des candidatures : 30 septembre 2024.
Description et objectifs
Ce sujet de thèse porte sur l’apprentissage de représentations multimodales pour l'analyse du comportement dans les interactions humaines.
Cette thèse se positionne à l’intersection des domaines de l’intelligence artificielle et de la psychologie sociale expérimentale. Les objectifs de la thèse sont par conséquent doubles :
Profil de candidat·e
Le/la candidat·e doit être titulaire d'un master ou d'un diplôme d'ingénieur, avec une solide formation en apprentissage statistique et/ou traitement du signal et/ou vision par ordinateur, de bonnes compétences en programmation Python, et un intérêt particulier pour le cadre applicatif en psychologie sociale expérimentale. Le/la candidat·e doit également avoir d'excellentes compétences de communication orale et écrite.
Environnement de travail
Le/la doctorant·e intègrera l'équipe AIMAC du laboratoire IETR située sur le campus de Rennes de CentraleSupélec et sera amené·e à visiter régulièrement le laboratoire LP3C, Université Rennes 2. Il/elle sera encadré·e par Simon Leglaive et Renaud Séguier pour les aspects IA/signal/vision et par Kévin Nadarajah et Alain Somat pour les aspects psychologie sociale expérimentale.
Le/la doctorant·e bénéficiera de l'environnement de recherche de CentraleSupélec, en particulier des ressources de calcul de Ruche, le cluster HPC du centre de calcul « Mésocentre » de l'Université Paris-Saclay, de CentraleSupélec et de l'École Normale Supérieure Paris-Saclay.
CentraleSupélec dispose d’une résidence étudiante sur le campus avec des studios disponibles à la location.
Comment postuler ?
Les candidat·e·s intéressé·e·s doivent postuler en remplissant le formulaire suivant avant le 30 septembre 2024 : https://forms.gle/jeemuZhP1pzuB2cz9
Les candidat·e·s seront invité·e·s à charger sous forme de fichiers PDF un curriculum vitae, une courte lettre de motivation, les relevés de notes officiels pour chaque année d'études supérieures, ainsi qu'une à trois lettres de recommandation.
En cas de difficulté ou de question, veuillez contacter simon.leglaive@centralesupelec.fr.
Références
Fiche, G., Leglaive, S., Alameda-Pineda, X., Agudo, A., & Moreno-Noguer, F. (2024a). VQ-HPS: Human pose and shape estimation in a vector-quantized latent space. In European Conference on Computer Vision (ECCV).
Fiche, G., Leglaive, S., Alameda-Pineda, X., & Moreno-Noguer, F. (2024b). MEGA: Masked generative autoencoder for human mesh recovery. arXiv preprint arXiv:2405.18839.
Nadarajah, K., Brun, L., Bordel, S., Ah-Tchine, E., Dumesnil, A., Mourato, A. M., Py, J., Jammes, L., Arnauld De Sartre, X., & Somat, A. (2024). A Three-Stage Psychosocial Engineering-Based Method to Support Controversy and Promote Mutual Understanding between Stakeholders : The Case of CO2 Geological Storage. Energies, 17(5), Article 5. https://doi.org/10.3390/en17051014
Sadok, S., Leglaive, S., & Séguier, R. (2023a). A vector quantized masked autoencoder for speech emotion recognition. In IEEE ICASSP 2023 Workshop on Self-Supervision in Audio, Speech and Beyond (SASB),.
Sadok, S., Leglaive, S., & Séguier, R. (2023b). A vector quantized masked autoencoder for audiovisual speech emotion recognition. arXiv preprint arXiv:2305.03568.
Sadok, S., Leglaive, S., Girin, L., Alameda-Pineda, X., & Séguier, R. (2024). A multimodal dynamical variational autoencoder for audiovisual speech representation learning. Neural Networks, 172, 106120.