Offre de thèse à CentraleSupélec / Université Rennes 2

Informations générales

Sujet : Apprentissage de représentations multimodales pour l'analyse du comportement dans les interactions humaines

Mots-clés : Intelligence artificielle, apprentissage de représentation, apprentissage profond, parole audiovisuelle, posture humaine, interactions humaines, comportement.

Contrat : Contrat doctoral de 36 mois entièrement financé dans le cadre du projet ANR « CMiO ».

Salaire : 2200 euros brut par mois.

Date de début : A partir de l’automne 2024 (flexible).

Lieu : Campus de Rennes de CentraleSupélec.

Affiliations : Equipe AIMAC du laboratoire IETR (UMR CNRS 6164) et LP3C, Université Rennes 2.

Directeurs de thèse : Renaud Séguier, co-directeur : Alain Somat

Encadrants de thèse : Simon Leglaive et Kévin Nadarajah

Date limite de dépôt des candidatures : 30 septembre 2024.

Description et objectifs

Ce sujet de thèse porte sur l’apprentissage de représentations multimodales pour l'analyse du comportement dans les interactions humaines.

Cette thèse se positionne à l’intersection des domaines de l’intelligence artificielle et de la psychologie sociale expérimentale. Les objectifs de la thèse sont par conséquent doubles :

  1. Développer des méthodes d’apprentissage de représentations à partir de plusieurs modalités, y compris la parole audiovisuelle et la posture humaine.

    Pour atteindre cet objectif nous envisageons de nous appuyer sur nos travaux récents portant sur l’apprentissage de représentations latentes et les modèles génératifs par masquage appliqués au traitement de la parole audiovisuelle (Sadok et al., 2023a; 2023b; 2024) et à l'estimation de la posture et de la forme du corps humain (Fiche, 2024a; 2024b).
  2. Analyser la représentation apprise pour évaluer l'alignement des postures dans les interactions humaines. Dans le cadre du projet CMiO mentionné plus haut, il s’agit d’identifier, de capter puis de traiter automatiquement les indicateurs comportementaux de l’engagement des parties prenantes d’une controverse dans le but de prédire une posture d’ouverture (Nadarajah et al., 2024) que l'on sait susceptible d'offrir à chacun la possibilité d’être entendu et de construire ensemble une position concertée inédite, le débat devient ainsi un échange gagnant-gagnant permettant aux participants de converger vers une décision commune satisfaisante pour tous.

    Dans le cadre de cet objectif il sera nécessaire d’effectuer un état de l’art dans le domaine de l’analyse computationnelle des interactions humaines, en particulier en controverses.

Profil de candidat·e

Le/la candidat·e doit être titulaire d'un master ou d'un diplôme d'ingénieur, avec une solide formation en apprentissage statistique et/ou traitement du signal et/ou vision par ordinateur, de bonnes compétences en programmation Python, et un intérêt particulier pour le cadre applicatif en psychologie sociale expérimentale. Le/la candidat·e doit également avoir d'excellentes compétences de communication orale et écrite.

Environnement de travail

Le/la doctorant·e intègrera l'équipe AIMAC du laboratoire IETR située sur le campus de Rennes de CentraleSupélec et sera amené·e à visiter régulièrement le laboratoire LP3C, Université Rennes 2. Il/elle sera encadré·e par Simon Leglaive et Renaud Séguier pour les aspects IA/signal/vision et par Kévin Nadarajah et Alain Somat pour les aspects psychologie sociale expérimentale.

Le/la doctorant·e bénéficiera de l'environnement de recherche de CentraleSupélec, en particulier des ressources de calcul de
Ruche, le cluster HPC du centre de calcul « Mésocentre » de l'Université Paris-Saclay, de CentraleSupélec et de l'École Normale Supérieure Paris-Saclay.  

CentraleSupélec dispose d’une résidence étudiante sur le campus avec des studios disponibles à la location.

Comment postuler ? 

Les candidat·e·s intéressé·e·s doivent postuler en remplissant le formulaire suivant avant le 30 septembre 2024 : https://forms.gle/jeemuZhP1pzuB2cz9

Les candidat·e·s seront invité·e·s à charger sous forme de fichiers PDF un curriculum vitae, une courte lettre de motivation, les relevés de notes officiels pour chaque année d'études supérieures, ainsi qu'une à trois lettres de recommandation.

En cas de difficulté ou de question, veuillez contacter simon.leglaive@centralesupelec.fr.

Références

Fiche, G., Leglaive, S., Alameda-Pineda, X., Agudo, A., & Moreno-Noguer, F. (2024a). VQ-HPS: Human pose and shape estimation in a vector-quantized latent space. In European Conference on Computer Vision (ECCV).

Fiche, G., Leglaive, S., Alameda-Pineda, X., & Moreno-Noguer, F. (2024b). MEGA: Masked generative autoencoder for human mesh recovery. arXiv preprint arXiv:2405.18839.

Nadarajah, K., Brun, L., Bordel, S., Ah-Tchine, E., Dumesnil, A., Mourato, A. M., Py, J., Jammes, L., Arnauld De Sartre, X., & Somat, A. (2024). A Three-Stage Psychosocial Engineering-Based Method to Support Controversy and Promote Mutual Understanding between Stakeholders : The Case of CO2 Geological Storage. Energies, 17(5), Article 5. https://doi.org/10.3390/en17051014

Sadok, S., Leglaive, S., & Séguier, R. (2023a). A vector quantized masked autoencoder for speech emotion recognition. In IEEE ICASSP 2023 Workshop on Self-Supervision in Audio, Speech and Beyond (SASB),.

Sadok, S., Leglaive, S., & Séguier, R. (2023b). A vector quantized masked autoencoder for audiovisual speech emotion recognition. arXiv preprint arXiv:2305.03568.

Sadok, S., Leglaive, S., Girin, L., Alameda-Pineda, X., & Séguier, R. (2024). A multimodal dynamical variational autoencoder for audiovisual speech representation learning. Neural Networks, 172, 106120.