620 likes | 767 Views
David Antonio Gómez Jáuregui Rapporteurs: Bill TRIGGS Frédéric LERASLE Examinateurs : Rachid DERICHE André GAGALOWICZ Directrice: Bernadette DORIZZI Encadrant: Patrick HORAIN .
E N D
David Antonio Gómez Jáuregui Rapporteurs: Bill TRIGGS Frédéric LERASLE Examinateurs: Rachid DERICHE André GAGALOWICZ Directrice: Bernadette DORIZZI Encadrant: Patrick HORAIN Soutenance de thèse pour obtenir le grade de Docteur de Télécom SudParis(ED S&I - UEVE)Acquisition 3D des gestes par vision artificielle et restitution virtuelle
Application:Environnements Virtuels Collaboratifs (EVCs) • Animation des avatars prédéfinie. • Menus difficiles à gérer. • La perception des gestes est amoindrie. David Gomez
Capteurs pour l’acquisition 3D des gestes • Difficiles à Étalonner !! Optique Magnétique Mécanique Encombrants !! Très chers !! Centralesinertielles David Gomez
Acquisition 3D des gestes par vision monoscopique en temps-réel (Marques Soares et al., 2004) • Temps-réel • Sans marqueurs • Utilisation d’une webcam • PC grand public • avec puissance variable David Gomez
Difficultés • Manque d’information de profondeur • Grand nombre de degrés de liberté • Occlusions des parties du corps • Plusieurs vêtements • Proportions du corps différentes • Des mouvements imprédictibles • Environnements complexes David Gomez
Contribution de la thèse • Améliorer la robustesse et la précision de l’acquisition 3D des gestes par vision monoculaire en temps réel. • Des analyses expérimentales sont effectuées afin de démontrer l’amélioration des résultats en temps réel. • Adaptation à la plateforme. David Gomez
Plan de l’exposé • Travaux antérieurs. • Notre approche pour l’acquisition 3D des gestes. • Recalage sur les régions et les contours. • Filtrage particulaire en temps réel avec heuristiques. • Démonstration du système. • Conclusions et perspectives David Gomez
Travaux antérieurs: état de l’art de l’acquisition 3D des gestes par vision artificielle
Caractéristiques d’image • La couleur (Broekhuijsen et al., 2006), (Fontmarty et al., 2006), (Bernier et al, 2009) • Les silhouettes (Deutscher et al., 2005), (Agarwal et al., 2006), • Les contours (Noriega et al., 2007), (Ramanan et al., 2003) • Le mouvement (Sminchisescu et al., 2001), (Bregler et al., 2004) (Howe, 2006) (Sminchisescu et al, 2001) David Gomez
Estimation de la pose 3D Deux approches (Poppe, 2007) : • Génératives:recalent un modèle 3D du corps en minimisant un coût d’association. • Estimation Top-down (Delamarre et al., 2001) , (Sminchisescu et al., 2002) • Estimation Bottom-up (Hua et al., 2007), (Noriega et al., 2007) • Discriminatives:classer la pose 3D directement à partir des images. • Apprentissage d’un mapping(Agarwal and Triggs, 2006) • A partir des exemples. (Toyama et al., 2002), (Stenger et al., 2003) David Gomez
Modélisation probabiliste du mouvement humain • Haute dimensionnalité • Clustering des poses (Caillete et al. 2005) • Faible dimensionnalité • PCA (Rius et al., 2009) • Processus gaussiens (GPLVM, GPDM) (Urtasun et al., 2006) (Urtasun et al., 2006) David Gomez
Limitations des travaux antérieurs pour l’acquisition 3D des gestes La plupart des approches restent éloignées du temps réel. Besoin de plusieurs caméras (approches multi-vues). Peu d’évaluations quantitatives. Parfois limités à quelques activités spécifiques (marcher, courir, swing pour le golf). David Gomez
Notre approche pour l’acquisition 3D des gestes par vision monoculaire en temps réel
Notre approche pour l’acquisition des gestes Recaler un modèle 3D articulé de la moitié supérieure du corps humain sur des séquences vidéo Vecteur de paramètres de la pose du modèle : 6 paramètres globaux (position & orientation) 17 angles d’articulations David Gomez
primitives primitives Approche : recalage 3D / 2D Evaluation du recalage Contraintes biomécaniques Optimisation du recalage David Gomez
Implémentation: étape d’initialisation David Gomez
Recalage sur les régions et recalage sur les contourspour l’acquisition 3D des gestes en temps réel par vision monoscopique
Évaluation du recalage :taux de non recouvrement (Ouhaddi, 1999) ? • où : • m= nombre de classes de couleur • Ac= pixels classe c(vidéo segmentée) • Bc= pixels classe c(modèle projeté) • q= paramètres articulatoires David Gomez
Recalage sur les régions :Avantages et inconvénients Robustesse à l’initialisation Un recouvrement partiel suffit Précision limitée Pixels des contours peu nombreux par rapport aux pixels intérieurs David Gomez
Recalage sur les contours:Distance résiduelle entre contours ? où : DRC= distance résiduelle entre contours Icd = carte de distance aux contours pi = point de contour occultant N = nombre des points de contours occultants David Gomez
Précision du recalage sur les contours ☺ Contours → Recalage plus précis Modèle recalésur contours Modèle recalésur régions David Gomez
Contrainte du temps-réel • Temps réel temps de calcul limité (< 100 ms par image) nombre d’itérations limité → précision • Objectif: compromis entre les deux caractéristiques (région colorées et contours) en fonction du nombre d’itérations disponibles. • Evaluation du résultat: • La robustesse: • nombre de décrochages: erreur résiduelle > seuil • La précision de la pose 3D • proximité à la vérité terrain David Gomez
Analyse expérimentale Expérimentation sur plusieurs séquences vidéo avec divers gestes GRETA Pelachaud et al. David Gomez
~200 Taux de non recouvrement (Décrochages) David Gomez
Analyse expérimentale de la robustesse • Recalage sur les régions • converge plus vite • plus robuste (après 200 itérations) • Recalage sur les contours • plus précis Combien d’itérations faut-il allouer à chaque étape afin d’avoir la meilleure précision en temps réel? David Gomez
Evaluation de la précision de la pose estimée où : D(x,x̃) = erreur résiduelle de la pose 3D xm = coordonnée 3D (vérité terrain) xm= coordonnée 3D (pose estimée) M= nombre d‘articulations David Gomez
Modélisation de l’erreur résiduelle 2D David Gomez
Compromis en temps réel Répartition optimale du nombre d’itérations Adaptation automatique à la puissance de calcul disponible David Gomez
Filtrage particulaire en temps réel avec heuristiques pour l’acquisition 3D des gestes par vision monoscopique
Ambigüités des images monoculaires Plusieurs poses 3D peuvent coïncider avec la même observation 2D David Gomez
Suivi avec plusieurs hypothèses • Filtrage particulaire: Approches de Monte-Carlo séquentielles Flexibles, parallélisables, faciles à implémenter et à modifier David Gomez
Filtrage particulaire particule représentant un état du système poids associé à chaque particule en fonction des mesures. • Représentation de la f.d.p. par un ensemble de N particules avec des poids associés: Fonction de vraisemblance: David Gomez
Algorithme de filtrage particulaire (Isard and Blake, 1998) Limitation: très couteux dans des espaces de haut dimensionnalité David Gomez
Mise en œuvre du filtrage particulaire David Gomez
Filtrage particulaire classique (Isard and Blake, 1998) Particules mal guidées (200 particules) David Gomez
Filtrage particulaire pour l’acquisition 3D des gestes: travaux antérieures • Plusieurs stratégies et améliorations: • Filtrage particulaire partitionné • (MacCormick et al., 2000) • Filtre particulaire avec recuit simulé • (Deutscher et al., 2000) • Echantillonnage avec l’optimisation locale • (Cham et al., 1999), (Sminchisescu and Triggs, 2001) • Inférence analytique • (Lee et al., 2002) • Echantillonnage déterministe • (Saboune et Charpillet, 2005) David Gomez
Notre approche du filtrage particulaire pour l’acquisition 3D des gestes • Limitations des approches antérieures: Eloignées du temps réel. Deux ou plusieurs caméras. • Notre approche:nouvelles heuristiques à la méthode de CONDENSATION pour guider les particules dans un espace de grande dimension : Dimension 20 : nombre d’angles articulatoires En temps-réel → 100 à 500 particules En traitant les ambigüités 3D / 2D David Gomez
Limitation du rééchantillonnage probabiliste • Utilisation des poids comme probabilités d’occurrence des particules (Gordon, 1993). • Propagation de particules avec des poids faibles Temps de calcul limité → pas assez de particules • Solution : rééchantillonnage déterministe pour propager uniquement les particules avec des poids importants. Prediction Measurement Resampling David Gomez
Rééchantillonnage déterministe par poids • Particules avec poids faibles → pas d’enfant • Particules avec poids forts → famille de particules David Gomez
Rééchantillonnage déterministe: contribution à la précision 3D et robustesse • Précision réduite par rapport • au nombre d’itérations • Réduction du nombre de • décrochages. David Gomez
Limitation de la prédiction • Échantillonnage aléatoire de tous les paramètres à chaque instant. Les particules n'explorent pas l'espace d‘état de manière efficace. • Solution: appliquer la diffusion aléatoire uniquement aux parties du corps qui ont bougé d’une trame à l’autre. Prediction Measurement Resampling David Gomez
Échantillonnage partitionné basée mouvement Détection de mouvement Echantillonnage partitionné David Gomez
Échantillonnage partitionné basée mouvement: contribution à la précision 3D et robustesse • Amélioration de la précision • pour les gestes avec du • mouvement fronto parallèle • Amélioration de la robustesse: • meilleure performance sur • les gestes avec du mouvement • fronto parallèle David Gomez
Limitation de la prédiction • Échantillonnage aléatoire: Grand nombre de particules pour explorer l’espace d’état. • Solution: optimisation locale pour guider de façon déterministe les groupes de particules vers les minimums. Prediction Measurement Resampling David Gomez
Prédiction avec l’optimisation locale et échantillonnage aléatoire • Grands groupes → descente du simplex • Petits groupes → échantillonnage aléatoire David Gomez
Prédiction avec l’optimisation locale: contribution à la précision 3D et robustesse • Pas d’amélioration de la précision: • l’optimisation locale ne peut • pas gérer les ambigüités 3D / 2D Amélioration du recalage 2D Pas d’amélioration de la précision 3D David Gomez
Limitation de la prédiction dans les images monoculaires • Plusieurs poses 3D peuvent générer la même projection 2D (Ambigüités). La sélection de la mauvaise pose 3D conduit aux décrochages. • Solution: générer analytiquement plusieurs hypothèses qui donnent la même projection (Sminchisescu and Triggs 2003). Prediction Measurement Resampling David Gomez
Echantillonnage par sauts-cinématiques David Gomez
Echantillonnage par sauts-cinématiques: contribution à la précision 3D et robustesse Pas d’amélioration significative Amélioration de la robustesse: meilleure performance sur les gestes avec du mouvement vers la profondeur David Gomez
Limitation du suivi de la pose 3D dans des image monoculaires Les angles articulatoires ne permettent pas de modéliser l’incertitude de la profondeur. • Solution: un paramétrage qui permet de séparer l’incertitude de la profondeur et l’incertitude dans le plan image. Prediction Measurement Resampling David Gomez