RECONNAISSANCE DE GESTES

Maher MKHININI
Encadrement : Patrick HORAIN
Directrice de thèse : Bernadette DORIZZI
Telecom SudParis

L’objectif de ce travail est de permettre au robot d’interpréter, dans le flux vidéo des caméras, des gestes utilisé par une personne souhaitant interagir avec le robot. Il s’agit donc de geste de communication, faits généralement en direction du robot pour lui donner un ordre. Un corpus de séquences vidéos a été acquis dans le HomeLab de l’Institut de la Vision pour permettre l’apprentissage de ces gestes.

 

    Le corpus vidéo a été réalisé avec 12 personnes qui ont effectué 3 fois les 7 gestes retenus dans le cahier des charges :
  • Salut
  • Avancer
  • Reculer
  • Stop
  • Oui
  • Non
  • Désignations

Les enregistrements ont été réalisés avec 2 niveaux d’éclairage. Cela donne un corpus de 168 séquences vidéo (près de 47 mn au total).

Pour détecter les gestes dans ces vidéos, il faut commencer par détecter et suivre les personnes dans la scène. Nous avons utilisé la méthode de classification HOG [Dalal et Triggs, 2005] qui utilise l’apprentissage sur une base d’image standard. L’évaluation de cette méthode sur notre corpus donne un taux de détection supérieur à 80%. Nous allons adapter la base d’apprentissage en utilisant les images du corpus pour améliorer les performances.

 

Démonstration de l’algorithme d’acquisition 3D de gestes pour l’animation d’un avatar [Gomez Jauregui 2011].

    Deux limitations majeures à partir de la mise en œuvre de l’algorithme sur notre corpus :
  • L’algorithme utilisé pour la soustraction de l’arrière plan n’est pas robuste à cause de la complexité du fond.
  • Problème de segmentation du corps causé par les erreurs de détection de visage et la détection de la teinte chair.

Pour pallier ces limitations et améliorer la détection des membres du corps humain, nous allons essayer d’exploiter l’image intégrale et la convolution par les ondelettes de Haar ainsi que des HOG locaux.

Pour la classification et la reconnaissance des gestes, nous allons mettre en œuvre des Modèles de Markov Cachés (HMM).

 




RECONNAISSANCE D'ACTIVITE

Mouna Selmi
Encadrement : Mounim El Yacoubi
Direction de thèse : Bernadette Dorizzi
Telecom SudParis

 

L’objet de ce travail est d’exploiter le flux vidéo pris par les caméras du robot pour déterminer l’activité de la personne qui vit avec le robot. L’interprétation des images passe par un apprentissage s’appuyant sur des prises de vue faites avec le robot dans le Homelab de l’institut de la vision pendant que les patients réalisent les activités que le robot aura à reconnaître.

Les tâches ont été réalisées dans 3 endroits différents du HomeLab :

    l’entrée
  • Entrer (marcher)
  • Allumer la lumière
  • Mettre manteau sur un cintre
  • Déposer les clés sur le bar
    le salon
  • S’assoir sur le canapé
  • Tri de courrier
  • Signez le formulaire de consentement
  • Préparez une certains somme d’argent en monnaie sur la table.
  • Composez un N° de téléphone
  • Utiliser la télécommande de la TV
    la cuisine
  • Boire un verre d’eau
  • Préparer du riz

 

    Les activités sont décomposées en séquence d’actions élémentaires. Boire un verre d’eau est la suite des actions suivantes :
  • Aller vers le frigidaire
  • Ouvrir le frigidaire
  • Prendre une bouteille
  • Se servir un verre d’eau
  • Ranger la bouteille dans le frigidaire
    Les expérimentations ont été faites avec
  • 18 personnes à l’acuité visuelle normale
  • 8 personnes mal voyantes
  • 4 personnes non voyantes

Une modélisation des activités a été faite selon un modèle hiérarchique probabiliste : le Conditional Random Fields (CRFs). C’est un modèle qui s’adapte bien à la problématique car il est assez discriminant et permet une intégration souple de primitives de types différents.

Pour paramétrer les actions élémentaires saisies dans les séquences vidéo, nous utilisons les Spatio Temporel Interest Points (STIPs) que nous avons pu valider sur les bases de données d’action de Weizmann et KTH. L’intérêt des STIPs est qu’ils ne nécessitent pas une suppression du fond ni un modèle explicit du corps humain.

La modélisation des actions se fonde sur les tenseurs. L’objectif est de détacher les paramètres inhérents aux actions d’autres paramètres qui peuvent être l’illumination, l’identité des personnes, … Le système de classification de base est fondé sur les SVM s avec les STIPs . Le modèle de CRFs est proposé comme alternative aux SVMs pour pouvoir tenir en compte de la corrélation temporelle entre trames.




CAPTEUR VISUEL

 

A partir du capteur visuel sélectionné par Aldebaran, un processeur perceptif BIPS développé par BVS permet la perception active à 60 images par seconde des éléments de bords, des taches de couleur et des mouvements dans la scène. Une partie compréhension développée par Telecom Sud Paris intègre les différents éléments perçus en fonction de l’action décidée.