RECONNAISSANCE D'ACTIVITE

Mouna Selmi
Encadrement : Mounim El Yacoubi
Direction de thèse : Bernadette Dorizzi
Telecom SudParis

L’objectif de cette tâche est la reconnaissance d’activités humaines à partir de séquences vidéo. Dans ce cadre, nous avons enregistré un corpus d’activités correspondant à des tâches domestiques de vie quotidienne. L’enregistrement a eu lieu au Homelab de l’Institut de la Vision et les activités ont été réalisées dans trois emplacements de cet appartement: Entrée, Cuisine, Salon.

Pour collecter ce corpus, l’institut de la vision a fait appel à 30 participants : 18 personnes Bien-voyantes, 8  personnes Mal-voyantes, et 4  personnes Non-voyantes.

L’objectif dans un premier temps est de développer un système de reconnaissance automatique d’activités réalisées par des personnes bien-voyantes. Ensuite, le système pourra être adapté à la reconnaissance d’activités réalisées par des personnes Mal et/ou Non-voyantes. Une analyse a posteriori des résultats permettra de détecter une dégradation éventuelle de la réalisation de quelques tâches par les deux dernières catégories de personnes.

juliette-boire   juliette-monnaie   juliette-evier 

Quelques images extraites du corpus vidéo


Pour modéliser les activités humaines, on part de l’observation de départ qu’une activité est une séquence d’actions élémentaires. Par exemple, l’activité « Boire un Verre d’eau » consiste en la séquence d’actions élémentaires suivantes : « Aller vers le frigidaire », « Ouvrir le frigidaire », « Prendre une bouteille », « Se servir un verre d’eau », et « Ranger la bouteille dans le frigidaire ». Etant donnée que les séquences vidéos acquises correspondent à une série d’activités réalisées séquentiellement (par exemple, la personne marche, puis boit de l’eau et ensuite va trier le courrier), on voit bien que la modélisation des activités humaines doit tenir compte de deux niveaux hiérarchiques :

- une séquence vidéo = Séquence continue d'activités

- une activité = Séquence d'Actions élementaires

Ces observations nous ont amené à considérer une modélisation hiérarchique fondée sur une variante des Champs Aléatoires Conditionnels (Conditional Random Fields (CRFs)) appelée Latent Dynamic CRFs. Ces modèles probabilistes  sont convenables à notre problématique car ils permettent de segmenter et de reconnaitre conjointement des classes (activités) dans une séquence continue d’observations associées à des classes (c’est le cas de nos flux  vidéos continus correspondant à des séquences d’activités). De plus, les CRFs possèdent deux qualités importantes : D’abord, ce sont des modèles discriminants et ensuite, ils permettent une intégration souple de plusieurs types de caractéristiques de nature différente et sans émettre des hypothèses d’indépendance. 

Après l’acquisition du corpus de données, notre première étape de travail a consisté à choisir et à implémenter des techniques d’extraction de caractéristiques du flux vidéo qui soient pertinentes pour la discrimination entre actions différentes. Notre choix s’est porté sur les points d’intérêt spatio-temporels (Spatio-Temporal Interest Points – STIPs). Ces derniers permettent une représentation parcimonieuse mais pertinente de la séquence vidéo. De plus, leur détection ne nécessite ni une suppression du fond, ni le suivi d’un modèle explicite du corps qui peut s’avérer compliqué en cas d’occlusions importantes. La figure suivante montre un exemple de STIPs détectés principalement sur les zones de mouvement significatives.

Les tests de reconnaissance d’actions effectués sur des bases de données publiques (Weizmann et KTH) en utilisant des modèles CRFs pour la classification ont confirmé la robustesse de cette technique. Par ailleurs, nous avons proposé une modélisation d’analyse multilinéaire fondée sur les tenseurs qui permet de détacher les paramètres inhérents aux actions d’autres paramètres de nuisance tels que l’illumination, l’identité de personnes, etc. Cette modélisation a confirmé que la plupart des STIPS détectés encodent le mouvement indépendamment de l’identité de la personne.

 

              juliette-donnees-weizman1                juliette-donnees-weizman2

Images extraites de la base de données Weizmann et KTH (actions)

 

 AVANCEMENT DES TRAVAUX (Mai 2013)

 

Le jeu de caractéristiques extraites des vidéos que nous avons considérées est fondé sur les points d'intérêt spatio-temporels (STIPs). Les STIPs sont particulièrement adaptés à notre problème pour plusieurs raisons.  D'abord, ils permettent de caractériser principalement le mouvement et sont invariants par rapport au changement d'échelle et de vitesse. De plus, ils ne nécessitent ni la suppression du fond, ni un suivi et/ou un modèle explicite du corps humain, ce qui est très difficile pour les cas où la personne se trouve de dos ou de profil par rapport à la caméra et où des occlusions ont lieu. Enfin, ils permettent une représentation parcimonieuse des primitives tout en restant discriminants.

Pour vérifier la sensibilité des STIPs non seulement par rapport aux actions, mais aussi par rapport à d'autres facteurs 'nuisibles', tels que l'identité de la personne, l'illumination ou l'angle de vue, nous avons considéré une analyse multi- dimensionnelle fondée sur les tenseurs. Cette  analyse  a montré que, bien que les STIPs sont liés légèrement à l'identité de personnes, ils caractérisent principalement les actions.

Pour la phase de reconnaissance des actions, nous avons exploré l’utilisation des champs aléatoires conditionnels cachés (Hidden Conditional Random Fields: HCRF) qui  semblent bien adaptés à notre problématique. Premièrement, les HCRFs sont des modèles statistiques discriminants conçus pour la classification des séries temporelles dans lesquels les dépendances entre les primitives peuvent être fortes. De plus, ils sont capables de  modéliser la structure interne des activités en utilisant des états cachés correspondant aux sous évènements (structures latentes) des actions ou des activités. Nos premiers travaux sur la reconnaissance d'actions isolées ont abouti sur des performances compétitives. Ces résultats nous ont amené à optimiser le HCRF pour modéliser les activités en explorant une meilleure représentation par STIPs.

De ce fait, des nouvelles primitives des séquences vidéo ont été proposées pour la description des activités: en l’occurrence, les trajectoires des STIPs (Figure 1). Ces nouvelles primitives capturent l’évolution temporelle des  STIPs qui permet une  représentation plus riche du mouvement dans des conditions réelles. Les descripteurs spatio-temporels (STIPS et leurs trajectoires) se sont avérés plus performants que ceux utilisés dans l’état de l’art pour les points d’intérêt spatiaux, car ils sont pertinents dans le sens qu’ils correspondent surtout au mouvement, ils sont peu denses et sont discriminants.

 

  juliette-trajectoires2  juliette-trajectoires3    

juliette-trajectoires1  

Trajectoires des points d'intérêt spatio-temporels

 

Pour la phase de reconnaissance, nous avons introduit une nouvelle approche de classification basée sur un modèle hybride SVM-HCRF (Figure 2) où le vecteur de probabilités des activités conditionnellement aux trajectoires des STIPs généré par le SVM est utilisé comme entrée du HCRF. Cette approche s’est révélée aussi bien compétitive par rapport à l’état de l’art.

 

LEVEE DE DOUTE: CHUTE

 

Aldebaran a développé une application de Service à la personne permettant de lever le doute en cas de chute de l'utilisateur. Si celui ci ne répond pas alors que le robot a détecté une situation anormale, une centrale d'urgence peut être contactée pour prendre le controle du robot.

 Regardez la vidéo ici