Methoden voor valdetectie
Systemen pogen om valdetectie zo goed mogelijk uit te voeren, waarbij Human Pose Estimation vaak een belangrijke rol speelt. In dit artikel bespreken we een aantal methoden voor valdetectie die verschillende systemen gebruiken.
Background subtraction
De meeste vision-based valdetectie systemen gebruiken een vorm van background subtraction om ten eerste onderscheid te maken tussen de persoon en de omgeving, en ten tweede te beredeneren of een persoon is gevallen. Met background subtraction worden er full body afbeeldingen gedetecteerd en gekarakteriseerd met het gevectoriseerde silhouet van hun vorm.
Sommige systemen die gebaseerd zijn op background subtraction gebruiken beweging om de persoon te detecteren. De grootte en geometrische vorm van de bounding box wordt gebruikt om te bepalen of een persoon is gevallen, waarbij de evaluatie wordt uitgevoerd op nogal simplistische scenario’s met minimale rommel en zonder occlusies.
Andere systemen voeren op tamelijk eenvoudige wijze de detectie van een val uit met een multi-camera setup, door de bewegende persoon van de achtergrond af te leiden en de hoogte-breedteverhouding uit te rekenen om te bepalen of een persoon is gevallen of niet.
Ook zijn er vision-based valdetectie systemen die gebaseerd zijn op voorgrond detectie met behulp van background subtraction en een enkele groothoek overhead camera. Hierbij worden silhouet kenmerken in combinatie met drie classificaties gebruikt om vallen te detecteren. Met logistic regression, neural network en support vector machines worden dan vall en niet-val gebeurtenissen geclassificeerd.
Occlusie oplossen
Bepaalde benaderingen lossen het probleem van occlusie op door een multi-camera setup te gebruiken, ervan uitgaande dat de gevallen persoon in minstens één camera frame niet is afgesloten. Deze benaderingen gebruiken een appearance-based object tracker met kleur en geometrie aanwijzingen om mensen te identificeren. Verschillende menselijke houdingen kunnen hierbij worden geclassificeerd, zoals staan, kruipen, zitten en liggen.
Andere benaderingen gebruiken head tracking. Het probleem van occlusie van het lichaam van een persoon door zelf-occlusie of occlusie door andere objecten zoals dekens wordt hierbij aangepakt door het hoofd te volgen, waarbij ervan uit wordt gegaan dat het hoofd van de persoon minimale occlusies zal ondergaan.
Human Pose Estimation
Men gelooft dat het identificeren van de menselijke pose cruciaal is om te bepalen of de persoon is gevallen. Veel systemen maken dan ook gebruik van voorgrond detectie om de zoekruimte voor de afbeelding te verkleinen. Elk voorgrond masker wordt gebruikt om Pose Estimation uit te voeren met behulp van de methode van gelede lichamen. Ruimtelijke informatie is hierbij niet essentieel, en het detecteren van het grondvlak zou valse alarmen kunnen helpen afwijzen.
Er bestaan ook systemen die de menselijke pose detecteren op basis van een ellips die wordt gemonteerd op de gedetecteerde persoon, waarbij de houding wordt geschat door het berekenen van de ellips assen. Een support vector machine wordt gebruikt om verschillende menselijke houdingen te classificeren. Hierbij kan de pose en zijn verhouding tot de grond gebruikt worden om een gevallen persoon te detecteren.
Verder zijn er benaderingen gebaseerd op 3D-puntenwolken die gebruik maken van de Microsoft Kinect sensor. Met puntenwolk clustering kunnen verschillende ledematen worden gedetecteerd, en voor ruimtelijke verhoudingen wordt het grondvlak gesegmenteerd. Wat ook mogelijk is met de Microsoft Kinect sensor is dat de 3D bounding box van een persoon wordt uitgerekend met behulp van background subtraction en diepte gegevens. Voor de duidelijkheid; deze methoden behandelen de gebeurtenis van een persoon die valt, niet van een gevallen persoon. Het is ook mogelijk met de Microsoft Kinect sensor dat een gevallen persoon wordt gedetecteerd. Gewricht informatie van het skelet wordt dan gegenereerd van de sensor. Met de hoogte van de gewrichten ten opzichte van de gedetecteerde grond kan dan bepaald worden of een persoon is gevallen.
Het gebruik van Human Pose Estimation betekent dus niet direct dat een gevallen persoon wordt gedetecteerd. Het betekent alleen dat de menselijke pose wordt geschat. Om te beredeneren of een persoon gevallen is zou een algemene 2D Human Pose Estimator in combinatie met diepte informatie gebruikt kunnen worden om 3D menselijke kernpunten te schatten, het grondvlak in 3D uit te rekenen, en meerdere metingen te doen. Een dergelijk systeem kan geïnstalleerd worden in een stationaire, multi-camera setup of op een actieve observator zoals een autonome robot.
In de afgelopen jaren is deep learning steeds populairder geworden. De meeste moderne Human Pose Estimators vertrouwen er dan ook op. Rijke training datasets zijn openbaar beschikbaar om nieuwe deep learning benaderingen als Human Pose Estimation te ontwikkelen en te trainen. Vele Human Pose Estimators maken gebruik van deze datasets en behalen indrukwekkende resultaten met een gemiddelde nauwkeurigheid van zo’n 90 procent. Hou er wel rekening meer dat het voor deep learning methoden belangrijk is om te werken met de benodigde hardware om deze algoritmen te ondersteunen
Comments are closed.