Deep learning methode voor Human Pose Estimation: DeepCut

DeepCut is net als het vorige keer besproken OpenPose een deep learning methode voor Human Pose Estimation. Deze methode voert gelede Human Pose Estimation uit voor meerdere mensen in echte beelden. Het is een benadering die gezamenlijk de uitdagingen van detectie en Pose Estimation oplost. DeepCut leidt het aantal personen in een beeld af, identificeert afgesloten lichaamsdelen, en verwijdert dubbelzinnigheden wat betreft lichaamsdelen van mensen die dichtbij elkaar zijn zodat duidelijk wordt welk lichaamsdeel van wie is. Deze gezamenlijke formulering is in contrast met voorgaande methoden, die de taak uitvoeren door eerst mensen te detecteren en daaropvolgend hun pose te schatten.

Belangrijke uitdagingen die inherent zijn aan Multi-Person Human Pose Estimation zijn de kansen dat sommige mensen slechts gedeeltelijk zichtbaar zijn, dat er een significante overlap van bounding box (begrenzende vakjes) regio’s van mensen zijn, en dat het aantal mensen in een beeld onbekend is. Om die reden moet het aantal personen afgeleid worden, en moeten detecties van lichaamsdelen toegewezen worden aan personen terwijl geometrische en uiterlijke beperkingen worden gerespecteerd.

Hoewel de meeste methoden een tweetraps inferentie proces gebruiken om eerst te detecteren en vervolgens poses te schatten, zijn veel van deze methoden beperkt tot situaties waarin mensen voldoende ver van elkaar weg zijn en geen overlappende lichaamsdelen hebben. Deze methoden zijn niet geschikt voor situaties waarin mensen in directe nabijheid van elkaar zijn. Dit omdat zij gelijktijdige toewijzing van dezelfde lichaamsdeel kandidaten aan meerdere mensen toestaan. DeepCut stelt daarom een model voor Multi-Person Human Pose Estimation voor dat gezamenlijk de poses van alle in een beeld aanwezige mensen schat door het minimaliseren van een gezamenlijk doel. De formulering is gebaseerd op het verdelen en labelen van een eerste poel van lichaamsdeel kandidaten in subgroepen die corresponderen met sets van wederzijds consistente lichaamsdeel kandidaten en die zich houden aan wederzijdse consistentie en uitsluitingsbeperkingen.

DeepCut is een bottom-up benadering voor Multi-Person Human Pose Estimation die de taak uitvoert door de volgende problemen op te lossen:

  1. Produceer een set lichaamsdeel kandidaten. Deze set vertegenwoordigt alle mogelijke locaties van lichaamsdelen voor elke persoon in het beeld. Selecteer een subgroep van lichaamsdelen van de bovengenoemde set lichaamsdeel kandidaten.
  2. Label elk geselecteerd lichaamsdeel met een van de lichaamsdeel klassen. De lichaamsdeel klassen vertegenwoordigen de typen lichaamsdelen, zoals ‘torso’, ‘arm’ en ‘been’.
  3. Scheid lichaamsdelen die tot dezelfde persoon behoren van andere.

De belangrijkste bijdrage van de DeepCut strategie is het feit dat bovengenoemde problemen gezamenlijk worden opgelost door ze in een Integer Linear Programming (ILP) probleem te modelleren. Deze formulering voert impliciet non-maximale onderdrukking uit op de set van lichaamsdeel kandidaten, en groepeert ze zodat ze configuraties van lichaamsdelen vormen die geometrische en uiterlijke beperkingen respecteren. Daarnaast worden twee CNN gebaseerde lichaamsdeel detectors gebruikt om de verdeling- en labeling formulering van een set van lichaamsdeel hypotheses te genereren. Experimenten met vier verschillende en uitdagende datasets leveren state-of-the-art resultaten, met significante verbeteringen ten opzichte van alle voorgaande methoden; niet alleen voor Multi-Person Pose Estimation, maar ook voor Single-Person Pose Estimation.

Gelede Pose Estimation van meerdere mensen in ongecontroleerde beelden uit de echte wereld is uitdagend maar wel van wezenlijk belang. DeepCut biedt een nieuwe formulering als een gezamenlijke ‘subset partitioning and labeling problem’ (SPLP). In tegenstelling tot voorgaande tweetraps benaderingen die de stappen van detectie en het schatten van de pose van elkaar scheiden, leidt de SPLP methode gezamenlijk het aantal mensen, hun poses, ruimtelijke nabijheid en lichaamsdeel overlappingen af. De geweldige resultaten die deze strategie produceert demonstreren dat een gezamenlijke formulering cruciaal is om dubbelzinnigheid uit meerdere en potentieel overlappende personen te elimineren.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s