2D en 3D datasets voor Human Pose Estimation

Om met behulp van kunstmatige intelligentie iets zinnigs te zeggen over de poses van mensen in beelden, moeten de algoritmen getraind worden aan de hand van datasets. Hierbij een korte introductie van een aantal veelgebruikte datasets voor 2D en 3D Human Pose Estimation.

Datasets voor 2D Human Pose Estimation

MPII: De MPII Human Pose dataset is een multi-person 2D Pose Estimation dataset bestaande uit ongeveer 25 duizend beelden die meer dan 40 duizend mensen bevatten met geannoteerde gewrichten. De beelden zijn systematisch verzameld met behulp van een gevestigde taxonomie van dagelijkse menselijke activiteiten. Overall omvat de dataset 410 menselijke activiteiten en elk beeld is voorzien van een activiteits label. Elk beeld is afgeleid van een YouTube video en voorzien van voorafgaande en opvolgende niet-geannoteerde frames. Bovendien zijn voor de testset rijkere annotaties inclusief lichaamsdeel overlappingen en 3D torso en hoofd oriëntaties verworven.

MPII was de eerste dataset die zo’n divers bereik aan poses bevatte. De MPII Human Pose dataset is een state-of-the-art benchmark voor het evalueren van uitgesproken Human Pose Estimation.

COCO: The COCO keypoints dataset is een multi-person 2D Pose Estimation dataset met beelden die verzameld zijn van Flickr. COCO is een van de grootste 2D Pose Estimation datasets en wordt gezien als een benchmark voor het testen van 2D Pose Estimation algoritmen. COCO is ontwikkeld voor object detectie, segmentatie, menselijke kernpunt detectie, segmentatie van spullen, en bijschrift generatie.

LSP: Deze dataset bevat 2000 pose geannoteerde beelden van met name sportmensen. Ook deze beelden zijn verzameld van Flickr met behulp van de tags Athletics, Badminton, Baseball, Gymnastics, Parkour, Soccer, Tennis en Volleyball. De beelden zijn zo geschaald dat de meest prominente persoon grofweg 150 pixels in lengte is. Elk beeld is geannoteerd met 14 gewricht locaties. Linker en rechter gewrichten zijn consistent gelabeld vanuit een persoonsgericht gezichtspunt.

FLIC: Flic is een dataset bestaande uit 5003 beelden die automatisch zijn verzameld van populaire Hollywood films. De beelden zijn verkregen door een state-of-the-art persoon detector te draaien op elke tiende frame van 30 films. Mensen die met hoge zekerheid waren gedetecteerd (ongeveer 20 duizend kandidaten) werden vervolgens naar de crowdsourcing marktplaats Amazon Mechanical Turk gestuurd om etikettering van grondwaarheden te verkrijgen. Elk beeld werd door vijf ‘Turkers’ voor 1 dollarcent per stuk geannoteerd om 10 gewrichten van het bovenlichaam te labelen. De mediaan-van-vijf labeling werd gedaan in elk beeld om robuust te zijn tegen het annoteren van uitschieters. Ten slotte werden beelden handmatig geweigerd als de persoon werd overlapt of als deze ernstig niet-frontaal was.

Datasets voor 3D Human Pose Estimation

HumanEva: HumanEva was de eerste 3D Pose Estimation dataset van substantieel formaat. Het is een Single-person 3D Pose Estimation dataset die video sequenties bevat die zijn opgenomen met gebruik van meerdere RGB en grayscale camera’s. De HumanEva-I dataset bevat 7 gekalibreerde video sequenties (4 grayscale en 3 kleur) die worden gesynchroniseerd met 3D lichaam poses die verkregen zijn van een motion-capture systeem. De database bevat 4 personen die 6 gebruikelijke activiteiten uitvoeren, zoals lopen, joggen en gebaren maken. De foutstatistieken voor berekeningsfouten in 2D en 3D pose worden verstrekt aan deelnemers. De dataset bevat training, validatie en testen (met ingehouden grond waarheid) sets. Grond waarheid 3D poses worden vastgelegd met marker-based motion capture (mocap) camera’s.

Human3.6M: Human3.6M is een Single-person 2D/3D Pose Estimation dataset, die video sequenties bevat waarin 11 professionele acteurs (6 mannen, 5 vrouwen) 17 verschillende scenario’s uitvoeren (discussiëren, roken, foto’s nemen, bellen) die werden opgenomen in hoge resolutie 50Hz video van 4 gekalibreerde camera’s. 3D gewricht posities werden nauwkeurig verkregen van een hoge snelheid motion capture systeem. Voor elke configuratie zijn er 24 lichaamsdeel labels op pixel niveau. Daarnaast bevat deze dataset time-of-flight bereik gegevens en zijn er 3D laser scans van de acteurs. Bovendien is de achtergrond nauwkeurig verwijderd en zijn er bounding boxes voor de personen.

Human3.6M is en van de grootste echte 3D Pose Estimation datasets.

MPI-INF-3DHP: MPI-INF-3DHP is een training set voor Human Pose Estimation van monoculaire beelden van echte mensen die de grond waarheid verkrijgt met een multi-camera marker-less motion capture systeem. Hij complementeert bestaande datasets met een grotere diversiteit in pose, menselijk uiterlijk, kleding, overlapping en gezichtspunten, en maakt een grotere omvang van augmentatie mogelijk. Hij heeft ook een nieuwe benchmark die outdoor en indoor scenes omvat, en levert betere in-the-wild prestaties dan bestaande geannoteerde data.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Google photo

Je reageert onder je Google account. Log uit /  Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s