Semi-supervised machine learning
Zowel supervised machine learning (SML) als unsupervised machine learning (UML) hebben hun voor- en nadelen. Een groot nadeel van SML is dat doorgaans slechts een fractie van data daadwerkelijk is gelabeld, algoritmisch dan wel handmatig. Een groot nadeel van UML is dat je geen precieze informatie kan krijgen met betrekking tot het sorteren van gegevens. In een poging om te profiteren van de voordelen van SML en UML, en de nadelen te minimaliseren bestaat er een middenweg; Semi-supervised machine learning.
Semi-supervised learning is de tak van machine learning die zich bezighoudt met het gebruik van zowel gelabelde als ongelabelde data om bepaalde leertaken uit te voeren. Conceptueel ligt deze vorm van machine learning tussen supervised en unsupervised learning in, en maakt deze het mogelijk om grote hoeveelheden ongelabelde data die in veel gevallen beschikbaar is, in combinatie met meestal kleinere sets van gelabelde data, te benutten. Dit is nuttig voor een aantal redenen.
Ten eerste is het proces van het labelen van gigantische hoeveelheden data voor SML vaak tijdrovend en onbetaalbaar. Ten tweede kan een teveel aan labeling het model infecteren met menselijke vooroordelen. Het toevoegen van veel ongelabelde data tijdens het trainingsproces kan er daardoor voor zorgen dat de nauwkeurigheid van het uiteindelijke model verbetert terwijl er minder tijd en kosten hoeven te worden gespendeerd aan het maken van het model. Om die reden is semi-supervised learning een win-win voor situaties als het classificeren van webpagina’s, spraakherkenning en zelfs voor genetische sequentiebepaling. In al deze gevallen hebben data scientists namelijk toegang tot grote hoeveelheden ongelabelde data, terwijl het proces van het daadwerkelijk toewijzen van toezicht informatie aan alle data een onoverkomelijke taak zou zijn.
Normaal gesproken proberen semi-supervised learning algoritmen de performance van SML of UML taken te verbeteren door gebruik te maken van informatie die over het algemeen geassocieerd wordt met de ander. Bij het oplossen van een classificatie probleem, bijvoorbeeld, zouden additionele data punten van welke het label onbekend is gebruikt kunnen worden om te helpen bij het classificatieproces. Aan de andere kant zou de leer procedure baat kunnen hebben bij de kennis dat bepaalde data punten tot dezelfde klasse behoren.
Voor machine learning in het algemeen is een grote meerderheid van het onderzoek naar semi-supervised learning gefocust op classificatie. Dus laten we classificatie als voorbeeld gebruiken en vergelijken hoe deze drie benaderingen in de praktijk werken:
- Supervised classificatie: Het algoritme leert labels toe te wijzen aan typen webpagina’s gebaseerd op de labels die werden ingevoerd door een persoon tijdens het trainingsproces.
- Unsupervised clustering: Het algoritme kijkt naar inherente overeenkomsten tussen webpagina’s om ze in groepen te plaatsen.
- Semi-supervised classificatie: Gelabelde data wordt gebruikt om te helpen identificeren dat er specifieke groepen van webpagina typen aanwezig zijn in de data en wat deze zouden kunnen zijn. Het algoritme wordt vervolgens getraind op ongelabelde data om de grenzen van die webpagina typen te definiëren en zou zelfs nieuwe typen webpagina’s kunnen identificeren die niet gespecificeerd waren in de bestaande menselijk ingevoerde labels.
Semi-supervised classificatie methoden zijn met name relevant voor scenario’s waarbij gelabelde data schaars is. In die gevallen kan het moeilijk zijn om een betrouwbare supervised classificator te construeren. Als er voldoende ongelabelde data beschikbaar is en onder de juiste aannames over de distributie van de data, kan de ongelabelde data helpen bij de constructie van een betere classificator. In de praktijk worden semi-supervised learning methoden ook toegepast op scenario’s waarbij er geen significant gebrek aan gelabelde data bestaat. Als de ongelabelde data punten additionele informatie bieden die relevant is voor voorspelling, dan kunnen deze namelijk potentieel gebruikt worden om verbeterde classificatie prestaties te bereiken.
Over het algemeen kost het labelen van data tijd en geld. Dit is niet altijd een probleem, omdat sommige datasets al labels hebben. Maar als je veel data hebt, waarvan alleen een klein gedeelte is gelabeld, dan kan semi-supervised learning een goede techniek zijn om uit te proberen. Semi-supervised learning zou echter niet moeten worden gezien als een gegarandeerde manier om verbeterde voorspellingen te doen door louter de introductie van ongelabelde data. Het zou eerder gebruikt moeten worden als een andere richting in het proces van het vinden en configureren van een learning algoritme voor de betreffende taak.
Comments are closed.