Starten met een deep learning project: Bepaal jouw business- en databehoeften
Bij het uitvoeren van een AI project komen vele factoren kijken. Zo hangt het succes van het project niet alleen af van het bij elkaar brengen van een gekwalificeerd team, maar bijvoorbeeld ook van het selecteren van de juiste infrastructuur. Wegens de complexiteit kan de kritieke rol die data speelt in het proces gemakkelijk onderschat worden. Doorgaans wordt echter de meeste tijd van een AI project aan data-gerelateerde taken besteed, zoals het verzamelen, labelen, laden en het doen groeien van de data. Bij het starten met een deep learning project is het dus nodig om na de business behoeften direct de data behoeften te bepalen.
Bepaal jouw business behoeften: Start met een use case?
In vele branches begint AI een fundamentele rol te spelen. Om levensvatbaar te blijven is het daarom handig om stappen op dit gebied te maken. De eerste stap voor elk AI project is het in kaart brengen van de business behoeften. Veel bedrijven beginnen, met name als het hun eerste AI project is, met een use case die heersend is in hun branche. Een idee is om een use case te kiezen die een goede kans van slagen heeft binnen een relatief korte tijd, om hier vervolgens op uit te breiden in andere delen van de organisatie.
Bepaal jouw data behoeften
Als de use case eenmaal gekozen is, is de volgende stap het kritisch beoordelen van de data die je ter beschikking hebt om de use case te ondersteunen. Heb je niet de beschikking tot de benodigde dataset, dan is het zaak uit te vinden hoe je deze data toch kunt bemachtigen. Is dit de eerste keer dat de organisatie een AI project in gang zet, dan is dit het moment om alle data van de organisatie te evalueren. Om ervoor te zorgen dat de datasets beschikbaar, bruikbaar en consistent zijn zodra deze nodig zijn, is het essentieel om het juiste bestuursbeleid klaar te hebben, en ervoor te zorgen dat er wordt voldaan aan belangrijke voorschriften voor databescherming en privacy.
Daarnaast is het belangrijk om te weten dat niet alle datasets op dezelfde manier behandeld kunnen worden. Er zijn namelijk veel verschillende soorten data, waaronder afbeeldingen, video, audio, time-series data, tekst en grafieken. Elke datasoort heeft eigen bronnen waar je ze vandaan kunt halen. Zo bestaan er bijvoorbeeld grafiek databases. En elke soort kan op een unieke wijze worden opgeslagen. Het is mogelijk dat jouw use case slechts een enkele soort data vereist, maar het is ook mogelijk dat deze meerdere soorten vereist die met elkaar geïntegreerd moeten worden. Ook bepalen de soorten data die je gebruikt de benodigde software tools voor elk stadium.
Verder is het mogelijk dat je met data moet werken die al verzameld is, terwijl je daarnaast data streamt van video camera’s, sensoren, applicaties, etcetera. Misschien vereist het algoritme dat je traint alleen data van interne bronnen, maar het is ook mogelijk dat je data verkrijgt uit externe bronnen, zoals data betreffende het weer of demografische data. Voor elke bron is het van belang dat je zorgt dat je recht op de data hebt, dat je geen richtlijnen of voorschriften schendt, en dat je toegang hebt tot de data in een consistent formaat en binnen het nodige tijdsbestek.
De nauwkeurigheid van het AI model wordt direct bepaald door het volume, de verscheidenheid en de waarachtigheid van de data, omdat AI leert van de kenmerken en attributen van de data. Over het algemeen geldt dat hoe groter het datavolume is, hoe beter de deep learning resultaten; hoe gevarieerder de data is, hoe nauwkeuriger het model kan generaliseren; en hoe correcter de data gelabeld is, hoe accurater het AI model.
Ter afsluiting zijn er nog twee punten om in acht te nemen. Ten eerste: Denk eraan dat de data zo goed mogelijk de specifieke realiteit reflecteert waar je edge apparaten aan worden blootgesteld. En ten tweede: Het is niet code maar data dat van primair belang is voor deep learning systemen
Comments are closed.