Trainingset
Bij zowel gesuperviseerd als niet-gesuperviseerd leren wordt de trainingsset doorgaans gepresenteerd in een tabelvorm.
Een voorbeeld hiervan is de diabetesdataset, die wordt gebruikt om te voorspellen of een persoon diabetes heeft. Deze bevat gegevens van 768 vrouwen met parameters zoals leeftijd, body mass index en bloeddruk. Deze parameters worden aangeduid als kenmerken.
De dataset bevat ook een 'Outcome'
-kolom die aangeeft of de persoon diabetes heeft. Dit is de doelvariabele.
Elke rij in de tabel is een instantie (ook wel een datapunt of monster genoemd), die informatie over een individueel persoon weergeeft.
De tabel (trainingsset) bevat een doelkolom, wat betekent dat deze gelabeld is.
De taak is om het ML-model te trainen op deze trainingsset, zodat het na training voor andere personen (nieuwe instanties) kan voorspellen of zij diabetes hebben, uitsluitend op basis van kenmerken.
Deze trainingsset is een voorbeeld van een bevooroordeelde dataset, aangezien deze uitsluitend informatie bevat over vrouwen van minimaal 21 jaar oud. Hierdoor kan het model minder nauwkeurige voorspellingen doen voor mannen of voor vrouwen jonger dan 21 jaar, omdat het niet op deze groepen is getraind.
Tijdens het coderen worden feature-kolommen meestal toegewezen aan X
en target-kolommen toegewezen als y
.
En kenmerken van nieuwe instanties worden toegewezen als X_new
.
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.13
Trainingset
Veeg om het menu te tonen
Bij zowel gesuperviseerd als niet-gesuperviseerd leren wordt de trainingsset doorgaans gepresenteerd in een tabelvorm.
Een voorbeeld hiervan is de diabetesdataset, die wordt gebruikt om te voorspellen of een persoon diabetes heeft. Deze bevat gegevens van 768 vrouwen met parameters zoals leeftijd, body mass index en bloeddruk. Deze parameters worden aangeduid als kenmerken.
De dataset bevat ook een 'Outcome'
-kolom die aangeeft of de persoon diabetes heeft. Dit is de doelvariabele.
Elke rij in de tabel is een instantie (ook wel een datapunt of monster genoemd), die informatie over een individueel persoon weergeeft.
De tabel (trainingsset) bevat een doelkolom, wat betekent dat deze gelabeld is.
De taak is om het ML-model te trainen op deze trainingsset, zodat het na training voor andere personen (nieuwe instanties) kan voorspellen of zij diabetes hebben, uitsluitend op basis van kenmerken.
Deze trainingsset is een voorbeeld van een bevooroordeelde dataset, aangezien deze uitsluitend informatie bevat over vrouwen van minimaal 21 jaar oud. Hierdoor kan het model minder nauwkeurige voorspellingen doen voor mannen of voor vrouwen jonger dan 21 jaar, omdat het niet op deze groepen is getraind.
Tijdens het coderen worden feature-kolommen meestal toegewezen aan X
en target-kolommen toegewezen als y
.
En kenmerken van nieuwe instanties worden toegewezen als X_new
.
Bedankt voor je feedback!