Veeg om het menu te tonen

In begeleid of onbegeleid leren wordt de trainingsset meestal gepresenteerd in een tabelvorm.

Een voorbeeld hiervan is de diabetesdataset, die wordt gebruikt om te voorspellen of een persoon diabetes heeft. Het bevat gegevens van 768 vrouwen met parameters zoals leeftijd, body mass index en bloeddruk. Deze parameters worden kenmerken genoemd.

De dataset bevat ook een 'Outcome'-kolom die aangeeft of de persoon diabetes heeft. Dit is de doelvariabele.

Elke rij in de tabel is een instantie (ook wel een datapunt of monster genoemd), die informatie over een individueel persoon weergeeft.

De tabel (trainingsset) bevat een doelkolom, wat betekent dat deze gelabeld is.

De taak is om het ML-model te trainen op deze trainingsset, en zodra het getraind is, kan het voor andere mensen (nieuwe instanties) voorspellen of zij diabetes hebben op basis van alleen de kenmerken.

Opmerking

Deze trainingsset is een voorbeeld van een bevooroordeelde dataset, omdat deze uitsluitend informatie bevat over vrouwen van minimaal 21 jaar oud. Hierdoor kan het model minder nauwkeurige voorspellingen doen voor mannen of voor vrouwen jonger dan 21 jaar, aangezien het niet op deze groepen is getraind.

Tijdens het coderen worden feature-kolommen meestal toegewezen aan X en target-kolommen aan y.

En kenmerken van nieuwe instanties worden toegewezen als X_new.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 3

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Trainingset