Stryg for at vise menuen

I superviseret eller ikke-superviseret læring præsenteres træningssættet normalt i et tabelformat.

Et eksempel er diabetes-datasættet, som bruges til at forudsige, om en person har diabetes. Det indeholder registreringer af 768 kvinder med parametre såsom alder, kropsmasseindeks og blodtryk. Disse parametre kaldes features.

Datasættet indeholder også en 'Outcome'-kolonne, der angiver, om personen har diabetes. Dette er den målvariabel.

Hver række i tabellen er en instans (også kaldet et datapunkt eller en prøve), der repræsenterer information om et enkelt individ.

Tabellen (træningssættet) har en målkolonne, hvilket betyder, at den er mærket.

Opgaven er at træne ML-modellen på dette træningssæt, og når den er trænet, kan den forudsige for andre personer (nye instanser), om de har diabetes baseret kun på features.

Bemærk

Dette træningssæt er et eksempel på et biased datasæt, da det udelukkende indeholder information om kvinder, der er mindst 21 år gamle. Derfor kan modellen give mindre præcise forudsigelser for mænd eller for kvinder under 21, da den ikke er blevet trænet på disse grupper.

Ved kodning tildeles feature-kolonner normalt til X og target-kolonner til y.

Og egenskaber for nye instanser tildeles som X_new.

Var alt klart?

Tak for dine kommentarer!

Sektion 1. Kapitel 3

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Træningssæt