Træningssæt
Ved superviseret eller ikke-superviseret læring præsenteres træningssættet typisk i tabelformat.
Et eksempel er diabetesdatasættet, som bruges til at forudsige, om en person har diabetes. Det indeholder registreringer af 768 kvinder med parametre såsom alder, kropsmasseindeks og blodtryk. Disse parametre kaldes features.
Datasættet indeholder også en 'Outcome'
-kolonne, der angiver, om personen har diabetes. Dette er den målvariabel.
Hver række i tabellen er en instans (også kaldet et datapunkt eller en prøve), der repræsenterer information om et enkelt individ.
Tabellen (træningssættet) har en målkolonne, hvilket betyder, at den er mærket.
Opgaven er at træne ML-modellen på dette træningssæt, og når den er trænet, kan den forudsige for andre personer (nye instanser), om de har diabetes baseret udelukkende på features.
Dette træningssæt er et eksempel på et biased datasæt, da det udelukkende indeholder information om kvinder, der er mindst 21 år gamle. Derfor kan modellen give mindre præcise forudsigelser for mænd eller for kvinder under 21, da den ikke er blevet trænet på disse grupper.
Ved kodning tildeles feature-kolonner normalt til X
, og target-kolonner tildeles som y
.
Og features for nye instanser tildeles som X_new
.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
What is the difference between features and the target variable?
Can you explain what X, y, and X_new represent in machine learning?
How does the model use X_new to make predictions?
Awesome!
Completion rate improved to 3.13
Træningssæt
Stryg for at vise menuen
Ved superviseret eller ikke-superviseret læring præsenteres træningssættet typisk i tabelformat.
Et eksempel er diabetesdatasættet, som bruges til at forudsige, om en person har diabetes. Det indeholder registreringer af 768 kvinder med parametre såsom alder, kropsmasseindeks og blodtryk. Disse parametre kaldes features.
Datasættet indeholder også en 'Outcome'
-kolonne, der angiver, om personen har diabetes. Dette er den målvariabel.
Hver række i tabellen er en instans (også kaldet et datapunkt eller en prøve), der repræsenterer information om et enkelt individ.
Tabellen (træningssættet) har en målkolonne, hvilket betyder, at den er mærket.
Opgaven er at træne ML-modellen på dette træningssæt, og når den er trænet, kan den forudsige for andre personer (nye instanser), om de har diabetes baseret udelukkende på features.
Dette træningssæt er et eksempel på et biased datasæt, da det udelukkende indeholder information om kvinder, der er mindst 21 år gamle. Derfor kan modellen give mindre præcise forudsigelser for mænd eller for kvinder under 21, da den ikke er blevet trænet på disse grupper.
Ved kodning tildeles feature-kolonner normalt til X
, og target-kolonner tildeles som y
.
Og features for nye instanser tildeles som X_new
.
Tak for dine kommentarer!