Datatyper
Svep för att visa menyn
Varje kolumn (funktion) i en träningsuppsättning har en datatyp kopplad till sig. Dessa datatyper kan grupperas i numeriska, kategoriska och datum och/eller tid.
De flesta ML-algoritmer fungerar bra endast med numerisk data, så kategoriska och datum/tid-värden behöver omvandlas till siffror.
För datum och tid kan egenskaper som 'year', 'month' och liknande extraheras, beroende på uppgiften. Dessa är redan numeriska värden och kan därför användas direkt.
Kategoriska data är något mer utmanande att hantera.
Typer av kategoriska data
Kategoriska data delas in i två typer:
-
Ordinala data är en typ av kategoriska data där kategorierna har en naturlig ordning. Exempelvis utbildningsnivå (från grundskola till doktorsexamen) eller betyg (från mycket dåligt till mycket bra), etc.
-
Nominala data är en typ av kategoriska data som inte följer någon naturlig ordning. Exempelvis namn, kön, ursprungsland, etc.
Att konvertera ordinale och nominala datatyper till numeriska värden kräver olika metoder, så de måste hanteras separat.
Det finns bättre sätt att konvertera datum till numeriska värden som ligger utanför ramen för denna introduktionskurs. Till exempel, om vi bara använder egenskapen 'month', tar det inte hänsyn till att 12:e månaden faktiskt är närmare 1:a än 9:e.
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal