Modeller
Grunnleggende om dataprosessering og oppbygging av pipelines er nå dekket. Neste steg er modellering.
En modell i Scikit-learn er en estimator som tilbyr metodene .predict() og .score(), i tillegg til .fit() som arves fra alle estimatorer.
.fit()
Når dataene er forhåndsprosesserte og klare for modellen, er det første steget i å bygge en modell å trene en modell. Dette gjøres ved å bruke .fit(X, y).
For å trene en modell som utfører en supervised learning-oppgave (f.eks. regresjon, klassifisering), må du sende både X og y til .fit()-metoden.
Hvis du arbeider med en unsupervised learning-oppgave (f.eks. klynging), kreves det ikke merkede data, så du kan kun sende variabelen X, .fit(X). Å bruke .fit(X, y) vil imidlertid ikke gi en feil. Modellen vil bare ignorere variabelen y.
Under trening lærer en modell alt den trenger for å kunne gjøre prediksjoner. Hva modellen lærer og hvor lang tid treningen tar, avhenger av valgt algoritme. For hver oppgave finnes det mange modeller, basert på ulike algoritmer. Noen trener saktere, mens andre trener raskere.
Trening er likevel vanligvis den mest tidkrevende delen av maskinlæring. Hvis treningssettet er stort, kan det ta minutter, timer eller til og med dager å trene en modell.
.predict()
Når modellen er trent ved hjelp av .fit()-metoden, kan den utføre prediksjoner. Predikering gjøres enkelt ved å kalle .predict()-metoden:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
Vanligvis ønsker du å predikere et mål for nye instanser, X_new.
.score()
Metoden .score() brukes til å måle ytelsen til en trent modell. Vanligvis beregnes dette på testsettet (de neste kapitlene forklarer hva dette er). Her er syntaksen:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
Metoden .score() krever faktiske målverdier (y_test i eksemplet). Den beregner prediksjonen for X_test-instanser og sammenligner denne prediksjonen med sanne målverdier (y_test) ved hjelp av en metrikk. Som standard er denne metrikk nøyaktighet for klassifisering.
X_test refererer til delsettet av datasettet, kjent som testsettet, som brukes til å evaluere modellens ytelse etter trening. Det inneholder funksjonene (inputdata). y_test er det tilsvarende delsettet av sanne etiketter for X_test. Sammen vurderer de hvor godt modellen predikerer nye, ukjente data.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 3.13
Modeller
Sveip for å vise menyen
Grunnleggende om dataprosessering og oppbygging av pipelines er nå dekket. Neste steg er modellering.
En modell i Scikit-learn er en estimator som tilbyr metodene .predict() og .score(), i tillegg til .fit() som arves fra alle estimatorer.
.fit()
Når dataene er forhåndsprosesserte og klare for modellen, er det første steget i å bygge en modell å trene en modell. Dette gjøres ved å bruke .fit(X, y).
For å trene en modell som utfører en supervised learning-oppgave (f.eks. regresjon, klassifisering), må du sende både X og y til .fit()-metoden.
Hvis du arbeider med en unsupervised learning-oppgave (f.eks. klynging), kreves det ikke merkede data, så du kan kun sende variabelen X, .fit(X). Å bruke .fit(X, y) vil imidlertid ikke gi en feil. Modellen vil bare ignorere variabelen y.
Under trening lærer en modell alt den trenger for å kunne gjøre prediksjoner. Hva modellen lærer og hvor lang tid treningen tar, avhenger av valgt algoritme. For hver oppgave finnes det mange modeller, basert på ulike algoritmer. Noen trener saktere, mens andre trener raskere.
Trening er likevel vanligvis den mest tidkrevende delen av maskinlæring. Hvis treningssettet er stort, kan det ta minutter, timer eller til og med dager å trene en modell.
.predict()
Når modellen er trent ved hjelp av .fit()-metoden, kan den utføre prediksjoner. Predikering gjøres enkelt ved å kalle .predict()-metoden:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
Vanligvis ønsker du å predikere et mål for nye instanser, X_new.
.score()
Metoden .score() brukes til å måle ytelsen til en trent modell. Vanligvis beregnes dette på testsettet (de neste kapitlene forklarer hva dette er). Her er syntaksen:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
Metoden .score() krever faktiske målverdier (y_test i eksemplet). Den beregner prediksjonen for X_test-instanser og sammenligner denne prediksjonen med sanne målverdier (y_test) ved hjelp av en metrikk. Som standard er denne metrikk nøyaktighet for klassifisering.
X_test refererer til delsettet av datasettet, kjent som testsettet, som brukes til å evaluere modellens ytelse etter trening. Det inneholder funksjonene (inputdata). y_test er det tilsvarende delsettet av sanne etiketter for X_test. Sammen vurderer de hvor godt modellen predikerer nye, ukjente data.
Takk for tilbakemeldingene dine!