Mallit
Tietojen esikäsittelyn ja putkiston rakentamisen perusteet on nyt käsitelty. Seuraava vaihe on mallintaminen.
Malli Scikit-learnissa on estimaattori, joka tarjoaa .predict()- ja .score()-metodit sekä kaikilta estimaattoreilta perityn .fit()-metodin.
.fit()
Kun data on esikäsitelty ja valmis mallille, mallin rakentamisen ensimmäinen vaihe on mallin kouluttaminen. Tämä tehdään käyttämällä .fit(X, y).
Jotta voidaan kouluttaa mallia, joka suorittaa ohjatun oppimisen tehtävää (esim. regressio, luokittelu), on annettava sekä X että y .fit()-metodille.
Jos kyseessä on ohjaamattoman oppimisen tehtävä (esim. klusterointi), se ei vaadi nimettyjä tietoja, joten voit antaa vain X-muuttujan, .fit(X). Kuitenkin, jos käytät .fit(X, y), virhettä ei synny. Malli vain ohittaa y-muuttujan.
Koulutuksen aikana malli oppii kaiken tarvittavan ennusteiden tekemiseen. Se, mitä malli oppii ja kuinka kauan koulutus kestää, riippuu valitusta algoritmista. Jokaiselle tehtävälle on saatavilla useita malleja, jotka perustuvat eri algoritmeihin. Jotkut koulutetaan hitaammin, toiset nopeammin.
Koulutus on kuitenkin yleensä koneoppimisen aikaa vievin vaihe. Jos koulutusjoukko on suuri, mallin koulutus voi kestää minuutteja, tunteja tai jopa päiviä.
.predict()
Kun malli on koulutettu .fit()-metodilla, se voi tehdä ennusteita. Ennustaminen onnistuu helposti kutsumalla .predict()-metodia:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
Yleensä halutaan ennustaa kohde uudelle havaintojoukolle, X_new.
.score()
.score()-menetelmää käytetään koulutetun mallin suorituskyvyn mittaamiseen. Yleensä se lasketaan testijoukolla (seuraavissa luvuissa selitetään, mitä se tarkoittaa). Tässä on syntaksi:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
.score()-menetelmä vaatii todelliset tavoitearvot (y_test esimerkissä). Se laskee ennusteen X_test-havaintoihin ja vertaa tätä ennustetta todelliseen tavoitteeseen (y_test) käyttäen jotakin metriikkaa. Oletuksena tämä metriikka on tarkkuus luokittelussa.
X_test viittaa tietoaineiston osajoukkoon, jota kutsutaan testijoukoksi ja jota käytetään mallin suorituskyvyn arviointiin koulutuksen jälkeen. Se sisältää piirteet (syötedata). y_test on vastaava osajoukko todellisia luokkia X_test:lle. Näiden avulla arvioidaan, kuinka hyvin malli ennustaa uutta, aiemmin näkemätöntä dataa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain more about what an estimator is in Scikit-learn?
What are some common algorithms used for modeling in Scikit-learn?
How does the .score() method differ for regression and classification tasks?
Awesome!
Completion rate improved to 3.13
Mallit
Pyyhkäise näyttääksesi valikon
Tietojen esikäsittelyn ja putkiston rakentamisen perusteet on nyt käsitelty. Seuraava vaihe on mallintaminen.
Malli Scikit-learnissa on estimaattori, joka tarjoaa .predict()- ja .score()-metodit sekä kaikilta estimaattoreilta perityn .fit()-metodin.
.fit()
Kun data on esikäsitelty ja valmis mallille, mallin rakentamisen ensimmäinen vaihe on mallin kouluttaminen. Tämä tehdään käyttämällä .fit(X, y).
Jotta voidaan kouluttaa mallia, joka suorittaa ohjatun oppimisen tehtävää (esim. regressio, luokittelu), on annettava sekä X että y .fit()-metodille.
Jos kyseessä on ohjaamattoman oppimisen tehtävä (esim. klusterointi), se ei vaadi nimettyjä tietoja, joten voit antaa vain X-muuttujan, .fit(X). Kuitenkin, jos käytät .fit(X, y), virhettä ei synny. Malli vain ohittaa y-muuttujan.
Koulutuksen aikana malli oppii kaiken tarvittavan ennusteiden tekemiseen. Se, mitä malli oppii ja kuinka kauan koulutus kestää, riippuu valitusta algoritmista. Jokaiselle tehtävälle on saatavilla useita malleja, jotka perustuvat eri algoritmeihin. Jotkut koulutetaan hitaammin, toiset nopeammin.
Koulutus on kuitenkin yleensä koneoppimisen aikaa vievin vaihe. Jos koulutusjoukko on suuri, mallin koulutus voi kestää minuutteja, tunteja tai jopa päiviä.
.predict()
Kun malli on koulutettu .fit()-metodilla, se voi tehdä ennusteita. Ennustaminen onnistuu helposti kutsumalla .predict()-metodia:
model.fit(X, y) # Train a model
y_pred = model.predict(X_new) # Get a prediction
Yleensä halutaan ennustaa kohde uudelle havaintojoukolle, X_new.
.score()
.score()-menetelmää käytetään koulutetun mallin suorituskyvyn mittaamiseen. Yleensä se lasketaan testijoukolla (seuraavissa luvuissa selitetään, mitä se tarkoittaa). Tässä on syntaksi:
model.fit(X, y) # Training the model
model.score(X_test, y_test)
.score()-menetelmä vaatii todelliset tavoitearvot (y_test esimerkissä). Se laskee ennusteen X_test-havaintoihin ja vertaa tätä ennustetta todelliseen tavoitteeseen (y_test) käyttäen jotakin metriikkaa. Oletuksena tämä metriikka on tarkkuus luokittelussa.
X_test viittaa tietoaineiston osajoukkoon, jota kutsutaan testijoukoksi ja jota käytetään mallin suorituskyvyn arviointiin koulutuksen jälkeen. Se sisältää piirteet (syötedata). y_test on vastaava osajoukko todellisia luokkia X_test:lle. Näiden avulla arvioidaan, kuinka hyvin malli ennustaa uutta, aiemmin näkemätöntä dataa.
Kiitos palautteestasi!