Kurssisisältö
Lineaarinen Regressio Pythonilla
Lineaarinen Regressio Pythonilla
Parametrien Löytäminen
Nyt tiedämme, että lineaarinen regressio on vain viiva, joka parhaiten sopii dataan. Mutta miten voit tietää, mikä viiva on oikea?
Voit laskea ennustetun arvon ja todellisen tavoitearvon välisen erotuksen jokaiselle datapisteelle harjoitusaineistossa.
Näitä erotuksia kutsutaan residuaaleiksi (tai virheiksi). Tavoitteena on tehdä residuaaleista mahdollisimman pieniä.
Ordinary Least Squares
Oletusmenetelmänä käytetään Ordinary Least Squares (OLS) -menetelmää:
Ota jokainen residuaali, korota se toiseen potenssiin (pääasiassa residuaalin etumerkin poistamiseksi) ja summaa kaikki nämä.
Tätä kutsutaan nimellä SSR (Sum of squared residuals). Tehtävänä on löytää parametrit, jotka minimoivat SSR:n.
Normaaliyhtälö
Onneksi meidän ei tarvitse kokeilla kaikkia mahdollisia suoria ja laskea SSR:ää niille. SSR:n minimointiin liittyvään tehtävään on matemaattinen ratkaisu, joka ei ole kovin laskennallisesti raskas.
Tätä ratkaisua kutsutaan normaaliyhtälöksi.
Tämä yhtälö antaa meille suoran parametrit, joilla SSR on pienin mahdollinen.
Etkö ymmärtänyt, miten se toimii? Ei hätää! Kyseessä on melko monimutkainen matematiikka. Sinun ei kuitenkaan tarvitse laskea parametreja itse käsin. Monet kirjastot ovat jo toteuttaneet lineaarisen regressiomallin.
Kysely
1. Tarkastele yllä olevaa kuvaa. Mikä regressiosuora on parempi?
2. y_true - y_predicted
kutsutaan
Kiitos palautteestasi!