Summary  
This chapter demonstrates how to implement a simple linear regression model by using NumPy’s polyfit function to calculate the best-fit line parameters, visualizing the data with a scatter plot and fitted line, and making predictions for new feature values.

General domain of usage  
Predicting child height from parental height data.

Olet jo perehtynyt yksinkertaiseen lineaariseen regressioon ja siihen, kuinka löytää parhaiten dataan sopiva suora. Käyt nyt läpi kaikki vaiheet lineaarisen regression rakentamiseksi oikealle aineistolle.

## Datan lataaminen
Meillä on tiedosto, `simple_height_data.csv`, jossa on esimerkeissämme käytetty data. Lataamme tiedoston ja tarkastelemme sitä:

import pandas as pd

file_link = 'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/simple_height_data.csv'
df = pd.read_csv(file_link)	# Read the file

print(df.head())	# Print the first 5 instances from a dataset

Aineistossa on kaksi saraketta: ensimmäinen on `'Father'`, joka on **syöteominaisuus**, ja toinen on `'Height'`, joka on **kohdemuuttuja**.

Kohdearvot määritellään muuttujaan `y` ja ominaisuusarvot muuttujaan `X`, minkä jälkeen piirretään hajontakuvio.

X = df['Father']	# Assign the feature
y = df['Height']	# Assign the target
plt.scatter(X,y)	# Build scatterplot
plt.show()

## Parametrien etsiminen
NumPy tarjoaa kätevän funktion lineaarisen regressiomallin parametrien löytämiseen.

Lineaarinen regressio on polynomiregressio asteen 1 mukaan (käsittelemme polynomiregressiota myöhemmissä osioissa). Siksi meidän tulee asettaa `deg=1` saadaksemme lineaarisen regression parametrit.  
Tässä on esimerkki:

beta_1, beta_0 = np.polyfit(X, y, 1)	# Get the parameters
print('beta_0 is', beta_0)
print('beta_1 is', beta_1)

Jos et tunne syntaksia `beta_1, beta_0 = np.polyfit(X,y,1)`, sitä kutsutaan purkamiseksi (unpacking). Jos sinulla on iteroitava (esim. lista, NumPy-taulukko tai pandas-sarja), jossa on kaksi alkiota, kirjoittaminen
```python
a, b = my_iterator
```
on sama kuin
```python
a = my_iterator[0]
b = my_iterator[1]
```
Koska `polyfit()`-funktion palautusarvo on NumPy-taulukko, jossa on kaksi arvoa, voimme tehdä näin.

Huomio

## Ennusteiden tekeminen
Nyt voimme piirtää suoran ja ennustaa uusia muuttujia parametrien avulla.

plt.scatter(X,y)	# Build a scatter plot
plt.plot(X, beta_0 + beta_1 * X, color='red')	# Plot the line
plt.show()

Nyt kun meillä on parametrit, voimme käyttää lineaarisen regressioyhtälöä uusien arvojen ennustamiseen.

X_new = np.array([65, 70, 75])	# Feature values of new instances
y_pred = beta_0 + beta_1 * X_new	# Predict the target
print('Predicted y: ', y_pred)

Lineaarisen regressiomallin parametrien löytäminen on varsin helppoa. Jotkin kirjastot voivat kuitenkin tarjota myös lisätietoja.

Yksinkertaisen lineaarisen regression parametrit voidaan löytää NumPyn funktiolla:

Lineaarinen regressio on keskeinen käsite ennakoivassa analytiikassa. Sitä käyttävät laajasti data-analyytikot, data scientistit ja tilastotieteilijät, sillä se on helppo rakentaa ja tulkita, mutta riittävän tehokas moniin tehtäviin.

Aloitetaan yksinkertaisimmalla lineaarisen regression mallilla. Opit lineaarisen regression perusidean ja ennusteiden tekemisen Pythonilla.

Useimmat todellisen maailman ennustustehtävät sisältävät useamman kuin yhden muuttujan. Opit käsittelemään lineaarista regressiota useilla muuttujilla.

Suora viiva ei aina kuvaa dataa tarkasti. Opitaan rakentamaan monimutkaisempi malli ennustamista varten. Tätä varten polynominen regressio soveltuu hyvin.

Nyt kun osaat rakentaa useita lineaarisen regressiomalleja, tarvitset tavan valita paras niistä. Tämä on mahdollista mittareiden avulla. Tässä osiossa käsitellään yleisimmin käytettyjä mittareita sekä niihin liittyviä haasteita.

Lineaarisen Regressiomallin Rakentaminen NumPyn Avulla

Datan lataaminen

Parametrien etsiminen

Ennusteiden tekeminen