Summary  
This chapter demonstrates how to implement a simple linear regression model by using NumPy’s polyfit function to calculate the best-fit line parameters, visualizing the data with a scatter plot and fitted line, and making predictions for new feature values.

General domain of usage  
Predicting child height from parental height data.

Je weet al wat eenvoudige lineaire regressie is en hoe je de lijn vindt die het beste bij de gegevens past. Je doorloopt nu alle stappen om een lineaire regressie te bouwen voor een echte dataset.

## Gegevens laden
We hebben een bestand, `simple_height_data.csv`, met de gegevens uit onze voorbeelden. We laden het bestand en bekijken het:

import pandas as pd

file_link = 'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/simple_height_data.csv'
df = pd.read_csv(file_link)	# Read the file

print(df.head())	# Print the first 5 instances from a dataset

De dataset bevat twee kolommen: de eerste is `'Father'`, wat het **invoerkenmerk** is, en de tweede is `'Height'`, wat onze **doelvariabele** is.

We wijzen onze doelwaarden toe aan de variabele `y` en de kenmerkwaarden aan `X` en maken een spreidingsdiagram.

X = df['Father']	# Assign the feature
y = df['Height']	# Assign the target
plt.scatter(X,y)	# Build scatterplot
plt.show()

## Parameters bepalen
NumPy heeft een handige functie om de parameters van lineaire regressie te bepalen.

Lineaire regressie is een polynomiale regressie van graad 1 (we zullen polynomiale regressie in latere secties bespreken). Daarom moeten we `deg=1` instellen om de parameters voor de lineaire regressie te verkrijgen.  
Hier is een voorbeeld:

beta_1, beta_0 = np.polyfit(X, y, 1)	# Get the parameters
print('beta_0 is', beta_0)
print('beta_1 is', beta_1)

Als je niet bekend bent met de syntaxis `beta_1, beta_0 = np.polyfit(X,y,1)`, dit wordt unpacking genoemd. Als je een iterator hebt (bijvoorbeeld een lijst, NumPy-array of pandas-serie) met twee items, dan is schrijven
```python
a, b = my_iterator
```
hetzelfde als
```python
a = my_iterator[0]
b = my_iterator[1]
```
En aangezien de returnwaarde van een `polyfit()`-functie een NumPy-array met twee waarden is, mogen we dit doen.

Opmerking

## Voorspellingen maken
Nu kunnen we de lijn plotten en nieuwe variabelen voorspellen met behulp van de parameters.

plt.scatter(X,y)	# Build a scatter plot
plt.plot(X, beta_0 + beta_1 * X, color='red')	# Plot the line
plt.show()

Nu we de parameters hebben, kunnen we de lineaire regressievergelijking gebruiken om nieuwe waarden te voorspellen.

X_new = np.array([65, 70, 75])	# Feature values of new instances
y_pred = beta_0 + beta_1 * X_new	# Predict the target
print('Predicted y: ', y_pred)

Het is dus vrij eenvoudig om de parameters van de lineaire regressie te verkrijgen. Maar sommige bibliotheken kunnen je ook extra informatie geven.

Je kunt de parameters van een eenvoudige lineaire regressie vinden met de NumPy-functie:

Lineaire regressie is een cruciaal concept binnen voorspellende analyse. Het wordt veel gebruikt door data scientists, data-analisten en statistici omdat het eenvoudig te bouwen en te interpreteren is, maar krachtig genoeg voor veel toepassingen.

Laten we beginnen met het eenvoudigste lineaire regressiemodel. U leert het concept achter lineaire regressie en hoe u voorspellingen kunt doen in Python.

De meeste voorspellingstaken in de praktijk omvatten meer dan één kenmerk. U leert hoe u lineaire regressie met meerdere kenmerken kunt toepassen.

Een rechte lijn beschrijft de data niet altijd goed. Laten we leren hoe we een complexer model voor voorspelling kunnen bouwen. Daarvoor is polynomiale regressie geschikt.

Nu je weet hoe je meerdere lineaire regressiemodellen kunt bouwen, heb je een methode nodig om het beste model te selecteren. Dit is mogelijk met behulp van metrische gegevens. In deze sectie worden de meest gebruikte metrische gegevens en de uitdagingen bij het gebruik ervan toegelicht.

Lineaire Regressie Bouwen Met NumPy

Gegevens laden

Parameters bepalen

Voorspellingen maken