Summary  
This chapter demonstrates how to implement simple linear regression by loading data into arrays, using NumPy’s polyfit to compute model parameters, plotting the fitted line, and making predictions with the resulting equation.

General domain of usage  
Predictive modeling

Du ved allerede, hvad simpel lineær regression er, og hvordan man finder den linje, der passer bedst til dataene. Nu vil du gennemgå alle trin i opbygningen af en lineær regression for et rigtigt datasæt.

## Indlæsning af data
Vi har en fil, `simple_height_data.csv`, med dataene fra vores eksempler. Vi indlæser filen og ser nærmere på den:

import pandas as pd

file_link = 'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/simple_height_data.csv'
df = pd.read_csv(file_link)	# Read the file

print(df.head())	# Print the first 5 instances from a dataset

Datasættet har to kolonner: den første er `'Father'`, som er **input-featuret**, og den anden er `'Height'`, som er vores **målvariabel**.

Vi tildeler vores målvariabler til variablen `y` og featureværdier til `X` og opretter et spredningsdiagram.

import matplotlib.pyplot as plt

X = df['Father']	# Assign the feature
y = df['Height']	# Assign the target
plt.scatter(X,y)	# Build scatterplot
plt.show()

## Finde parametre
NumPy har en praktisk funktion til at finde parametrene for lineær regression.

Lineær regression er en polynomiel regression af grad 1 (vi vil tale om polynomiel regression i senere afsnit). Derfor skal vi angive `deg=1` for at få parametrene til lineær regression.  
Her er et eksempel:

import numpy as np

beta_1, beta_0 = np.polyfit(X, y, 1)	# Get the parameters
print('beta_0 is', beta_0)
print('beta_1 is', beta_1)

Hvis du ikke er bekendt med syntaksen `beta_1, beta_0 = np.polyfit(X,y,1)`, kaldes det unpacking. Hvis du har en iterator (f.eks. en liste, NumPy-array eller pandas-serie), der har to elementer, svarer det at skrive
```python
a, b = my_iterator
```
til det samme som
```python
a = my_iterator[0]
b = my_iterator[1]
```
Og da returværdien fra funktionen `polyfit()` er et NumPy-array med to værdier, er det tilladt at gøre dette.

Bemærk

## Udarbejdelse af forudsigelser
Nu kan vi tegne linjen og forudsige nye variabler ved hjælp af parametrene.

plt.scatter(X,y)	# Build a scatter plot
plt.plot(X, beta_0 + beta_1 * X, color='red')	# Plot the line
plt.show()

Nu hvor vi har parametrene, kan vi bruge lineær regressionsligningen til at forudsige nye værdier.

X_new = np.array([65, 70, 75])	# Feature values of new instances
y_pred = beta_0 + beta_1 * X_new	# Predict the target
print('Predicted y: ', y_pred)

Det er altså ret nemt at få parametrene for den lineære regression. Men nogle biblioteker kan også give dig ekstra information.

Du kan finde parametrene for simpel lineær regression ved hjælp af NumPy-funktionen:

Lineær regression er et centralt begreb inden for prædiktiv analyse. Det anvendes bredt af dataforskere, dataanalytikere og statistikere, da det er let at opbygge og fortolke, men samtidig kraftfuldt nok til mange opgaver.

Lad os begynde med den simpleste lineære regressionsmodel! Du vil lære idéen bag lineær regression og hvordan man foretager forudsigelser i Python.

De fleste virkelige forudsigelsesopgaver involverer mere end én feature. Du vil lære, hvordan man håndterer lineær regression med flere features.

En ret linje beskriver ikke altid dataene tilstrækkeligt. Lad os lære at opbygge en mere kompleks model til forudsigelse. Det er det, polynomiel regression egner sig til.

Nu hvor du ved, hvordan man opbygger flere lineære regressionsmodeller, har du brug for en metode til at vælge den bedste. Dette kan opnås ved hjælp af metrikker. Dette afsnit forklarer de mest anvendte metrikker og de udfordringer, du kan møde ved brugen af dem.

Opbygning af Lineær Regression med NumPy

Indlæsning af data

Finde parametre

Udarbejdelse af forudsigelser