Summary  
This chapter demonstrates how to implement simple linear regression by loading data into arrays, using NumPy’s polyfit to compute model parameters, plotting the fitted line, and making predictions with the resulting equation.

General domain of usage  
Predictive modeling

Du känner redan till vad enkel linjär regression är och hur man hittar den linje som bäst passar data. Nu kommer du att gå igenom alla steg för att bygga en linjär regression för en verklig datamängd.

## Laddar data
Vi har en fil, `simple_height_data.csv`, med data från våra exempel. Vi kommer att ladda filen och titta på den:

import pandas as pd

file_link = 'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/simple_height_data.csv'
df = pd.read_csv(file_link)	# Read the file

print(df.head())	# Print the first 5 instances from a dataset

Datasettet har alltså två kolumner: den första är `'Father'`, vilket är **inmatningsfunktionen**, och den andra är `'Height'`, vilket är vår **målvariabel**.

Vi tilldelar våra målvariabler till variabeln `y` och funktionsvärden till `X` och skapar ett spridningsdiagram.

import matplotlib.pyplot as plt

X = df['Father']	# Assign the feature
y = df['Height']	# Assign the target
plt.scatter(X,y)	# Build scatterplot
plt.show()

## Hitta parametrar
NumPy har en praktisk funktion för att hitta parametrarna för linjär regression.

Linjär regression är en polynomregression av grad 1 (vi kommer att diskutera polynomregression i senare avsnitt). Därför behöver vi ange `deg=1` för att få parametrarna för den linjära regressionen.  
Här är ett exempel:

import numpy as np

beta_1, beta_0 = np.polyfit(X, y, 1)	# Get the parameters
print('beta_0 is', beta_0)
print('beta_1 is', beta_1)

Om du inte är bekant med syntaxen `beta_1, beta_0 = np.polyfit(X,y,1)`, kallas det för uppackning. Om du har en iterator (t.ex. lista, NumPy-array eller pandas-serie) som har två element, innebär skrivningen
```python
a, b = my_iterator
```
detsamma som
```python
a = my_iterator[0]
b = my_iterator[1]
```
Eftersom returvärdet från funktionen `polyfit()` är en NumPy-array med två värden, får vi göra så.

Notering

## Göra förutsägelser
Nu kan vi rita ut linjen och förutsäga nya variabler med hjälp av parametrarna.

plt.scatter(X,y)	# Build a scatter plot
plt.plot(X, beta_0 + beta_1 * X, color='red')	# Plot the line
plt.show()

Nu när vi har parametrarna kan vi använda linjär regressions-ekvationen för att förutsäga nya värden.

X_new = np.array([65, 70, 75])	# Feature values of new instances
y_pred = beta_0 + beta_1 * X_new	# Predict the target
print('Predicted y: ', y_pred)

Det är alltså ganska enkelt att få parametrarna för linjär regression. Men vissa bibliotek kan också ge dig extra information.

Du kan hitta parametrarna för enkel linjär regression med hjälp av NumPys funktion:

Linjär regression är ett avgörande begrepp inom prediktiv analys. Det används ofta av data scientists, dataanalytiker och statistiker eftersom det är enkelt att bygga och tolka men tillräckligt kraftfullt för många uppgifter.

Vi börjar med den enklaste modellen för linjär regression. Du kommer att lära dig grunderna i linjär regression och hur man gör prediktioner i Python.

De flesta prediktionsuppgifter i verkliga tillämpningar involverar fler än en variabel. Du kommer att lära dig hur man hanterar linjär regression med flera variabler.

En rät linje beskriver inte alltid data på ett tillfredsställande sätt. Lär dig hur du bygger en mer komplex modell för prediktion. Det är vad polynomregression är avsedd för.

Nu när du vet hur man bygger flera linjära regressionsmodeller behöver du ett sätt att välja den bästa. Detta är möjligt med hjälp av metrik. Denna sektion förklarar de mest använda metoderna och de svårigheter du kan stöta på när du använder dem.

Bygga Linjär Regression med NumPy

Laddar data

Hitta parametrar

Göra förutsägelser