Summary  
This chapter demonstrates how to implement a simple linear regression model by using NumPy’s polyfit function to calculate the best-fit line parameters, visualizing the data with a scatter plot and fitted line, and making predictions for new feature values.

General domain of usage  
Predicting child height from parental height data.

Vous connaissez déjà la régression linéaire simple et la méthode pour trouver la droite qui s'ajuste le mieux aux données. Vous allez maintenant suivre toutes les étapes de la construction d'une régression linéaire sur un jeu de données réel.

## Chargement des données
Nous disposons d'un fichier, `simple_height_data.csv`, contenant les données de nos exemples. Nous allons charger ce fichier et l'examiner :

import pandas as pd

file_link = 'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/simple_height_data.csv'
df = pd.read_csv(file_link)	# Read the file

print(df.head())	# Print the first 5 instances from a dataset

Le jeu de données comporte deux colonnes : la première est `'Father'`, qui représente la **caractéristique d'entrée**, et la seconde est `'Height'`, qui est notre **variable cible**.

Nous allons attribuer les valeurs cibles à la variable `y` et les valeurs de la caractéristique à `X`, puis construire un nuage de points.

X = df['Father']	# Assign the feature
y = df['Height']	# Assign the target
plt.scatter(X,y)	# Build scatterplot
plt.show()

## Recherche des paramètres
NumPy propose une fonction pratique pour déterminer les paramètres de la régression linéaire.

La régression linéaire est une régression polynomiale de degré 1 (nous aborderons la régression polynomiale dans les sections suivantes). C'est pourquoi il est nécessaire d'utiliser `deg=1` pour obtenir les paramètres de la régression linéaire.  
Voici un exemple :

beta_1, beta_0 = np.polyfit(X, y, 1)	# Get the parameters
print('beta_0 is', beta_0)
print('beta_1 is', beta_1)

Si vous n'êtes pas familier avec la syntaxe `beta_1, beta_0 = np.polyfit(X,y,1)`, cela s'appelle le déballage (unpacking). Si vous disposez d'un itérateur (par exemple, une liste, un tableau NumPy ou une série pandas) contenant deux éléments, écrire
```python
a, b = my_iterator
```
est équivalent à
```python
a = my_iterator[0]
b = my_iterator[1]
```
Et puisque la fonction `polyfit()` retourne un tableau NumPy avec deux valeurs, il est possible d'utiliser cette syntaxe.

Remarque

## Réalisation des prédictions
Nous pouvons maintenant tracer la droite et prédire de nouvelles variables à l'aide des paramètres.

plt.scatter(X,y)	# Build a scatter plot
plt.plot(X, beta_0 + beta_1 * X, color='red')	# Plot the line
plt.show()

Maintenant que nous disposons des paramètres, il est possible d'utiliser l'équation de la régression linéaire pour prédire de nouvelles valeurs.

X_new = np.array([65, 70, 75])	# Feature values of new instances
y_pred = beta_0 + beta_1 * X_new	# Predict the target
print('Predicted y: ', y_pred)

Il est donc assez simple d'obtenir les paramètres de la régression linéaire. Cependant, certaines bibliothèques peuvent également fournir des informations supplémentaires.

Vous pouvez trouver les paramètres de la régression linéaire simple en utilisant la fonction de NumPy :

La régression linéaire est un concept essentiel en analytique prédictive. Elle est largement utilisée par les data scientists, les analystes de données et les statisticiens, car elle est facile à construire et à interpréter tout en étant suffisamment puissante pour de nombreuses tâches.

Commençons par le modèle de régression linéaire le plus simple. Vous découvrirez le principe de la régression linéaire et la réalisation de prédictions en Python.

La plupart des tâches de prédiction réelles impliquent plus d'une variable. Vous apprendrez à gérer la régression linéaire avec plusieurs variables explicatives.

Une droite ne décrit pas toujours correctement les données. Apprenons à construire un modèle plus complexe pour la prédiction. C'est à cela que sert la régression polynomiale.

Maintenant que vous savez construire plusieurs modèles de régression linéaire, il est nécessaire de sélectionner le meilleur. Cela est possible grâce à l'utilisation de métriques. Cette section présente les métriques les plus couramment utilisées ainsi que les difficultés rencontrées lors de leur utilisation.

Construction de la Régression Linéaire avec NumPy

Chargement des données

Recherche des paramètres

Réalisation des prédictions