Summary  
This chapter demonstrates how to implement simple linear regression by loading data into arrays, using NumPy’s polyfit to compute model parameters, plotting the fitted line, and making predictions with the resulting equation.

General domain of usage  
Predictive modeling

Você já conhece o conceito de regressão linear simples e o procedimento para encontrar a reta que melhor se ajusta aos dados. A seguir, serão apresentadas todas as etapas de construção de uma regressão linear para um conjunto de dados real.

## Carregando Dados
Temos um arquivo, `simple_height_data.csv`, com os dados dos nossos exemplos. Vamos carregar o arquivo e analisá-lo:

import pandas as pd

file_link = 'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b22d1166-efda-45e8-979e-6c3ecfc566fc/simple_height_data.csv'
df = pd.read_csv(file_link)	# Read the file

print(df.head())	# Print the first 5 instances from a dataset

O conjunto de dados possui duas colunas: a primeira é `'Father'`, que é a **feature de entrada**, e a segunda é `'Height'`, que é nossa **variável alvo**.

Os valores alvo serão atribuídos à variável `y` e os valores da feature a `X`, e será construído um gráfico de dispersão.

import matplotlib.pyplot as plt

X = df['Father']	# Assign the feature
y = df['Height']	# Assign the target
plt.scatter(X,y)	# Build scatterplot
plt.show()

## Encontrando os Parâmetros
O NumPy possui uma função útil para encontrar os parâmetros da regressão linear.

Regressão Linear é uma Regressão Polinomial de grau 1 (iremos abordar Regressão Polinomial em seções posteriores). Por isso, é necessário definir `deg=1` para obter os parâmetros da regressão linear.  
Veja um exemplo:

import numpy as np

beta_1, beta_0 = np.polyfit(X, y, 1)	# Get the parameters
print('beta_0 is', beta_0)
print('beta_1 is', beta_1)

Se você não está familiarizado com a sintaxe `beta_1, beta_0 = np.polyfit(X,y,1)`, isso é chamado de desempacotamento. Se você possui um iterador (por exemplo, lista, array do NumPy ou série do pandas) que contém dois itens, escrever
```python
a, b = my_iterator
```
é o mesmo que
```python
a = my_iterator[0]
b = my_iterator[1]
```
E como o retorno da função `polyfit()` é um array do NumPy com dois valores, podemos fazer isso.

Nota

## Fazendo as previsões
Agora podemos plotar a linha e prever novas variáveis usando os parâmetros.

plt.scatter(X,y)	# Build a scatter plot
plt.plot(X, beta_0 + beta_1 * X, color='red')	# Plot the line
plt.show()

Agora que temos os parâmetros, podemos usar a equação de regressão linear para prever novos valores.

X_new = np.array([65, 70, 75])	# Feature values of new instances
y_pred = beta_0 + beta_1 * X_new	# Predict the target
print('Predicted y: ', y_pred)

Portanto, é bastante simples obter os parâmetros da regressão linear. Mas algumas bibliotecas também podem fornecer informações adicionais.

Você pode encontrar os parâmetros da Regressão Linear Simples usando a função do NumPy:

A Regressão Linear é um conceito fundamental em análise preditiva. É amplamente utilizada por cientistas de dados, analistas de dados e estatísticos, pois é fácil de construir e interpretar, mas poderosa o suficiente para diversas tarefas.

Vamos começar com o modelo mais simples de Regressão Linear! Você aprenderá o conceito por trás da Regressão Linear e como realizar previsões em Python.

A maioria das tarefas de previsão do mundo real envolve mais de uma variável. Você aprenderá como lidar com Regressão Linear com múltiplas variáveis.

Uma linha reta nem sempre descreve bem os dados. Vamos aprender como construir um modelo mais complexo para previsão! É para isso que a Regressão Polinomial é adequada.

Agora que você sabe como construir vários modelos de Regressão Linear, é necessário um método para escolher o melhor. Isso pode ser feito utilizando métricas. Esta seção explica as métricas mais utilizadas e as dificuldades que podem surgir ao utilizá-las.

Construindo Regressão Linear Usando NumPy

Carregando Dados

Encontrando os Parâmetros

Fazendo as previsões