Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Encontrando os Parâmetros | Seção
Fundamentos do Aprendizado Supervisionado

bookEncontrando os Parâmetros

Agora sabemos que a Regressão Linear é simplesmente uma linha que melhor se ajusta aos dados. Mas como identificar qual é a correta?

É possível calcular a diferença entre o valor previsto e o valor real do alvo para cada ponto de dados no conjunto de treinamento.
Essas diferenças são chamadas de resíduos (ou erros). O objetivo é tornar os resíduos o menor possível.

Mínimos Quadrados Ordinários

A abordagem padrão é o método dos Mínimos Quadrados Ordinários (OLS):
Para cada resíduo, eleve ao quadrado (principalmente para eliminar o sinal do resíduo) e some todos eles.
Isso é chamado de SSR (Soma dos resíduos ao quadrado). A tarefa é encontrar os parâmetros que minimizam o SSR.

Equação Normal

Felizmente, não é necessário testar todas as retas e calcular o SSR para cada uma delas. A tarefa de minimizar o SSR possui uma solução matemática que não é muito custosa computacionalmente.
Essa solução é chamada de Equação Normal.

β=(β0β1βn)=(X~TX~)1X~Tytrue\vec{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \dots \\ \beta_n \end{pmatrix} = (\tilde{X}^T \tilde{X})^{-1} \tilde{X}^T y_{\text{true}}

Onde:

  • β0,β1,,βn\beta_0, \beta_1, \dots, \beta_n – são os parâmetros do modelo;
X~=(1XX2Xn);\tilde{X} = \begin{pmatrix} | & | & | & \dots & | \\ 1 & X & X^2 & \dots & X^n \\ | & | & | & \dots & | \end{pmatrix};
  • XX – é um array de valores das variáveis explicativas do conjunto de treinamento;
  • XkX^k – é a potência elemento a elemento de $k$ do array $X$;
  • ytruey_{\text{true}} – é um array de valores alvo do conjunto de treinamento.

Esta equação fornece os parâmetros de uma reta com o menor SSR.
Não entendeu como funciona? Sem problemas! É uma matemática bastante complexa. Mas não é necessário calcular os parâmetros manualmente. Muitas bibliotecas já implementam a regressão linear.

Quiz

1. Considere a imagem acima. Qual linha de regressão é melhor?

2. y_true - y_predicted é chamado de

question mark

Considere a imagem acima. Qual linha de regressão é melhor?

Select the correct answer

question mark

y_true - y_predicted é chamado de

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

bookEncontrando os Parâmetros

Deslize para mostrar o menu

Agora sabemos que a Regressão Linear é simplesmente uma linha que melhor se ajusta aos dados. Mas como identificar qual é a correta?

É possível calcular a diferença entre o valor previsto e o valor real do alvo para cada ponto de dados no conjunto de treinamento.
Essas diferenças são chamadas de resíduos (ou erros). O objetivo é tornar os resíduos o menor possível.

Mínimos Quadrados Ordinários

A abordagem padrão é o método dos Mínimos Quadrados Ordinários (OLS):
Para cada resíduo, eleve ao quadrado (principalmente para eliminar o sinal do resíduo) e some todos eles.
Isso é chamado de SSR (Soma dos resíduos ao quadrado). A tarefa é encontrar os parâmetros que minimizam o SSR.

Equação Normal

Felizmente, não é necessário testar todas as retas e calcular o SSR para cada uma delas. A tarefa de minimizar o SSR possui uma solução matemática que não é muito custosa computacionalmente.
Essa solução é chamada de Equação Normal.

β=(β0β1βn)=(X~TX~)1X~Tytrue\vec{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \dots \\ \beta_n \end{pmatrix} = (\tilde{X}^T \tilde{X})^{-1} \tilde{X}^T y_{\text{true}}

Onde:

  • β0,β1,,βn\beta_0, \beta_1, \dots, \beta_n – são os parâmetros do modelo;
X~=(1XX2Xn);\tilde{X} = \begin{pmatrix} | & | & | & \dots & | \\ 1 & X & X^2 & \dots & X^n \\ | & | & | & \dots & | \end{pmatrix};
  • XX – é um array de valores das variáveis explicativas do conjunto de treinamento;
  • XkX^k – é a potência elemento a elemento de $k$ do array $X$;
  • ytruey_{\text{true}} – é um array de valores alvo do conjunto de treinamento.

Esta equação fornece os parâmetros de uma reta com o menor SSR.
Não entendeu como funciona? Sem problemas! É uma matemática bastante complexa. Mas não é necessário calcular os parâmetros manualmente. Muitas bibliotecas já implementam a regressão linear.

Quiz

1. Considere a imagem acima. Qual linha de regressão é melhor?

2. y_true - y_predicted é chamado de

question mark

Considere a imagem acima. Qual linha de regressão é melhor?

Select the correct answer

question mark

y_true - y_predicted é chamado de

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 2
some-alt