Aprenda Avaliação de Modelo | Rede Neural do Zero

Divisão dos Dados

Após treinar uma rede neural, é fundamental avaliar seu desempenho em dados não vistos. Essa avaliação permite determinar se o modelo aprendeu padrões significativos ou apenas memorizou os exemplos de treinamento. Para isso, o conjunto de dados é dividido em duas partes:

Conjunto de treinamento — utilizado para treinar a rede neural, ajustando seus pesos e vieses por meio do backpropagation;
Conjunto de teste — utilizado após o treinamento para avaliar o quanto o modelo generaliza para novos dados não vistos.

Uma divisão comum é 80% para treinamento e 20% para teste, embora essa proporção possa variar conforme o tamanho e a complexidade do conjunto de dados.

A divisão dos dados geralmente é realizada com a função train_test_split() do módulo sklearn.model_selection:

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=...)

O parâmetro test_size determina a proporção de dados reservados para teste. Por exemplo, ao definir test_size=0.1, 10% dos dados serão usados para teste, enquanto 90% serão usados para treinamento.

Se o modelo apresentar bom desempenho no conjunto de treinamento, mas desempenho ruim no conjunto de teste, pode estar ocorrendo overfitting — aprendizado de padrões muito específicos dos dados de treinamento, sem generalização para novos exemplos. O objetivo é obter bom desempenho em ambos os conjuntos, garantindo que o modelo generalize bem.

Após dividir os dados e treinar o modelo, o desempenho deve ser medido utilizando métricas de avaliação apropriadas, que dependem da tarefa de classificação específica.

Métricas de Classificação

Para problemas de classificação, várias métricas principais podem ser utilizadas para avaliar as previsões do modelo:

Acurácia;
Precisão;
Revocação;
F1-score.

Como um perceptron realiza classificação binária, criar uma matriz de confusão ajudará a compreender melhor essas métricas.

Definição

Uma matriz de confusão é uma tabela que resume o desempenho da classificação do modelo ao comparar os rótulos previstos com os rótulos reais. Ela fornece informações sobre o número de previsões corretas e incorretas para cada classe (1 e 0).

Acurácia mede a proporção de amostras classificadas corretamente em relação ao total. Se um modelo classifica corretamente 90 de 100 imagens, sua acurácia é 90%.

\text{accuracy} = \frac {\text{correct}} {\text{all}} = \frac {TP + TN} {TP + TN + FP + FN}

Embora a acurácia seja útil, ela pode não fornecer uma visão completa—especialmente para conjuntos de dados desbalanceados. Por exemplo, em um conjunto de dados onde 95% das amostras pertencem a uma classe, um modelo pode atingir 95% de acurácia apenas prevendo sempre a classe majoritária—sem realmente aprender algo útil. Nesses casos, precisão, recall ou F1-score podem ser mais informativos.

Precisão é a porcentagem de casos positivos corretamente previstos em relação a todos os positivos previstos. Essa métrica é especialmente útil quando falsos positivos são custosos, como em detecção de spam ou fraude.

\text{precision} = \frac {\text{correct positive}} {\text{predicted positive}} = \frac {TP} {TP + FP}

Recall (sensibilidade) mede quantos dos casos realmente positivos o modelo identifica corretamente. Um alto recall é essencial em cenários onde falsos negativos devem ser minimizados, como em diagnósticos médicos.

\text{recall} = \frac {\text{correct positive}} {\text{all positive}} = \frac {TP} {TP + FN}

F1-score é a média harmônica de precisão e revocação, fornecendo uma medida equilibrada quando tanto falsos positivos quanto falsos negativos são relevantes. Isso é útil quando o conjunto de dados é desbalanceado, ou seja, uma classe aparece significativamente mais do que a outra.

\text{F1} = \frac {2 \times \text{precision} \times \text{recall}} {\text{precision} + \text{recall}}

1. Qual é o principal objetivo de dividir seu conjunto de dados em conjuntos de treino e teste?

2. Por que o F1-score pode ser preferido em relação à acurácia em um conjunto de dados desbalanceado?

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 11

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 4

Deslize para mostrar o menu