Conteúdo do Curso
Pré-processamento de Dados
Pré-processamento de Dados
Escalonamento de Dados vs Normalização de Dados
O escalamento de dados e a normalização são dois termos frequentemente utilizados como sinônimos, mas que na verdade referem-se a conceitos ligeiramente diferentes.
O escalamento de dados refere-se à transformação dos valores de um conjunto de dados de forma que eles se encaixem dentro de um intervalo específico. Isso pode envolver redimensionar os dados para um valor mínimo e máximo específicos, ou padronizar os dados de modo que eles tenham uma média de zero e um desvio padrão de um. O objetivo do escalamento de dados é garantir que todos os atributos do conjunto de dados estejam na mesma escala, para que nenhum atributo domine os outros.
Por outro lado, normalização refere-se ao processo de transformação dos valores de um conjunto de dados para que eles se ajustem a uma distribuição específica. Isso pode envolver transformar os dados para que eles tenham uma distribuição normal (gaussiana) ou alguma outra distribuição. A normalização visa tornar os dados mais interpretáveis ou atender às premissas de um teste estatístico particular ou algoritmo de aprendizado de máquina.
O escalamento de dados é uma etapa de pré-processamento mais comum em aprendizado de máquina, pois é frequentemente necessário para garantir que todos os atributos estejam na mesma escala, a fim de evitar viés e melhorar a acurácia. A normalização é menos usada, mas pode ser importante em certas situações, como quando se trabalha com dados com distribuição assimétrica ou ao usar certos testes estatísticos.
Obrigado pelo seu feedback!