Tratamento de Valores Ausentes
Valores ausentes são comuns em conjuntos de dados do mundo real e devem ser tratados antes da clusterização. Serão abordados três métodos básicos: imputação pela média, imputação pela mediana e remoção de linhas.
Preenchimento com Média
Este método substitui valores ausentes em uma coluna pela média dos valores não ausentes. É simples e mantém a média da coluna.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
No entanto, pode reduzir a variância e pode não ser adequado para dados assimétricos ou características categóricas.
Preenchimento com Mediana
Este método substitui valores ausentes pela mediana dos valores não ausentes na coluna. A mediana é menos sensível a valores extremos do que a média, sendo mais adequada para dados assimétricos ou com outliers.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Remoção de Linhas com Valores Ausentes
Este método exclui quaisquer linhas que contenham valores ausentes. É simples e não introduz dados imputados. No entanto, pode resultar em perda significativa de dados e viés se muitas linhas forem removidas ou se a ausência de dados não for aleatória.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
A escolha do melhor método depende dos seus dados e dos objetivos da análise. O arquivo de código mostra exemplos práticos de cada técnica em mais detalhes.
O arquivo de código abaixo fornece exemplos práticos de cada técnica de pré-processamento abordada nesta seção, incluindo o tratamento de valores ausentes:
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 2.94
Tratamento de Valores Ausentes
Deslize para mostrar o menu
Valores ausentes são comuns em conjuntos de dados do mundo real e devem ser tratados antes da clusterização. Serão abordados três métodos básicos: imputação pela média, imputação pela mediana e remoção de linhas.
Preenchimento com Média
Este método substitui valores ausentes em uma coluna pela média dos valores não ausentes. É simples e mantém a média da coluna.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
No entanto, pode reduzir a variância e pode não ser adequado para dados assimétricos ou características categóricas.
Preenchimento com Mediana
Este método substitui valores ausentes pela mediana dos valores não ausentes na coluna. A mediana é menos sensível a valores extremos do que a média, sendo mais adequada para dados assimétricos ou com outliers.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Remoção de Linhas com Valores Ausentes
Este método exclui quaisquer linhas que contenham valores ausentes. É simples e não introduz dados imputados. No entanto, pode resultar em perda significativa de dados e viés se muitas linhas forem removidas ou se a ausência de dados não for aleatória.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
A escolha do melhor método depende dos seus dados e dos objetivos da análise. O arquivo de código mostra exemplos práticos de cada técnica em mais detalhes.
O arquivo de código abaixo fornece exemplos práticos de cada técnica de pré-processamento abordada nesta seção, incluindo o tratamento de valores ausentes:
Obrigado pelo seu feedback!