Seção 2. Capítulo 6
single
Desafio: Pré-processamento do Conjunto de Dados
Deslize para mostrar o menu
Tarefa
Swipe to start coding
Você recebe um conjunto de dados sintético armazenado na variável data. Sua tarefa é tratar valores ausentes e codificar adequadamente as variáveis categóricas.
Siga estes passos:
- Substitua os valores ausentes na coluna
'Age'pela média dessa coluna. Sobrescreva a coluna original com o resultado. - Crie uma instância de
OneHotEncodere armazene-a na variávelcity_encoder. Certifique-se de especificardrop='first'para evitar o problema de multicolinearidade. - Por padrão, esse codificador retorna uma matriz esparsa. Para garantir compatibilidade com o Pandas posteriormente, defina o parâmetro
sparse_output=False(ousparse=Falseem versões antigas) durante a inicialização, OU adicione.toarray()ao transformar os dados. - Codifique os valores da coluna
'City'usandocity_encoder.fit_transform()e armazene o array resultante na variávelcity_encoded. - Crie uma instância de
OrdinalEncodere armazene-a na variávelincome_encoder. Como os dados possuem uma hierarquia natural, defina explicitamente a ordem usando o parâmetrocategories(observe que'Low'<'Middle'<'High'). - Codifique os valores da coluna
'Income'usandoincome_encodere sobrescreva a coluna original'Income'com o resultado.
Solução
Tudo estava claro?
Obrigado pelo seu feedback!
Seção 2. Capítulo 6
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo