Desafio: Pipeline de Pré-Processamento
Swipe to start coding
Você recebeu o conjunto de dados Titanic da biblioteca seaborn.
Sua tarefa é construir um pipeline completo de pré-processamento que realize todas as transformações essenciais de dados utilizadas antes do aprendizado de máquina.
Siga estes passos:
- Carregue o conjunto de dados usando
sns.load_dataset("titanic"). - Trate os valores ausentes:
- Colunas numéricas → preencher com a média.
- Colunas categóricas → preencher com a moda.
- Codifique as variáveis categóricas
sexeembarkedutilizandopd.get_dummies(). - Escalone as colunas numéricas
ageefareutilizandoStandardScaler. - Crie uma nova variável
family_size = sibsp + parch + 1. - Combine todas as transformações em uma função chamada
preprocess_titanic(data)que retorna o DataFrame processado final. - Atribua o conjunto de dados processado a uma variável chamada
processed_data.
Exiba as 5 primeiras linhas do DataFrame final.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Incrível!
Completion taxa melhorada para 8.33
Desafio: Pipeline de Pré-Processamento
Deslize para mostrar o menu
Swipe to start coding
Você recebeu o conjunto de dados Titanic da biblioteca seaborn.
Sua tarefa é construir um pipeline completo de pré-processamento que realize todas as transformações essenciais de dados utilizadas antes do aprendizado de máquina.
Siga estes passos:
- Carregue o conjunto de dados usando
sns.load_dataset("titanic"). - Trate os valores ausentes:
- Colunas numéricas → preencher com a média.
- Colunas categóricas → preencher com a moda.
- Codifique as variáveis categóricas
sexeembarkedutilizandopd.get_dummies(). - Escalone as colunas numéricas
ageefareutilizandoStandardScaler. - Crie uma nova variável
family_size = sibsp + parch + 1. - Combine todas as transformações em uma função chamada
preprocess_titanic(data)que retorna o DataFrame processado final. - Atribua o conjunto de dados processado a uma variável chamada
processed_data.
Exiba as 5 primeiras linhas do DataFrame final.
Solução
Obrigado pelo seu feedback!
single