Gerenciamento de Variáveis Categóricas
Agora, você trabalhará com o conjunto de dados que não contém valores ausentes. Os valores NaN da coluna 'Age' foram substituídos pela média da coluna, e o valor NaN da coluna 'Fare' foi removido.
Portanto, agora é hora de aprender como gerenciar variáveis categóricas. Categórico significa que possuem algumas categorias. Por exemplo, na coluna 'Sex', há 'male' e 'female'; ou na coluna 'Embarked', há 'Q', 'S' e 'C'.
O que devemos fazer para calcular o número de valores em cada categoria ou obter informações sobre elas?
Você já conhece .loc[], .isin(), .between() e várias funções, mas no pandas existe uma forma mais elegante e conveniente de fazer isso. Use a função .get_dummies(). Como exemplo, vamos aplicá-la à coluna 'Embarked'. Veja a implementação e o resultado (iremos exibir os nomes de 5 passageiros aleatórios e as novas colunas que criamos).
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Vamos analisar um dos possíveis resultados, especificamente uma das possíveis combinações de cinco linhas selecionadas aleatoriamente. Você pode rolar horizontalmente pela tabela para visualizar todas as colunas:
Explicação:
Como resultado, nossa função dividiu a coluna 'Embarked' em três colunas: 'Embarked_C', 'Embarked_Q' e 'Embarked_S'. No total, temos três categorias. Cada passageiro possui sua categoria na coluna 'Embarked'. Assim, nossa função cria três colunas correspondentes a cada categoria e, para cada passageiro, preenche a linha da coluna com 1 se a pessoa estava inicialmente relacionada àquela localidade; caso contrário, preenche com 0. Portanto, obtemos 1 em apenas uma coluna.
pd.get_dummies(data, columns = ['Embarked'])
pd.get_dummies()- esta função converte variáveis categóricas em variáveis dummies (1 ou 0);data- o DataFrame que você deseja utilizar;columns = ['Embarked']- colunas que possuem variáveis categóricas que você deseja transformar em dummies. Atenção: é obrigatório colocar os nomes das colunas em uma lista.
Swipe to start coding
Sua tarefa aqui é transformar a coluna 'Sex' em uma coluna com variáveis dummy em vez de categóricas. Em seguida, exiba a soma dos valores em cada categoria.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 3.03
Gerenciamento de Variáveis Categóricas
Deslize para mostrar o menu
Agora, você trabalhará com o conjunto de dados que não contém valores ausentes. Os valores NaN da coluna 'Age' foram substituídos pela média da coluna, e o valor NaN da coluna 'Fare' foi removido.
Portanto, agora é hora de aprender como gerenciar variáveis categóricas. Categórico significa que possuem algumas categorias. Por exemplo, na coluna 'Sex', há 'male' e 'female'; ou na coluna 'Embarked', há 'Q', 'S' e 'C'.
O que devemos fazer para calcular o número de valores em cada categoria ou obter informações sobre elas?
Você já conhece .loc[], .isin(), .between() e várias funções, mas no pandas existe uma forma mais elegante e conveniente de fazer isso. Use a função .get_dummies(). Como exemplo, vamos aplicá-la à coluna 'Embarked'. Veja a implementação e o resultado (iremos exibir os nomes de 5 passageiros aleatórios e as novas colunas que criamos).
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Vamos analisar um dos possíveis resultados, especificamente uma das possíveis combinações de cinco linhas selecionadas aleatoriamente. Você pode rolar horizontalmente pela tabela para visualizar todas as colunas:
Explicação:
Como resultado, nossa função dividiu a coluna 'Embarked' em três colunas: 'Embarked_C', 'Embarked_Q' e 'Embarked_S'. No total, temos três categorias. Cada passageiro possui sua categoria na coluna 'Embarked'. Assim, nossa função cria três colunas correspondentes a cada categoria e, para cada passageiro, preenche a linha da coluna com 1 se a pessoa estava inicialmente relacionada àquela localidade; caso contrário, preenche com 0. Portanto, obtemos 1 em apenas uma coluna.
pd.get_dummies(data, columns = ['Embarked'])
pd.get_dummies()- esta função converte variáveis categóricas em variáveis dummies (1 ou 0);data- o DataFrame que você deseja utilizar;columns = ['Embarked']- colunas que possuem variáveis categóricas que você deseja transformar em dummies. Atenção: é obrigatório colocar os nomes das colunas em uma lista.
Swipe to start coding
Sua tarefa aqui é transformar a coluna 'Sex' em uma coluna com variáveis dummy em vez de categóricas. Em seguida, exiba a soma dos valores em cada categoria.
Solução
Obrigado pelo seu feedback!
single