Gerenciamento de Variáveis Categóricas
Agora, você trabalhará com o conjunto de dados que não contém valores ausentes. Os valores NaN
da coluna 'Age'
foram substituídos pela média da coluna, e o valor NaN
da coluna 'Fare'
foi removido.
Portanto, agora é o momento de aprender como gerenciar variáveis categóricas. Categórico significa que possuem algumas categorias. Por exemplo, na coluna 'Sex'
, há 'male'
e 'female'
; ou na coluna 'Embarked'
, há 'Q'
, 'S'
e 'C'
.
O que deve ser feito para calcular o número de valores em cada categoria ou obter informações sobre elas?
Você já conhece .loc[]
, .isin()
, .between()
e várias funções, mas no pandas existe uma maneira mais elegante e conveniente de fazer isso. Utilize a função .get_dummies()
. Como exemplo, vamos aplicá-la à coluna 'Embarked'
. Observe a implementação e o resultado (iremos exibir os nomes de 5 passageiros aleatórios e as novas colunas que criamos).
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Vamos analisar uma das possíveis saídas, especificamente uma das possíveis combinações de cinco linhas selecionadas aleatoriamente. É possível rolar horizontalmente a tabela para visualizar todas as colunas:
Explicação:
Como resultado, nossa função dividiu a coluna 'Embarked'
em três colunas: 'Embarked_C'
, 'Embarked_Q'
e 'Embarked_S'
. No total, temos três categorias. Cada passageiro possui sua categoria na coluna 'Embarked'
. Assim, nossa função cria três colunas correspondentes a cada categoria e, para cada passageiro, preenche a linha da coluna com 1
se a pessoa estava inicialmente relacionada àquela localidade; caso contrário, preenche com 0
. Portanto, obtemos 1
em apenas uma coluna.
pd.get_dummies(data, columns = ['Embarked'])
pd.get_dummies()
- esta função converte variáveis categóricas em variáveis dummy (1 ou 0);data
- o data frame que você deseja utilizar;columns = ['Embarked']
- colunas que possuem variáveis categóricas que você deseja transformar em variáveis dummy. Atenção: é obrigatório colocar os nomes das colunas em uma lista.
Swipe to start coding
Sua tarefa aqui é transformar a coluna 'Sex'
em uma coluna com variáveis dummy em vez de categóricas. Em seguida, exiba a soma dos valores em cada categoria.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 3.03
Gerenciamento de Variáveis Categóricas
Deslize para mostrar o menu
Agora, você trabalhará com o conjunto de dados que não contém valores ausentes. Os valores NaN
da coluna 'Age'
foram substituídos pela média da coluna, e o valor NaN
da coluna 'Fare'
foi removido.
Portanto, agora é o momento de aprender como gerenciar variáveis categóricas. Categórico significa que possuem algumas categorias. Por exemplo, na coluna 'Sex'
, há 'male'
e 'female'
; ou na coluna 'Embarked'
, há 'Q'
, 'S'
e 'C'
.
O que deve ser feito para calcular o número de valores em cada categoria ou obter informações sobre elas?
Você já conhece .loc[]
, .isin()
, .between()
e várias funções, mas no pandas existe uma maneira mais elegante e conveniente de fazer isso. Utilize a função .get_dummies()
. Como exemplo, vamos aplicá-la à coluna 'Embarked'
. Observe a implementação e o resultado (iremos exibir os nomes de 5 passageiros aleatórios e as novas colunas que criamos).
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Vamos analisar uma das possíveis saídas, especificamente uma das possíveis combinações de cinco linhas selecionadas aleatoriamente. É possível rolar horizontalmente a tabela para visualizar todas as colunas:
Explicação:
Como resultado, nossa função dividiu a coluna 'Embarked'
em três colunas: 'Embarked_C'
, 'Embarked_Q'
e 'Embarked_S'
. No total, temos três categorias. Cada passageiro possui sua categoria na coluna 'Embarked'
. Assim, nossa função cria três colunas correspondentes a cada categoria e, para cada passageiro, preenche a linha da coluna com 1
se a pessoa estava inicialmente relacionada àquela localidade; caso contrário, preenche com 0
. Portanto, obtemos 1
em apenas uma coluna.
pd.get_dummies(data, columns = ['Embarked'])
pd.get_dummies()
- esta função converte variáveis categóricas em variáveis dummy (1 ou 0);data
- o data frame que você deseja utilizar;columns = ['Embarked']
- colunas que possuem variáveis categóricas que você deseja transformar em variáveis dummy. Atenção: é obrigatório colocar os nomes das colunas em uma lista.
Swipe to start coding
Sua tarefa aqui é transformar a coluna 'Sex'
em uma coluna com variáveis dummy em vez de categóricas. Em seguida, exiba a soma dos valores em cada categoria.
Solução
Obrigado pelo seu feedback!
single