Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Gerenciamento de Variáveis Categóricas | Pré-processamento de Dados
Técnicas Avançadas em Pandas

bookGerenciamento de Variáveis Categóricas

Agora, você trabalhará com o conjunto de dados que não contém valores ausentes. Os valores NaN da coluna 'Age' foram substituídos pela média da coluna, e o valor NaN da coluna 'Fare' foi removido. Portanto, agora é o momento de aprender como gerenciar variáveis categóricas. Categórico significa que possuem algumas categorias. Por exemplo, na coluna 'Sex', há 'male' e 'female'; ou na coluna 'Embarked', há 'Q', 'S' e 'C'.

O que deve ser feito para calcular o número de valores em cada categoria ou obter informações sobre elas?

Você já conhece .loc[], .isin(), .between() e várias funções, mas no pandas existe uma maneira mais elegante e conveniente de fazer isso. Utilize a função .get_dummies(). Como exemplo, vamos aplicá-la à coluna 'Embarked'. Observe a implementação e o resultado (iremos exibir os nomes de 5 passageiros aleatórios e as novas colunas que criamos).

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
copy

Vamos analisar uma das possíveis saídas, especificamente uma das possíveis combinações de cinco linhas selecionadas aleatoriamente. É possível rolar horizontalmente a tabela para visualizar todas as colunas:

Explicação:

Como resultado, nossa função dividiu a coluna 'Embarked' em três colunas: 'Embarked_C', 'Embarked_Q' e 'Embarked_S'. No total, temos três categorias. Cada passageiro possui sua categoria na coluna 'Embarked'. Assim, nossa função cria três colunas correspondentes a cada categoria e, para cada passageiro, preenche a linha da coluna com 1 se a pessoa estava inicialmente relacionada àquela localidade; caso contrário, preenche com 0. Portanto, obtemos 1 em apenas uma coluna.

pd.get_dummies(data, columns = ['Embarked'])
  • pd.get_dummies() - esta função converte variáveis categóricas em variáveis dummy (1 ou 0);
  • data - o data frame que você deseja utilizar;
  • columns = ['Embarked'] - colunas que possuem variáveis categóricas que você deseja transformar em variáveis dummy. Atenção: é obrigatório colocar os nomes das colunas em uma lista.
Tarefa

Swipe to start coding

Sua tarefa aqui é transformar a coluna 'Sex' em uma coluna com variáveis dummy em vez de categóricas. Em seguida, exiba a soma dos valores em cada categoria.

Solução

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 6
single

single

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

close

Awesome!

Completion rate improved to 3.03

bookGerenciamento de Variáveis Categóricas

Deslize para mostrar o menu

Agora, você trabalhará com o conjunto de dados que não contém valores ausentes. Os valores NaN da coluna 'Age' foram substituídos pela média da coluna, e o valor NaN da coluna 'Fare' foi removido. Portanto, agora é o momento de aprender como gerenciar variáveis categóricas. Categórico significa que possuem algumas categorias. Por exemplo, na coluna 'Sex', há 'male' e 'female'; ou na coluna 'Embarked', há 'Q', 'S' e 'C'.

O que deve ser feito para calcular o número de valores em cada categoria ou obter informações sobre elas?

Você já conhece .loc[], .isin(), .between() e várias funções, mas no pandas existe uma maneira mais elegante e conveniente de fazer isso. Utilize a função .get_dummies(). Como exemplo, vamos aplicá-la à coluna 'Embarked'. Observe a implementação e o resultado (iremos exibir os nomes de 5 passageiros aleatórios e as novas colunas que criamos).

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
copy

Vamos analisar uma das possíveis saídas, especificamente uma das possíveis combinações de cinco linhas selecionadas aleatoriamente. É possível rolar horizontalmente a tabela para visualizar todas as colunas:

Explicação:

Como resultado, nossa função dividiu a coluna 'Embarked' em três colunas: 'Embarked_C', 'Embarked_Q' e 'Embarked_S'. No total, temos três categorias. Cada passageiro possui sua categoria na coluna 'Embarked'. Assim, nossa função cria três colunas correspondentes a cada categoria e, para cada passageiro, preenche a linha da coluna com 1 se a pessoa estava inicialmente relacionada àquela localidade; caso contrário, preenche com 0. Portanto, obtemos 1 em apenas uma coluna.

pd.get_dummies(data, columns = ['Embarked'])
  • pd.get_dummies() - esta função converte variáveis categóricas em variáveis dummy (1 ou 0);
  • data - o data frame que você deseja utilizar;
  • columns = ['Embarked'] - colunas que possuem variáveis categóricas que você deseja transformar em variáveis dummy. Atenção: é obrigatório colocar os nomes das colunas em uma lista.
Tarefa

Swipe to start coding

Sua tarefa aqui é transformar a coluna 'Sex' em uma coluna com variáveis dummy em vez de categóricas. Em seguida, exiba a soma dos valores em cada categoria.

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 6
single

single

some-alt