Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Desafio 2: Agrupamento de Dados | Pandas
Desafio de Entrevista em Ciência de Dados

book
Desafio 2: Agrupamento de Dados

O Pandas, conhecido por suas ferramentas abrangentes de análise de dados, oferece um mecanismo versátil de agrupamento chamado método groupby. Esse método é fundamental para agregar dados com base em certos critérios, um processo semelhante à instrução GROUP BY do SQL. Os benefícios de usar groupby são vários:

  • Controle de Granularidade: Você pode agregar dados em diferentes níveis de granularidade, desde o nível mais alto (por exemplo, agrupando por país) até o mais detalhado (por exemplo, agrupando por carimbos de data/hora individuais).

  • Simplicidade: A sintaxe de groupby é concisa e expressiva, facilitando a realização de operações encadeadas e a obtenção de agregações complexas.

  • Extensibilidade: Com groupby , você pode aplicar funções de agregação personalizadas, não apenas as embutidas, dando a você o poder de calcular métricas personalizadas para os grupos.

Ao se aprofundar na exploração de dados, as capacidades de agrupamento do Pandas podem revelar padrões e tendências esclarecedores ao segmentar os dados em categorias significativas.

Tarefa

Swipe to start coding

Demonstre o agrupamento de dados em Pandas com as seguintes tarefas:

  1. Agrupe os dados por uma única coluna A.
  2. Some todos os dados agrupados para a coluna A usando a função integrada.
  3. Aplique várias funções de agregação ao mesmo tempo. Obtenha a agregação de soma para a coluna B e média para a coluna C.
  4. Agrupe por múltiplas colunas (A e B).

Solução

import pandas as pd

# Sample DataFrame
df = pd.DataFrame({
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
'B': [1, 2, 1, 4, 5, 2],
'C': [2.5, 3.5, 4.5, 2.5, 3.5, 4.5]
})

# 1. Group data by a single column.
grouped_A = df.groupby('A')

# 2. Sum all data grouped for column `A` using the built-in function.
sum_grouped_A = grouped_A.sum()
display(sum_grouped_A)
print('-' * 20)

# 3. Apply multiple aggregation functions simultaneously.
multi_aggregate = grouped_A.agg({'B': 'sum', 'C': 'mean'})
display(multi_aggregate)
print('-' * 20)

# 4. Group by multiple columns.
grouped_A_B = df.groupby(['A', 'B']).sum()
display(grouped_A_B)
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 3. Capítulo 2
import pandas as pd

# Sample DataFrame
df = pd.DataFrame({
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
'B': [1, 2, 1, 4, 5, 2],
'C': [2.5, 3.5, 4.5, 2.5, 3.5, 4.5]
})

# 1. Group data by a single column A.
grouped_A = ___

# 2. Sum all data grouped for column `A` using the built-in function.
sum_grouped_A = ___
display(sum_grouped_A)
print('-' * 20)

# 3. Apply multiple aggregation functions simultaneously.
multi_aggregate = ___
display(multi_aggregate)
print('-' * 20)

# 4. Group by multiple columns.
grouped_A_B = ___
display(grouped_A_B)

Pergunte à IA

expand
ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

some-alt