Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Familiarizando-se com o Método .groupby() | Agregando Dados
Técnicas Avançadas em Pandas

bookFamiliarizando-se com o Método .groupby()

Fico feliz em vê-lo nesta seção. Aqui, vamos agrupar nossos dados para encontrar informações sobre diferentes grupos de linhas. Examine o conjunto de dados sobre atrasos (você pode rolar esta tabela horizontalmente):

Agrupar dados é benéfico, e agora vamos nos aprofundar nesse conceito. Imagine que você deseja calcular o número de atrasos para cada número de voo. Observe o exemplo de código e, em seguida, a explicação:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Explicação:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] - Estas são as colunas nas quais você irá trabalhar, incluindo as colunas que serão agrupadas;
  • groupby('Flight') - A coluna 'Flight' é o argumento para a função .groupby(). Isso significa que as linhas com o mesmo valor na coluna 'Flight' serão agrupadas;
  • .sum() - Esta função opera nas linhas dentro de cada grupo criado pelo .groupby(). Neste caso, ela soma os valores da coluna 'Delay' para as linhas que pertencem ao mesmo grupo de 'Flight'.
Note
Nota

Como a coluna 'Delay' contém apenas 0 (nenhum atraso ocorreu) ou 1 (um atraso ocorreu) como valores possíveis, a soma das linhas representa o número de atrasos para cada voo.

Na verdade, .sum() é uma das várias funções de agregação que você pode utilizar. Você irá se familiarizar com todas elas ao longo do curso.

question-icon

Preencha as lacunas para encontrar o valor médio da coluna 'Time' de acordo com a coluna 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain how to use other aggregation functions like mean or median?

What does the output look like when grouping by a different column?

Can you show an example of grouping by multiple columns?

Awesome!

Completion rate improved to 3.03

bookFamiliarizando-se com o Método .groupby()

Deslize para mostrar o menu

Fico feliz em vê-lo nesta seção. Aqui, vamos agrupar nossos dados para encontrar informações sobre diferentes grupos de linhas. Examine o conjunto de dados sobre atrasos (você pode rolar esta tabela horizontalmente):

Agrupar dados é benéfico, e agora vamos nos aprofundar nesse conceito. Imagine que você deseja calcular o número de atrasos para cada número de voo. Observe o exemplo de código e, em seguida, a explicação:

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0) data_flights = data[['Flight', 'Delay']].groupby('Flight').sum() print(data_flights.head())
copy

Explicação:

data[['Flight', 'Delay']].groupby('Flight').sum()
  • data[['Flight', 'Delay']] - Estas são as colunas nas quais você irá trabalhar, incluindo as colunas que serão agrupadas;
  • groupby('Flight') - A coluna 'Flight' é o argumento para a função .groupby(). Isso significa que as linhas com o mesmo valor na coluna 'Flight' serão agrupadas;
  • .sum() - Esta função opera nas linhas dentro de cada grupo criado pelo .groupby(). Neste caso, ela soma os valores da coluna 'Delay' para as linhas que pertencem ao mesmo grupo de 'Flight'.
Note
Nota

Como a coluna 'Delay' contém apenas 0 (nenhum atraso ocorreu) ou 1 (um atraso ocorreu) como valores possíveis, a soma das linhas representa o número de atrasos para cada voo.

Na verdade, .sum() é uma das várias funções de agregação que você pode utilizar. Você irá se familiarizar com todas elas ao longo do curso.

question-icon

Preencha as lacunas para encontrar o valor médio da coluna 'Time' de acordo com a coluna 'DayOfWeek'.

data_extracted = data[['', 'Time']]('').mean()
print(data_extracted)
DayOfWeekTime
3804.993130
4804.452984
5702.888362
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 1
some-alt