Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Agrupamento Complicado | Aggregating Data
course content

Conteúdo do Curso

Advanced Techniques in pandas

Agrupamento ComplicadoAgrupamento Complicado

Às vezes, não estamos satisfeitos com as funções internas do pandas, como .mean() ou .min(), ao agrupar.

Observe a coluna 'Length'; aqui, temos a duração do voo em minutos. Imagine que queremos calcular o tempo máximo em horas para itens que possuem o mesmo valor na coluna 'Flight' e, em seguida, na coluna 'Airline'. Para fazer isso, podemos calcular o valor máximo da coluna 'Length' para cada chave de grupo e depois dividir por 60. Veja o exemplo e a explicação abaixo.

Explicação:

Tornamos o exemplo dos capítulos anteriores um pouco mais complexo, então, com o agrupamento de dados, tudo permanece igual; vamos nos voltar para a função .apply().

  • .apply() - ela ajuda a aplicar uma função específica às colunas necessárias.
  • na função lambda, x é o argumento e x['Length'].max()/60 é a expressão. Assim, a função encontra o valor máximo para cada chave de grupo e divide o valor agregado por 60.

Tarefa

Sua tarefa aqui é agrupar os dados pelo aeroporto de origem do voo e, em seguida, pelo dia da semana. Calcule a quantidade mínima de tempo da soma das colunas 'Length' e 'Time' dos grupos para descobrir quanto tempo o voo com atraso pode levar. Siga o algoritmo para gerenciar a tarefa:

  1. Agrupe os dados:
  • Armazene a lista de colunas 'AirportFrom', 'Airline', 'Time' e 'Length' (nesta ordem) na variável columns.
  • Extraia columns de data.
  • A ordem é crucial dentro da função .groupby(); coloque as colunas 'AirportFrom' e 'Airline' nesta ordem.
  • Aplique a função aos valores do conjunto de dados que têm as mesmas chaves de grupo.
  • Calcule a soma das duas colunas: 'Length' e 'Time'. Em seguida, encontre o seu mínimo.

Tudo estava claro?

Seção 4. Capítulo 3
toggle bottom row
course content

Conteúdo do Curso

Advanced Techniques in pandas

Agrupamento ComplicadoAgrupamento Complicado

Às vezes, não estamos satisfeitos com as funções internas do pandas, como .mean() ou .min(), ao agrupar.

Observe a coluna 'Length'; aqui, temos a duração do voo em minutos. Imagine que queremos calcular o tempo máximo em horas para itens que possuem o mesmo valor na coluna 'Flight' e, em seguida, na coluna 'Airline'. Para fazer isso, podemos calcular o valor máximo da coluna 'Length' para cada chave de grupo e depois dividir por 60. Veja o exemplo e a explicação abaixo.

Explicação:

Tornamos o exemplo dos capítulos anteriores um pouco mais complexo, então, com o agrupamento de dados, tudo permanece igual; vamos nos voltar para a função .apply().

  • .apply() - ela ajuda a aplicar uma função específica às colunas necessárias.
  • na função lambda, x é o argumento e x['Length'].max()/60 é a expressão. Assim, a função encontra o valor máximo para cada chave de grupo e divide o valor agregado por 60.

Tarefa

Sua tarefa aqui é agrupar os dados pelo aeroporto de origem do voo e, em seguida, pelo dia da semana. Calcule a quantidade mínima de tempo da soma das colunas 'Length' e 'Time' dos grupos para descobrir quanto tempo o voo com atraso pode levar. Siga o algoritmo para gerenciar a tarefa:

  1. Agrupe os dados:
  • Armazene a lista de colunas 'AirportFrom', 'Airline', 'Time' e 'Length' (nesta ordem) na variável columns.
  • Extraia columns de data.
  • A ordem é crucial dentro da função .groupby(); coloque as colunas 'AirportFrom' e 'Airline' nesta ordem.
  • Aplique a função aos valores do conjunto de dados que têm as mesmas chaves de grupo.
  • Calcule a soma das duas colunas: 'Length' e 'Time'. Em seguida, encontre o seu mínimo.

Tudo estava claro?

Seção 4. Capítulo 3
toggle bottom row
some-alt