Conteúdo do Curso
Advanced Techniques in pandas
1. Familiarize-se com a Indexação e Seleção de Dados
2. Lidando com Condições
Advanced Techniques in pandas
Agrupamento Complicado
Às vezes, não estamos satisfeitos com as funções internas do pandas, como .mean()
ou .min()
, ao agrupar.
Observe a coluna 'Length'
; aqui, temos a duração do voo em minutos. Imagine que queremos calcular o tempo máximo em horas para itens que possuem o mesmo valor na coluna 'Flight'
e, em seguida, na coluna 'Airline'
. Para fazer isso, podemos calcular o valor máximo da coluna 'Length'
para cada chave de grupo e depois dividir por 60
. Veja o exemplo e a explicação abaixo.
Explicação:
Tornamos o exemplo dos capítulos anteriores um pouco mais complexo, então, com o agrupamento de dados, tudo permanece igual; vamos nos voltar para a função .apply()
.
.apply()
- ela ajuda a aplicar uma função específica às colunas necessárias.- na função
lambda
,x
é o argumento ex['Length'].max()/60
é a expressão. Assim, a função encontra o valor máximo para cada chave de grupo e divide o valor agregado por60
.
Tarefa
Sua tarefa aqui é agrupar os dados pelo aeroporto de origem do voo e, em seguida, pelo dia da semana. Calcule a quantidade mínima de tempo da soma das colunas 'Length'
e 'Time'
dos grupos para descobrir quanto tempo o voo com atraso pode levar. Siga o algoritmo para gerenciar a tarefa:
- Agrupe os dados:
- Armazene a lista de colunas
'AirportFrom'
,'Airline'
,'Time'
e'Length'
(nesta ordem) na variávelcolumns
. - Extraia
columns
dedata
. - A ordem é crucial dentro da função
.groupby()
; coloque as colunas'AirportFrom'
e'Airline'
nesta ordem. - Aplique a função aos valores do conjunto de dados que têm as mesmas chaves de grupo.
- Calcule a soma das duas colunas:
'Length'
e'Time'
. Em seguida, encontre o seu mínimo.
Tudo estava claro?
Conteúdo do Curso
Advanced Techniques in pandas
1. Familiarize-se com a Indexação e Seleção de Dados
2. Lidando com Condições
Advanced Techniques in pandas
Agrupamento Complicado
Às vezes, não estamos satisfeitos com as funções internas do pandas, como .mean()
ou .min()
, ao agrupar.
Observe a coluna 'Length'
; aqui, temos a duração do voo em minutos. Imagine que queremos calcular o tempo máximo em horas para itens que possuem o mesmo valor na coluna 'Flight'
e, em seguida, na coluna 'Airline'
. Para fazer isso, podemos calcular o valor máximo da coluna 'Length'
para cada chave de grupo e depois dividir por 60
. Veja o exemplo e a explicação abaixo.
Explicação:
Tornamos o exemplo dos capítulos anteriores um pouco mais complexo, então, com o agrupamento de dados, tudo permanece igual; vamos nos voltar para a função .apply()
.
.apply()
- ela ajuda a aplicar uma função específica às colunas necessárias.- na função
lambda
,x
é o argumento ex['Length'].max()/60
é a expressão. Assim, a função encontra o valor máximo para cada chave de grupo e divide o valor agregado por60
.
Tarefa
Sua tarefa aqui é agrupar os dados pelo aeroporto de origem do voo e, em seguida, pelo dia da semana. Calcule a quantidade mínima de tempo da soma das colunas 'Length'
e 'Time'
dos grupos para descobrir quanto tempo o voo com atraso pode levar. Siga o algoritmo para gerenciar a tarefa:
- Agrupe os dados:
- Armazene a lista de colunas
'AirportFrom'
,'Airline'
,'Time'
e'Length'
(nesta ordem) na variávelcolumns
. - Extraia
columns
dedata
. - A ordem é crucial dentro da função
.groupby()
; coloque as colunas'AirportFrom'
e'Airline'
nesta ordem. - Aplique a função aos valores do conjunto de dados que têm as mesmas chaves de grupo.
- Calcule a soma das duas colunas:
'Length'
e'Time'
. Em seguida, encontre o seu mínimo.
Tudo estava claro?