Monimutkainen ryhmittely

Joskus sisäänrakennetut pandas-funktiot, kuten .mean() tai .min(), eivät riitä ryhmittelyssä.

Tarkastele saraketta 'Length'; tässä on lennon kesto minuutteina. Kuvittele, että haluamme laskea maksimiajan tunneissa niille riveille, joilla on sama arvo sarakkeessa 'Flight' ja sen jälkeen sarakkeessa 'Airline'. Tämän saavuttamiseksi voimme laskea sarakkeen 'Length' maksimiarvon jokaiselle ryhmäavaimelle ja jakaa sen sitten 60:llä. Katso esimerkki ja selitys alla.


              1234
            
import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Airline', 'Length']].groupby(['Flight', 'Airline']).apply(lambda x: x['Length'].max()/60)
print(data_flights.head(10))

Selitys:

Teimme aiemman esimerkin hieman monimutkaisemmaksi, mutta tietojen ryhmittelyssä kaikki pysyy ennallaan; siirrytään nyt .apply()-metodiin.

.apply(lambda x: x['Length'].max()/60)

.apply() – mahdollistaa tietyn funktion soveltamisen tarvittuihin sarakkeisiin;
lambda-funktiossa x on argumentti ja x['Length'].max()/60 on lauseke. Funktio etsii suurimman arvon jokaiselle ryhmäavaimelle ja jakaa kootun arvon luvulla 60.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 3

single

Pyyhkäise näyttääksesi valikon

Joskus sisäänrakennetut pandas-funktiot, kuten .mean() tai .min(), eivät riitä ryhmittelyssä.

Tarkastele saraketta 'Length'; tässä on lennon kesto minuutteina. Kuvittele, että haluamme laskea maksimiajan tunneissa niille riveille, joilla on sama arvo sarakkeessa 'Flight' ja sen jälkeen sarakkeessa 'Airline'. Tämän saavuttamiseksi voimme laskea sarakkeen 'Length' maksimiarvon jokaiselle ryhmäavaimelle ja jakaa sen sitten 60:llä. Katso esimerkki ja selitys alla.


              1234
            
import pandas as pd
data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/plane', index_col = 0)
data_flights = data[['Flight', 'Airline', 'Length']].groupby(['Flight', 'Airline']).apply(lambda x: x['Length'].max()/60)
print(data_flights.head(10))

Selitys:

Teimme aiemman esimerkin hieman monimutkaisemmaksi, mutta tietojen ryhmittelyssä kaikki pysyy ennallaan; siirrytään nyt .apply()-metodiin.

.apply(lambda x: x['Length'].max()/60)

.apply() – mahdollistaa tietyn funktion soveltamisen tarvittuihin sarakkeisiin;
lambda-funktiossa x on argumentti ja x['Length'].max()/60 on lauseke. Funktio etsii suurimman arvon jokaiselle ryhmäavaimelle ja jakaa kootun arvon luvulla 60.

Tehtävä

Pyyhkäise aloittaaksesi koodauksen

Tehtävänäsi on analysoida lentojen kestoja huomioiden lähtökenttä, lentoyhtiö ja viikonpäivä. Ryhmittele data selvittääksesi pienimmän kokonaislentoaikaan (eli 'Length' ja 'Time' summan) jokaiselle ainutlaatuiselle lähtökentän, lentoyhtiön ja viikonpäivän yhdistelmälle.

Noudata algoritmia vaihe vaiheelta:

Tallenna sarakkeiden lista 'AirportFrom', 'Airline', 'DayOfWeek', 'Time' ja 'Length' (tässä järjestyksessä) muuttujaan columns.
Poimi nämä sarakkeet data-datakehyksestä hakasulkujen avulla (data[columns]).
Ryhmittele aineisto sarakkeiden 'AirportFrom', 'Airline' ja 'DayOfWeek' mukaan (tässä järjestyksessä).
Käytä .groupby()-menetelmän sisällä .apply()-funktiota laskeaksesi kunkin ryhmän 'Length'- ja 'Time'-sarakkeiden summan ja etsi sitten tämän summan pienin arvo.
Tallenna tulos muuttujaan data_flights.
Tulosta tuloksena saadun Series-olion ensimmäiset 10 riviä metodilla .head(10).

Ratkaisu

Vaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 3

single

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme