Plotning af Kumulative Fordelinger
En ecdfplot repræsenterer andelen eller antallet af observationer, der falder under hver unik værdi i et datasæt.
Sammenlignet med et histogram eller et tæthedsplot har den en væsentlig fordel: hver observation visualiseres direkte. Det betyder, at der ikke er nogen bin-inddeling, der skal justeres, og ingen udjævningsparametre, der kan forvride dataene. Det anses ofte for at være den mest "ærlige" måde at visualisere en fordeling på.
Centrale parametre
Som standard viser plottet andelen (0 til 1) af data, der er mindre end X. Du kan ændre denne opførsel:
stat='count': i stedet for en procentdel viser Y-aksen antallet af observationer;complementary=True: vender logikken om. I stedet for at vise værdier under tærsklen, vises værdier over den. Dette svarer til en "overlevelseskurve" (f.eks. "Hvor mange pingviner har et næb, der er længere end 50 mm?").
Eksempel
Her ses, hvordan complementary ændrer visualiseringen. Kurven går nedad i stedet for opad.
1234567891011121314151617import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('penguins') # Create a Complementary ECDF # This answers: "How many penguins have a flipper length GREATER than X?" sns.ecdfplot( data=df, x='flipper_length_mm', hue='species', stat='count', # Show exact number of penguins complementary=True # Curve descends from Total to 0 ) plt.show()
Swipe to start coding
Analyser næblængderne hos pingviner for at se, hvor mange af dem der overstiger en bestemt længde.
- Importér
pandas,seabornogmatplotlib.pyplot. - Indlæs pingvindatasættet.
- Opret et ECDF-plot:
- Sæt
xtil'bill_length_mm'. - Gruppér efter
'island'ved hjælp afhue.- Aktivér "survival"-tilstand ved at sætte
complementary=True.
- Aktivér "survival"-tilstand ved at sætte
- Vis absolutte tal ved at sætte
stat='count'. - Brug paletten
'mako'. - Brug variablen
dfsom data.
- Vis plottet.
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Fantastisk!
Completion rate forbedret til 4.55
Plotning af Kumulative Fordelinger
Stryg for at vise menuen
En ecdfplot repræsenterer andelen eller antallet af observationer, der falder under hver unik værdi i et datasæt.
Sammenlignet med et histogram eller et tæthedsplot har den en væsentlig fordel: hver observation visualiseres direkte. Det betyder, at der ikke er nogen bin-inddeling, der skal justeres, og ingen udjævningsparametre, der kan forvride dataene. Det anses ofte for at være den mest "ærlige" måde at visualisere en fordeling på.
Centrale parametre
Som standard viser plottet andelen (0 til 1) af data, der er mindre end X. Du kan ændre denne opførsel:
stat='count': i stedet for en procentdel viser Y-aksen antallet af observationer;complementary=True: vender logikken om. I stedet for at vise værdier under tærsklen, vises værdier over den. Dette svarer til en "overlevelseskurve" (f.eks. "Hvor mange pingviner har et næb, der er længere end 50 mm?").
Eksempel
Her ses, hvordan complementary ændrer visualiseringen. Kurven går nedad i stedet for opad.
1234567891011121314151617import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('penguins') # Create a Complementary ECDF # This answers: "How many penguins have a flipper length GREATER than X?" sns.ecdfplot( data=df, x='flipper_length_mm', hue='species', stat='count', # Show exact number of penguins complementary=True # Curve descends from Total to 0 ) plt.show()
Swipe to start coding
Analyser næblængderne hos pingviner for at se, hvor mange af dem der overstiger en bestemt længde.
- Importér
pandas,seabornogmatplotlib.pyplot. - Indlæs pingvindatasættet.
- Opret et ECDF-plot:
- Sæt
xtil'bill_length_mm'. - Gruppér efter
'island'ved hjælp afhue.- Aktivér "survival"-tilstand ved at sætte
complementary=True.
- Aktivér "survival"-tilstand ved at sætte
- Vis absolutte tal ved at sætte
stat='count'. - Brug paletten
'mako'. - Brug variablen
dfsom data.
- Vis plottet.
Løsning
Tak for dine kommentarer!
single