Statistiske Operationer
At udføre forskellige statistiske operationer på arrays er afgørende for dataanalyse og maskinlæring. NumPy tilbyder funktioner og metoder til at udføre dem effektivt.
Mål for central tendens
Mål for central tendens repræsenterer en central eller repræsentativ værdi inden for en sandsynlighedsfordeling. Oftest beregnes disse mål dog for et bestemt udvalg.
Her er de to vigtigste mål:
- Gennemsnit: summen af alle værdier divideret med det samlede antal værdier;
- Median: Den midterste værdi i et sorteret udvalg.
NumPy tilbyder funktionerne mean() og median() til at beregne henholdsvis gennemsnit og median:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Vi har også vist det sorterede datasæt, så du tydeligt kan se medianen. Vores datasæt har et ulige antal elementer (7), så medianen er blot elementet ved indeks (n + 1) / 2 i det sorterede datasæt, hvor n er størrelsen på datasættet.
Når datasættet har et lige antal elementer, er medianen gennemsnittet af elementerne ved indeks n / 2 og n / 2 - 1 i det sorterede datasæt.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Vores stikprøve er allerede sorteret og har 8 elementer, så n / 2 - 1 = 3 og sample[3] er 10. n / 2 = 4 og sample[4] er 15. Derfor er medianen (10 + 15) / 2 = 12.5.
Spredningsmål
To spredningsmål er varians og standardafvigelse. Varians måler, hvor spredt dataene er. Det er lig med gennemsnittet af de kvadrerede afvigelser fra gennemsnittet for hver værdi.
Standardafvigelse er kvadratroden af variansen. Den angiver, hvor spredt dataene er, i samme enheder som dataene.
NumPy har funktionen var() til at beregne variansen for stikprøven og funktionen std() til at beregne standardafvigelsen for stikprøven:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Beregninger i højdimensionelle arrays
Alle disse funktioner har en anden parameter axis. Dens standardværdi er None, hvilket betyder, at målingen beregnes på et fladet array (selv hvis det oprindelige array er 2D eller højere dimensionelt).
Du kan også angive den præcise akse, som målingen skal beregnes langs:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
Billedet nedenfor viser strukturen af exam_scores arrayet, der bruges i opgaven:
Swipe to start coding
Du analyserer arrayet exam_scores, et 2D-array med simulerede testresultater for 2 studerende (2 rækker) på tværs af 5 forskellige eksamener (5 kolonner).
- Beregn gennemsnitsscoren for hver studerende ved at angive det andet nøgleordargument.
- Beregn medianen af alle resultater.
- Beregn variansen af alle resultater.
- Beregn standardafvigelsen af alle resultater.
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain how to interpret the results of the mean and median calculations?
What is the difference between variance and standard deviation in practical terms?
How does the axis parameter affect calculations on higher dimensional arrays?
Awesome!
Completion rate improved to 3.7
Statistiske Operationer
Stryg for at vise menuen
At udføre forskellige statistiske operationer på arrays er afgørende for dataanalyse og maskinlæring. NumPy tilbyder funktioner og metoder til at udføre dem effektivt.
Mål for central tendens
Mål for central tendens repræsenterer en central eller repræsentativ værdi inden for en sandsynlighedsfordeling. Oftest beregnes disse mål dog for et bestemt udvalg.
Her er de to vigtigste mål:
- Gennemsnit: summen af alle værdier divideret med det samlede antal værdier;
- Median: Den midterste værdi i et sorteret udvalg.
NumPy tilbyder funktionerne mean() og median() til at beregne henholdsvis gennemsnit og median:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Vi har også vist det sorterede datasæt, så du tydeligt kan se medianen. Vores datasæt har et ulige antal elementer (7), så medianen er blot elementet ved indeks (n + 1) / 2 i det sorterede datasæt, hvor n er størrelsen på datasættet.
Når datasættet har et lige antal elementer, er medianen gennemsnittet af elementerne ved indeks n / 2 og n / 2 - 1 i det sorterede datasæt.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Vores stikprøve er allerede sorteret og har 8 elementer, så n / 2 - 1 = 3 og sample[3] er 10. n / 2 = 4 og sample[4] er 15. Derfor er medianen (10 + 15) / 2 = 12.5.
Spredningsmål
To spredningsmål er varians og standardafvigelse. Varians måler, hvor spredt dataene er. Det er lig med gennemsnittet af de kvadrerede afvigelser fra gennemsnittet for hver værdi.
Standardafvigelse er kvadratroden af variansen. Den angiver, hvor spredt dataene er, i samme enheder som dataene.
NumPy har funktionen var() til at beregne variansen for stikprøven og funktionen std() til at beregne standardafvigelsen for stikprøven:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Beregninger i højdimensionelle arrays
Alle disse funktioner har en anden parameter axis. Dens standardværdi er None, hvilket betyder, at målingen beregnes på et fladet array (selv hvis det oprindelige array er 2D eller højere dimensionelt).
Du kan også angive den præcise akse, som målingen skal beregnes langs:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
Billedet nedenfor viser strukturen af exam_scores arrayet, der bruges i opgaven:
Swipe to start coding
Du analyserer arrayet exam_scores, et 2D-array med simulerede testresultater for 2 studerende (2 rækker) på tværs af 5 forskellige eksamener (5 kolonner).
- Beregn gennemsnitsscoren for hver studerende ved at angive det andet nøgleordargument.
- Beregn medianen af alle resultater.
- Beregn variansen af alle resultater.
- Beregn standardafvigelsen af alle resultater.
Løsning
Tak for dine kommentarer!
single