Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Statistiske Operationer | Matematik med NumPy
Ultimate NumPy

bookStatistiske Operationer

At udføre forskellige statistiske operationer på arrays er afgørende for dataanalyse og maskinlæring. NumPy tilbyder funktioner og metoder til at udføre dem effektivt.

Mål for central tendens

Mål for central tendens repræsenterer en central eller repræsentativ værdi inden for en sandsynlighedsfordeling. Oftest beregnes disse mål dog for et bestemt udvalg.

Her er de to vigtigste mål:

  • Gennemsnit: summen af alle værdier divideret med det samlede antal værdier;
  • Median: Den midterste værdi i et sorteret udvalg.

NumPy tilbyder funktionerne mean() og median() til at beregne henholdsvis gennemsnit og median:

12345678
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
copy

Vi har også vist det sorterede datasæt, så du tydeligt kan se medianen. Vores datasæt har et ulige antal elementer (7), så medianen er blot elementet ved indeks (n + 1) / 2 i det sorterede datasæt, hvor n er størrelsen på datasættet.

Note
Bemærk

Når datasættet har et lige antal elementer, er medianen gennemsnittet af elementerne ved indeks n / 2 og n / 2 - 1 i det sorterede datasæt.

1234
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
copy

Vores stikprøve er allerede sorteret og har 8 elementer, så n / 2 - 1 = 3 og sample[3] er 10. n / 2 = 4 og sample[4] er 15. Derfor er medianen (10 + 15) / 2 = 12.5.

Spredningsmål

To spredningsmål er varians og standardafvigelse. Varians måler, hvor spredt dataene er. Det er lig med gennemsnittet af de kvadrerede afvigelser fra gennemsnittet for hver værdi.

Standardafvigelse er kvadratroden af variansen. Den angiver, hvor spredt dataene er, i samme enheder som dataene.

NumPy har funktionen var() til at beregne variansen for stikprøven og funktionen std() til at beregne standardafvigelsen for stikprøven:

1234567
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
copy

Beregninger i højdimensionelle arrays

Alle disse funktioner har en anden parameter axis. Dens standardværdi er None, hvilket betyder, at målingen beregnes på et fladet array (selv hvis det oprindelige array er 2D eller højere dimensionelt).

Du kan også angive den præcise akse, som målingen skal beregnes langs:

12345678
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
copy

Billedet nedenfor viser strukturen af exam_scores arrayet, der bruges i opgaven:

Opgave

Swipe to start coding

Du analyserer arrayet exam_scores, et 2D-array med simulerede testresultater for 2 studerende (2 rækker) på tværs af 5 forskellige eksamener (5 kolonner).

  1. Beregn gennemsnitsscoren for hver studerende ved at angive det andet nøgleordargument.
  2. Beregn medianen af alle resultater.
  3. Beregn variansen af alle resultater.
  4. Beregn standardafvigelsen af alle resultater.

Løsning

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 3
single

single

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Suggested prompts:

Can you explain how to interpret the results of the mean and median calculations?

What is the difference between variance and standard deviation in practical terms?

How does the axis parameter affect calculations on higher dimensional arrays?

close

Awesome!

Completion rate improved to 3.7

bookStatistiske Operationer

Stryg for at vise menuen

At udføre forskellige statistiske operationer på arrays er afgørende for dataanalyse og maskinlæring. NumPy tilbyder funktioner og metoder til at udføre dem effektivt.

Mål for central tendens

Mål for central tendens repræsenterer en central eller repræsentativ værdi inden for en sandsynlighedsfordeling. Oftest beregnes disse mål dog for et bestemt udvalg.

Her er de to vigtigste mål:

  • Gennemsnit: summen af alle værdier divideret med det samlede antal værdier;
  • Median: Den midterste værdi i et sorteret udvalg.

NumPy tilbyder funktionerne mean() og median() til at beregne henholdsvis gennemsnit og median:

12345678
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
copy

Vi har også vist det sorterede datasæt, så du tydeligt kan se medianen. Vores datasæt har et ulige antal elementer (7), så medianen er blot elementet ved indeks (n + 1) / 2 i det sorterede datasæt, hvor n er størrelsen på datasættet.

Note
Bemærk

Når datasættet har et lige antal elementer, er medianen gennemsnittet af elementerne ved indeks n / 2 og n / 2 - 1 i det sorterede datasæt.

1234
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
copy

Vores stikprøve er allerede sorteret og har 8 elementer, så n / 2 - 1 = 3 og sample[3] er 10. n / 2 = 4 og sample[4] er 15. Derfor er medianen (10 + 15) / 2 = 12.5.

Spredningsmål

To spredningsmål er varians og standardafvigelse. Varians måler, hvor spredt dataene er. Det er lig med gennemsnittet af de kvadrerede afvigelser fra gennemsnittet for hver værdi.

Standardafvigelse er kvadratroden af variansen. Den angiver, hvor spredt dataene er, i samme enheder som dataene.

NumPy har funktionen var() til at beregne variansen for stikprøven og funktionen std() til at beregne standardafvigelsen for stikprøven:

1234567
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
copy

Beregninger i højdimensionelle arrays

Alle disse funktioner har en anden parameter axis. Dens standardværdi er None, hvilket betyder, at målingen beregnes på et fladet array (selv hvis det oprindelige array er 2D eller højere dimensionelt).

Du kan også angive den præcise akse, som målingen skal beregnes langs:

12345678
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
copy

Billedet nedenfor viser strukturen af exam_scores arrayet, der bruges i opgaven:

Opgave

Swipe to start coding

Du analyserer arrayet exam_scores, et 2D-array med simulerede testresultater for 2 studerende (2 rækker) på tværs af 5 forskellige eksamener (5 kolonner).

  1. Beregn gennemsnitsscoren for hver studerende ved at angive det andet nøgleordargument.
  2. Beregn medianen af alle resultater.
  3. Beregn variansen af alle resultater.
  4. Beregn standardafvigelsen af alle resultater.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 4. Kapitel 3
single

single

some-alt