Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Statistische Operationen | Mathematik mit NumPy
Ultimatives NumPy

bookStatistische Operationen

Das Durchführen verschiedener statistischer Operationen auf Arrays ist entscheidend für die Datenanalyse und das maschinelle Lernen. NumPy stellt Funktionen und Methoden bereit, um diese effektiv auszuführen.

Maße der zentralen Tendenz

Maße der zentralen Tendenz repräsentieren einen zentralen oder repräsentativen Wert innerhalb einer Wahrscheinlichkeitsverteilung. Meistens werden diese Maße jedoch für eine bestimmte Stichprobe berechnet.

Hier sind die zwei wichtigsten Maße:

  • Mittelwert: Die Summe aller Werte geteilt durch die Gesamtanzahl der Werte;
  • Median: Der mittlere Wert in einer sortierten Stichprobe.

NumPy stellt die Funktionen mean() und median() zur Verfügung, um Mittelwert bzw. Median zu berechnen:

12345678
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
copy

Wir haben auch die sortierte Stichprobe angezeigt, damit Sie den Median deutlich erkennen können. Unsere Stichprobe enthält eine ungerade Anzahl von Elementen (7), daher ist der Median einfach das Element an der Stelle (n + 1) / 2 in der sortierten Stichprobe, wobei n die Größe der Stichprobe ist.

Note
Hinweis

Wenn die Stichprobe eine gerade Anzahl von Elementen enthält, ist der Median der Durchschnitt der Elemente an den Indizes n / 2 und n / 2 - 1 in der sortierten Stichprobe.

1234
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
copy

Unsere Stichprobe ist bereits sortiert und enthält 8 Elemente, daher gilt n / 2 - 1 = 3 und sample[3] ist 10. n / 2 = 4 und sample[4] ist 15. Daher ergibt sich der Median als (10 + 15) / 2 = 12.5.

Streuungsmaße

Zwei Streuungsmaße sind Varianz und Standardabweichung. Varianz misst, wie weit die Daten gestreut sind. Sie entspricht dem Durchschnitt der quadrierten Abweichungen jedes Wertes vom Mittelwert.

Die Standardabweichung ist die Quadratwurzel der Varianz. Sie gibt an, wie weit die Daten in denselben Einheiten wie die Daten selbst gestreut sind.

NumPy bietet die Funktion var(), um die Varianz der Stichprobe zu berechnen, und die Funktion std(), um die Standardabweichung der Stichprobe zu berechnen:

1234567
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
copy

Berechnungen in höherdimensionalen Arrays

Alle diese Funktionen besitzen einen zweiten Parameter axis. Der Standardwert ist None, was bedeutet, dass die Kennzahl entlang eines abgeflachten Arrays berechnet wird (auch wenn das ursprüngliche Array zwei- oder mehrdimensional ist).

Es ist auch möglich, die genaue Achse anzugeben, entlang der die Kennzahl berechnet werden soll:

12345678
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
copy

Die folgende Abbildung zeigt die Struktur des im Beispiel verwendeten Arrays exam_scores:

Aufgabe

Swipe to start coding

Sie analysieren das Array exam_scores, ein 2D-Array mit simulierten Testergebnissen für 2 Studierende (2 Zeilen) über 5 verschiedene Prüfungen (5 Spalten).

  1. Berechnung des Durchschnittswerts für jede:n Studierende:n durch Angabe des zweiten Schlüsselarguments.
  2. Berechnung des Medians aller Ergebnisse.
  3. Berechnung der Varianz aller Ergebnisse.
  4. Berechnung der Standardabweichung aller Ergebnisse.

Lösung

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 3
single

single

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain how to interpret the results of the mean and median calculations?

What is the difference between variance and standard deviation in practical terms?

How does the axis parameter affect calculations on higher dimensional arrays?

close

Awesome!

Completion rate improved to 3.7

bookStatistische Operationen

Swipe um das Menü anzuzeigen

Das Durchführen verschiedener statistischer Operationen auf Arrays ist entscheidend für die Datenanalyse und das maschinelle Lernen. NumPy stellt Funktionen und Methoden bereit, um diese effektiv auszuführen.

Maße der zentralen Tendenz

Maße der zentralen Tendenz repräsentieren einen zentralen oder repräsentativen Wert innerhalb einer Wahrscheinlichkeitsverteilung. Meistens werden diese Maße jedoch für eine bestimmte Stichprobe berechnet.

Hier sind die zwei wichtigsten Maße:

  • Mittelwert: Die Summe aller Werte geteilt durch die Gesamtanzahl der Werte;
  • Median: Der mittlere Wert in einer sortierten Stichprobe.

NumPy stellt die Funktionen mean() und median() zur Verfügung, um Mittelwert bzw. Median zu berechnen:

12345678
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
copy

Wir haben auch die sortierte Stichprobe angezeigt, damit Sie den Median deutlich erkennen können. Unsere Stichprobe enthält eine ungerade Anzahl von Elementen (7), daher ist der Median einfach das Element an der Stelle (n + 1) / 2 in der sortierten Stichprobe, wobei n die Größe der Stichprobe ist.

Note
Hinweis

Wenn die Stichprobe eine gerade Anzahl von Elementen enthält, ist der Median der Durchschnitt der Elemente an den Indizes n / 2 und n / 2 - 1 in der sortierten Stichprobe.

1234
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
copy

Unsere Stichprobe ist bereits sortiert und enthält 8 Elemente, daher gilt n / 2 - 1 = 3 und sample[3] ist 10. n / 2 = 4 und sample[4] ist 15. Daher ergibt sich der Median als (10 + 15) / 2 = 12.5.

Streuungsmaße

Zwei Streuungsmaße sind Varianz und Standardabweichung. Varianz misst, wie weit die Daten gestreut sind. Sie entspricht dem Durchschnitt der quadrierten Abweichungen jedes Wertes vom Mittelwert.

Die Standardabweichung ist die Quadratwurzel der Varianz. Sie gibt an, wie weit die Daten in denselben Einheiten wie die Daten selbst gestreut sind.

NumPy bietet die Funktion var(), um die Varianz der Stichprobe zu berechnen, und die Funktion std(), um die Standardabweichung der Stichprobe zu berechnen:

1234567
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
copy

Berechnungen in höherdimensionalen Arrays

Alle diese Funktionen besitzen einen zweiten Parameter axis. Der Standardwert ist None, was bedeutet, dass die Kennzahl entlang eines abgeflachten Arrays berechnet wird (auch wenn das ursprüngliche Array zwei- oder mehrdimensional ist).

Es ist auch möglich, die genaue Achse anzugeben, entlang der die Kennzahl berechnet werden soll:

12345678
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
copy

Die folgende Abbildung zeigt die Struktur des im Beispiel verwendeten Arrays exam_scores:

Aufgabe

Swipe to start coding

Sie analysieren das Array exam_scores, ein 2D-Array mit simulierten Testergebnissen für 2 Studierende (2 Zeilen) über 5 verschiedene Prüfungen (5 Spalten).

  1. Berechnung des Durchschnittswerts für jede:n Studierende:n durch Angabe des zweiten Schlüsselarguments.
  2. Berechnung des Medians aller Ergebnisse.
  3. Berechnung der Varianz aller Ergebnisse.
  4. Berechnung der Standardabweichung aller Ergebnisse.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 3
single

single

some-alt