Statistische Operationen
Das Durchführen verschiedener statistischer Operationen auf Arrays ist entscheidend für die Datenanalyse und das maschinelle Lernen. NumPy stellt Funktionen und Methoden bereit, um diese effektiv auszuführen.
Maße der zentralen Tendenz
Maße der zentralen Tendenz repräsentieren einen zentralen oder repräsentativen Wert innerhalb einer Wahrscheinlichkeitsverteilung. Meistens werden diese Maße jedoch für eine bestimmte Stichprobe berechnet.
Hier sind die zwei wichtigsten Maße:
- Mittelwert: Die Summe aller Werte geteilt durch die Gesamtanzahl der Werte;
- Median: Der mittlere Wert in einer sortierten Stichprobe.
NumPy stellt die Funktionen mean() und median() zur Verfügung, um Mittelwert bzw. Median zu berechnen:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Wir haben auch die sortierte Stichprobe angezeigt, damit Sie den Median deutlich erkennen können. Unsere Stichprobe enthält eine ungerade Anzahl von Elementen (7), daher ist der Median einfach das Element an der Stelle (n + 1) / 2 in der sortierten Stichprobe, wobei n die Größe der Stichprobe ist.
Wenn die Stichprobe eine gerade Anzahl von Elementen enthält, ist der Median der Durchschnitt der Elemente an den Indizes n / 2 und n / 2 - 1 in der sortierten Stichprobe.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Unsere Stichprobe ist bereits sortiert und enthält 8 Elemente, daher gilt n / 2 - 1 = 3 und sample[3] ist 10. n / 2 = 4 und sample[4] ist 15. Daher ergibt sich der Median als (10 + 15) / 2 = 12.5.
Streuungsmaße
Zwei Streuungsmaße sind Varianz und Standardabweichung. Varianz misst, wie weit die Daten gestreut sind. Sie entspricht dem Durchschnitt der quadrierten Abweichungen jedes Wertes vom Mittelwert.
Die Standardabweichung ist die Quadratwurzel der Varianz. Sie gibt an, wie weit die Daten in denselben Einheiten wie die Daten selbst gestreut sind.
NumPy bietet die Funktion var(), um die Varianz der Stichprobe zu berechnen, und die Funktion std(), um die Standardabweichung der Stichprobe zu berechnen:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Berechnungen in höherdimensionalen Arrays
Alle diese Funktionen besitzen einen zweiten Parameter axis. Der Standardwert ist None, was bedeutet, dass die Kennzahl entlang eines abgeflachten Arrays berechnet wird (auch wenn das ursprüngliche Array zwei- oder mehrdimensional ist).
Es ist auch möglich, die genaue Achse anzugeben, entlang der die Kennzahl berechnet werden soll:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
Die folgende Abbildung zeigt die Struktur des im Beispiel verwendeten Arrays exam_scores:
Swipe to start coding
Sie analysieren das Array exam_scores, ein 2D-Array mit simulierten Testergebnissen für 2 Studierende (2 Zeilen) über 5 verschiedene Prüfungen (5 Spalten).
- Berechnung des Durchschnittswerts für jede:n Studierende:n durch Angabe des zweiten Schlüsselarguments.
- Berechnung des Medians aller Ergebnisse.
- Berechnung der Varianz aller Ergebnisse.
- Berechnung der Standardabweichung aller Ergebnisse.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain how to interpret the results of the mean and median calculations?
What is the difference between variance and standard deviation in practical terms?
How does the axis parameter affect calculations on higher dimensional arrays?
Awesome!
Completion rate improved to 3.7
Statistische Operationen
Swipe um das Menü anzuzeigen
Das Durchführen verschiedener statistischer Operationen auf Arrays ist entscheidend für die Datenanalyse und das maschinelle Lernen. NumPy stellt Funktionen und Methoden bereit, um diese effektiv auszuführen.
Maße der zentralen Tendenz
Maße der zentralen Tendenz repräsentieren einen zentralen oder repräsentativen Wert innerhalb einer Wahrscheinlichkeitsverteilung. Meistens werden diese Maße jedoch für eine bestimmte Stichprobe berechnet.
Hier sind die zwei wichtigsten Maße:
- Mittelwert: Die Summe aller Werte geteilt durch die Gesamtanzahl der Werte;
- Median: Der mittlere Wert in einer sortierten Stichprobe.
NumPy stellt die Funktionen mean() und median() zur Verfügung, um Mittelwert bzw. Median zu berechnen:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Wir haben auch die sortierte Stichprobe angezeigt, damit Sie den Median deutlich erkennen können. Unsere Stichprobe enthält eine ungerade Anzahl von Elementen (7), daher ist der Median einfach das Element an der Stelle (n + 1) / 2 in der sortierten Stichprobe, wobei n die Größe der Stichprobe ist.
Wenn die Stichprobe eine gerade Anzahl von Elementen enthält, ist der Median der Durchschnitt der Elemente an den Indizes n / 2 und n / 2 - 1 in der sortierten Stichprobe.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Unsere Stichprobe ist bereits sortiert und enthält 8 Elemente, daher gilt n / 2 - 1 = 3 und sample[3] ist 10. n / 2 = 4 und sample[4] ist 15. Daher ergibt sich der Median als (10 + 15) / 2 = 12.5.
Streuungsmaße
Zwei Streuungsmaße sind Varianz und Standardabweichung. Varianz misst, wie weit die Daten gestreut sind. Sie entspricht dem Durchschnitt der quadrierten Abweichungen jedes Wertes vom Mittelwert.
Die Standardabweichung ist die Quadratwurzel der Varianz. Sie gibt an, wie weit die Daten in denselben Einheiten wie die Daten selbst gestreut sind.
NumPy bietet die Funktion var(), um die Varianz der Stichprobe zu berechnen, und die Funktion std(), um die Standardabweichung der Stichprobe zu berechnen:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Berechnungen in höherdimensionalen Arrays
Alle diese Funktionen besitzen einen zweiten Parameter axis. Der Standardwert ist None, was bedeutet, dass die Kennzahl entlang eines abgeflachten Arrays berechnet wird (auch wenn das ursprüngliche Array zwei- oder mehrdimensional ist).
Es ist auch möglich, die genaue Achse anzugeben, entlang der die Kennzahl berechnet werden soll:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
Die folgende Abbildung zeigt die Struktur des im Beispiel verwendeten Arrays exam_scores:
Swipe to start coding
Sie analysieren das Array exam_scores, ein 2D-Array mit simulierten Testergebnissen für 2 Studierende (2 Zeilen) über 5 verschiedene Prüfungen (5 Spalten).
- Berechnung des Durchschnittswerts für jede:n Studierende:n durch Angabe des zweiten Schlüsselarguments.
- Berechnung des Medians aller Ergebnisse.
- Berechnung der Varianz aller Ergebnisse.
- Berechnung der Standardabweichung aller Ergebnisse.
Lösung
Danke für Ihr Feedback!
single