Statistische Bewerkingen
Het uitvoeren van diverse statistische bewerkingen op arrays is essentieel voor data-analyse en machine learning. NumPy biedt functies en methoden om deze effectief uit te voeren.
Maten van Centrale Tendens
Maten van centrale tendens geven een centrale of representatieve waarde binnen een kansverdeling weer. Meestal worden deze maten echter berekend voor een bepaalde steekproef.
Hier zijn de twee belangrijkste maten:
- Gemiddelde: de som van alle waarden gedeeld door het totale aantal waarden;
- Mediaan: De middelste waarde in een gesorteerde steekproef.
NumPy biedt de functies mean() en median() voor het berekenen van respectievelijk het gemiddelde en de mediaan:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
We hebben ook het gesorteerde steekproef weergegeven zodat je duidelijk de mediaan kunt zien. Onze steekproef bevat een oneven aantal elementen (7), dus de mediaan is eenvoudigweg het element op index (n + 1) / 2 in de gesorteerde steekproef, waarbij n de grootte van de steekproef is.
Wanneer de steekproef een even aantal elementen bevat, is de mediaan het gemiddelde van de elementen op index n / 2 en n / 2 - 1 in de gesorteerde steekproef.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Onze steekproef is al gesorteerd en bevat 8 elementen, dus n / 2 - 1 = 3 en sample[3] is 10. n / 2 = 4 en sample[4] is 15. Daarom is onze mediaan (10 + 15) / 2 = 12.5.
Spreidingsmaten
Twee spreidingsmaten zijn variantie en standaarddeviatie. Variantie meet hoe verspreid de gegevens zijn. Dit is gelijk aan het gemiddelde van de kwadratische afwijkingen van elke waarde ten opzichte van het gemiddelde.
Standaarddeviatie is de vierkantswortel van de variantie. Het geeft een maat voor de spreiding van de gegevens in dezelfde eenheden als de gegevens.
NumPy heeft de functie var() om de variantie van de steekproef te berekenen en de functie std() om de standaarddeviatie van de steekproef te berekenen:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Berekeningen in Hogere Dimensionale Arrays
Al deze functies hebben een tweede parameter axis. De standaardwaarde hiervan is None, wat betekent dat de maat wordt berekend over een afgevlakte array (zelfs als de oorspronkelijke array 2D of hoger dimensionaal is).
Je kunt ook de exacte as specificeren waarlangs de maat wordt berekend:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
De onderstaande afbeelding toont de structuur van de array exam_scores die in de opdracht wordt gebruikt:
Swipe to start coding
Je analyseert de array exam_scores, een 2D-array met gesimuleerde toetsresultaten voor 2 studenten (2 rijen) over 5 verschillende examens (5 kolommen).
- Bereken de gemiddelde score voor elke student door het tweede sleutelargument op te geven.
- Bereken de mediaan van alle scores.
- Bereken de variantie van alle scores.
- Bereken de standaarddeviatie van alle scores.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.7
Statistische Bewerkingen
Veeg om het menu te tonen
Het uitvoeren van diverse statistische bewerkingen op arrays is essentieel voor data-analyse en machine learning. NumPy biedt functies en methoden om deze effectief uit te voeren.
Maten van Centrale Tendens
Maten van centrale tendens geven een centrale of representatieve waarde binnen een kansverdeling weer. Meestal worden deze maten echter berekend voor een bepaalde steekproef.
Hier zijn de twee belangrijkste maten:
- Gemiddelde: de som van alle waarden gedeeld door het totale aantal waarden;
- Mediaan: De middelste waarde in een gesorteerde steekproef.
NumPy biedt de functies mean() en median() voor het berekenen van respectievelijk het gemiddelde en de mediaan:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
We hebben ook het gesorteerde steekproef weergegeven zodat je duidelijk de mediaan kunt zien. Onze steekproef bevat een oneven aantal elementen (7), dus de mediaan is eenvoudigweg het element op index (n + 1) / 2 in de gesorteerde steekproef, waarbij n de grootte van de steekproef is.
Wanneer de steekproef een even aantal elementen bevat, is de mediaan het gemiddelde van de elementen op index n / 2 en n / 2 - 1 in de gesorteerde steekproef.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Onze steekproef is al gesorteerd en bevat 8 elementen, dus n / 2 - 1 = 3 en sample[3] is 10. n / 2 = 4 en sample[4] is 15. Daarom is onze mediaan (10 + 15) / 2 = 12.5.
Spreidingsmaten
Twee spreidingsmaten zijn variantie en standaarddeviatie. Variantie meet hoe verspreid de gegevens zijn. Dit is gelijk aan het gemiddelde van de kwadratische afwijkingen van elke waarde ten opzichte van het gemiddelde.
Standaarddeviatie is de vierkantswortel van de variantie. Het geeft een maat voor de spreiding van de gegevens in dezelfde eenheden als de gegevens.
NumPy heeft de functie var() om de variantie van de steekproef te berekenen en de functie std() om de standaarddeviatie van de steekproef te berekenen:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Berekeningen in Hogere Dimensionale Arrays
Al deze functies hebben een tweede parameter axis. De standaardwaarde hiervan is None, wat betekent dat de maat wordt berekend over een afgevlakte array (zelfs als de oorspronkelijke array 2D of hoger dimensionaal is).
Je kunt ook de exacte as specificeren waarlangs de maat wordt berekend:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
De onderstaande afbeelding toont de structuur van de array exam_scores die in de opdracht wordt gebruikt:
Swipe to start coding
Je analyseert de array exam_scores, een 2D-array met gesimuleerde toetsresultaten voor 2 studenten (2 rijen) over 5 verschillende examens (5 kolommen).
- Bereken de gemiddelde score voor elke student door het tweede sleutelargument op te geven.
- Bereken de mediaan van alle scores.
- Bereken de variantie van alle scores.
- Bereken de standaarddeviatie van alle scores.
Oplossing
Bedankt voor je feedback!
single