Oppiskele Tilastolliset Operaatiot | Laskenta Numpyn Avulla

Erilaisten tilastollisten operaatioiden suorittaminen taulukoille on olennainen osa data-analyysiä ja koneoppimista. NumPy tarjoaa funktioita ja metodeja näiden suorittamiseen tehokkaasti.

Keskittymistaipumuksen mittarit

Keskittymistaipumuksen mittarit kuvaavat todennäköisyysjakauman keskimmäistä tai edustavaa arvoa. Useimmiten nämä mittarit lasketaan kuitenkin tietylle otosjoukolle.

Tässä ovat kaksi pääasiallista mittaria:

Keskiarvo: kaikkien arvojen summa jaettuna arvojen kokonaismäärällä;
Mediaani: Järjestetyn otoksen keskimmäinen arvo.

NumPy tarjoaa mean()- ja median()-funktiot keskiarvon ja mediaanin laskemiseen:


              12345678
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the mean
sample_mean = np.mean(sample)
print(f'Sorted sample: {np.sort(sample)}')
# Calculating the median
sample_median = np.median(sample)
print(f'Mean: {sample_mean}, median: {sample_median}')

Näytimme myös lajitellun otoksen, jotta mediaani näkyy selkeästi. Otoksessamme on pariton määrä alkioita (7), joten mediaani on yksinkertaisesti alkio indeksissä (n + 1) / 2 lajitellussa otoksessa, missä n on otoksen koko.

Huomio

Kun otoksessa on parillinen määrä alkioita, mediaani on keskiarvo alkioista indekseissä n / 2 ja n / 2 - 1 lajitellussa otoksessa.


              1234
            
import numpy as np
sample = np.array([1, 2, 8, 10, 15, 20, 25, 30])
sample_median = np.median(sample)
print(f'Median: {sample_median}')

Otoksemme on jo lajiteltu ja siinä on 8 alkiota, joten n / 2 - 1 = 3 ja sample[3] on 10. n / 2 = 4 ja sample[4] on 15. Näin ollen mediaani on (10 + 15) / 2 = 12.5.

Hajontaluvut

Kaksi hajonnan mittaria ovat varianssi ja keskihajonta. Varianssi mittaa, kuinka hajallaan data on. Se on arvojen keskiarvosta laskettujen neliöityjen poikkeamien keskiarvo.

Keskihajonta on varianssin neliöjuuri. Se ilmaisee hajonnan samassa yksikössä kuin data.

NumPy-kirjastossa on var()-funktio otoksen varianssin laskemiseen ja std()-funktio otoksen keskihajonnan laskemiseen:


              1234567
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the variance
sample_variance = np.var(sample)
# Calculating the standard deviation
sample_std = np.std(sample)
print(f'Variance: {sample_variance}, standard deviation: {sample_std}')

Laskutoimitukset korkeamman ulottuvuuden taulukoissa

Kaikilla näillä funktioilla on toinen parametri axis. Sen oletusarvo on None, mikä tarkoittaa, että mitta lasketaan litistetyn taulukon yli (vaikka alkuperäinen taulukko olisi 2D tai moniulotteinen).

Voit myös määrittää tarkan akselin, jonka suhteen mitta lasketaan:


              12345678
            
import numpy as np
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
# Calculating the mean in a flattened array
print(np.mean(array_2d))
# Calculating the mean along axis 0
print(np.mean(array_2d, axis=0))
# Calculating the mean along axis 1
print(np.mean(array_2d, axis=1))

Alla oleva kuva esittää tehtävässä käytetyn exam_scores-taulukon rakennetta:

Tehtävä

Swipe to start coding

Analysoit exam_scores-taulukkoa, joka on kaksiulotteinen taulukko simuloiduista koetuloksista 2 opiskelijalle (2 riviä) 5 eri kokeessa (5 saraketta).

Laske jokaisen opiskelijan keskiarvo käyttämällä toista avainsana-argumenttia.
Laske kaikkien pisteiden mediaani.
Laske kaikkien pisteiden varianssi.
Laske kaikkien pisteiden keskihajonta.

Ratkaisu

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 4. Luku 3

single

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how to interpret the results of the mean and median calculations?

What is the difference between variance and standard deviation in practical terms?

How does the axis parameter affect calculations on higher dimensional arrays?

Pyyhkäise näyttääksesi valikon