Tilastolliset Operaatiot
Erilaisten tilastollisten operaatioiden suorittaminen taulukoille on olennainen osa data-analyysiä ja koneoppimista. NumPy tarjoaa funktioita ja metodeja näiden suorittamiseen tehokkaasti.
Keskittymistaipumuksen mittarit
Keskittymistaipumuksen mittarit kuvaavat todennäköisyysjakauman keskimmäistä tai edustavaa arvoa. Useimmiten nämä mittarit lasketaan kuitenkin tietylle otosjoukolle.
Tässä ovat kaksi pääasiallista mittaria:
- Keskiarvo: kaikkien arvojen summa jaettuna arvojen kokonaismäärällä;
- Mediaani: Järjestetyn otoksen keskimmäinen arvo.
NumPy tarjoaa mean()- ja median()-funktiot keskiarvon ja mediaanin laskemiseen:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Näytimme myös lajitellun otoksen, jotta mediaani näkyy selkeästi. Otoksessamme on pariton määrä alkioita (7), joten mediaani on yksinkertaisesti alkio indeksissä (n + 1) / 2 lajitellussa otoksessa, missä n on otoksen koko.
Kun otoksessa on parillinen määrä alkioita, mediaani on keskiarvo alkioista indekseissä n / 2 ja n / 2 - 1 lajitellussa otoksessa.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Otoksemme on jo lajiteltu ja siinä on 8 alkiota, joten n / 2 - 1 = 3 ja sample[3] on 10. n / 2 = 4 ja sample[4] on 15. Näin ollen mediaani on (10 + 15) / 2 = 12.5.
Hajontaluvut
Kaksi hajonnan mittaria ovat varianssi ja keskihajonta. Varianssi mittaa, kuinka hajallaan data on. Se on arvojen keskiarvosta laskettujen neliöityjen poikkeamien keskiarvo.
Keskihajonta on varianssin neliöjuuri. Se ilmaisee hajonnan samassa yksikössä kuin data.
NumPy-kirjastossa on var()-funktio otoksen varianssin laskemiseen ja std()-funktio otoksen keskihajonnan laskemiseen:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Laskutoimitukset korkeamman ulottuvuuden taulukoissa
Kaikilla näillä funktioilla on toinen parametri axis. Sen oletusarvo on None, mikä tarkoittaa, että mitta lasketaan litistetyn taulukon yli (vaikka alkuperäinen taulukko olisi 2D tai moniulotteinen).
Voit myös määrittää tarkan akselin, jonka suhteen mitta lasketaan:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
Alla oleva kuva esittää tehtävässä käytetyn exam_scores-taulukon rakennetta:
Swipe to start coding
Analysoit exam_scores-taulukkoa, joka on kaksiulotteinen taulukko simuloiduista koetuloksista 2 opiskelijalle (2 riviä) 5 eri kokeessa (5 saraketta).
- Laske jokaisen opiskelijan keskiarvo käyttämällä toista avainsana-argumenttia.
- Laske kaikkien pisteiden mediaani.
- Laske kaikkien pisteiden varianssi.
- Laske kaikkien pisteiden keskihajonta.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.7
Tilastolliset Operaatiot
Pyyhkäise näyttääksesi valikon
Erilaisten tilastollisten operaatioiden suorittaminen taulukoille on olennainen osa data-analyysiä ja koneoppimista. NumPy tarjoaa funktioita ja metodeja näiden suorittamiseen tehokkaasti.
Keskittymistaipumuksen mittarit
Keskittymistaipumuksen mittarit kuvaavat todennäköisyysjakauman keskimmäistä tai edustavaa arvoa. Useimmiten nämä mittarit lasketaan kuitenkin tietylle otosjoukolle.
Tässä ovat kaksi pääasiallista mittaria:
- Keskiarvo: kaikkien arvojen summa jaettuna arvojen kokonaismäärällä;
- Mediaani: Järjestetyn otoksen keskimmäinen arvo.
NumPy tarjoaa mean()- ja median()-funktiot keskiarvon ja mediaanin laskemiseen:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Näytimme myös lajitellun otoksen, jotta mediaani näkyy selkeästi. Otoksessamme on pariton määrä alkioita (7), joten mediaani on yksinkertaisesti alkio indeksissä (n + 1) / 2 lajitellussa otoksessa, missä n on otoksen koko.
Kun otoksessa on parillinen määrä alkioita, mediaani on keskiarvo alkioista indekseissä n / 2 ja n / 2 - 1 lajitellussa otoksessa.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Otoksemme on jo lajiteltu ja siinä on 8 alkiota, joten n / 2 - 1 = 3 ja sample[3] on 10. n / 2 = 4 ja sample[4] on 15. Näin ollen mediaani on (10 + 15) / 2 = 12.5.
Hajontaluvut
Kaksi hajonnan mittaria ovat varianssi ja keskihajonta. Varianssi mittaa, kuinka hajallaan data on. Se on arvojen keskiarvosta laskettujen neliöityjen poikkeamien keskiarvo.
Keskihajonta on varianssin neliöjuuri. Se ilmaisee hajonnan samassa yksikössä kuin data.
NumPy-kirjastossa on var()-funktio otoksen varianssin laskemiseen ja std()-funktio otoksen keskihajonnan laskemiseen:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Laskutoimitukset korkeamman ulottuvuuden taulukoissa
Kaikilla näillä funktioilla on toinen parametri axis. Sen oletusarvo on None, mikä tarkoittaa, että mitta lasketaan litistetyn taulukon yli (vaikka alkuperäinen taulukko olisi 2D tai moniulotteinen).
Voit myös määrittää tarkan akselin, jonka suhteen mitta lasketaan:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
Alla oleva kuva esittää tehtävässä käytetyn exam_scores-taulukon rakennetta:
Swipe to start coding
Analysoit exam_scores-taulukkoa, joka on kaksiulotteinen taulukko simuloiduista koetuloksista 2 opiskelijalle (2 riviä) 5 eri kokeessa (5 saraketta).
- Laske jokaisen opiskelijan keskiarvo käyttämällä toista avainsana-argumenttia.
- Laske kaikkien pisteiden mediaani.
- Laske kaikkien pisteiden varianssi.
- Laske kaikkien pisteiden keskihajonta.
Ratkaisu
Kiitos palautteestasi!
single