Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Impara Comprendere il Campionamento | Probabilità e Statistica
Matematica per la Data Science

bookComprendere il Campionamento

Note
Definizione

Campionamento è il processo di selezione di un sottoinsieme di dati da una popolazione più ampia per ottenere informazioni e fare inferenze sull'intero insieme. Poiché spesso è impraticabile o impossibile raccogliere dati da un'intera popolazione, il campionamento consente un'analisi efficiente mantenendo la qualità e l'accuratezza dei risultati.

Campionamento casuale semplice

Ogni membro della popolazione ha la stessa probabilità di essere selezionato.
Questo è simile all'estrazione di nomi da un cappello.

P(Selezionare un individuo qualsiasi)=1NP(\text{Selezionare un individuo qualsiasi}) = \frac{1}{N}

Dove:

  • NN = dimensione della popolazione.

Esempio 1:

Hai una classe di 30 studenti. Vuoi selezionarne casualmente 5 per un sondaggio.

Soluzione: Utilizza un generatore di numeri casuali per selezionare 5 numeri unici tra 1 e 30. Ogni studente ha una probabilità di 130\tfrac{\raisebox{1pt}{$1$}}{\raisebox{-1pt}{$30$}} di essere selezionato.

Esempio 2:

Hai una classe di 30 studenti e vuoi selezionarne 5 per partecipare a un sondaggio.

  • Popolazione totale: N=30N=30;
  • Dimensione del campione: n=5n=5.

Qual è la probabilità che Alice e Bob vengano entrambi selezionati?

Numero totale di modi per scegliere 5 studenti da 30:

(305)\binom{30}{5}

Numero di campioni favorevoli contenenti sia Alice che Bob:
Fissa Alice e Bob — scegli altri 3 tra i restanti 28:

(283)\binom{28}{3}

Quindi la probabilità è:

P=(283)(305)P = \frac{\binom{28}{3}}{\binom{30}{5}}

Campionamento stratificato

La popolazione viene suddivisa in sottogruppi significativi (strati) e vengono estratti campioni casuali da ciascuno.

nh=NhN×nn_h = \frac{N_h}{N} \times n

Dove:

  • NhN_h - dimensione del sottogruppo hh;
  • NN - dimensione totale della popolazione;
  • nn - dimensione totale del campione;
  • nhn_{\raisebox{-1pt}{$h$}} - dimensione del campione dal sottogruppo hh.

Esempio:

Una classe ha 30 studenti: 18 maschi e 12 femmine. Si desidera campionare 10 studenti in modo proporzionale:

  • Dai maschi: 1830×10=6\tfrac{\raisebox{1pt}{$18$}}{\raisebox{-1pt}{$30$}} \times 10 = 6;
  • Dalle femmine: 1230×10=4\tfrac{\raisebox{1pt}{$12$}}{\raisebox{-1pt}{$30$}} \times 10 = 4.

Perché è utile: Garantisce la rappresentanza dei sottogruppi chiave.

Campionamento a grappolo

La popolazione viene suddivisa in gruppi (grappoli) e interi grappoli vengono selezionati casualmente.

c=numero di grappoli da campionarec = \text{numero di grappoli da campionare}

Dove:

  • I grappoli sono gruppi preesistenti (ad esempio, classi, squadre);
  • Si selezionano casualmente interi grappoli, non singoli individui.

Esempio 1:

La tua scuola ha 5 classi. Si desidera un campione di 25 studenti, ma intervistare i singoli individui richiede troppo tempo.

Soluzione: Selezionare casualmente 1 classe (poiché ciascuna ha circa 25 studenti) e intervistare tutti.

Esempio 2:

Un'università ha 20 edifici dormitorio, ciascuno con 50 studenti. Si selezionano casualmente 4 dormitori e si intervistano tutti gli studenti all'interno.

  • Numero di cluster: N=20N=20;
  • Cluster selezionati: n=4n=4;
  • Studenti per dormitorio: M=50M=50;
  • Totale studenti campionati: n×M=200n \times M = 200.

Qual è la probabilità che uno studente specifico (ad esempio, Sarah) sia incluso?
È uguale alla probabilità che il suo dormitorio venga selezionato:

P(Sarah selected)=420=0.2P(\text{Sarah selected}) = \frac{4}{20} = 0.2

Caso complesso:
Se 10 dormitori hanno 30 studenti e 10 ne hanno 70, e si selezionano casualmente 4 dormitori, qual è la dimensione campionaria attesa?

Sia:

  • D30=10D_{30} = 10 dormitori con 30 studenti;
  • D70=10D_{70} = 10 dormitori con 70 studenti.

Dimensione campionaria attesa:

E=1020(4×30)+1020(4×70)=200E = \frac{10}{20} \cdot (4 \times 30) + \frac{10}{20} \cdot (4 \times 70) = 200

Quindi, anche se i cluster differiscono per dimensione, la dimensione campionaria attesa rimane la stessa se i tipi di dormitorio sono bilanciati.

Campionamento sistematico

Selezionare ogni kk-esimo elemento da un elenco.

k=Nnk = \frac{N}{n}

Dove:

  • NN - popolazione totale;
  • nn - dimensione del campione desiderata;
  • kk - intervallo di campionamento.

Esempio:

Un elenco di 1000 clienti. Si desidera un campione di 100. Quindi:

k=1000100=10k = \frac{1000}{100} = 10

Scegliere un punto di partenza casuale (ad esempio, 7), poi selezionare ogni decimo cliente: 7, 17, 27, ecc.

Perché è utile: Facile da implementare e sistematico.

Tutti i Metodi Applicati a un Unico Problema

Impostazione del problema:
Stai studiando la soddisfazione della mensa in una scuola con 300 studenti distribuiti in 10 classi (30 per classe). Vuoi un campione di 30 studenti.

  • Campionamento casuale semplice: scegli casualmente 30 nomi dall'elenco completo;
  • Campionamento stratificato: se il 60% sono ragazzi e il 40% ragazze, campiona 18 ragazzi e 12 ragazze;
  • Campionamento a grappolo: seleziona casualmente 1 classe (30 studenti) e intervista tutti;
  • Campionamento sistematico: scegli ogni decimo studente da un elenco ordinato.

Riepilogo

  • Il campionamento riduce lo sforzo di raccolta dati consentendo la generalizzazione;
  • Il campionamento casuale e stratificato sono i migliori per l'accuratezza;
  • Il campionamento a grappolo è efficiente ma funziona meglio quando i gruppi sono simili;
  • Il campionamento sistematico è semplice e pratico;
  • Il campionamento di convenienza è rischioso e dovrebbe essere evitato quando possibile;
  • Documentare sempre il metodo di campionamento nell'analisi reale.
question mark

Quale metodo garantisce che ogni individuo abbia la stessa probabilità di essere selezionato?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 5

Chieda ad AI

expand

Chieda ad AI

ChatGPT

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain the differences between these sampling methods in more detail?

When should I use each sampling method?

Can you provide more real-world examples for each sampling method?

Awesome!

Completion rate improved to 1.96

bookComprendere il Campionamento

Scorri per mostrare il menu

Note
Definizione

Campionamento è il processo di selezione di un sottoinsieme di dati da una popolazione più ampia per ottenere informazioni e fare inferenze sull'intero insieme. Poiché spesso è impraticabile o impossibile raccogliere dati da un'intera popolazione, il campionamento consente un'analisi efficiente mantenendo la qualità e l'accuratezza dei risultati.

Campionamento casuale semplice

Ogni membro della popolazione ha la stessa probabilità di essere selezionato.
Questo è simile all'estrazione di nomi da un cappello.

P(Selezionare un individuo qualsiasi)=1NP(\text{Selezionare un individuo qualsiasi}) = \frac{1}{N}

Dove:

  • NN = dimensione della popolazione.

Esempio 1:

Hai una classe di 30 studenti. Vuoi selezionarne casualmente 5 per un sondaggio.

Soluzione: Utilizza un generatore di numeri casuali per selezionare 5 numeri unici tra 1 e 30. Ogni studente ha una probabilità di 130\tfrac{\raisebox{1pt}{$1$}}{\raisebox{-1pt}{$30$}} di essere selezionato.

Esempio 2:

Hai una classe di 30 studenti e vuoi selezionarne 5 per partecipare a un sondaggio.

  • Popolazione totale: N=30N=30;
  • Dimensione del campione: n=5n=5.

Qual è la probabilità che Alice e Bob vengano entrambi selezionati?

Numero totale di modi per scegliere 5 studenti da 30:

(305)\binom{30}{5}

Numero di campioni favorevoli contenenti sia Alice che Bob:
Fissa Alice e Bob — scegli altri 3 tra i restanti 28:

(283)\binom{28}{3}

Quindi la probabilità è:

P=(283)(305)P = \frac{\binom{28}{3}}{\binom{30}{5}}

Campionamento stratificato

La popolazione viene suddivisa in sottogruppi significativi (strati) e vengono estratti campioni casuali da ciascuno.

nh=NhN×nn_h = \frac{N_h}{N} \times n

Dove:

  • NhN_h - dimensione del sottogruppo hh;
  • NN - dimensione totale della popolazione;
  • nn - dimensione totale del campione;
  • nhn_{\raisebox{-1pt}{$h$}} - dimensione del campione dal sottogruppo hh.

Esempio:

Una classe ha 30 studenti: 18 maschi e 12 femmine. Si desidera campionare 10 studenti in modo proporzionale:

  • Dai maschi: 1830×10=6\tfrac{\raisebox{1pt}{$18$}}{\raisebox{-1pt}{$30$}} \times 10 = 6;
  • Dalle femmine: 1230×10=4\tfrac{\raisebox{1pt}{$12$}}{\raisebox{-1pt}{$30$}} \times 10 = 4.

Perché è utile: Garantisce la rappresentanza dei sottogruppi chiave.

Campionamento a grappolo

La popolazione viene suddivisa in gruppi (grappoli) e interi grappoli vengono selezionati casualmente.

c=numero di grappoli da campionarec = \text{numero di grappoli da campionare}

Dove:

  • I grappoli sono gruppi preesistenti (ad esempio, classi, squadre);
  • Si selezionano casualmente interi grappoli, non singoli individui.

Esempio 1:

La tua scuola ha 5 classi. Si desidera un campione di 25 studenti, ma intervistare i singoli individui richiede troppo tempo.

Soluzione: Selezionare casualmente 1 classe (poiché ciascuna ha circa 25 studenti) e intervistare tutti.

Esempio 2:

Un'università ha 20 edifici dormitorio, ciascuno con 50 studenti. Si selezionano casualmente 4 dormitori e si intervistano tutti gli studenti all'interno.

  • Numero di cluster: N=20N=20;
  • Cluster selezionati: n=4n=4;
  • Studenti per dormitorio: M=50M=50;
  • Totale studenti campionati: n×M=200n \times M = 200.

Qual è la probabilità che uno studente specifico (ad esempio, Sarah) sia incluso?
È uguale alla probabilità che il suo dormitorio venga selezionato:

P(Sarah selected)=420=0.2P(\text{Sarah selected}) = \frac{4}{20} = 0.2

Caso complesso:
Se 10 dormitori hanno 30 studenti e 10 ne hanno 70, e si selezionano casualmente 4 dormitori, qual è la dimensione campionaria attesa?

Sia:

  • D30=10D_{30} = 10 dormitori con 30 studenti;
  • D70=10D_{70} = 10 dormitori con 70 studenti.

Dimensione campionaria attesa:

E=1020(4×30)+1020(4×70)=200E = \frac{10}{20} \cdot (4 \times 30) + \frac{10}{20} \cdot (4 \times 70) = 200

Quindi, anche se i cluster differiscono per dimensione, la dimensione campionaria attesa rimane la stessa se i tipi di dormitorio sono bilanciati.

Campionamento sistematico

Selezionare ogni kk-esimo elemento da un elenco.

k=Nnk = \frac{N}{n}

Dove:

  • NN - popolazione totale;
  • nn - dimensione del campione desiderata;
  • kk - intervallo di campionamento.

Esempio:

Un elenco di 1000 clienti. Si desidera un campione di 100. Quindi:

k=1000100=10k = \frac{1000}{100} = 10

Scegliere un punto di partenza casuale (ad esempio, 7), poi selezionare ogni decimo cliente: 7, 17, 27, ecc.

Perché è utile: Facile da implementare e sistematico.

Tutti i Metodi Applicati a un Unico Problema

Impostazione del problema:
Stai studiando la soddisfazione della mensa in una scuola con 300 studenti distribuiti in 10 classi (30 per classe). Vuoi un campione di 30 studenti.

  • Campionamento casuale semplice: scegli casualmente 30 nomi dall'elenco completo;
  • Campionamento stratificato: se il 60% sono ragazzi e il 40% ragazze, campiona 18 ragazzi e 12 ragazze;
  • Campionamento a grappolo: seleziona casualmente 1 classe (30 studenti) e intervista tutti;
  • Campionamento sistematico: scegli ogni decimo studente da un elenco ordinato.

Riepilogo

  • Il campionamento riduce lo sforzo di raccolta dati consentendo la generalizzazione;
  • Il campionamento casuale e stratificato sono i migliori per l'accuratezza;
  • Il campionamento a grappolo è efficiente ma funziona meglio quando i gruppi sono simili;
  • Il campionamento sistematico è semplice e pratico;
  • Il campionamento di convenienza è rischioso e dovrebbe essere evitato quando possibile;
  • Documentare sempre il metodo di campionamento nell'analisi reale.
question mark

Quale metodo garantisce che ogni individuo abbia la stessa probabilità di essere selezionato?

Select the correct answer

Tutto è chiaro?

Come possiamo migliorarlo?

Grazie per i tuoi commenti!

Sezione 5. Capitolo 5
some-alt