Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Розуміння Вибірки | Ймовірність і Статистика
Математика для науки про дані

bookРозуміння Вибірки

Note
Визначення

Вибірка — це процес відбору підмножини даних із більшої сукупності для отримання висновків і формування припущень щодо всієї сукупності. Оскільки часто є недоцільним або неможливим зібрати дані з усієї сукупності, вибірка дозволяє ефективно аналізувати дані, зберігаючи якість і точність результатів.

Проста випадкова вибірка

Кожен елемент сукупності має однакову ймовірність бути обраним.
Це подібно до витягування імен із капелюха.

P(Select any individual)=1NP(\text{Select any individual}) = \frac{1}{N}

Де:

  • NN = population size.

Приклад 1:

У вас є клас із 30 студентів. Потрібно випадково обрати 5 для опитування.

Розв'язок: Використайте генератор випадкових чисел, щоб обрати 5 унікальних чисел від 1 до 30. Кожен студент має 130\tfrac{\raisebox{1pt}{$1$}}{\raisebox{-1pt}{$30$}} ймовірність бути обраним.

Приклад 2:

У вас є клас із 30 студентів, і потрібно обрати 5 для участі в опитуванні.

  • Загальна сукупність: N=30N=30;
  • Розмір вибірки: n=5n=5.

Яка ймовірність того, що і Аліса, і Боб будуть обрані?

Загальна кількість способів обрати 5 студентів із 30:

(305)\binom{30}{5}

Кількість сприятливих вибірок, що містять і Алісу, і Боба:
Фіксуємо Алісу та Боба — обираємо ще 3 з решти 28:

(283)\binom{28}{3}

Отже, ймовірність:

P=(283)(305)P = \frac{\binom{28}{3}}{\binom{30}{5}}

Стратифікована вибірка

Сукупність поділяється на значущі підгрупи (страти), і з кожної випадково відбираються елементи.

nh=NhN×nn_h = \frac{N_h}{N} \times n

Де:

  • NhN_h — розмір підгрупи hh;
  • NN — загальний розмір сукупності;
  • nn — загальний розмір вибірки;
  • nhn_{\raisebox{-1pt}{$h$}} — розмір вибірки з підгрупи hh.

Приклад:

У класі 30 студентів: 18 хлопців і 12 дівчат. Потрібно пропорційно відібрати 10 студентів:

  • Серед хлопців: 1830×10=6\tfrac{\raisebox{1pt}{$18$}}{\raisebox{-1pt}{$30$}} \times 10 = 6;
  • Серед дівчат: 1230×10=4\tfrac{\raisebox{1pt}{$12$}}{\raisebox{-1pt}{$30$}} \times 10 = 4.

Перевага: Забезпечує представлення ключових підгруп.

Кластерна вибірка

Сукупність розбивається на групи (кластери), і випадково обираються цілі кластери.

c=кількість кластерів для вибіркиc = \text{кількість кластерів для вибірки}

Де:

  • Кластери — це вже існуючі групи (наприклад, класи, команди);
  • Випадково обираються цілі кластери, а не окремі особи.

Приклад 1:

У вашій школі є 5 класів. Потрібна вибірка з 25 учнів, але опитування кожного окремо займає надто багато часу.

Рішення: Випадково оберіть 1 клас (оскільки в кожному приблизно 25 учнів) і опитайте всіх у ньому.

Приклад 2:

В університеті є 20 гуртожитків, у кожному проживає 50 студентів. Ви випадково обираєте 4 гуртожитки та опитуєте всіх мешканців.

  • Кількість кластерів: N=20N=20;
  • Вибрані кластери: n=4n=4;
  • Студентів у гуртожитку: M=50M=50;
  • Загальна кількість опитаних студентів: n×M=200n \times M = 200.

Яка ймовірність, що конкретний студент (наприклад, Сара) потрапить у вибірку?
Вона дорівнює ймовірності, що її гуртожиток буде обрано:

P(Sarah selected)=420=0.2P(\text{Sarah selected}) = \frac{4}{20} = 0.2

Складний випадок:
Якщо 10 гуртожитків мають по 30 студентів, а 10 — по 70 студентів, і ви випадково обираєте 4 гуртожитки, яким буде очікуваний розмір вибірки?

Позначимо:

  • D30=10D_{30} = 10 гуртожитків по 30 студентів;
  • D70=10D_{70} = 10 гуртожитків по 70 студентів.

Очікуваний розмір вибірки:

E=1020(4×30)+1020(4×70)=200E = \frac{10}{20} \cdot (4 \times 30) + \frac{10}{20} \cdot (4 \times 70) = 200

Отже, навіть якщо кластери різняться за розміром, очікуваний розмір вибірки залишається незмінним, якщо типи гуртожитків збалансовані.

Систематичне вибіркове дослідження

Вибір кожного kk-го елемента зі списку.

k=Nnk = \frac{N}{n}

Де:

  • NN — загальна сукупність;
  • nn — бажаний розмір вибірки;
  • kk — інтервал вибірки.

Приклад:

Список із 1000 клієнтів. Потрібна вибірка зі 100 осіб. Тоді:

k=1000100=10k = \frac{1000}{100} = 10

Виберіть випадкову стартову позицію (наприклад, 7), потім обирайте кожного 10-го клієнта: 7, 17, 27 тощо.

Переваги: Легко реалізувати та систематично.

Усі методи, застосовані до однієї задачі

Постановка задачі:
Ви досліджуєте рівень задоволеності їдальнею у школі з 300 учнями, розподіленими по 10 класах (по 30 учнів у кожному). Потрібно отримати вибірку з 30 учнів.

  • Простий випадковий відбір: випадковим чином обираються 30 імен зі списку всіх учнів;
  • Стратифікований відбір: якщо 60% хлопців і 40% дівчат, відбирають 18 хлопців і 12 дівчат;
  • Кластерний відбір: випадковим чином обирається 1 клас (30 учнів) і опитуються всі;
  • Систематичний відбір: обирається кожний 10-й учень зі впорядкованого списку.

Підсумок

  • Вибірка зменшує зусилля на збір даних і дозволяє робити узагальнення;
  • Випадкова та стратифікована вибірка забезпечують найкращу точність;
  • Кластерна вибірка ефективна, але найкраще працює, коли кластери подібні;
  • Систематична вибірка проста й практична;
  • Вибірка за зручністю є ризикованою і її слід уникати, якщо можливо;
  • Завжди документуйте метод вибірки у реальному аналізі.
question mark

Який метод гарантує, що кожна особа має рівну ймовірність бути обраною?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 5

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Awesome!

Completion rate improved to 1.96

bookРозуміння Вибірки

Свайпніть щоб показати меню

Note
Визначення

Вибірка — це процес відбору підмножини даних із більшої сукупності для отримання висновків і формування припущень щодо всієї сукупності. Оскільки часто є недоцільним або неможливим зібрати дані з усієї сукупності, вибірка дозволяє ефективно аналізувати дані, зберігаючи якість і точність результатів.

Проста випадкова вибірка

Кожен елемент сукупності має однакову ймовірність бути обраним.
Це подібно до витягування імен із капелюха.

P(Select any individual)=1NP(\text{Select any individual}) = \frac{1}{N}

Де:

  • NN = population size.

Приклад 1:

У вас є клас із 30 студентів. Потрібно випадково обрати 5 для опитування.

Розв'язок: Використайте генератор випадкових чисел, щоб обрати 5 унікальних чисел від 1 до 30. Кожен студент має 130\tfrac{\raisebox{1pt}{$1$}}{\raisebox{-1pt}{$30$}} ймовірність бути обраним.

Приклад 2:

У вас є клас із 30 студентів, і потрібно обрати 5 для участі в опитуванні.

  • Загальна сукупність: N=30N=30;
  • Розмір вибірки: n=5n=5.

Яка ймовірність того, що і Аліса, і Боб будуть обрані?

Загальна кількість способів обрати 5 студентів із 30:

(305)\binom{30}{5}

Кількість сприятливих вибірок, що містять і Алісу, і Боба:
Фіксуємо Алісу та Боба — обираємо ще 3 з решти 28:

(283)\binom{28}{3}

Отже, ймовірність:

P=(283)(305)P = \frac{\binom{28}{3}}{\binom{30}{5}}

Стратифікована вибірка

Сукупність поділяється на значущі підгрупи (страти), і з кожної випадково відбираються елементи.

nh=NhN×nn_h = \frac{N_h}{N} \times n

Де:

  • NhN_h — розмір підгрупи hh;
  • NN — загальний розмір сукупності;
  • nn — загальний розмір вибірки;
  • nhn_{\raisebox{-1pt}{$h$}} — розмір вибірки з підгрупи hh.

Приклад:

У класі 30 студентів: 18 хлопців і 12 дівчат. Потрібно пропорційно відібрати 10 студентів:

  • Серед хлопців: 1830×10=6\tfrac{\raisebox{1pt}{$18$}}{\raisebox{-1pt}{$30$}} \times 10 = 6;
  • Серед дівчат: 1230×10=4\tfrac{\raisebox{1pt}{$12$}}{\raisebox{-1pt}{$30$}} \times 10 = 4.

Перевага: Забезпечує представлення ключових підгруп.

Кластерна вибірка

Сукупність розбивається на групи (кластери), і випадково обираються цілі кластери.

c=кількість кластерів для вибіркиc = \text{кількість кластерів для вибірки}

Де:

  • Кластери — це вже існуючі групи (наприклад, класи, команди);
  • Випадково обираються цілі кластери, а не окремі особи.

Приклад 1:

У вашій школі є 5 класів. Потрібна вибірка з 25 учнів, але опитування кожного окремо займає надто багато часу.

Рішення: Випадково оберіть 1 клас (оскільки в кожному приблизно 25 учнів) і опитайте всіх у ньому.

Приклад 2:

В університеті є 20 гуртожитків, у кожному проживає 50 студентів. Ви випадково обираєте 4 гуртожитки та опитуєте всіх мешканців.

  • Кількість кластерів: N=20N=20;
  • Вибрані кластери: n=4n=4;
  • Студентів у гуртожитку: M=50M=50;
  • Загальна кількість опитаних студентів: n×M=200n \times M = 200.

Яка ймовірність, що конкретний студент (наприклад, Сара) потрапить у вибірку?
Вона дорівнює ймовірності, що її гуртожиток буде обрано:

P(Sarah selected)=420=0.2P(\text{Sarah selected}) = \frac{4}{20} = 0.2

Складний випадок:
Якщо 10 гуртожитків мають по 30 студентів, а 10 — по 70 студентів, і ви випадково обираєте 4 гуртожитки, яким буде очікуваний розмір вибірки?

Позначимо:

  • D30=10D_{30} = 10 гуртожитків по 30 студентів;
  • D70=10D_{70} = 10 гуртожитків по 70 студентів.

Очікуваний розмір вибірки:

E=1020(4×30)+1020(4×70)=200E = \frac{10}{20} \cdot (4 \times 30) + \frac{10}{20} \cdot (4 \times 70) = 200

Отже, навіть якщо кластери різняться за розміром, очікуваний розмір вибірки залишається незмінним, якщо типи гуртожитків збалансовані.

Систематичне вибіркове дослідження

Вибір кожного kk-го елемента зі списку.

k=Nnk = \frac{N}{n}

Де:

  • NN — загальна сукупність;
  • nn — бажаний розмір вибірки;
  • kk — інтервал вибірки.

Приклад:

Список із 1000 клієнтів. Потрібна вибірка зі 100 осіб. Тоді:

k=1000100=10k = \frac{1000}{100} = 10

Виберіть випадкову стартову позицію (наприклад, 7), потім обирайте кожного 10-го клієнта: 7, 17, 27 тощо.

Переваги: Легко реалізувати та систематично.

Усі методи, застосовані до однієї задачі

Постановка задачі:
Ви досліджуєте рівень задоволеності їдальнею у школі з 300 учнями, розподіленими по 10 класах (по 30 учнів у кожному). Потрібно отримати вибірку з 30 учнів.

  • Простий випадковий відбір: випадковим чином обираються 30 імен зі списку всіх учнів;
  • Стратифікований відбір: якщо 60% хлопців і 40% дівчат, відбирають 18 хлопців і 12 дівчат;
  • Кластерний відбір: випадковим чином обирається 1 клас (30 учнів) і опитуються всі;
  • Систематичний відбір: обирається кожний 10-й учень зі впорядкованого списку.

Підсумок

  • Вибірка зменшує зусилля на збір даних і дозволяє робити узагальнення;
  • Випадкова та стратифікована вибірка забезпечують найкращу точність;
  • Кластерна вибірка ефективна, але найкраще працює, коли кластери подібні;
  • Систематична вибірка проста й практична;
  • Вибірка за зручністю є ризикованою і її слід уникати, якщо можливо;
  • Завжди документуйте метод вибірки у реальному аналізі.
question mark

Який метод гарантує, що кожна особа має рівну ймовірність бути обраною?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 5
some-alt