Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Розуміння Вибірки | Ймовірність і Статистика
Practice
Projects
Quizzes & Challenges
Вікторини
Challenges
/
Математика для науки про дані

bookРозуміння Вибірки

Свайпніть щоб показати меню

Note
Визначення

Вибірка — це процес відбору підмножини даних із більшої сукупності для отримання висновків і формування припущень щодо всієї сукупності. Оскільки часто є недоцільним або неможливим зібрати дані з усієї сукупності, вибірка дозволяє ефективно аналізувати дані, зберігаючи якість і точність результатів.

Проста випадкова вибірка

Кожен елемент сукупності має однакову ймовірність бути обраним.
Це подібно до витягування імен із капелюха.

P(Select any individual)=1NP(\text{Select any individual}) = \frac{1}{N}

Де:

  • NN = population size.

Приклад 1:

У вас є клас із 30 студентів. Потрібно випадково обрати 5 для опитування.

Розв'язок: Використайте генератор випадкових чисел, щоб обрати 5 унікальних чисел від 1 до 30. Кожен студент має 130\tfrac{\raisebox{1pt}{$1$}}{\raisebox{-1pt}{$30$}} ймовірність бути обраним.

Приклад 2:

У вас є клас із 30 студентів, і потрібно обрати 5 для участі в опитуванні.

  • Загальна сукупність: N=30N=30;
  • Розмір вибірки: n=5n=5.

Яка ймовірність того, що і Аліса, і Боб будуть обрані?

Загальна кількість способів обрати 5 студентів із 30:

(305)\binom{30}{5}

Кількість сприятливих вибірок, що містять і Алісу, і Боба:
Фіксуємо Алісу та Боба — обираємо ще 3 з решти 28:

(283)\binom{28}{3}

Отже, ймовірність:

P=(283)(305)P = \frac{\binom{28}{3}}{\binom{30}{5}}

Стратифіковане вибіркове дослідження

Сукупність поділяється на значущі підгрупи (страти), і з кожної випадково відбираються зразки.

nh=NhN×nn_h = \frac{N_h}{N} \times n

Де:

  • NhN_h — розмір підгрупи hh;
  • NN — загальний розмір сукупності;
  • nn — загальний розмір вибірки;
  • nhn_{\raisebox{-1pt}{$h$}} — розмір вибірки з підгрупи hh.

Приклад:

У класі 30 студентів: 18 хлопців і 12 дівчат. Потрібно пропорційно відібрати 10 студентів:

  • Серед хлопців: 1830×10=6\tfrac{\raisebox{1pt}{$18$}}{\raisebox{-1pt}{$30$}} \times 10 = 6;
  • Серед дівчат: 1230×10=4\tfrac{\raisebox{1pt}{$12$}}{\raisebox{-1pt}{$30$}} \times 10 = 4.

Перевага: Забезпечує представлення ключових підгруп.

Кластерне вибіркове дослідження

Сукупність розбивається на групи (кластери), і випадково обираються цілі кластери.

c=кількість кластерів для вибіркиc = \text{кількість кластерів для вибірки}

Де:

  • Кластери — це вже існуючі групи (наприклад, класи, команди);
  • Випадково обираються цілі кластери, а не окремі особи.

Приклад 1:

У вашій школі є 5 класних кімнат. Потрібна вибірка з 25 учнів, але опитування кожного окремо займає надто багато часу.

Рішення: Випадковим чином оберіть 1 клас (оскільки в кожному приблизно 25 учнів) і опитайте всіх у ньому.

Приклад 2:

В університеті є 20 гуртожитків, у кожному проживає 50 студентів. Випадковим чином обираються 4 гуртожитки, і опитуються всі мешканці.

  • Кількість кластерів: N=20N=20;
  • Вибрані кластери: n=4n=4;
  • Студентів у гуртожитку: M=50M=50;
  • Загальна кількість опитаних студентів: n×M=200n \times M = 200.

Яка ймовірність того, що конкретний студент (наприклад, Сара) буде включений?
Вона дорівнює ймовірності того, що її гуртожиток буде обрано:

P(Sarah selected)=420=0.2P(\text{Sarah selected}) = \frac{4}{20} = 0.2

Складний випадок:
Якщо 10 гуртожитків мають по 30 студентів, а 10 — по 70 студентів, і випадково обираються 4 гуртожитки, яким буде очікуваний розмір вибірки?

Позначимо:

  • D30=10D_{30} = 10 гуртожитків по 30 студентів;
  • D70=10D_{70} = 10 гуртожитків по 70 студентів.

Очікуваний розмір вибірки:

E=1020(4×30)+1020(4×70)=200E = \frac{10}{20} \cdot (4 \times 30) + \frac{10}{20} \cdot (4 \times 70) = 200

Отже, навіть якщо кластери різного розміру, очікуваний розмір вибірки залишається незмінним, якщо типи гуртожитків збалансовані.

Систематичне вибіркове дослідження

Вибір кожного kk-го елемента зі списку.

k=Nnk = \frac{N}{n}

Де:

  • NN — загальна сукупність;
  • nn — бажаний розмір вибірки;
  • kk — інтервал вибірки.

Приклад:

Список із 1000 клієнтів. Потрібна вибірка зі 100 осіб. Тоді:

k=1000100=10k = \frac{1000}{100} = 10

Виберіть випадкову стартову точку (наприклад, 7), потім обирайте кожного 10-го клієнта: 7, 17, 27 тощо.

Переваги: Легко реалізується та є систематичним.

Усі методи, застосовані до однієї задачі

Постановка задачі:
Ви досліджуєте задоволеність їдальнею у школі з 300 учнями, розподіленими по 10 класах (по 30 у кожному). Потрібно отримати вибірку з 30 учнів.

  • Простий випадковий відбір: випадковим чином оберіть 30 імен зі всього списку;
  • Стратифікований відбір: якщо 60% хлопців і 40% дівчат, відібрати 18 хлопців і 12 дівчат;
  • Кластерний відбір: випадково оберіть 1 клас (30 учнів) і опитайте всіх;
  • Систематичний відбір: обирайте кожного 10-го учня зі впорядкованого списку.

Підсумок

  • Вибірка зменшує зусилля на збір даних і дозволяє робити узагальнення;
  • Випадкова та стратифікована вибірка забезпечують найкращу точність;
  • Кластерна вибірка ефективна, але найкраще працює, коли кластери подібні;
  • Систематична вибірка проста й практична;
  • Вибірка за зручністю є ризикованою і її слід уникати, якщо можливо;
  • Завжди документуйте метод вибірки у реальному аналізі.
question mark

Який метод гарантує, що кожна особа має рівний шанс бути обраною?

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 5. Розділ 5

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

Секція 5. Розділ 5
some-alt