Визначення розмірів вибірки
Визначення розмірів вибірки — це процес вибору числа спостережень або повторюваностей з метою включення його у статистичну вибірку. Розмір вибірки є важливою характеристикою будь-якого емпіричного дослідження, мета якого полягає в тому, щоб зробити логічний висновок щодо популяції виходячи з результатів вибірки. На практиці розмір вибірки, що використовується у дослідженні, визначається на основі витрат на збір даних та необхідності мати достатню статистичну потужність. У складних дослідженнях може бути кілька різних розмірів вибірки, що використовуються у дослідженні: наприклад, у стратифікованому опитуванні були б різні розміри вибірки для кожного шару. При проведенні перепису дані збираються по всьому населенню, отже, розмір вибірки дорівнює розміру населення. В експериментальному проекті, де дослідження може бути розділене на різні експериментальні групи, для кожної окремої групи може існувати свій розмір вибірки.
Розміри вибірки можна обрати декількома різними способами:
- Досвід — наприклад, включати легко доступні або зручні у збиранні елементи. Добір вибірок невеликого розміру, хоча іноді це необхідно, може призвести до широких довірчих інтервалів або ризиків помилитися у перевірці статистичних гіпотез.
- Використовувати цільову дисперсію для оцінки, яка походить із отриманої зрештою вибірки.
- Використовувати ціль для потужності статистичного дослідження, яка повинна застосовуватися після того, як вибірка зібрана.
- Використовувати рівень достовірності, що визначає, наскільки точний результат вийде з більш низькими шансами похибки.
Введення
Великі розміри вибірки, як правило, призводять до збільшення точності при оцінці невідомих параметрів. Наприклад, якби ми хотіли з'ясувати частку деяких видів риб, які інфіковані патогенним мікроорганізмом, ми, як правило, мали б більш точну оцінку цієї частки, якщо б підібрали і дослідили 200, а не 100 риб. Кілька фундаментальних фактів математичної статистики можуть описати це явище, в тому числі закон великих чисел і центральної граничної теореми.
У деяких ситуаціях, підвищення точності для великих розмірів вибірки мінімальне або навіть не існує. Це може бути результатом наявності систематичних помилок або сильної залежності від даних, або якщо дані слідують розподілу з повільно спадаючим «хвостом».
Розміри вибірки оцінюються на підставі якості одержуваних оцінок. Наприклад, якщо частка в даний час оцінюється, людина, можливо, забажає, аби 95 % довірчий інтервал (довірчий інтервал для довірчої ймовірності 0,95) був менше, ніж 0,06 одиниць в ширину. Як альтернатива, розмір вибірки може бути визначений на основі потужності критерію для перевірки гіпотези. Наприклад, якщо ми порівняємо підтримку певного політичного кандидата серед жінок з підтримкою цього ж кандидата серед чоловіків, ми, можливо, хотіли б мати 80 % потужності, аби виявити в рівнях підтримки різницю у 0,04 одиниць.
Оцінка
Досить простою ситуацією є оцінка частки. Наприклад, ми хочемо оцінити частку жителів у громаді, яким хоча б 65 років.
Формула оцінки частки: , де X являє собою число «позитивних» спостережень (тобто, кількість людей із n вибраних людей, яким хоча б 65 років). Коли спостереження незалежні, то ця формула має (масштабний) біноміальний розподіл (і є також вибірковим середнім даних із розподілу Бернуллі). Максимальне відхилення цього розподілу становить 0,25/n, яке виникає, коли істинний параметр p = 0,5. На практиці, коли p невідоме, максимальне відхилення часто використовується для оцінки розміру вибірки.
При досить великому n розподіл буде дуже близьким за значенням до нормального розподілу. Використовуючи це наближення, можна показати, що близько 95 % ймовірностей цього розподілу лежить в межах 2-х стандартних відхилень від середнього значення. Використовуючи метод Wald для біноміального розподілу, інтервал виду:
формуватиме 95 % довірчий інтервал для істинної частки. Якщо цей інтервал повинен бути не більше, ніж W одиниці в ширину, рівняння:
може бути вирішене при n, що дає n = 4/W2 = 1/B2 , де B — похибка межі оцінки, тобто оцінка зазвичай дається в межах ± B. Таким чином, при B = 10 % вимагається n = 100, при B = 5 % потрібно n = 400, при B = 3 % вимога наближається до n= 1000, в той час як при B = 1 % потрібен розмір вибірки у n = 10000. Ці цифри часто цитуються у випусках новин щодо опитувань громадської думки та інших вибіркових вимірах.
Засоби
Частка є окремим питанням середнього значення. При оцінці середньої чисельності населення з використанням незалежного і однаково розподіленого (НОР) розміру n, де кожне значення даних має дисперсію σ2, стандартна похибка середнього значення вибірки є:
Цей вираз кількісно описує, що оцінка стає точнішою пропорційно з тим, як збільшується розмір вибірки. Використовуючи центральну граничну теорему, щоб виправдати приблизне вибіркове середнє з нормальним розподілом дає приблизний 95 % довірчий інтервал виду:
Якщо ми хочемо мати довірчий інтервал, який W одиниць в ширину, ми вирішимо
для n, яке видає розмір вибірки n = 16σ2/W2.
Наприклад, якщо ми зацікавлені в оцінці кількості, за якою препарат знижує кров'яний тиск суб'єкта з довірчим інтервалом у шість одиниць шириною, і ми знаємо, що стандартне відхилення артеріального тиску в населення становить 15, то шуканий розмір вибірки є 100.
Необхідні розміри вибірки для перевірки гіпотез
Загальною проблемою, що стоїть перед статистиками, є обчислювання розміру вибірки, необхідної для отримання певної потужності у випробуванні, враховуючи задану похибку першого роду α. Отже, це можна оцінити за допомогою заздалегідь визначених таблиць для певних значень за рівнянням ресурсу Міда або, в більш загальному плані, за допомогою кумулятивної функції розподілу:
Таблиці
Потужність | d Коена | ||
---|---|---|---|
0.2 | 0.5 | 0.8 | |
0.25 | 84 | 14 | 6 |
0.50 | 193 | 32 | 13 |
0.60 | 246 | 40 | 16 |
0.70 | 310 | 50 | 20 |
0.80 | 393 | 64 | 26 |
0.90 | 526 | 85 | 34 |
0.95 | 651 | 105 | 42 |
0.99 | 920 | 148 | 58 |
Таблиця показана праворуч може бути використана у двовибіркових критеріях Ст'юдента для оцінки розмірів вибірки з експериментальної групи і контрольної групи, які мають однаковий розмір, тобто, загальне число особин у випробуванні вдвічі більше, числа даних, і бажаний рівень значущості дорівнює 0,05. Параметри, що використовуються, є:
- Потрібна статистична потужність випробування показана в колонці зліва.
- d Коена (= розмір ефекту), що є очікуваною різницею між середніми значеннями цільових значень між експериментальною групою та контрольною групою, розділена на очікуване стандартне відхилення.
Рівняння ресурсу Міда
Рівняння ресурсу Міда часто використовується для оцінки розмірів вибірки з лабораторних тварин, а також у багатьох інших лабораторних експериментах. Результат може бути не настільки точним, як при використанні інших методів в оцінці розміру вибірки, але він дає підказку, який розмір вибірки є доречним, якщо такі параметри як очікувані стандартні відхилення або очікувані відмінності в значеннях між групами є невідомими або їх дуже важко оцінити.
Всі параметри у рівнянні є, фактично, ступенями свободи числа їх понять, і, отже, від їх числа віднімається 1 перед введенням у рівняння.
Рівняння має вигляд:
де:
- N — загальне число осіб або підрозділів в дослідженні (мінус 1)
- B — компонент блокування, відображає вплив на навколишнє середовище, дозволений при проектуванні (мінус 1)
- T — компонент експерименту, що відповідає числу експериментальних груп (в тому числі контрольна група), які використовуються, або кількості питань, що задаються (мінус 1)
- E — ступінь свободи компонента похибки, і повинен бути приблизно між 10 і 20.
Наприклад, якщо дослідження з використанням лабораторних тварин планується з чотирма експериментальними групами (T = 3), з вісьмома тваринами на групу, тобто 32 тварин (N = 31), без будь-якої подальшої стратифікації (B = 0), то E буде дорівнювати 28, що є більше за відсічення 20, що вказує, що розмір вибірки може бути занадто великим, і шість тварин на кожну групу може бути достатньо та більш доречно.[1]
Інтегральна функція розподілу
Нехай Xi, i = 1, 2, …, n незалежні спостереження взяті з нормального розподілу з невідомим середнім μ і відомою дисперсією σ2. Розглянемо дві гіпотези, нульову гіпотезу:
й альтернативну гіпотезу:
для деякої «найменшої значущої різниці» μ* >0. Це найменше значення, яким мі цікавимось при спостереженні різниці. Тепер, якщо ми хочемо (1) відхилити H0 з ймовірністю принаймні 1-β , коли Ha істинно (тобто потужність 1-р), і (2) відхилити Ha з ймовірністю α, коли Ha вірна, тоді нам необхідно наступне: Якщо zα є верхньою відсотковою точкою α стандартного нормального розподілу, то
і таким чином
- 'Відхилити H0, якщо середнє нашої вибірки () більше, ніж '
це вирішальне правило, яке задовольняє умові (2). (Зверніть увагу, що це односторонній експеримент).
Тепер ми хочемо, щоб це сталося з ймовірністю принаймні 1- β, коли Ha істинно. У цьому випадку, середнє нашої вибірки буде походити з нормального розподілу із середнім значенням μ*.. Тому ми вимагаємо
Завдяки точним маніпуляціям, можна побачити, що станеться, коли
де нормальна інтегральна функція розподілу.
Стратифікований розмір вибірки
З більш складною організацією вибірки, такою як стратифікована (розшарована) вибірка, вибірку часто можна розділити на підвибірки. Як правило, якщо існують такі H підвибірки (від H різних шарів), то кожен з них буде мати розмір вибірки nh, h = 1, 2, …, H. Ці nh повинні відповідати правилу n1 + n2 + … + nH = n (тобто, загальний розмір вибірки визначається сумою розмірів підвибірок). Вибір цих nh оптимально може бути зробленим різними шляхами, використовуючи (наприклад) оптимальний розподіл Неймана.
Є багато причин використовувати стратифіковану вибірку: щоб зменшити дисперсії вибіркових оцінок, щоб використовувати частково невипадкові методи, або для вивчення шарів окремо. Частково невипадковий метод мав би бути корисним для вибірки осіб, яких легко дістати, але, якщо ні, то краще використовувати гніздову вибірку, щоб заощадити на витратах на поїздки.
Загалом, для H шарів, зваженим вибірковим середнім є
з
Вагові функції, , часто, але не завжди, відображають пропорції елементів населення в шарах, і . Для фіксованого розміру вибірки, тобто, size, that is ,
який може бути виконаний, якщо частота дискретизації в межах кожного шару проводиться пропорційно стандартному відхиленню в кожному шарі : , де і є константами, як .
«Оптимальний розподіл» досягається, коли частоти дискретизації в межах шарів виробляються прямо пропорційно стандартним відхиленням в межах шарів і обернено пропорційно квадратному кореню з вартості вибірки для кожного елемента в межах шарів, :
де це константа, як , або в більш загальному плані, коли
Якісне дослідження
Визначення розмірів вибірки в якісних дослідженнях використовує інший підхід. Як правило, це суб'єктивне судження, взяте як діагностичні засоби. Один з підходів полягає у подальшому включенні в себе додаткових учасників або матеріалів доки не досягнуто насичення. Кількість, необхідна для досягнення насичення, була досліджена емпірично.
Існує мала кількість надійних вказівок по оцінці розмірів вибірки перед початком дослідження з цілою низкою наведених пропозицій. Метод близький до розрахунку кількісної потужності на основі негативного біноміального розподілу був запропонований для тематичного аналізу.
Див. також
- Проектування експериментів
- Приклад інженерної поверхневої реакції при покроковій регресії
- h Коена
Примітки
- Isogenic.info > Resource equation by Michael FW Festing. Updated Sept. 2006
- Kish (1965), p.78.
- Kish (1965), p.81.
- Kish (1965), p.93.
- Kish (1965), p.94.
Посилання
- Bartlett, J. E., II; Kotrlik, J. W.; Higgins, C. (2001). Organizational research: Determining appropriate sample size for survey research. Information Technology, Learning, and Performance Journal 19 (1): 43–50. Архів оригіналу за 6 березня 2009. Процитовано 30 листопада 2016.
- Kish, L. (1965). Survey Sampling. Wiley. ISBN 0-471-48900-X.
- Smith, Scott (8 квітня 2013). Determining Sample Size: How to Ensure You Get the Correct Sample Size | Qualtrics. Qualtrics. Процитовано 15 листопада 2016.
Для подальшого читання
- NIST: Selecting Sample Sizes
- ASTM E122-07: Standard Practice for Calculating Sample Size to Estimate, With Specified Precision, the Average for a Characteristic of a Lot or Process