Викид (статистика)
Викид (англ. outlier) — у статистиці результат вимірювання, який виділяється із загальної вибірки.
Статистичний метод, здатний діяти в умовах викидів, називається робастним. Медіана є робастною характеристикою, а середнє — ні. Існує приклад (квартет Енскомба), що демонструє, наскільки неробастні методи обробки статистичних даних здатні «брехати», навіть якщо присутній один викид на 10 «звичайних» результатів.
Причини викидів
- Через помилку вимірювання.
- Через незвичайну природу вхідних даних. Наприклад, якщо навмання вимірювати температуру предметів у кімнаті, отримаємо цифри від 18 до 22°C, але радіатор опалення буде мати температуру 70°.
- Викиди можуть бути і частиною розподілу — так, в нормальному розподілі кожне 22-е вимірювання буде виходити з «двох сигм», і кожне 370-е — з трьох.
Визначення викидів
Оскільки безліч статистичних методів «буксують» на вибірках з викидами, викиди доводиться виявляти (бажано — автоматично) і виключати з вибірки. Найпростіші способи засновані на міжквартильному розмасі — наприклад, все, що не потрапляє в діапазон, вважається викидами.
Більш тонкі критерії — критерій Шовене, тест Граббса, критерій Пірса, Q-тест Діксона.