Багатовимірна статистика
Багатови́мірна стати́стика — це форма статистики, яка охоплює одночасне спостереження й аналіз більш ніж однієї змінної. Застосування багатовимірної статистики є багатовимірний аналіз. Основна задача багатовимірної статистики — це розуміння різних цілей та умови кожної форми багатовимірного аналізу, та відношення між ними. Практична реалізація багатовимірної статистики для конкретної проблеми може включати декілька типів одновимірного і багатовимірного аналізів з метою зрозуміти відношення між змінними та їх доцільність для фактичної проблеми, яку досліджують.
Крім того, багатовимірна статистика пов'язана з багатовимірним розподілом ймовірностей, з обох точок зору:
- як вони можуть бути використані для представлення розподілів спостережуваних даних;
- яким чином вони можуть бути використані як частина статистичного висновку, особливо коли декілька різних величин є цікавими для того ж аналізу.
Деякі типи задач, які пов'язані з багатовимірними даними, наприклад проста лінійна регресія та множинна регресія, зазвичай не розглядаються як окремий випадок багатовимірної статистики, оскільки розглядаються з урахуванням (одновимірного) умовного розподілу однієї змінної, яка визначена іншими змінними.
Типи аналізу
Є багато моделей, кожна з власним типом аналізу:
- Багатофакторний дисперсійний аналіз розширює дисперсійний аналіз, щоб покрити випадки, коли є більш ніж одна залежних змінних, для одночасного їх аналізу.
- Багатовимірний регресійний аналіз намагається визначити формулу, яка зможе описати як елементи векторних змінних міняються при зміні інших елементів. При лінійних співвідношеннях регресійний аналіз має за основу форми загальної лінійної моделі.
- Аналіз головних компонент створює новий набір ортогональних змінних, які містять ту ж інформацію, що й вихідний набір. Таким чином повертаючи осі змінних, створюється новий набір ортогональних осей, впорядкованих так, що вибіркова дисперсія даних вздовж кожної координати була максимальною, за умови ортогональності всіх попередніх координат.
- Факторний аналіз схожий на аналіз головних компонент, але дозволяє користувачеві вилучати вказану кількість штучних змінних, яка менша за кількість змінних всього набору, залишаючи непоясненні змінні як помилку. Вилучені змінні відомі як приховані змінні або фактори, припускається що кожна з них пояснює коваріацію в групі досліджуваних змінних.
- Канонічний аналіз кореляції знаходить лінійні зв'язки між двома наборами змінних, це узагальнена версія парної кореляції.
- Аналіз надмірності схожий на канонічний аналіз кореляції, але на відміну від нього дозволяє користувачеві отримати вказану кількість штучних змінних від одного набору незалежних змінних, які пояснюють як можливо багато змінних в іншому наборі незалежних змінних. Це — багатовимірний аналог регресу.
- Аналіз відповідностей або взаємне усереднення, знаходить штучні змінні, що узагальнюють початковий набір. Основна модель приймає відмінності хі-квадрат серед записів (випадки). Існує канонічний (або обмежений) аналіз відповідностей: робить висновки про спільні змінні двох наборів (схоже як канонічний аналіз кореляції).
- Багатовимірне шкалювання (масштабуваня) включає в себе різні алгоритми для визначення набору штучних змінних, які найкращим чином зображують попарні відстані між записами. Первісний метод — це аналіз головних координат.
- Дискримінантний аналіз або канонічний аналіз варіаційної величини намагається встановити, чи може набір змінних використовуватись для відокремлення двох або більше груп випадків.
- Лінійний дискримінантний аналіз обчислює лінійного предиктора двох наборів нормально розподілених даних з метою класифікації нових спостережень.
- Кластеризація систем призначають об'єкти в групи (так звані кластери), таким чином що об'єкти з одного кластера більш схожі один на одного. Ніж об'єкти з різних кластерів.
- Рекурсивне розбиття створює дерево рішень, яке намагається правильно класифікувати елементи множини на основі дихотомічна залежна змінна.
- Штучні нейроні мережі розширюють регресію та метод кластеризації до нелінійних багатовимірних моделей.
Важливі ймовірнісні розподіли
Існує безліч ймовірнісних розподілів, які використовуються в багатофакторному аналізі, який відіграє ту ж роль відносно безлічі розподілів, які використовуються в одновимірному аналізі, коли нормальний розподіл відповідає набору даних. Ці багатовимірні розподіли такі:
- Багатовимірний нормальний розподіл
- Розподіл Уішарта
- Багатовимірний розподіл Т-Стьюдента
Зворотні розподілу Уішарта відіграють важливу роль у теоріях Баєса, наприклад в баєсівькій багатовимірній лінійній регресії. Крім того, Т-розподіл Хотеллінга є одновимірним розподілом, узагальненням Т-розподілу Стьюдента, що використовується в перевірці статистичних гіпотез.
Програмне забезпечення та інструменти
- OpenOffice Calc
- PSPP
- R (мова програмування)
- SciPy
- Python
- SPSS
- Statistica
- ROOT
- Unscrambler