Метод групового урахування аргументів
Метод групового врахування аргументів (МГУА) — сімейство індуктивних алгоритмів для математичного моделювання багатопараметричних даних. Метод заснований на рекурсивному селективному відборі моделей, на основі яких будуються складніші моделі. Точність моделювання на кожному наступному кроці рекурсії збільшується за рахунок ускладнення моделі.
Цей метод був запропонований наприкінці 60-х — початку 70-х академіком Олексієм Григоровичем Івахненком (Інститут кібернетики НАНУ).
Алгоритм
Дано дані спостережень: . Необхідно побудувати найкращу в певному сенсі модель .
- Вибирається загальний вигляд моделей, що перебираються (так звані опорні функції). Часто використовують поліном Колмогорова — Габора:
- Вибір поліномів обумовлений тією властивістю, що згідно з теоремою Стоуна — Вейєрштрасса, будь-яку неперервну на скінченому інтервалі функцію можна з як завгодно високою точністю подати у вигляді полінома певного ступеня. Складність моделі в такому випадку визначається кількістю коефіцієнтів .
- Використовуючи опорні функції, будуються різні варіанти моделей для деяких або всіх аргументів. Наприклад будуються поліноми з однією змінною, поліноми з будь-якими парами змінних, поліноми з будь-якими трійками змінних, і т.д, поліном з усіма змінними. Для кожної моделі визначаються її коефіцієнти методом регресійного аналізу.
- Серед усіх моделей вибираються декілька (від 2 до 10) найкращих. Якість моделей визначається коефіцієнтом детермінації, або середньоквадратичним відхиленням помилки, або кореляцією Y і вихідних даних.
- Якщо знайдена досить «добра» модель або досягнута максимально допустима складність моделей, то алгоритм закінчується.
- Інакше, знайдені на 3-му кроці моделі використовуються як аргументи () для опорних функцій наступного етапу ітерації (перехід на 2-й пункт). Тобто, вже відібрані моделі беруть участь у формуванні складніших.
Зазвичай ступінь полінома опорної функції вибирається не вище , де — кількість точок вибірки. Часто буває достатньо використовувати як опорні функції поліноми другого ступеня. У такому випадку на кожному кроці ітерації ступінь результуючого полінома подвоюється.
Замість поліному Колмогорова — Габора можна використовувати ряди Фур'є. Це має сенс, якщо у вихідних даних спостерігається періодичність (наприклад, рівень води в річках, температура повітря, обсяг опадів). Отримана в такому випадку модель буде полігармонічною [недоступне посилання з червня 2019].
Часто вихідну вибірку розбивають на дві підвибірки і . Підвибірка застосовується для визначення коефіцієнтів моделі, а підвибірка — для визначення якості (коефіцієнта детермінації або середньоквадратичного відхилення). При цьому співвідношення кількості даних в обох вибірках може бути як 50% / 50%, так і 60%/40%.
Статистика показує, що спочатку з кожним кроком ітерації середньоквадратичне відхилення зменшується. Але після досягнення певного рівня складності (яке залежить від характеру й кількості даних, а також загального вигляду моделі), середньоквадратичне відхилення починає зростати.