Weka
Weka (Waikato Environment for Knowledge Analysis) — вільне програмне забезпечення для аналізу даних та машинного навчання, написане на Java в університеті Ваїкато (Нова Зеландія), розповсюджується за ліцензією GNU GPL.
| |
Weka 3.5.5 у режимі Explorer аналізує Іриси Фішера | |
Тип | Машинне навчання |
---|---|
Розробник | Університет Ваїкато |
Стабільний випуск | 3.8.3 (stable) (4 вересня 2018 ) |
Репозиторій | svn.cms.waikato.ac.nz/svn/weka/ |
Нестабільний випуск | 3.9.3 (22 грудня 2017 ) |
Платформа | Багатоплатформність |
Операційна система | Microsoft Windows і UNIX-подібні операційні системи |
Мова програмування | Java |
Доступні мови | Англійська |
Ліцензія | GPL |
Онлайн-документація | waikato.github.io/weka-wiki/(англ.) |
Вебсайт | www.cs.waikato.ac.nz/~ml/weka/ |
Weka у Вікісховищі |
Опис
Weka — це набір засобів візуалізації та алгоритмів для аналізу даних і вирішення задач прогнозування, разом з графічною оболонкою для доступу до них.
Weka дозволяє виконувати такі завдання аналізу даних, як підготовку даних (preprocessing), відбір ознак (feature selection), кластеризацію, класифікацію, регресійний аналіз та візуалізацію результатів.
Основним інтерфейсом користувача є Explorer, хоча ті ж функціональні можливості підтримуються з командного рядка та інтерфейсу Knowledge Flow. Для систематичного порівняння різних алгоритмів машинного навчання використовується інтерфейс Experimenter. Він дозволяє порівнювати результати не лише різних алгоритмів на одному наборі даних, а й одного алгоритму на різних наборах даних.
Інтерфейс Explorer містить наступні панелі:
- Панель попереднього опрацювання уможливлює імпорт даних з бази даних, текстових файлів у форматі CSV, а також попереднє опрацювання цих даних за допомогою різноманітних алгоритмів (фільтрів). Ці фільтри використовуються для трансформування даних, а також для видалення певних атрибутів.
- Панель класифікації надає можливість застосувати алгоритми класифікації та регресійного аналізу до обраного набору даних, візуалізувати та оцінити результати, відобразити ROC криві тощо.
- Панель асоціації надає доступ до методів, які дозволяють оцінити взаємозв'язки між атрибутами.
- Панель кластеризації містить різноманітні методи кластеризації, наприклад метод кластеризації методом k-середніх, EM-алгоритм тощо.
- Панель вибору атрибутів дозволяє ідентифікувати атрибути, які найбільш впливають на якість прогнозування.
- Панель візуалізації відображає точкові діаграми.
Історія
- 1993 рік. В університеті Ваїкато розпочато розробку першої версії Weka на Tcl/Tk та C.
- 1997 рік. Прийнято рішення переписати весь код з нуля на мові Java.
- 2005 рік. Weka отримала нагороду Data Mining and Knowledge Discovery Service Award від SIGKDD.
- 2006 рік. Pentaho Corporation придбала ексклюзивну ліцензію на використання Weka в своїх продуктах для аналізу даних.