Великі дані
Вели́кі да́ні (англ. Big Data) в інформаційних технологіях — набори інформації (як структурованої, так і неструктурованої) настільки великих розмірів, що традиційні способи та підходи (здебільшого засновані на рішеннях класу бізнесової аналітики та системах управління базами даних) не можуть бути застосовані до них[1]. Альтернативне визначення називає великими даними феноменальне прискорення нагромадження даних та їх ускладнення[1]. Важливо також відзначити те, що часто під цим поняттям у різних контекстах можуть мати на увазі як дані великого об'єму, так і набір інструментів та методів (наприклад, засоби масово-паралельної обробки даних системами категорії NoSQL, алгоритмами MapReduce, чи програмними каркасами проекту Hadoop).
Мета та переваги
Кінцевою метою цієї обробки є отримання результатів, які легко сприймаються людиною та є ефективними в умовах безперервного росту й розподілення інформації по численних вузлах обчислювальної мережі.
Для характеристики великих даних використовують «три v»: їх обсяг (англ. volume), швидкість накопичення нових даних та їх обробки (англ. velocity) та різноманіття типів даних, які можуть оброблятися (англ. variety)[1].
До основних переваг використання технології можна віднести:
- отримання якісно нових знань шляхом комплексного аналізу усієї інформації у єдиному аналітичному сховищі;
- розширення функціональності наявних інформаційних систем підтримки бізнесу;
- збільшення ефективності використання апаратних ресурсів серверів;
- забезпечення мінімальної вартості використання всіх видів інформації внаслідок можливості використання ПЗ з відкритим кодом і хмарних технологій.
Критика великих даних пов'язана з тим, що їх зберігання не завжди приводить до отримання вигоди, а швидкість оновлення даних і «актуальний» часовий інтервал не завжди розумно порівнянні[джерело?].
Історія
Сама по собі концепція «великих даних» не нова, вона виникла в часи мейнфреймів та пов'язаних з ними наукових комп'ютерних обчислень, оскільки наукомісткі обчислення завжди відрізнялися складністю і зазвичай нерозривно пов'язані з необхідністю обробки великих обсягів інформації[джерело?].
Авторство терміна «великі дані» належить Кліффорду Лінчу, редакторові журналу Nature, який зібрав матеріали про явище вибухового зростання обсягу та різноманітності даних та підготував у вересні 2008 року спеціальний випуск журналу, де показав феномен великих даних; термін був запропонований за аналогією з подібними в діловому англомовному середовищі метафорами «велика нафта» чи «велика руда»[2].
Великий галас навколо цієї теми виник після того, як в червні 2011 року консалтингова компанія McKinsey випустила доповідь «Великі дані: наступний рубіж в інноваціях, конкуренції та продуктивності», в якому оцінила потенційний ринок великих даних в мільярди доларів[1]. В тому ж році аналітична компанія Gartner відзначає великі дані як тренд номер два в інформаційно-технологічній інфраструктурі, поступаючись лише віртуалізації[3].
У 2012 році адміністрація президента США виділила 200 мільйонів доларів для того, щоб різні американські відомства організовували конкурси з впровадження технологій великих даних в життя. Якщо в 2009 році американські венчурні фонди вклали в галузь всього 1,1 мільярда доларів, то в 2012 — вже 4,5 мільярда доларів[1].
У 2015 році аналітична компанія Gartner вилучила великі дані зі своєї діаграми Gartner Hype Cycle, пояснивши це рішення тим, що ці технології перестали бути «hype» і стали нормою для корпоративного ІТ: «сьогодні всі дані — великі»[4].
Планувалось, що у 2017 році в Україні з'явиться онлайн-курс з великих даних на платформі Prometheus[5], проте станом на червень 2020 року курс ще не стартував[6].
Приклади застосування
Серед відомих випадків застосування великих даних можна назвати перемогу Барака Обами на президентських виборах 2012 року. Аналітики виборчого штабу Обами активно використовували big data для аналізу настроїв виборців та коригування програми кандидата. Великі дані також є одним з ключових інструментів роботи Агентства національної безпеки США — у дата-центрі, що знаходиться у штаті Юта аналізуються дані, які АНБ збирає про користувачів в інтернеті[5].
Планування міст
Зовнішні відеофайли | |
---|---|
TEDxKyiv: Кіборги, що будують сучасне місто на YouTube |
Соціальні мережі та геолокаційні сервіси представляють величезні обсяги інформації, аналіз якої є дуже важливим для прикладних задач містобудування, таких як проектування транспорту, аналіз суспільної думки, виявлення та координація надзвичайних ситуацій тощо[7].
Медицина
Медичні big data допомагають запобігти розвитку хвороби на ранній стадії завдяки аналізу серцево-судинного тиску, пульсу, дихання та рівня цукру в крові[8].
У Великій Британії методи big data прийняті на озброєння Міністерством охорони здоров'я. Аналізуючи інформацію про те, які рецепти виписують медики, аналітики міністерства намагаються оцінювати потреби британців в ліках та оптимізувати доставки препаратів в різні частини країни[5].
У 2013 році завдяки електронній медкартці, де зберігалась уся інформація про пацієнта, вчені знайшли залежність між мозковою деградацією та цукровим діабетом[8].
Технології
NoSQL
Серед NoSQL-рішень, що застосовуються, виділяються: MongoDB — крос-платформова документо-орієнтована система керування базами даних з підтримкою JSON та динамічних схем, Apache Cassandra — масштабована база даних, орієнтована на стійкість до відмов та HBase — масштабована розподілена база даних з підтримкою структурованого зберігання даних великого обсягу та ін.
MapReduce
Hadoop
Серед програмного забезпечення, що пов'язано з Hadoop, виділяють: Apache Ambari — інструмент для управління та моніторингу Hadoop кластерів, Apache Avro — система серіалізації даних, Apache Hive — інфраструктура сховища даних, яка забезпечує агрегацію даних, Apache Pig — високорівнева мова потоків даних і програмний каркас для паралельних обчислень, Apache Spark — високопродуктивний рушій для обробки даних, що зберігаються в кластері Hadoop та ін.
R
Віртуалізація великих даних
Віртуалізація великих даних — це спосіб збирання інформації з кількох джерел в одному шарі. Зібраний шар даних є віртуальним: на відміну від інших методів, більшість даних залишаються на місці та беруться за потреби безпосередньо з вихідних систем[9].
Див. також
Примітки
- Великі перспективи індустрії Big Data. Український суперкомп'ютерний інтернет-дайджест. 19 лютого 2013. Процитовано 23 жовтня 2016.
- Clifford Lynch (2008). Big data: How do your data grow?. Nature 455 (7209). doi:10.1038/455028a.
- Gartner's Top 10 IT challenges include exiting baby boomers, Big Data. Computerworld (eng). 18 жовтня 2011. Процитовано 23 жовтня 2016.
- Шельпук, Євген (18 лютого 2016). Маленька історія великих даних. The Ukrainians. Процитовано 23 жовтня 2016.
- Золотніков, Ярослав; Бондарев, Олексій (6 сiчня 2016). Друга нафта. В Україні з'явиться онлайн-курс з Big data - найбільш затребуваної в світі IT-професії. Новое Время. Процитовано 23 жовтня 2016.
- Обробка та аналіз великих даних. Prometheus. Процитовано 17 грудня 2018.
- Бродецький, Андрій (31 жовтня 2013). Як Foursquare допомагає планувати міста. КПІшник. Процитовано 24 жовтня 2016.
- Сабініч Андрій (7 листопада 2018). Як Big Data допомагають сучасній медицині?. Tokar.ua. Процитовано 16 листопада 2018.
- What Is Data Virtualization?. www.datawerks.com (амер.). Архів оригіналу за 10 квітня 2018. Процитовано 14 травня 2018. (англ.)
Посилання
- Великі перспективи індустрії Big Data. Український суперкомп'ютерний інтернет-дайджест. 19 лютого 2013. Процитовано 23 жовтня 2016.
- Мельник, Антон (19 квітня 2016). Як програматик та Big Data змінюють ринок інтернет-реклами. ain.ua. Процитовано 24 жовтня 2016.
- Костюк, Дмитро (26 травня 2016). Як Vodafone та інші великі компанії використовують наші дані. Tech Today. Архів оригіналу за 24 жовтня 2016. Процитовано 24 жовтня 2016.
- Большие Данные — новая теория и практика. Открытые системы. СУБД (рос.). 20 грудня 2011. Процитовано 24 жовтня 2016.