Великі дані

Вели́кі да́ні (англ. Big Data) в інформаційних технологіях — набори інформації (як структурованої, так і неструктурованої) настільки великих розмірів, що традиційні способи та підходи (здебільшого засновані на рішеннях класу бізнесової аналітики та системах управління базами даних) не можуть бути застосовані до них[1]. Альтернативне визначення називає великими даними феноменальне прискорення нагромадження даних та їх ускладнення[1]. Важливо також відзначити те, що часто під цим поняттям у різних контекстах можуть мати на увазі як дані великого об'єму, так і набір інструментів та методів (наприклад, засоби масово-паралельної обробки даних системами категорії NoSQL, алгоритмами MapReduce, чи програмними каркасами проекту Hadoop).

Зразок Big data — дані про щоденні зміни, що користувачі вносять у статті на вікіпедії

Мета та переваги

Кінцевою метою цієї обробки є отримання результатів, які легко сприймаються людиною та є ефективними в умовах безперервного росту й розподілення інформації по численних вузлах обчислювальної мережі.

Для характеристики великих даних використовують «три v»: їх обсяг (англ. volume), швидкість накопичення нових даних та їх обробки (англ. velocity) та різноманіття типів даних, які можуть оброблятися (англ. variety)[1].

До основних переваг використання технології можна віднести:

Критика великих даних пов'язана з тим, що їх зберігання не завжди приводить до отримання вигоди, а швидкість оновлення даних і «актуальний» часовий інтервал не завжди розумно порівнянні[джерело?].

Історія

Сама по собі концепція «великих даних» не нова, вона виникла в часи мейнфреймів та пов'язаних з ними наукових комп'ютерних обчислень, оскільки наукомісткі обчислення завжди відрізнялися складністю і зазвичай нерозривно пов'язані з необхідністю обробки великих обсягів інформації[джерело?].

Авторство терміна «великі дані» належить Кліффорду Лінчу, редакторові журналу Nature, який зібрав матеріали про явище вибухового зростання обсягу та різноманітності даних та підготував у вересні 2008 року спеціальний випуск журналу, де показав феномен великих даних; термін був запропонований за аналогією з подібними в діловому англомовному середовищі метафорами «велика нафта» чи «велика руда»[2].

Великий галас навколо цієї теми виник після того, як в червні 2011 року консалтингова компанія McKinsey випустила доповідь «Великі дані: наступний рубіж в інноваціях, конкуренції та продуктивності», в якому оцінила потенційний ринок великих даних в мільярди доларів[1]. В тому ж році аналітична компанія Gartner відзначає великі дані як тренд номер два в інформаційно-технологічній інфраструктурі, поступаючись лише віртуалізації[3].

У 2012 році адміністрація президента США виділила 200 мільйонів доларів для того, щоб різні американські відомства організовували конкурси з впровадження технологій великих даних в життя. Якщо в 2009 році американські венчурні фонди вклали в галузь всього 1,1 мільярда доларів, то в 2012 — вже 4,5 мільярда доларів[1].

У 2015 році аналітична компанія Gartner вилучила великі дані зі своєї діаграми Gartner Hype Cycle, пояснивши це рішення тим, що ці технології перестали бути «hype» і стали нормою для корпоративного ІТ: «сьогодні всі дані — великі»[4].

Планувалось, що у 2017 році в Україні з'явиться онлайн-курс з великих даних на платформі Prometheus[5], проте станом на червень 2020 року курс ще не стартував[6].

Приклади застосування

Серед відомих випадків застосування великих даних можна назвати перемогу Барака Обами на президентських виборах 2012 року. Аналітики виборчого штабу Обами активно використовували big data для аналізу настроїв виборців та коригування програми кандидата. Великі дані також є одним з ключових інструментів роботи Агентства національної безпеки США — у дата-центрі, що знаходиться у штаті Юта аналізуються дані, які АНБ збирає про користувачів в інтернеті[5].

Планування міст

Зовнішні відеофайли
TEDxKyiv: Кіборги, що будують сучасне місто на YouTube

Соціальні мережі та геолокаційні сервіси представляють величезні обсяги інформації, аналіз якої є дуже важливим для прикладних задач містобудування, таких як проектування транспорту, аналіз суспільної думки, виявлення та координація надзвичайних ситуацій тощо[7].

Медицина

Медичні big data допомагають запобігти розвитку хвороби на ранній стадії завдяки аналізу серцево-судинного тиску, пульсу, дихання та рівня цукру в крові[8].

У Великій Британії методи big data прийняті на озброєння Міністерством охорони здоров'я. Аналізуючи інформацію про те, які рецепти виписують медики, аналітики міністерства намагаються оцінювати потреби британців в ліках та оптимізувати доставки препаратів в різні частини країни[5].

У 2013 році завдяки електронній медкартці, де зберігалась уся інформація про пацієнта, вчені знайшли залежність між мозковою деградацією та цукровим діабетом[8].

Технології

NoSQL

Серед NoSQL-рішень, що застосовуються, виділяються: MongoDB — крос-платформова документо-орієнтована система керування базами даних з підтримкою JSON та динамічних схем, Apache Cassandra — масштабована база даних, орієнтована на стійкість до відмов та HBase — масштабована розподілена база даних з підтримкою структурованого зберігання даних великого обсягу та ін.

MapReduce

Hadoop

Серед програмного забезпечення, що пов'язано з Hadoop, виділяють: Apache Ambari — інструмент для управління та моніторингу Hadoop кластерів, Apache Avro — система серіалізації даних, Apache Hive — інфраструктура сховища даних, яка забезпечує агрегацію даних, Apache Pig — високорівнева мова потоків даних і програмний каркас для паралельних обчислень, Apache Spark — високопродуктивний рушій для обробки даних, що зберігаються в кластері Hadoop та ін.

R

Віртуалізація великих даних

Віртуалізація великих даних — це спосіб збирання інформації з кількох джерел в одному шарі. Зібраний шар даних є віртуальним: на відміну від інших методів, більшість даних залишаються на місці та беруться за потреби безпосередньо з вихідних систем[9].

Див. також

Примітки

  1. Великі перспективи індустрії Big Data. Український суперкомп'ютерний інтернет-дайджест. 19 лютого 2013. Процитовано 23 жовтня 2016.
  2. Clifford Lynch (2008). Big data: How do your data grow?. Nature 455 (7209). doi:10.1038/455028a.
  3. Gartner's Top 10 IT challenges include exiting baby boomers, Big Data. Computerworld (eng). 18 жовтня 2011. Процитовано 23 жовтня 2016.
  4. Шельпук, Євген (18 лютого 2016). Маленька історія великих даних. The Ukrainians. Процитовано 23 жовтня 2016.
  5. Золотніков, Ярослав; Бондарев, Олексій (6 сiчня 2016). Друга нафта. В Україні з'явиться онлайн-курс з Big data - найбільш затребуваної в світі IT-професії. Новое Время. Процитовано 23 жовтня 2016.
  6. Обробка та аналіз великих даних. Prometheus. Процитовано 17 грудня 2018.
  7. Бродецький, Андрій (31 жовтня 2013). Як Foursquare допомагає планувати міста. КПІшник. Процитовано 24 жовтня 2016.
  8. Сабініч Андрій (7 листопада 2018). Як Big Data допомагають сучасній медицині?. Tokar.ua. Процитовано 16 листопада 2018.
  9. What Is Data Virtualization?. www.datawerks.com (амер.). Архів оригіналу за 10 квітня 2018. Процитовано 14 травня 2018. (англ.)

Посилання

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.