NoSQL
NoSQL (зазвичай розшифровується як англ. non SQL або англ. non relational[1], іноді англ. not only SQL) — база даних, яка забезпечує механізм зберігання та видобування даних відмінний від підходу таблиць-відношень в реляційних базах даних.
Потреби у створенні
Подібні бази даних існували вже в другій половині 1960-х років, але тоді вони ще не здобули гучне ім'я «NoSQL», одержане після сплеску популярності на початку 21-ого століття[2], що був спричинений потребами Web 2.0 компаній, такими як Facebook, Google, та Amazon.com.[3][4][5] NoSQL бази даних все більше і більше використовуються в задачах із застосуванням великих даних та real-time web-застосунках.[6] NoSQL системи також називають «Not only SQL» (англ. not only SQL — не тільки SQL) для підкреслення того, що вони можуть підтримувати SQL-подібну структуру та мову запитів.[7][8]
Мотиви підходу
Мотиви цього підходу включають: простоту дизайну схеми БД, значно спрощене горизонтальне масштабування на кластери машин (що є проблемою для реляційних баз даних[2]), і тонкий контроль над доступністю. Структури даних, що використовуються в NoSQL (такі як ключ-значення, сховище з широким стовпчиком, граф, документ) є відмінними від тих, що використовуються за замовчуванням в реляційних базах, що робить тим самим деякі операції над даними значно швидшими на NoSQL. Точна відповідність та доречність використання баз даних NoSQL залежить від задач, котрі вирішуються.
Іноді структури даних, які використовуються в NoSQL базах можуть розглядатись як більш гнучкі ніж таблиці реляційних моделей.[9]
Особливості
Багато NoSQL сховищ нехтують узгодженістю даних (у сенсі теореми CAP) на противагу доступності, толерантності до партиціонування, та, звісно, швидкості. Бар'єрами прийняття парадигми NoSQL сховищ є використання низькорівневої мови запитів (замість добре розвиненого та стандартизованого SQL), брак стандартизованих інтерфейсів і значні інвестиції в існуючі реляційні бази.[10] Більшість NoSQL сховищ не забезпечують використання ACID транзакцій, однак декілька баз, такі як MarkLogic, Aerospike, FairCom c-treeACE, Google Spanner (що технічно теж NewSQL база даних), Symas LMDB, та OrientDB зробили на цьому додатковий акцент. (Див. підтримка ACID та JOIN)
Натомість більшість NoSQL баз даних пропонують концепцію випадкового узгодження даних, в якому зміни в базі продубльовано на всі вузли «випадковим чином» (зазвичай така дія займає мілісекунди), що запити даних можуть не повернути оновлені дані моментально, або ж прочитані дані будуть не точними — давно знана проблема читання станів.[11] На додаток, деякі NoSQL системи можуть містити дротову[уточнити] або іншої форми втрати даних.[12] На щастя, деякі NoSQL забезпечують принцип WAL-журналювання (англ. write-ahead logging) для уникнення втрати даних.[13] Для розподіленої обробки транзакцій, поверх множинних баз даних, узгодженість даних, як наслідок, навіть більше завдання ніж воно постає при реляційному підході. Навіть нинішні реляційні бази не гарантують цілісність посилальну цілісність для розподілених баз даних.[14] Існує всього декілька систем, які підтримують як ACID транзакції, так і X/Open XA стандарти для обробки транзакцій на розподілених базах даних.
Історія
Термін NoSQL було використано Карлом Строззі у 1998 як назву для його СУБД-легковаговика, базі даних з відкритим кодом Strozzi NoSQL, яка хоч і не послуговувалась стандартом Structured Query Language (SQL) інтерфейсу, проте все ще залишалася реляційною.[16] Його СУБД NoSQL відрізняється від загальної концепції баз даних NoSQL за 2009 рік. Строцці вказує на те, що оскільки поточний рух NoSQL "повністю відходить від реляційної моделі, його слід назвати більш відповідним чином «NoREL»,[17] що відповідає «No Relational».
Джоан Оскарссон (англ. Johan Oskarsson), розробник Last.fm, наново ввів термін NoSQL на початку 2009 року, коли ним було організовано захід з обговорення розподілених, з відкритим кодом, не реляційних баз даних.[18] Спроба ввести таку назву відповідала неочікуваному зростанню кількості нереляційних, розподілених сховищ даних, включаючи клони з відкритим кодом Bigtable/MapReduce від Google та Dynamo від Amazon. Більшість ранніх NoSQL систем не пробували акцентувати увагу на забезпечення атомарності, узгодженості, ізоляції та довговічності, всупереч усталеній практиці серед реляційних систем управління базами даних.[19]
Мортеза Сарголзай Джаван (англ. Morteza Sargolzaei Javan), дослідник Технологічного університету Аміркабіра, наприкінці 2009 року використовував термін «Багатомірна та гнучка модель для баз даних»[15] з візуалізацією та зразком застосунка. Він зазначив, що такі моделі здатні виконувати нові операції під час розробки або навіть під час роботи баз даних.
Типи та приклади NoSQL баз даних
Відомо декілька способів класифікації NoSQL баз даних, кожен зі своїм набором категорій, деякі з них частково збігаються. Розглянемо базову класифікацію за моделями даних:
- Стовпчик: Accumulo, Cassandra, Druid, HBase, Vertica
- Документ: Apache CouchDB, ArangoDB, BaseX, Clusterpoint, Couchbase, Cosmos DB, IBM Notes, MarkLogic, MongoDB, OrientDB, Qizx, RethinkDB
- Ключ-значення: Aerospike, Apache Ignite, ArangoDB, Couchbase, Dynamo, FairCom c-treeACE, FoundationDB, InfinityDB, MemcacheDB, MUMPS, Oracle NoSQL Database, OrientDB, Redis, Riak, Berkeley DB, dbm, Apache ZooKeeper
- Граф: AllegroGraph, ArangoDB, InfiniteGraph, Apache Giraph, MarkLogic, Neo4j, OrientDB, Virtuoso Universal Server
- Мульти-модель: Apache Ignite, ArangoDB, Couchbase, FoundationDB, InfinityDB, MarkLogic, OrientDB, Cosmos DB
Більш деталізована версія
Оригінальна назва | Тип | Приклад |
---|---|---|
Key-Value Cache | Ключ-значення: кеш | Coherence, eXtreme Scale, GigaSpaces, GemFire, Hazelcast, Infinispan, JBoss Cache, Memcached, Repcached, Terracotta, Velocity |
Key-Value Store | Ключ-значення: сховище | Flare, Keyspace, RAMCloud, SchemaFree, Hyperdex, Aerospike |
Key-Value Store (Eventually-Consistent) | Ключ-значення: сховище (випадково-узгоджене) | DovetailDB, Oracle NoSQL Database, Dynamo, Riak, Dynomite, MotionDb, Voldemort, SubRecord |
Key-Value Store (Ordered) | Ключ-значення: сховище (впорядковане) | Actord, FoundationDB, Lightcloud, LMDB, Luxio, MemcacheDB, NMDB, Scalaris, TokyoTyrant |
Data-Structures Server | Сервер структурованих даних | Redis |
Tuple Store | Кортеж: сховище | Apache River, Coord, GigaSpaces |
Object Database | Об'єктна база даних | DB4O, Objectivity/DB, Perst, Shoal, ZopeDB |
Document Store | Документ: сховище | Clusterpoint, Couchbase, CouchDB, DocumentDB, IBM Domino, MarkLogic, MongoDB, Qizx, RethinkDB, XML-databases |
Wide Column Store | Широко-колонкове сховище | BigTable, Cassandra, Druid, HBase, Hypertable, KAI, KDI, OpenNeptune, Qbase |
Ключ-значення
Ключ-значення (англ. Key-value, KV) сховище використовує асоціативний масив (знаний як карта або словник) як основну модель даних. В цій моделі дані представляються як колекція пар типу ключ-значення, таких, що кожен можливий ключ з'являється в колекціях не більше одного разу.[20][21]
Модель такого типу є однією із найпростіших, і більш розвинені моделі зазвичай реалізовані як їх розширення. Модель типу ключ-значення може бути розширена до скінченно впорядкованої, що підтримує ключі в лексикографічному порядку. Це розширення є обчислювально потужним, в тому, що він може ефективно видобувати селективні діапазони ключів.[22]
Моделі типу ключ-значення можуть використовувати різні рівні узгодженості, починаючи від випадкової і завершуючи серіалізованими даними. Деякі бази даних підтримують впорядковані ключі. Існують різні реалізації апаратного забезпечення, і деякі користувачі підтримують дані в пам'яті (RAM), в той час як інші використовують твердотільні (SSD) накопичувачі або класичні обертові (HDD) диски.
Приклади баз: Oracle NoSQL Database, Redis, та dbm.
Сховища документів
Центральним поняттям такої моделі даних є «документ». У той час кожна документно-орієнтована реалізація бази даних відрізняється від деталей цього визначення, в загальному, всі вони припускають, що документи інкапсулюють та шифрують збережені дані в деяких стандартних форматах або кодуваннях. Кодування на практиці включає XML, YAML і JSON, а також бінарні форми, такі як BSON. Документи адресуються в базі даних за допомогою унікального ключа, який представляє цей документ. Однією з інших визначальних характеристик документо-орієнтованої бази даних, є те, що крім пошуку по ключу, база даних також надає API або мову запитів, яка дозволяє виймати документи на основі їх вмісту.
Різноманітні способи реалізації пропонують різноманітні підходи і (або) способи групування документів:
- Колекції
- Теги
- Невидимі мета-дані
- Ієрархія директорій
У порівнянні з реляційними, колекції, до прикладу, можна розглядати як аналоги таблиць, а документи як аналоги до записів. Однак існує відмінність: кожен запис в таблиці має сталу послідовність атрибутів, в той час як документні бази можуть містити в колекції набори з абсолютно відмінними атрибутами.
Графи
Цей тип баз даних розроблений для даних, де дані можуть бути представлені у вигляді складових вершин графу, об'єднаних скінченним числом зв'язків між ними. Таким типом даних можуть бути соціальні мережі, мережі громадського транспорту, карти доріг тощо.
- Графові бази даних та їх мови запитів
База даних (назва) | Мова(и) | Примітки |
---|---|---|
AllegroGraph | SPARQL | RDF кортеж |
DEX/Sparksee | C++, Java, .NET, Python | Графова база даних |
FlockDB | Scala | Графова база даних |
IBM DB2 | SPARQL | RDF кортеж, доданий в DB2 10 |
InfiniteGraph | Java | Графова база даних |
MarkLogic | Java, JavaScript, SPARQL, XQuery | Мульти модельна документна база та RDF кортеж |
Neo4j | Cypher | Графова база даних |
OWLIM | Java, SPARQL 1.1 | RDF кортеж |
Oracle | SPARQL 1.1 | RDF кортеж 11g |
OrientDB | Java | Мульти-модельна документна база і графова база даних |
Sqrrl Enterprise | Java | Графова база даних |
OpenLink Virtuoso | C++, C#, Java, SPARQL | Гібрид Middleware та підсистемного зберігання |
Stardog | Java, SPARQL | Графова база даних |
Об'єктно-орієнтовані бази даних
- db4o
- GemStone/S
- InterSystems Caché
- JADE
- ObjectDatabase++
- ObjectDB
- Objectivity/DB
- ObjectStore
- ODABA
- Perst
- OpenLink Virtuoso
- Versant Object Database
- ZODB
Продуктивність
Бен Скотфілд оцінив різні категорії NoSQL баз даних:[23]
Модель даних | Продуктивність | Масштабованість | Гнучкість | Складність | Функціональність |
---|---|---|---|---|---|
Key–Value Store | high | high | high | none | variable (none) |
Column-Oriented Store | high | high | moderate | low | minimal |
Document-Oriented Store | high | variable (high) | high | low | variable (low) |
Graph Database | variable | variable | high | high | теорія графів |
Relational Database | variable | variable | low | moderate | реляційна алгебра |
Обробка реляційних даних
Оскільки у більшості NoSQL баз даних відсутня можливість для операцій з'єднання в запитах, схема БД повинна бути спроектована іншим чином. Виділяють три техніки обробки реляційних даних в NoSQL базах:
Множинні запити
Підхід розбиття складних запитів на підмножину простих. NoSQL запити зазвичай простіші за традиційні SQL запити, тож можливість запуску додаткових запитів є доцільною з точки зору сумарного часу виконання. У випадку потреби запуску значної кількості запитів, варто розглянути наступні два підходи.
Кешування/Реплікація/Ненормалізовані дані
На відміну від зберігання вийнятково зовнішніх ключів, звичний підхід зберігати зовнішні значення заразом з даними моделі. До прикладу, кожен коментар блогу може включати ім'я користувача окрім його id, забезпечуючи тим самим легкий доступ до імені користувача, не вимагаючи іншого пошуку. Однак, коли ім'я користувача було змінено - це тепер вимагатиме змін в багатьох місцях. Таким чином, цей підхід працює краще, при частому читанні даних, ніж їх модифікації.
Вкладені дані
В документних базах, таких як MongoDB це цілком звично розміщувати більше даних в меншу кількість колекцій. До прикладу, застосунок типу блог може зберігати коментарі до певного посту як один запис. При цьому підході один документ міститиме всі необхідні дані для певного типу завдань.
Підтримка ACID та JOIN
Якщо база даних відзначена як така, що підтримує ACID чи joins, це означає, що це підтверджено в її документації. Ступінь підтримки в тій чи іншій мірі відповідає потребам конкретного застосування.
Database | ACID | Joins |
---|---|---|
Aerospike | Так | Ні |
Apache Ignite | Так | Так |
ArangoDB | Так | Так |
CouchDB | Так | Так |
c-treeACE | Так | Так |
DB2 | Так | Так |
InfinityDB | Так | Ні |
LMDB | Так | Ні |
MarkLogic | Так | Так[nb 1] |
OrientDB | Так | Так[nb 2] |
Примітки
- http://nosql-database.org/ «NoSQL DEFINITION: Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable»
- Leavitt, Neal (2010). Will NoSQL Databases Live Up to Their Promise?. IEEE Computer.
- Mohan, C. (2013). History Repeats Itself: Sensible and NonsenSQL Aspects of the NoSQL Hoopla Proc. 16th Int'l Conf. on Extending Database Technology.
- NOSQL meetup Tickets, Thu, Jun 11, 2009 at 10:00 AM. Eventbrite.com. Архів оригіналу за 3 серпня 2017. Процитовано 6 березня 2017.
- Amazon Goes Back to the Future With 'NoSQL' Database. WIRED. 19 січня 2012. Процитовано 6 березня 2017.
- RDBMS dominate the database market, but NoSQL systems are catching up. DB-Engines.com. 21 листопада 2013. Процитовано 24 листопада 2013.
- NoSQL (Not Only SQL). «NoSQL database, also called Not Only SQL»
- Fowler, Martin. NosqlDefinition. «many advocates of NoSQL say that it does not mean a "no" to SQL, rather it means Not Only SQL»
- Vogels, Werner (18 січня 2012). Amazon DynamoDB – a Fast and Scalable NoSQL Database Service Designed for Internet Scale Applications. All Things Distributed. Процитовано 6 березня 2017.
- Grolinger, K.; Higashino, W. A.; Tiwari, A.; Capretz, M. A. M. (2013). Data management in cloud environments: NoSQL and NewSQL data stores. Aira, Springer. Процитовано 8 Jan 2014.
- Jepsen: MongoDB stale reads. Aphyr.com. 20 квітня 2015. Процитовано 6 березня 2017.
- Large volume data analysis on the Typesafe Reactive Platform. Slideshare.net. Процитовано 6 березня 2017.
- Fowler, Adam. 10 NoSQL Misconceptions. Dummies.com. Процитовано 6 березня 2017.
- No! to SQL and No! to NoSQL | So Many Oracle Manuals, So Little Time. Iggyfernandez.wordpress.com. Процитовано 6 березня 2017.
- Sargolzaei Javan, Morteza; Mohanna, Farahnaz (2009). Multi Dimensional and Flexible Model for Databases. Springer. с. 159–164. Проігноровано невідомий параметр
|book-title=
(довідка) - Lith, Adam; Mattson, Jakob (2010). Investigating storage solutions for large data: A comparison of well performing and scalable data storage solutions for real time extraction and batch insertion of data. Göteborg: Department of Computer Science and Engineering, Chalmers University of Technology. с. 70. Процитовано 12 травня 2011. «Carlo Strozzi first used the term NoSQL in 1998 as a name for his open source relational database that did not offer a SQL interface[...]»
- NoSQL Relational Database Management System: Home Page. Strozzi.it. 2 жовтня 2007. Процитовано 29 березня 2010.
- NoSQL 2009. Blog.sym-link.com. 12 травня 2009. Архів оригіналу за 16 липня 2011. Процитовано 29 березня 2010.
- Chapple, Mike. The ACID Model.
- Sandy (14 січня 2011). Key Value stores and the NoSQL movement. http://dba.stackexchange.com/questions/607/what-is-a-key-value-store-database: Stackexchange. Процитовано 1 January 2012. «Key-value stores allow the application developer to store schema-less data. This data usually consists of a string that represents the key, and the actual data that is considered the value in the "key-value" relationship. The data itself is usually some kind of primitive of the programming language (a string, an integer, or an array) or an object that is being marshaled by the programming language's bindings to the key-value store. This structure replaces the need for a fixed data model and allows proper formatting.»
- Seeger, Marc (21 вересня 2009). Key-Value Stores: a practical overview. http://blog.marc-seeger.de/2009/09/21/key-value-stores-a-practical-overview/: Marc Seeger. Процитовано 1 January 2012. «Key-value stores provide a high-performance alternative to relational database systems with respect to storing and accessing data. This paper provides a short overview of some of the currently available key-value stores and their interface to the Ruby programming language.»
- Katsov, Ilya (1 March 2012). NoSQL Data Modeling Techniques. Ilya Katsov. Процитовано 8 May 2014.
- Scofield, Ben (14 січня 2010). NoSQL - Death to Relational Databases(?). Процитовано 26 червня 2014.
- Can’t do joins with MarkLogic? It’s just a matter of Semantics! - General Networks. Gennet.com. Архів оригіналу за 3 березня 2017. Процитовано 6 березня 2017.
- SQL Reference · OrientDB Manual. OrientDB.com. Процитовано 24 квітня 2017.
Див. також
Посилання
- NoSQL Databases Explained
- Oracle NoSQL Database
- Strauch, Christoph. NoSQL whitepaper. Stuttgart: Hochschule der Medien.
- Edlich, Stefan. NoSQL database List.
- Neubauer, Peter (2010). Graph Databases, NOSQL and Neo4j.
- Bushik, Sergey (2012). A vendor-independent comparison of NoSQL databases: Cassandra, HBase, MongoDB, Riak. NetworkWorld.
- Zicari, Roberto V. (2014). NoSQL Data Stores – Articles, Papers, Presentations. odbms.org.