Неструктуровані дані

Неструктуровані дані дані, які не відповідають заздалегідь визначеній моделі даних, і, як правило, представлені у вигляді тексту з датами, цифрами, фактами, які розташовані в ньому в довільній формі[1][2]. Такі дані важко аналізувати, особливо з допомогою традиційних програм, призначених до роботи зі структурованими даними (анотованими або тими, що зберігаються у базах).

За оцінками Merrill Lynch 1998 року близько 80—90 % від усієї потенційно корисної ділової інформації було представлено в неструктурованій формі, проте це співставлення не ґрунтувалося на статистиці або кількісних дослідженнях, а було припущенням. Computerworld оцінює обсяг неструктурованих даних в організаціях у 70—80 % від усіх даних.

Історія

Найраніші дослідження у сфері бізнес-аналітики зосереджувалися не на числових даних, а на неструктурованих текстових даних. Вже 1958 року такі дослідники у сфері інформаційних технологій, як Г. П. Лун, вивчали способи виділяння та класифікації даних у неструктурованому тексті.[3] Проте, лише з початку 2000-х років наявні технології наздогнали дослідницький інтерес. У 2004 році SAS Institute розробив SAS Text Miner, який використовує сингулярне розкладання, щоб зводити текстовий простір високої розмірності до меншої кількості вимірів для значного спрощення машинного аналізу[4][неавторитетне джерело]. Досягнення в галузі математики та технологій машинної обробки текстів стимулювали проведення досліджень комерційними організаціями в таких галузях, як аналіз тональності тексту (сентимент-аналіз), збирання та аналіз думок замовників, автоматизація центрів обробки викликів[5][неавторитетне джерело]. Поява технологій великих даних наприкінці 2000-х років стимулювала підвищений інтерес до програм для аналізу неструктурованих даних у сучасних областях, таких як прогнозування та аналіз першопричин[6] .

Проблеми термінології

Термін «неструктуровані дані» може вважатися неточним з кількох причин:

  • структура, навіть якщо вона не визначена формально, може матися на увазі;
  • дані, які мають структуру деякої форми, можуть характеризуватися як неструктуровані, якщо їхня структура не призначена для машинної обробки;
  • неструктурована інформація може мати деяку структуру (така інформація називається напівструктурованою) або навіть бути добре структурованою, але тими способами, які є неочевидними без попереднього узгодження.

Робота з неструктурованими даними

Такі техніки, як інтелектуальний аналіз даних (англ. data mining), обробка природної мови (англ. Natural Language Processing) та інтелектуальний аналіз тексту надають методи пошуку закономірностей з метою так чи інакше інтерпретувати неструктуровану інформацію.

Методи структурування тексту зазвичай включають ручне маркування (метадані) або розмітку частинами мови для подальшого структурування тексту. Архітектура управління неструктурованою інформацією (англ. UIMA) забезпечує загальну основу для обробки цієї інформації для отримання значень і створення структурованих даних на основі неструктурованої інформації. Програмне забезпечення, що створює машинно-оброблювану структуру даних, використовує лінгвістичні, звукові та візуальні структури, що існують у всіх формах людського спілкування. Наприклад, спеціальні алгоритми можуть вивести структуру з тексту шляхом аналізу морфології, синтаксису речень, тощо. Потім можна провести розмітку неструктурованої інформації для уникнення неоднозначності, а для покращення пошуку використовуються методи оцінки релевантності.

Прикладом «неструктурованих даних» можуть бути книги, журнали, документи, метадані, медичні записи, аудіо, відео, аналогові дані, зображення, а також файли, що мають за основу неструктурований текст: повідомлення електронної пошти, вебсторінки, документи, створені за допомогою текстових процесорів . Неструктурована інформація може зберігатися у вигляді структурованих об'єктів (наприклад, у вигляді файлів чи документів), які в свою чергу мають структуру. При цьому поєднання структурованих та неструктурованих даних у сукупності також називається «неструктуровані дані». Наприклад, у вебсторінках HTML вже є розмітка, проте вона придатна лише для відображення. У ній не міститься інформація про значення або функції тих чи інших розмічених елементів у вигляді, придатному для автоматичної обробки. Розмітку засобами XHTML простіше обробляти автоматично, але, зазвичай, у ній не міститься семантичних значень виразів.

Оскільки неструктуровані дані зазвичай зберігаються у вигляді електронних документів, програми для аналізу змісту або управління документами надають перевагу класифікуванню цілих документів, ніж їхніх окремих частин. Таким чином, програми для обробки такого типу даних зазвичай являють собою засоби для створення колекцій документів з неструктурованою інформацією. Проте сьогодні існують також рішення, що працюють з атомарними елементами меншими, ніж цілий документ[7] .

Пошукові системи стали одним із популярних інструментів для індексації та пошуку в неструктурованих даних.

Див. також

Примітки

  1. Unstructured data // geeksforgeeks.org
  2. Unstructured data] // PC Magazine Encyclopedia
  3. Grimes, Seth. A Brief History of Text Analytics. B Eye Network. Процитовано 24 червня 2016.
  4. Albright, Russ. Taming Text with the SVD. SAS. Процитовано 24 червня 2016.
  5. Desai, Manish. Applications of Text Analytics. My Business Analytics @ Blogspot. Процитовано 24 червня 2016.
  6. Chakraborty, Goutam. Analysis of Unstructured Data: Applications of Text Analytics and Sentiment Mining. SAS. Процитовано 24 червня 2016.
  7. Datagrav: A Framework for Knowledge Sharing Using Transclusion Enabled Collaboration Media | Sergey Kochuguev — Academia.edu

Джерела

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.