Структурований документ

Структурований документ — це електронний документ, де використовується якийсь метод розмітки для ідентифікації цілої або декілька частин документа, що мають різні значення. Наприклад, структурований документ може ідентифікувати певну частину як «заголовок глави» (або «зразок коду» або «чотиривірш»), а не як основний текст. Такі частини загалом називають «компонентами» або «елементами» документа.

Огляд

Структуровані документи, як правило, зосереджені на маркуванні певних речей, які можна використовувати для різних цілей обробки або зміни тексту. Наприклад, чітке маркування «заголовка глави» або «наголосу» набагато корисніше для людей із вадами зору, ніж просто «курсив». Так само, змістовне маркування багатьох елементів у технічній інформаційній таблиці забезпечує значно кращу інтеграцію з базами даних, пошуковими системами, онлайн-каталогами тощо.

Структуровані документи, як правило, підтримують принаймні ієрархічні структури, наприклад списки, а не просто елементи списку; розділи, а не лише заголовки розділів; і так далі. Це суттєво виділяється із системи і значно полегшує її форматування. Системи вищого рівня також підтримують безліч незалежних та / або накладених наборів компонентів.

Системи структурованих документів зазвичай дозволяють створювати чіткі правила, що визначають типи компонентів та спосіб їх поєднання. Такий набір правил називається «схемою» за аналогією зі схемами баз даних. Є кілька формальних мов для їхньої специфікації, таких як XSD, Relax NG та Schematron. Структурований документ, який відповідає правилам схеми, зазвичай називають «дійсним відповідно до цієї схеми». Деякі системи також підтримують документи з компонентами довільних типів та комбінацій, але все ж із синтаксичними правилами ідентифікації цих компонентів.

Лі й Саарела зазначили, що «Стандартна узагальнена мова розмітки (СУМР) започаткувала концепцію структурованих документів»[1], хоча попередні системи, такі як Scribe, Augment і FRESS забезпечували багато функцій структурованих документів, а SGML-евий нащадок XML є тепер улюбленим.

Одним із широко використовуваних інструментів для структурованих документів є HTML, схема, визначена та описана за допомогою W3C. Однак, HTML має не лише теги зі значенням компонентів, таких як абзац, заголовок та код; але також із форматом, такі як курсив, жирний шрифт та більшість таблиць. На практиці HTML іноді використовується як структурована система документів, але у більшості випадків використовується як мова форматування.

Багато доменів використовують структуровані документи за допомогою спільно розроблених схем, такі як JATS для публікації журналів, TEI для документів літературного характеру, UBL та EDI для ділового обміну даними, XTCE для телеметрії космічних кораблів, REST для вебінтерфейсів та безліч інших. У всіх вище зазначених випадках використовуються специфічні схеми на основі XML.

Структурна семантика

При написанні структурованих документів основна увага приділяється кодуванню структури документа, при цьому набагато менше або ж взагалі не приділяється увага презентації його людям у вигляді друкованих сторінок чи текстом на екрані. Структуровані документи можуть бути легко оброблені комп'ютерними системами, для вилучення та представлення похідних форм документа. Наприклад, у більшості статей Вікіпедії зміст автоматично генерується з різних тегів заголовків у тілі документа. Оскільки конверсія SGML в Оксфордському словнику англійської мови чітко виділяла безліч різних значень, що надаються у друкованій версії курсивом, інструменти пошуку можуть отримувати записи на основі етимології, цитат та багатьох інших цікавих особливостей. Коли HTML надає структурну, а не просто інформацію, тоді користувачам із вадами зору можна легко надати кращий інтерфейс для читання. Коли туристичні компанії надають маршрути як структуровані документи, а не просто як зображення, користувачі можуть легко виділити необхідну інформацію та передати їх у календар або інші програми.

У HTML частиною логічної структури документа може бути тіло документа тобто <body>, що містить заголовок першого рівня, який позначається <h1> та абзац — <p>.

<body>

<h1>Структурований документ</h1>
<p><strong class="selflink">Структурований документ</strong> це <a title="Електронний документ">електронний документ</a> де використовуються певні методи <a title="Мова маркування">маркування</a> використовується для ідентифікації цілого або декількох частин документа, що мають різні значення, окрім форматування.</p>

</body>

Однією з найкращих особливостей структурованих документів є те, що їх можна багаторазово використовувати і представляти різними способами на мобільних телефонах, телевізійних екранах, синтезаторах мови та будь-якому іншому пристрої, який можна запрограмувати для їх обробки.

Інша семантика

Іншого значення можна надати тексту, що не є «структурним» у точно такому ж значенні, як великі об'єкти, але все ще вважається «структурою документа», оскільки висловлює твердження про обсяг та природу або онтологію частин документа, а не вказівки щодо її подання. У наведеному вище фрагменті HTML елемент <strong> означає, що доданий текст є виразним. У візуальному плані це зазвичай передається напівжирним шрифтом, як <b>; але мовний інтерфейс замість цього скоріше використовував би голосову флексію. Термін семантична розмітка виключає розмітку типу <b> яка безпосередньо не виражає жодного значення, крім інструкції для візуального дисплея (хоча інтелектуальний агент може бути в змозі розрізнити структурне значення, що криється за тегом). «Сильний» тег є «описовим» або «структурним», оскільки він призначений для позначення абстрактної, квазілінгвістичної властивості його змісту, а не для опису відповідної презентації в якомусь конкретному середовищі.

Деякі інші структурні теги в HTML включають <abbr>, <acronym>, <address>, <cite>, <del>, <dfn>, <ins>, <kbd>, <q>. Інші схеми, такі як DocBook та TEI, мають значно більший вибір.

Тег <a> використовується для дещо іншого типу структури, а саме структури взаємозв'язку або перехресних посилань. Це, безумовно, структура, і насправді можна створити альтернативну розмітку для документів, що виражає ті самі конкретні структури в будь-який спосіб (наприклад, використовуючи трансклюзію для представлення вмісту розділу, а не презентації гіперпосилань навігації).

З самого початку HTML також мітив теги, що виражають семантику презентації, наприклад напівжирний (<b>) або курсив (<i>), або для зміни розміру шрифту, або які мали інші наслідки для презентації[2]. Сучасні версії мов розмітки перешкоджають такій розмітці на користь описової розмітки, яка відображається у певних презентаціях за допомогою таблиць стилів — методу, запровадженого такими системами, як Scribe та FRESS. Таблиці різних стилів можуть бути прикріплені до будь-якої розмітки, семантичної чи презентаційної, щоб створювати різні презентації, хоча відображення назви тегу «курсив» до презентації жирним шрифтом не зовсім інтуїтивно зрозуміле.

Див. також

Список літератури

  1. Håkon Wium Lie; Janne Saarela (1998). Multi-purpose publishing using HTML, XML, and CSS. W3.org. Association for Computing Machinery.
  2. A sample HTML instance. Процитовано 5 березня 2014.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.