Розширена латиниця

Розши́рена лати́ниця — набір літер латинського письма, що включає в себе не лише основний набір літер (які складають сучасний англійський алфавіт), а й додаткові та варіантні літери, присутні в писемностях на основі латинської графіки.

В обчислювальній техніці

Оскільки для розширеної латиниці використовуються символи, що не входять до базового набору ASCII, кодування їх створює деякі труднощі. В ранній період (коли мали розповсюдження 7-бітні кодування) для додаткових латинських літер використовувались коди на місці деяких символів основного набору (маловживаних знаків пунктуації, спецсимволів та ін.). Недоліком такого вирішення проблеми було обмеження максимальної кількості додаткових літер в одному кодуванні, яке при цьому ставало не повністю ascii-сумісним (проте, подібна практика продовжилась і в деяких 8-бітних кодуваннях).

З переходом до 8-бітних кодувань, додаткові латинські літери стали розміщувати в діапазоні кодів від 128 до 255 (так само, як кирилиця та інші нелатинські алфавіти) — таким чином, максимальна кількість додаткових знаків в одному наборі сягала 128. Не існувало єдиного кодування, що охоплювало б усі літери алфавітів на основі латинського — як правило, вони охоплювали лише декілька мов певного регіону (напр., західноєвропейське, що містило літери французького, німецького алфавітів тощо, але було непридатне для польської або чеської мови). Для деяких алфавітів, проте, 128 додаткових кодових позицій було недостатньо — так, для в'єтнамської мови використовувалось кодування VSCII, де прекомбіновані літери з діакритиками розміщувались не лише в діапазоні 128…255, а й 1…31 (початково відведеному для керуючих кодів).

З переходом до Unicode, проблема обмеженої кількості літер зникла. Для розширеної латиниці відведено декілька блоків кодів. У форматі UTF-8 літери розширеної латиниці займають по 2 чи більше байтів (тоді як літери базової латиниці — лише 1).

Як і в випадку кирилиці, для одних і тих же мов часто існувало декілька кодувань, що передають розширену латиницю по-різному. Ця проблема, проте, менш відчутна, оскільки текст на цих мовах здебільшого містить одночасно літери основної й розширеної латиниці, що часто поєднуються в одному слові — таким чином, значення неправильно розкодованих літер простіше відновити з контексту. Крім того, поширена практика, коли літери розширеної латиниці замінюють аналогічними літерами англійського алфавіту.

В HTML ряд літер розширеної латиниці (в першу чергу, західноєвропейських мов) можна передавати сутнісними позначеннями символів (у форматі &назва;), для решти існують лише чисельні позначення на основі кодів Unicode. Всі ці позначення доступні завжди, незалежно від того, яке кодування використовується на сторінці — таким чином, літери розширеної латиниці можна використати на сторінці в кириличному кодуванні (windows-1251 чи KOI8-RU), яке саме по собі цих літер не містить.

Оскільки спосіб передачі літер розширеної латиниці в різних кодуваннях відрізняється (при тому, що більшість розповсюджених кодувань є ascii-сумісними), в багатьох випадках існувало чи існує обмеження на використання додаткових латинських літер. Так, довгий час доменні імена могли містити літери лише базової латиниці. При розробці програмного забезпечення також прийнято використовувати імена файлів, ідентифікатори та ін., що не містять додаткових знаків за межами базового набору ascii (у тому числі, літер розширеної латиниці) — незважаючи на те, що сучасні файлові системи та синтаксис багатьох мов програмування вже дозволяють використовувати додаткові символи.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.