Символ заміни
Символ заміни — символ, який використовується, коли значення символу невідоме або не може бути виражене в кодуванні Юнікод.
Цей символ знаходиться на позиції U+FFFD[1] у розділі «Спеціальні символи». Він — останній символ базової багатомовною площини.
Накреслення
Символ зоражується у формі чорного ромба з вирізаним усередині знаком питання.
Інше
Зустрічається в тексті при неправильно налаштованому кодуванні символів. Він з'являється в разі відсутності символів, які є у вихідному кодуванні, у цільовому кодуванні.
Припустімо, у нас є текстовий файл, який містить німецьке слово für
в кодуванні ISO 8859-1. Цей текстовий файл був переданий Інтернетом користувачеві, у якого кодування за замовчуванням UTF-8.
Перший байт (0x66
) в межах 0x00-0x7F, UTF-8 відображає його коректно у вигляді «f». Другий байт (0xFC
) — невідповідне значення для початку будь-якого символу в UTF-8. І на місці цього байта браузер відобразить символ заміни з метою попередити користувача про те, що щось пішло не так. Третій байт (0x72
) також в межах 0x00-0x7F, UTF-8 відображає його коректно у вигляді «r». І ціле слово буде відображено як f�r
.
Текстовий редактор може відобразити символ заміни в UTF-8, і при відправленні файлу назад. У ISO 8859-1 на місці символу буде нескладне поєднання трьох символів: f�r
. Це відбувається, бо UTF-8 символу заміни — 0xEF 0xBF 0xBD
. 0xEF — ï, 0xBF — ¿, 0xBD — ½, а разом — �.
Примітки
- U+FFFD � REPLACEMENT CHARACTER (англ.). Архів оригіналу за 27 січня 2013. Процитовано 6 січня 2013.
Посилання
- Сторінка на Unicode.org (англ.)