Одиниці вимірювання інформації
Одиниці вимірювання інформації слугують для вимірювання різних характеристик, пов'язаних з інформацією.
Найчастіше вимірювання інформації стосується вимірювання ємності комп'ютерної пам'яті (носіїв даних) і вимірювання кількості даних, що передаються цифровими каналами зв'язку. Рідше вимірюється кількість інформації.
Одиниці вимірювання інформації
Великий за розміром обсяг даних може містити в собі дуже малу кількість інформації. Тобто обсяг даних і кількість інформації є різними характеристиками, застосовуваними в різних галузях, пов'язаних з інформацією, але історично назву «кількість інформації» використовували у значенні «обсяг даних», а для вимірювання кількості інформації застосовували назви «інформаційна ентропія» і «цінність інформації».
Одиниці вимірювання ємності носіїв і обсягу даних
Застосовуються для вимірювання ємності носіїв інформації — запам'ятовувальних пристроїв і для вимірювання обсягів даних.
Одиниці вимірювання кількості інформації
Застосовуються для вимірювання кількості інформації в обсязі даних. Див. Інформаційна ентропія
Первинна одиниця
Первинною характеристикою обсягу даних є кількість можливих станів.
Первинною одиницею виміру обсягу даних є 1 можливий стан (значення, код).
Вторинні одиниці
Вторинною характеристикою обсягу даних є розряд.
Ємність (обсяг) одного розряду може бути різною і залежить від основи застосованої системи кодування.
Ємності одного розряду в двійковій, трійковій і десятковій системах кодування: Один двійковий розряд (біт) має 2 взаємовиключних можливих стани (значення, коди).
Один трійковий розряд (трит) має 3 взаємовиключних можливих стани (значення, коди).
…
Один десятковий розряд (децит) має 10 взаємовиключних можливих станів (значень, кодів).
…
Третинні одиниці
Третинними характеристиками обсягу даних є різні множини розрядів.
Ємність множини розрядів дорівнює кількості можливих станів цієї множини розрядів, яка визначається в комбінаториці і дорівнює кількості розміщень з повтореннями і обчислюється за формулою:
- можливих станів (кодів, значень)
де
- — кількість можливих станів одного розряду (основа вибраної системи кодування),
- — кількість розрядів у множині розрядів.
Тобто ємність множини розрядів являє собою показникову функцію від кількості розрядів з основою, що дорівнює кількості можливих станів одного розряду.
Приклад:
1 байт складається з 8-ми () двійкових розрядів () і може набувати:
можливих станів (значень, кодів).
Логарифмічні одиниці
Коли деякі величини, зокрема й обсяг даних, являють собою показникові функції, то, в багатьох випадках, зручніше користуватися не самими величинами, а логарифмами цих величин.
Обсяг даних теж можна подавати логарифмічно, як логарифм кількості можливих станів[1].
Обсяг інформації (обсяг даних) може вимірюватися логарифмічно.[2] Це означає, що коли кілька об'єктів розглядаються як один, кількість можливих станів перемножується, а кількість інформації — додається. Не важливо, йде мова про випадкові величини в математиці, регістри цифрової пам'яті в техніці чи квантові системи у фізиці.
Для обсягів двійкових даних зручніше користуватися двійковими логарифмами.
- можливих стани, двійковий розряд = 1 біт
- можливих станів, двійкових розрядів = 1 байт (октет)
- можливих станів, двійкових розрядів = 1 кілобайт (КілоОктет)
- можливих станів, двійкових розрядів = 1 мегабайт (Мегаоктет)
- можливих станів, двійкових розрядів = 1 гігабайт (Гігаоктет)
- можливих станів, двійкових розрядів = 1 терабайт (Тераоктет)
Найменше ціле число, двійковий логарифм якого ціле додатне — це 2. Відповідна йому одиниця — біт — є основою обчислення обсягу інформації в цифровій техніці.
Для обсягів трійкових даних зручніше користуватися трійковими логарифмами.
- можливих стани, трійковий розряд (трит)
- можливих станів, трійкових розрядів (тритів) = 1 Трайт.
Одиниця, що відповідає числу 3 — трит, дорівнює біта.
Така одиниця як нат (nat), відповідна натуральному логарифму, застосовується в інженерних і наукових розрахунках. В обчислювальній техніці вона практично не застосовується, оскільки основа натуральних логарифмів не є цілим числом.
Для обсягів десяткових даних зручніше користуватися десятковими логарифмами.
- можливих станів, десятковий розряд = 1 децит
- можливих станів, десяткових розрядів = 1 кілодецит.
- можливих станів, десяткових розрядів = 1 мегадецит.
- можливих станів, десяткових розрядів = 1 гігадецит.
Одиниця, що відповідає числу 10 — децит, дорівнює біта.
В дротовій техніці зв'язку (телеграф і телефон) і радіо історично вперше одиниця інформації отримала позначення бод .
Одиниці, похідні від біта
У цілих кількостях двійкових розрядів (бітів) кількість можливих станів дорівнює степеням двійки.
Тетрада, напівбайт, ніббл
Особливу назву мають чотири двійкових розряди (4 біти) — тетрада, напівбайт, ніббл, які містять обсяг інформації, що міститься в одній шістнадцятковій цифрі.
Байт
Кількість байтів | |||||||||
---|---|---|---|---|---|---|---|---|---|
Десяткова система | Префікси SI | Двійкові префікси МЕК | |||||||
Назва | Скорочення | Степінь | Назва | Степінь | Назва | Скорочення | Степінь | ||
байт | Б | (B) | 100 | - | 100 | байт | Б | (B) | 20 |
кілобайт | кБ | (kB) | 103 | кіло- | 103 | кібібайт | КіБ | (KiB) | 210 |
мегабайт | МБ | (MB) | 106 | мега- | 106 | мебібайт | МіБ | (MiB) | 220 |
гігабайт | ГБ | (GB) | 109 | гіга- | 109 | гібібайт | ГіБ | (GiB) | 230 |
терабайт | ТБ | (TB) | 1012 | тера- | 1012 | тебібайт | ТіБ | (TiB) | 240 |
петабайт | ПБ | (PB) | 1015 | пета- | 1015 | пебібайт | ПіБ | (PiB) | 250 |
ексабайт | ЕБ | (EB) | 1018 | екса- | 1018 | ексбібайт | ЕіБ | (EiB) | 260 |
зетабайт | ЗБ | (ZB) | 1021 | зета- | 1021 | зебібайт | ЗіБ | (ZiB) | 270 |
йотабайт | ЙБ | (YB) | 1024 | йота- | 1024 | йобібайт | ЙіБ | (YiB) | 280 |
Наступною за порядком популярною одиницею інформації є 8 біт, або байт (про термінологічні тонкощі написано нижче). Саме до байта (а не до біта) безпосередньо зводяться всі великі обсяги інформації, які обчислюються в комп'ютерних технологіях.
Такі величини як машинне слово тощо, які становлять декілька байт, як одиниці вимірювання майже ніколи не використовуються.
Кілобайт
Для вимірювання великих ємностей запам'ятовувальних пристроїв і великих обсягів інформації, що мають велику кількість байтів, служать одиниці «кілобайт» = 1000 байт і «Кбайт» (кібібайт, kibibyte) = 1024 байт (про плутанину десяткових і двійкових одиниць і термінів див. нижче). Такий порядок величин мають, наприклад:
- Сектор диска зазвичай має обсяг 512 байт тобто половину Кбайта, хоча в деяких пристроях може вміщувати 1 або 2 Кбайт.
- Класичний розмір «блоку» у файлових системах UNIX дорівнює одному Кбайт (1024 байт).
- «Сторінка пам'яті» у процесорах x86 (починаючи з моделі Intel 80386) має розмір 4096 байт, тобто 4 Кбайт.
Обсяг інформації, одержуваної при зчитуванні дискети «3,5" високої щільності» дорівнює 1440 Кбайт (рівно); обсяги інших форматів також обчислюються цілим числом Кбайт.
Мегабайт
Одиниці «мегабайт» = 1000 кілобайт = 1 000 000 байт і «мебібайт» (mebibyte) = 1024 Кбайт = 1 048 576 байт застосовуються для вимірювання обсягів носіїв інформації.
Обсяг адресного простору процесора Intel 8086 дорівнював 1 Мбайт.
Оперативну пам'ять і ємність CD-ROM вимірюють двійковими одиницями (мебібайтами, хоча їх так зазвичай не називають), але для обсягу НЖМД десяткові мегабайти були більш популярні.
Сучасні жорсткі диски мають обсяги, що виражаються в цих одиницях мінімум шестизначними числами, тому для них застосовуються гігабайти.
Гігабайт
Одиниці «гігабайт» = 1000 мегабайт = 1 000 000 кілобайт = 1 000 000 000 байт і «Гбайт» (Гібібайт, gibibyte) = 1024 Мбайт = 230 байт вимірюють обсяг великих носіїв інформації, наприклад жорстких дисків. Різниця між двійковою і десятковою одиницями вже перевищує 7 %.
Розмір 32-бітного адресного простору дорівнює 4 Гбайт ≈ 4,295 Мбайт. Такий самий порядок мають обсяг DVD-ROM і сучасних носіїв на флеш-пам'яті. Розміри жорстких дисків вже досягли тисяч гігабайт.
Для обчислення ще більших обсягів інформації є одиниці терабайт і тебібайт (1012 і 240 байт відповідно), петабайт і пебібайт (1015 і 250 байт відповідно) і т. д.
Що таке «байт»?
В принципі, байт визначається для конкретного комп'ютера як мінімальний крок адресації пам'яті, який на старих машинах не обов'язково дорівнював 8 бітам (а пам'ять не обов'язково складається з бітів — див., наприклад: трійковий комп'ютер). У сучасній традиції, байт часто вважають рівним восьми бітам.
У таких позначеннях як байт (українське) або B (англійське) під байтом (B) мають на увазі саме 8 біт, хоча сам термін «байт» не цілком коректний з точки зору теорії.
У французькій мові використовуються позначення o, Ko, Mo і т. д. (від слова octet) щоб підкреслити, що мова йде саме про 8 біт.
Чому дорівнює «кіло»?
Довгий час різниці між множниками 1000 і 1024 намагалися не надавати великого значення. Щоб уникнути непорозумінь слід чітко розуміти різницю між:
- двійковими кратними одиницями, що позначаються відповідно до ГОСТ 8.417-2002 як «Кбайт», «Мбайт», «Гбайт» і т. д. (два в степенях кратних десяти);
- одиницями кілобайт, мегабайт, гігабайт і т. д., що розуміються як наукові терміни (десять в степенях, кратних трьом), які за визначенням рівні, відповідно, 103, 106, 109 байтам і т. д.
Як терміни для «Кбайт», «Мбайт», «Гбайт» і т. д. МЕК пропонує «кібібайт», «мебібайт», «гібібайт» і т. д., однак ці терміни критикуються за складність вимови і не зустрічаються в усному мовленні.
В різних галузях інформатики переваги у вживанні десяткових і двійкових одиниць теж різні. Причому, хоча з часу стандартизації термінології і позначень пройшло вже кілька років, далеко не скрізь прагнуть прояснити точне значення використовуваних одиниць.
В англійській мові для «кібі» = 1024 = 210 іноді використовують велику літеру K, щоб підкреслити відмінність від позначуваного малою літерою префікса СІ кіло. Однак, таке позначення не спирається на авторитетний стандарт, на відміну від російського ГОСТу щодо «Кбайт».
Варіації
Примітки
- «логарифм» на answers.com(англ.)
- З точки зору фізики, величина інформації (як і близька до неї за змістом ентропія) безрозмірна. На практиці, як і при вимірюванні безрозмірних кутів, користуються різними практично зручними одиницями.