Глибинна мережа
Глибинна мережа (з англ. deep web[1]), невидима мережа (invisible web[2]) чи прихована мережа (hidden web[3]) – це частка всесвітньої мережі інтернет, вміст якої за жодних обставин не індексують стандартні пошукові онлайн-системи. Глибинна мережа є протилежним явищем до поверхневої мережі.
Серед поширених застосувань глибинної мережі є такі, як онлайн-листування, інтернет-банкінг, а також платні послуги на кшталт відео на вимогу, доступ до яких здійснюється через так звану платну стіну (paywall), та багато іншого.
Інформатик Майк Бергман започаткував цей термін у 2000 році як термін пошукового індексування.
Термінологія
Перше змішування термінів «глибинна мережа» та «темна мережа» відбулось близько 2009 року, коли термінологію глибинного мережевого пошуку обговорювали разом із нелегальною діяльністю у Freenet даркнеті[4].
Відтоді багато людей та медіа-майданчиків почали вживати термін «глибинна мережа» як синонім до «темної мережі» чи даркнету, проте порівняння цих термінів є джерелом постійної плутанини[5]. Репортери новинного ресурсу Wired Кім Зеттер[6] та Енді Грінберг[7] рекомендують чітко розрізняти ці терміни у вживанні.
Розмір
У 2000 році Майкл К. Бергман сказав, що пошук в інтернеті можна порівняти з закиданням сітки на поверхню океану: багато чого може в неї потрапити, проте існує безліч інформації на глибині, яка до цієї «сітки» не потрапить[8]. Більшість інформації похована глибоко в нетрях вебсайтів і стандартні пошукові системи не знаходять її. Традиційні пошукові системи не можуть бачити чи витягувати вміст глибинної мережі. Та частка даних, що ними індексується, відома під назвою поверхнева мережа. Станом на 2001 рік об'єм глибинної мережі сягав розмірів, на кілька порядків більших за поверхневу мережу[9]. Аналогія, до якої вдався Денис Шестаков, позначає відмінність між поверхневою та глибинною мережею:
Неможливо виміряти та грубо дати оцінку об'ємові глибинної мережі, оскільки більшість інформації є прихованою чи замкненою в бази даних. Згідно перших оцінок, глибинна мережа є у 400-550 разів більшою за поверхневу. Однак, оскільки з часом постійно додають нову інформацію та веб-сторінки, можна вважати, що глибинна мережа росте експоненційно зі швидкістю, яку не можливо оцінити.
Обчислення, базовані на екстраполяції з дослідження, проведеного в Університеті Каліфорнії (Берклі) у 2001 році[9], припускають, що об'єм усієї глибинної мережі сягає близько 7,5 петабайтів. Більш точні оцінки є для певної кількості ресурсів: дослідження He et al. у 2004 році зафіксували близько 300.000 веб-сторінок глибинної мережі[10].
Різновиди вмісту
Методи запобігання індексування веб-сторінок можна розбити на такі категорії:
- Контекстна мережа: сторінки із вмістом, що змінюється в залежності від різних контекстів доступу (наприклад, діапазони клієнтських IP-адрес або послідовність попередньої навігації).
- Динамічний контент: динамічні веб-сторінки, які створюються як результат надісланого запиту, чи доступні виключно через форму, особливо якщо для цього застосовують необмежені елементи вводу на кшталт текстових полів; такими полями важко керуватись без відповідних галузевих знань.
- Вміст з обмеженим доступом: сайти, що обмежують доступ до своїх сторінок технічними засобами (наприклад, використовуючи інструмент CAPTCHA чи директиви незбереження, які забороняють пошуковим системам перегляд або створення кешованих копій)[11].
- Не-HTML/текстовий вміст: текстовий вміст, зашитий у мультимедіа (зображення чи відео) файли або специфічні файлові формати, не опрацьовується пошуковими системами.
- Приватна мережа: веб-сторінки, що для доступу вимагають реєстрацію та вхід у систему (ресурси, захищені паролем).
- Скриптований контент: веб-сторінки, які є доступними лише за посиланнями, згенерованими на Javascript, а також вміст, що динамічно звантажується з веб-серверів через засоби Flash або AJAX.
- Програмне забезпечення: певний вміст є навмисне прихованим від звичайного інтернету, доступний лише через таке спеціальне програмне забезпечення, як Tor, I2P та інші програми даркнету. Наприклад, Tor дозволяє користувачам анонімно доступатись до веб-сторінок через адресний суфікс .onion, приховуючи їхні IP-адреси.
- Незв'язаний вміст: веб-сторінки, які не є зв'язаними між собою, що може перешкодити пошуковим роботам доступ до їх вмісту. Такий вміст також називають сторінками без зворотніх посилань. Пошукові системи не завжди фіксують усі зворотні посилання на цільових веб-сторінках.
- Мережеві архіви: Такі сервіси мережевого архівування, як Wayback Machine, дають можливість користувачам переглядати архівовані версії веб-сторінок за минулий час, в тому числі і таких, які стали недоступними, і, відповідно, не індексуються пошуковими системами на кшталт Google[12].
Методики індексування
Попри те, що натрапити на вміст певних веб-серверів для його індексування не завжди можливо, сама веб-сторінка може потенційно бути доступною напряму внаслідок уразливості комп'ютера.
Для того, щоб відкривати вміст у мережі, пошукові системи використовують пошукових плазунів, які відвідують веб-посилання крізь відомі віртуальні порти протоколу. Ця техніка є досконалою для відкриття вмісту у поверхневій мережі, проте часто є недієвою у знаходженні вмісту мережі глибинної. Наприклад, ці плазуни не намагаються знайти динамічні веб-сторінки, які є результатом запитів до бази даних, оскільки кількість можливих запитів є невизначеною[13]. Зауважили, що цю перешкоду можна частково обійти шляхом надання посилань до результатів запитів, проте наслідком може бути ненавмисне роздування популярності для члена глибинної мережі.
Див. також
- Даркнет
- Глибинне пов'язування
- Gopher-протокол
Посилання
- Hamilton, Nigel. The Mechanics of a Deep Net Metasearch Engine. CiteSeerX: 10.1.1.90.5847.
- Devine, Jane; Egger-Sider, Francine (July 2004). Beyond google: the invisible web in the academic library. The Journal of Academic Librarianship 30 (4): 265–269. doi:10.1016/j.acalib.2004.04.010. Процитовано 6 лютого 2014.
- Raghavan, Sriram; Garcia-Molina, Hector (11–14 September 2001). Crawling the Hidden Web. 27th International Conference on Very Large Data Bases (Rome, Italy).
- Beckett, Andy (26 листопада 2009). The dark side of the internet. Процитовано 9 серпня 2015.
- Solomon, Jane (6 травня 2015). The Deep Web vs. The Dark Web. Процитовано 26 травня 2015.
- NPR Staff (25 травня 2014). Going Dark: The Internet Behind The Internet. Процитовано 29 травня 2015.
- Greenberg, Andy (19 листопада 2014). Hacker Lexicon: What Is the Dark Web?. Процитовано 6 червня 2015.
- Bergman, Michael K (July 2000). The Deep Web: Surfacing Hidden Value. BrightPlanet LLC. Архів оригіналу за 2 листопада 2013. Процитовано 30 червня 2016.
- Bergman, Michael K (August 2001). The Deep Web: Surfacing Hidden Value. The Journal of Electronic Publishing 7 (1). doi:10.3998/3336451.0007.104.
- He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan (May 2007). Accessing the Deep Web: A Survey. Communications of the ACM 50 (2): 94–101. doi:10.1145/1230819.1241670.
- Hypertext Transfer Protocol (HTTP/1.1): Caching. Internet Engineering Task Force. 2014. Процитовано 30 липня 2014.
- Wiener-Bronner, Danielle (10 червня 2015). NASA is indexing the ‘Deep Web’ to show mankind what Google won’t. Fusion. Процитовано 27 червня 2015. «There are other simpler versions of Memex already available. “If you’ve ever used the Internet Archive‘s Wayback Machine,” which gives you past versions of a website not accessible through Google, then you’ve technically searched the Deep Web, said Chris Mattmann.»
- Wright, Alex (22 лютого 2009). Exploring a 'Deep Web' That Google Can’t Grasp. The New York Times. Процитовано 23 лютого 2009.