reCAPTCHA

reCAPTCHA — це система, що була початково розроблена в університеті Карнегі Мелон і базується на використанні CAPTCHA для оцифровування текстів книг заодно із захистом вебсайтів від доступу ботами до обмежених ресурсів.[1] 16 вересня 2009 року Google придбав reCAPTCHA.[2] У цей час reCAPTCHA оцифровує архіви газети New York Times.[3] Вже опрацьовано випуски The New York Times за двадцять років і очікується, що у 2010-му буде оцифровано архіви ще за 110 років.[4]

Логотип reCAPTCHA

reCAPTCHA постачає передплачені сайти зображення слів, які не можуть розпізнанні за допомогою програмного забезпечення для оптичного розпізнавання символів. Підписані сайти, які як правило не пов'язані з проєктами оцифрування книг, пропонують ці зображення людям для розпізнавання як слова CAPTCHA, що є частиною звичайного процесу валідації. Потім вони відсилають результати до сервісу reCAPTCHA, який у свою чергу відсилає їх до проєктів оцифрування.

Заявлено, що система вирішує 200 мільйонів капч щодня,[5] і налічує такі популярні сайти як Facebook, TicketMaster, Twitter та StumbleUpon серед передплатників.[6] Craigslist почав використовувати reCAPTCHA у липні 2008-го.[7]

Походження

Програма reCAPTCHA походить від гватемальського комп'ютерного науковця Луїс фон Ана, лауреата стипендії МакАртура. Як ранній розробник CAPTCHA, він зрозумів, що «він мимовільно створив систему, що розтринькує десяти-секундними шматками мільйони годин найціннішого ресурсу: мозкову діяльність людини.»[8]

Процес

Сканований текст аналізується двома різними програмами оптичного розпізнавання символів; у випадку, коли програми дають різний результат, сумнівне слово конвертується у CAPTCHA. Слово відображається разом із уже відомим контрольним словом. Система робить припущення, що якщо людина вводить контрольне слово вірно, то і сумнівне слово теж введено вірно. Ідентифікації, проведеної кожною з OCR-програм, надається значення 0.5, а кожній інтерпретації людини — 1. Як тільки в сумі набирається 2.5, то слово розглядається як розпізнане. Такі слова надалі використовуються повторно як контрольні.[9]

Реалізація

Тести reCAPTCHA беруть з центрального сайту проєкту reCAPTCHA так як вони містять нерозпізнані слова. Це виконується через JavaScript API із зворотнім викликом сервера до reCAPTCHA після зробленого запиту. Проєкт reCAPTCHA надає бібліотеки для різних мов програмування та додатків, щоб зробити цей процес простішим. reCAPTCHA є безкоштовним сервісом (тобто зображення CAPTCHA надаються сайтам безкоштовно взамін за допомогу у оцифруванні)[10], проте програмне забезпечення reCAPTCHA не є open source-ним.

Також reCAPTCHA пропонує плагіни до різних веб-платформ, як ASP.NET чи PHP, щоб спростити реалізацію сервісу.

Mailhide

reCAPTCHA також створив проєкт Mailhide[11], що захищає адреси електронної пошти на веб-сторінках від збирання спамботами. Адреса e-mail ковертується у формат, що не дозволяє «павуку» побачити повну адресу. Наприклад, «noreply@example.com» буде перетворене у «nor…@example.com». Щоб побачити повну адресу, відвідувачу потрібно буде натиснути на «…» і пройти CAPTCHA.

Примітки

  1. Luis von Ahn, Ben Maurer, Colin McMillen, David Abraham and Manuel Blum (2008). reCAPTCHA: Human-Based Character Recognition via Web Security Measures (PDF). Science 321 (5895): 1465–1468. doi:10.1126/science.1160379.
  2. Teaching computers to read: Google acquires reCAPTCHA (англ.). Google. Архів оригіналу за 6 липня 2013. Процитовано 16 вересня 2009.
  3. Learn more (англ.). reCAPTCHA.net. Архів оригіналу за 6 липня 2013. Процитовано 23 листопада 2008.
  4. Luis von Ahn. NOVA ScienceNow s04e01 [Television production]. Процитовано 2009-07-06. Подія відбулася 46:58. “The New York Times has this huge archive, over 130 years of newspaper archive there. And we've done maybe about 20 years so far of The New York Times in the last few months and I believe we're going to be done next year by just having people do a word at a time.”
  5. Архівована копія. Архів оригіналу за 30 січня 2010. Процитовано 2 лютого 2010.
  6. Rubens, Paul (2 жовтня 2007). Spam weapon helps preserve books (англ.). BBC. Архів оригіналу за 6 липня 2013. Процитовано 2 лютого 2010.
  7. Fight Spam, Digitize Books (англ.). Craigslist Blog. 2008-06. Архів оригіналу за 6 липня 2013. Процитовано 2 лютого 2010.
  8. Hutchinson, Alex (March 2009). Human Resources: The job you didn't even know you had. The Walrus (англ.): 15–16.
  9. Timmer, John (14 серпня 2008). CAPTCHAs work? for digitizing old, damaged texts, manuscripts (англ.). Ars Technica. Архів оригіналу за 6 липня 2013. Процитовано 9 грудня 2008.
  10. FAQ (англ.). reCAPTCHA.net. Архів оригіналу за 6 липня 2013. Процитовано 2 лютого 2010.
  11. Mailhide: Free Spam Protection (англ.). reCAPTCHA.net. Архів оригіналу за 30 січня 2010. Процитовано 2 лютого 2010.

Посилання

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.