Tesseract
Tesseract — вільна програма для розпізнавання текстів, розроблялася Hewlett-Packard з 1985 до 1994 року, а в наступне десятиріччя залишалася практично без змін. Не так давно Google купив[джерело?] її та відкрив початковий код під ліцензією Apache 2.0 у 2006 році.[2] для продовження розробки. У цей час програма вже працює з UTF-8, розпізнає багато мов, серед яких і українська.
![]() | |
![]() | |
Тип | OCR |
---|---|
Розробник | Hewlett-Packard, Google |
Стабільний випуск | 3.02 (28 жовтня 2012) |
Версії | 5.0.1 (7 січня 2022)[1] |
Репозиторій | github.com/tesseract-ocr/tesseract |
Операційна система | Windows, Linux, Mac OS X |
Мова програмування | C C++ |
Ліцензія | Apache 2.0 |
Онлайн-документація |
github.com/tesseract-ocr/tessdoc tesseract-ocr.github.io |
Вебсайт | tesseract-ocr.googlecode.com |
![]() |
Застосування
Tesseract був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах»[3].
Примітки
- https://github.com/tesseract-ocr/tesseract/releases/tag/5.0.1
- Vincent, Luc (August 2006). Announcing Tesseract OCR. Архів оригіналу за 18 березня 2012. Процитовано 26 червня 2008.
- Mar Cabra, Erin Kissane (11 квітня 2016). The People and Tech Behind the Panama Papers. opennews.org. An OpenNews project. Процитовано 18 квітня 2016.
Див. також
Посилання
- Сторінка завантажень (компіляції, мовні пакети, вихідні коди)
- Керівництво з навчання програми мові (рос.)
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.