Tesseract

Tesseract вільна програма для розпізнавання текстів, розроблялася Hewlett-Packard з 1985 до 1994 року, а в наступне десятиріччя залишалася практично без змін. Не так давно Google купив[джерело?] її та відкрив початковий код під ліцензією Apache 2.0 у 2006 році.[2] для продовження розробки. У цей час програма вже працює з UTF-8, розпізнає багато мов, серед яких і українська.

Tesseract
Тип OCR
Розробник Hewlett-Packard, Google
Стабільний випуск 3.02 (28 жовтня 2012)
Версії 5.0.1 (7 січня 2022)[1]
Репозиторій github.com/tesseract-ocr/tesseract
Операційна система Windows, Linux, Mac OS X
Мова програмування C C++
Ліцензія Apache 2.0
Онлайн-документація github.com/tesseract-ocr/tessdoc
tesseract-ocr.github.io
Вебсайт tesseract-ocr.googlecode.com

 Tesseract у Вікісховищі

Застосування

Tesseract був використаний, зокрема, Міжнародним консорціумом журналістів-розслідувачів для дослідження інформації у так званих «панамських документах»[3].

Примітки

  1. https://github.com/tesseract-ocr/tesseract/releases/tag/5.0.1
  2. Vincent, Luc (August 2006). Announcing Tesseract OCR. Архів оригіналу за 18 березня 2012. Процитовано 26 червня 2008.
  3. Mar Cabra, Erin Kissane (11 квітня 2016). The People and Tech Behind the Panama Papers. opennews.org. An OpenNews project. Процитовано 18 квітня 2016.

Див. також

Посилання


This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.