CuneiForm
CuneiForm — інструмент оптичного розпізнавання символів, розроблений російською компанією Cognitive Technologies. Програма перетворює файли зображень, отримані зі сканера або іншим шляхом на текст. Після декількох років без розвитку, 12 грудня 2007 року анонсовано відкриття джерельних текстів програми, яке відбулося 2 квітня 2008 року [3].
CuneiForm 12 | |
Тип | ОРС |
---|---|
Автор(и) | Cognitive Technologies |
Розробник | Cognitive Technologies |
Стабільний випуск | 12 (12 грудня 2007) |
Нестабільний випуск | джерельні коди (2 квітня 2008) |
Операційна система | Windows, Linux[1] |
Мова програмування | C++[2] і C[2] |
Українська | інтерфейс — ні, ОРС — так |
Ліцензія | вільна (Відкрите програмне забезпечення з березня 2008), Ліцензія BSD |
Вебсайт | www.cuneiform.ru, www.openocr.org |
Можливості
CuneiForm — шрифтонезалежна (OmniFont) система. Алгоритми, закладені в CuneiForm, ґрунтуються на правилах написання букв, на їхній топології, і не вимагають задавання певних еталонів або навчання. Розпізнаються будь-які друкарські шрифти — книги, газети, журнали, роздруківки з лазерних і матричних принтерів, тексти з друкарських машинок тощо. Не розпізнається рукописний текст і декоративні шрифти (готичний, стилізований під рукописний). В CuneiForm існують спеціальні налаштування для розпізнавання текстів з матричного принтера і факсів 200x100 DPI.
CuneiForm зберігає форматування тексту і розпізнає складні таблиці довільної структури.
Програма розпізнає текст англійською, болгарськіою, голландською, данською, естонською, іспанською, італійською, латвійською, литовською, німецькою, польською, португальською, російською, румунською, сербською, словенською, турецькою, угорською, українською, французькою, хорватською, чеською, шведською мовами та російсько-англійський двомовний текст.
CuneiForm може зберегти розпізнаний текст у форматах RTF, HTML або текстовому. Також можливо передати текст до текстового процесора Word або електронної таблиці Excel.
Історія
Колись лідер програмного забезпечення з розпізнавання символів у Росії, CuneiForm змагався з популярною нині програмою ABBYY FineReader.
Майбутнє
Cognitive Technologies розпочали програму «Розпізнавання має бути на кожному комп'ютері», щоб зробити розпізнавання доступним для всіх споживачів. Перший крок програми — випуск CuneiForm як вільно поширюваного ПЗ. Наступним кроком стане запуск вільної on-line служби розпізнавання на сайті www.cuneiform.ru до кінця січня 2008 року.
2 квітня 2008 року компанія Cognitive Technologies оголосила про відкриття джерельного коду програми[3]. В даний час, розробники вибрали для проекту ліцензію BSD[4].
У квітні 2009 випущена перша версія Cuneiform-Qt — графічного інтерфейсу до Cuneiform на основі бібліотеки Qt4.
У червні 2009 випущена перша публічна версія YAGF — графічної оболонки до Cuneiform на основі бібліотеки Qt4.
Див. також
Посилання
- Сайт CuneiForm(рос.)
- Опис CuneiForm Архівовано 16 грудня 2007 у Wayback Machine.(рос.)
- Новина про відкриття сирцевих кодів CuneiForm(рос.)
- Офіційний форум CuneiForm (рос.)
- Визначення системи CuneiForm, її призначення, опис основних можливостей інтерфейсу користувача, отримання вхідних документів, розпізнавання (виділення структури отриманого документа, обмеження мовної підтримки, спеціальні інструменти для розпізнавання складно-структурованих документів), первинної мовної та текстової обробки результату, реалізації принципу «What You Scan Is What You Get», інтеграцію з іншими програмними застосунками.(рос.)
- Огляд використаних технологій(рос.)
- Відповіді на питання — визначення системи, огляд використаних технологій, відмінні від інших аналогічних систем риси, аналіз ключових особливостей вхідних документів та вихідних результатів.(рос.)
Виноски
- Jussy Pakkanen портував джерельний код Cuneiform під Linux. Поточний статус --- альфа.
- https://www.openhub.net/p/cuneiform/analyses/latest/languages_summary
- Cognitive Technologies відкрила код OCR Cuneiform. Архів оригіналу за 6 листопада 2009. Процитовано 28 квітня 2009.
- Ліцензія. Архів оригіналу за 18 грудня 2007. Процитовано 13 грудня 2007.