Сайт дня: NewOCR — подрастающий убийца FineReader

NewOCR.com — это бесплатный онлайн-сервис для оптического распознавания символов. NewOCR.

com может анализировать текст в любом загружаемом вами графическом файле, а затем преобразовывать текст из изображения в текст, который вы можете легко редактировать на своем компьютере.

Неограниченная загрузка, без регистрации, анализ макета (многоколоночное распознавание текста), поддержка 29 языков (включая набор текста в шрифтах Fraktur и blackletter), файлы изображений (JPEG, PNG, GIF, BMP, многостраничный TIFF) до 5 МБ, многостраничный PDF документы до 20 МБ

  • Официальный сайт
  • OCR
  • Офисные программы
  • text-recognition extract-text

Сайт дня: NewOCR - подрастающий убийца FineReader

  • Tesseract.js — это библиотека javascript, которая выводит слова практически из любого языка из изображений. Двигатель Tesseract OCR был одним из трех лучших в тесте точности UNLV 1995 года. Между 1995 и 2006 годами над ней мало что было сделано, но …
  • gImageReader — это простой интерфейс Gtk / Qt для механизма распознавания текста Tesseract. Функции: — Импорт PDF документов и изображений с диска, сканирующих устройств, буфера обмена и скриншотов — Обработка нескольких изображений и документов за … PDF OCR OCR Изображение в текст Сайт дня: NewOCR - подрастающий убийца FineReader
  • FreeOCR — это программа сканирования и распознавания, включающая Tesseract free ocr engine, также известный как графический интерфейс Tesseract. Он включает в себя установщик Windows и очень прост в использовании. FreeOCR поддерживает многостраничны… Сайт дня: NewOCR - подрастающий убийца FineReader
  • Это быстрое и бесплатное программное обеспечение для распознавания текста извлекает текст из файлов изображений и элементов PDF. Приложение доступно в виде веб-службы (онлайн-распознавания текста) или в качестве приложения для магазина Windows с отк… Конвертировать PDF в Word документ PDF OCR OCR Сайт дня: NewOCR - подрастающий убийца FineReader
  • ABBYY TextGrabber easily and quickly scans, translates and saves your chosen text or QR-codes from virtually any printed material. Simply take a picture of the text on 60+ languages or QR-codes and immediately edit, hear it spoken aloud via VoiceOve…
  • Мощная технология оптического распознавания текста делает OmniPage 17 лучшим и наиболее точным в мире решением для перепрофилирования, редактирования, сортировки, поиска и совместного использования преобразованных документов в любом формате, который…
  • img2txt.com — это онлайн-сервис для распознавания текста, который позволяет получать текст с изображения или отсканированной страницы. Сайт дня: NewOCR - подрастающий убийца FineReader
  • CuneiForm (OpenOCR) — это программа распознавания текста для печатных шаблонов. Рукописи или PDF-файлы программа может не распознавать, однако, кроме табличных структур. Языковая модель применима для 20 языков, а результаты можно использовать в каче…
  • Prizmo 2 — это революционное приложение для сканирования с оптическим распознаванием символов (OCR) на более чем 40 языках с мощными возможностями редактирования, преобразования текста в речь и поддержкой iCloud. Основные характеристики ? Специальна… OCR Сканирование документов
  • i2OCR — это бесплатное онлайн-распознавание текста, которое преобразует отсканированные документы, факсы или снимки экрана в редактируемый текст. i2OCR распознает документы с несколькими столбцами, написанные на более чем 30 языках, поддерживает нес…
  • Высокоточный ABBYY Cloud OCR SDK доступен каждому в облаке через веб-API. OCR, ICR, распознавание штрих-кода, распознавание визитных карточек, распознавание рукописного текста и многое другое!
  • OCRopus ™ — это современная система анализа документов и OCR, которая включает в себя анализ подключаемых макетов, распознавание подключаемых символов, статистическое моделирование на естественном языке и многоязычные возможности. Система разраба…
  • Free-OCR.com — это бесплатный инструмент для оптического распознавания символов. Вы можете использовать этот сервис для извлечения текста из любого изображения, которое вы предоставляете. Эта услуга бесплатна, регистрация не требуется. Нам также не …
  • Поддерживает оптическое распознавание символов для вьетнамского языка. Выпущено и распространяется под лицензией Apache, v2.0. Функции: * Мультиплатформенность (только версия Java) о Windows o Солярис o Linux / Unix o Mac OS X o другие * PDF, TIFF, …
  • Free OCR to Word — это программное обеспечение для распознавания текста, которое выполняет все ваши утомительные перепечатки и воссоздание с молниеносной скоростью в документы Word, которые вы можете редактировать на своем ПК или архивировать в хран…
  • Облачная служба OmniPage — это платформа облачных вычислений, созданная на основе OmniPage Capture SDK. Он предоставляет веб-сервисы, которые обеспечивают крупномасштабную обработку оптического распознавания текста входных файлов практически любых г… Конвертировать PDF в Word документ OCR
  • YAGF, еще один графический интерфейс для CuneiForm, представляет собой графический интерфейс для CuneiForm и Инструменты распознавания текста Tesseract на платформе Linux. С YAGF вы можете сканировать изображения с помощью XSane, импортировать стран…

Abbyy FineReader — Файн Ридер скачать бесплатно на русском

Abbyy FineReader – это широко известная программа для сканирования документов и распознавания текста. На сегодняшний день она является наиболее популярной благодаря понятному и удобному интерфейсу, большому набору всевозможных функций, связанный со сканированием и работой с готовым документом, а также удобством в использовании.

Сайт дня: NewOCR - подрастающий убийца FineReader

При помощи программы Файн Ридер можно:

Сканировать любой документ через ваш сканер и после распознать и сохранить для дальнейшего редактирования на компьютере, отправить по электронной почте, сохранить на флешке и т.д.

Так же можно переводить изображения, сканы, PDF-файлы, фотографии в другие форматы, например, конвертировать их в таблицы и тексты без необходимости набирать текст заново.

При этом распознаются многие форматы изображений, а форматирование текста часто остаётся не тронутым.

Файн Ридер программа для сканирования документов умеет работать со всеми сканерами включая самые популярные такие как Canon (Кэнон), HP, Kyocera (Куосера), Samsung (Самсунг) и другие.

Сайт дня: NewOCR - подрастающий убийца FineReader

Программа для сканирования может сохранить документ в редакторы — Word (Ворд), Excel (Эксель), OpenOffice, Adobe Acrobat а так же экспортировать файлы в облачные хранилища по вашему выбору.

Помимо широкого функционала эта программа для скана выпускается более, чем на 170 языках мира, в том числе и на русском. Скорость и эффективность работы, особенно в самой новой версии Abbyy FineReader, удивительны. А улучшенный редактор изображений позволяет сделать предварительную обработку сканов и фотографий.

Можно по своему желанию добавить или снизить яркость и контрастность, скорректировать погрешности, допущенные камерой. Это позволит как можно точнее распознать текст и области рисунков. Удобный и понятный даже впервые столкнувшемуся с программой человеку интерфейс, делает её незаменимым помощником как на рабочем месте, так и дома.

Как сканировать и распознать документ:

  • Если программа на русском все достаточно просто и понятно, версия скачанная с нашего сайта бесплатна.
  • На верхней панели достаточно большие значки основных функций, на скрине ниже 11 версия но и в других все примерно одинаково изменены лишь сами значки.
  • Для того чтоб распознать нужно сначала сканировать со сканера документ либо загрузить картинку например с текстом, после нажать на кнопочку Распознать.
  • Сайт дня: NewOCR - подрастающий убийца FineReader
  • После распознания и корректировки можно сохранять документ в редактируемый а также желаемый формат например ПДФ (PDF).
  • Сайт дня: NewOCR - подрастающий убийца FineReader
  • При обычном использовании например только распознать или только сканировать углубленные настройки вообще не нужны.

Если все же вам необходимы доп. настройки то нажмите Сервис -> Опции. (для версии 11)

Из углубленных функций можно воспользоватся редактором языков если у вас текст который нужно распознать не Русский.

Сайт дня: NewOCR - подрастающий убийца FineReader

FineReader и другие знаменитые продукты Abbyy перестали быть российским ПО

31 Января 2022 19:12 31 Янв 2022 19:12 |

Вышедшая на международный уровень российская софтверная компания-миллиардер
Abbyy удалила почти все свои продукты из Реестра отечественного ПО при
Минцифры. Предположительно она передала права на них своим американским юрлицам.

Из Реестра отечественного ПО при Минцифры была удалена
большая часть продуктов основанной в России компании Abbyy, которая сегодня
позиционирует себя в качестве ведущего мирового разработчика решений в области
интеллектуальной обработки информации и анализа бизнес-процессов.

Сведения об исключении 17 программ фигурируют в приложении к
протоколу заседания экспертного совета при реестре от 17 января
2022 г. Ретроспективный анализ документов показывает, что еще три продукта были
удалены в конце 2021 г.

В числе потерь реестра — программа для распознавания текста
Abbyy FineReader, ПО для потокового ввода данных Abbyy FlexiCapture, сканер
визиток Abbyy Business Card Reader, решение для создания снимков областей
экрана Abbyy Screenshot Reader, ПО для создания мобильных приложений Abbyy
Mobile OCR Engine и др.

Представители Abbyy сообщили CNews,
что удаления произошли по заявкам самих же разработчиков.

Читайте также:  Toshiba Tecra A11 и M11 - ноутбуки для мобильных профессионалов

«Мы постоянно следим
за актуальностью продуктов компании, входящих в реестр отечественного ПО, и
регулярно сами уведомляем оператора реестра об изменениях, что и произошло в
данном случае, — отмечают собеседники редакции.

— Мы исключили продукты,
которые более не соответствуют требованиям реестра. Компания по собственной
инициативе подала заявку об исключении продуктов, что предусмотрено правилами
реестра. В реестре находится ряд продуктов, например, Abbyy Intelligent Search,
Abbyy Lingvo».

Сайт дня: NewOCR - подрастающий убийца FineReader

Abbyy удалила свои продукты из реестра российского ПО

Также представители компании отметили, что Abbyy продолжает
расширять свое присутствие на международном рынке и диверсифицирует активы в
соответствии с ключевыми регионами присутствия.

«Развитие продаж компании на
международном рынке позволяет нам инвестировать в новые направления и
технологии и, как следствие, предоставлять все больше квалифицированных рабочих
мест инженерам наших R&D центров в России, развивать исследовательскую
деятельность и поддерживать образование в стране».

Возможная подоплека

Источник, хорошо знакомый с деятельностью Abbyy, рассказал
TAdviser, что Abbyy передала права на продукты своим американским юрлицам. Это
касается тех продуктов, которые она продвигает на глобальном рынке.

Владельцы Abbyy — и физлица, и фонды — заинтересованы в
повышении акционерной стоимости компании, пояснил собеседник издания. Права на
продукты — это один из активов, влияющий на общую стоимость компании, и при его
оценке, особенно в случае с глобальными бизнесами, учитывается, в том числе,
юрисдикция нахождения правообладателя продуктов.

На цену косвенно влияет политика, говорит источник: все
активы, которые находятся в России, имеют некий дисконт на мировом рынке.
Поэтому перевод прав на продукты в американскую юрисдикцию повышает стоимость
этих активов, заверяет источник.

Кому продукты
принадлежали в России

Правообладателем удаленных продуктов в реестре было указано
ООО «Аби продакшн», зарегистрированное в Москве в декабре 2006 г.

По данным ЕГРЮЛ, оно примерно на 99,9% принадлежит кипрской
структуре «Аби плс». Еще порядка 0,1% записано на «Аби девелопмент инк» (США).
Гендиректором заявлен Вадим Терещенко.

Цифровые новинки ВТБ: от биометрии для веб-версии до банка в Telegram

ИТ в банках Сайт дня: NewOCR - подрастающий убийца FineReader

По сведениям «Контур.фокуса», по итогам 2020 г. выручка «Аби
продакшн» составила 5,4 млрд руб. с приростом этого показателя на 83% по
сравнению с предыдущим годом. Чистая прибыль оказалась на уровне 1,9 млрд руб.

С мая 2021 г. крупнейшим акционером Abbyy выступает
американский фонд Marlin.

Специфика и масштабы
бизнеса Abbyy

Основанная в России в 1989 г. компания Abbyy занимается
разработкой технологий оптического распознавания документов и ввода форм, а
также прикладного лингвистического ПО.

Основателем Abbyy является Давид Ян. Изначально компания называлась BIT Software. На момент
основания бизнеса Ян был студентом четвертого курса Московского
физико-технического института (МФТИ, «Физтех»). Сооснователем компании выступил
Александр Москалев. Предприятие было
переименовано в Abbyy в 1997 г.

Импортозамещение, Азия или «серый» импорт: где брать серверное оборудование

Импортозамещение Сайт дня: NewOCR - подрастающий убийца FineReader

Головной офис Abbyy расположен в США (Шарлотт, Северная Каролина), офисы компании находятся в 14 странах. Два из основных офисов разработки расположены в России (Москва, Новосибирск). В компании работает свыше 1,3 тыс. сотрудников.

На корпоративном рынке России Abbyy известна в первую
очередь как разработчик решений в области потокового ввода документов и данных.

Заказчиками Abbyy являются российские и международные
компании из банковской, энергетической, нефтегазовой, телекоммуникационной и
других отраслей, а также из государственного сектора.

Среди них Сбербанк,
Альфа-банк, Райффайзенбанк, ВТБ, страховая компания Allianz, СК «Согласие»,
«Транснефть», МРСК Сибири, «Востокгазпром», «КЭС холдинг», СИБУР, МТС, Tele-2,
НИЯУ МИФИ, Федеральная налоговая служба, Государственная Дума, ФГБУ
«Федеральный центр тестирования» (ЕГЭ) и др.

  • Бесплатный фотошоп: лучшие программы для обработки фото онлайн

Денис Воейков

Подписаться на новости Короткая ссылка

ABBYY FineReader: PDF и OCR Editor для распознавания текста

В частности, это одно из самых мощных решений в этом отношении для выполнения всех видов работ.

связанные с сектором OCR , Прежде всего, мы скажем вам, что это коммерческая программа, действительная как для компаний, так и для конечных пользователей, которые обычно имеют дело с этими файлами.

Все это будет сделано через интуитивно понятный и хорошо структурированный пользователь интерфейс.

Сайт дня: NewOCR - подрастающий убийца FineReader

Что характеризует ABBYY FineReader и отличает его от остальных

Это правда, что в Интернете мы можем найти большое количество программ этого типа, некоторые бесплатные.

Но также верно, что власть и функциональность интегрированный в этот пакет, мы вряд ли найдем в бесплатном независимом решении.

Чтобы воспользоваться всем этим, в первую очередь необходимо установить приложение как таковое на PC , Это разделено на несколько разделов или режимов работы, чтобы быстро найти то, что мы ищем.

Редактирование текстового документа

Первое, что мы находим, это одна из функций, которые считаются важными и которые мы будем часто использовать в программе, которая фокусируется на работе с файлами PDF. Поэтому для этого нам нужно будет нажать «Открыть PDF-документ» раздела «Просмотр и редактирование PDF-документов».

Вот ряд функций, связанных со всем этим, которые мы выбираем в зависимости от типа работы, которая нам нужна в каждом конкретном случае.

Таким образом, мы можем просматривать, искать, распечатывать или редактировать любой PDF-файл, загрузив его здесь. В то же время у нас будет возможность управлять своими страницами, заполнять формы, защищать их или сжимать PDF.

Чтобы использовать все вышеперечисленное, просто загрузите соответствующий файл в этом разделе ABBYY FineReader .

Конвертация отсканированных файлов в ABBYY FineReader

Кроме того, как могло бы быть иначе, это приложение, которое также позволит нам преобразовывать файлы, которые мы оцифровали, с помощью оптического распознавания или распознавания текста.

Для всего этого, также из основного интерфейса приложения мы находим несколько ярлыков, которые позволяют нам выполнять эти Преобразование задания.

Как мы видим, вышеупомянутый интерфейс старается максимально облегчить всю работу.

Для этого случая мы увидим соответствующие кнопки в разделе «Преобразование документов».

Внизу мы находим некоторые варианты в этом отношении, которые позволяют нам преобразовать в Word Excel, RTF , ODT, PTTX и т. Д.

Таким образом, как мы видим, Abbyy FineReader позволяет нам работать друг с другом с наиболее распространенными типами файлов в офисных средах.

Таким образом, открывая Редактор OCR В режиме, это даст нам возможность настраивать и оптимизировать расширенные функции преобразования оцифрованных документов и из которых нам нужно извлечь тексты.

На самом деле все это поможет нам извлечь текст любого документа, используя технологию внутреннего распознавания символов ABBYY FineReader.

После завершения этого процесса, который занимает несколько секунд, программа преобразует их непосредственно в редактируемые тексты в указанном офисном формате.

OCR сканирование от ABBYY FineReader

Но, как мы можем видеть в Основной интерфейс программы, о которой мы говорим, в левой части мы видим ряд основных функций программы. До сих пор мы говорили о тех, которые находятся в разделе Open отсканированных документов, но мы находим другие.

В этом случае мы собираемся поместить себя конкретно в так называемую Оцифровки , который является точно одним из самых интересных в этом случае. И если раньше мы говорили о функциях, связанных с просмотром файлов как таковых, то теперь мы собираемся показать вам, как их создавать.

Читайте также:  Soltek qbic eq3401: не очень маленький, но удаленький

Одним из преимуществ, предлагаемых этим мощным приложением, является то, что оно позволяет нам создавать редактируемые текстовые файлы в различных форматах через его OCR. Мы достигаем этого с помощью раздела «Сканирование» с помощью отсканированных документов и оптического распознавания программы.

Мы говорим вам об этом, потому что отсюда и с помощью камеры или сканера мы можем извлечь текст, используя файлы OCR в PDF, Word, Excel , изображение, и так далее Как может быть иначе, пройдя Abbyy FineReader и его технологию, они становятся редактируемыми текстами в выбранном формате.

Сравните отсканированный текст документов с Abby FineReader

С другой стороны, а также в левой части основного интерфейса программы, мы находим опцию, которая позволяет нам сравнивать текстовое содержимое двух ранее отсканированные файлы , Это еще одна очень важная функция в секторе распознавания символов.

И если мы уже показали вам, как открыть и создать эти редактируемый текст документы, теперь мы можем сравнить их.

Как легко представить, при работе с документами, отсканированными с помощью вышеупомянутого оптического распознавания символов, возможность их совместного использования очень полезна во многих случаях.

Это позволит нам быстро найти различия в текстах и ​​выделить их, чтобы знать, с каким из них остаться. В то же время программа генерирует сообщать с этими различиями в качестве записи на случай, если они необходимы в будущем.

Настройка программы OCR для оптимизации ее работы

Это наиболее важные функции, доступные для Abbyy FineReader, но также рекомендуется настроить и настроить приложение для оптимизации его использования.

Таким образом, в левом нижнем углу его интерфейса мы находим ярлык для него. В частности, мы увидим ссылку под названием Options.

Нажав на него, мы увидим на экране, что появляется новое окно с различными разделами, которые позволяют нам настроить некоторые параметры программы .

Таким образом, мы можем настроить обработку изображений в документах путем оцифровки текстов с помощью OCR.

Также в Configuration Format мы можем установить пароли для создаваемых документов, указать значение по умолчанию размер бумаги , Создайте закладки , удалите ненужные элементы при сканировании документов или включите распознавание текста в фоновом режиме.

Как скачать программу с ее сайта

Перед загрузкой и установкой Abbyy FineReader на наш компьютер, мы должны быть уверены, что это коммерческое применение платный.

Это означает, что если мы хотим приобрести лицензию на стандартную версию программы, нам придется заплатить 199 евро за стандарт.

Аналогичным образом, корпоративный с автоматизацией определенных процедур распознавания символов, стоит 299 евро.

В случае, если перед покупкой мы хотим попробовать то, что мы сказали вам, есть Пробная версия действует в течение 15 дней. Поэтому, чтобы сделать с любой из версий Abbyy FineReader, это то, что вы можете сделать из эту ссылку .

Сайт дня: NewOCR — подрастающий убийца FineReader

Сегодня сайтом дня объявляется онлайновый сервис распознавания текста NewOCR.

Чуть меньше года назад я писал про замечательный сайт ABBYY FineReader Online, который для того времени казался безусловно лучшим решением. Да, он слегка платный. Зато отлично распознаёт и понимает разные языки. Хотя немного, совсем капельку неудобный. Но что тут говорить, все привыкли, что конкуренты заметно отстают, так что выбора-то и нет.

За этот почти год я убедился, что выбор есть. Все годы, пока развивалась индустрия программ OCR (оптического распознавания текста) конкуренты отставали от FineReader на несколько шагов.

Когда FineReader ещё не было, OCR-программы напоминали детские демки, так что это не считается. Но шли годы, OCR-программы, такие как Tesseract и Cuneiform, гнались за FineReader, и постепенно добежали до такого уровня, когда ими стало можно пользоваться.

Возможно, FineReader ещё лучше, но это уже тот уровень, когда начинает играть роль понятие «достаточно».

Потестировав недавно Tesseract и Cuneiform на смартфоновых снимках русскоязычного текста я убедился, что их наконец-то достаточно. Возможно, их ещё и год назад было бы достаточно, если бы я тогда взялся потестировать.

Естественно, я сразу же начал искать к ним хороший интерфейс (благо, это свободные программы и интерфейс можно выбирать). В конце концов мне понравился веб-интерфейс на сайте NewOCR. Он простой, понятный, быстрый, и поддерживает обе OCR-программы и оба нужных мне языка (среди прочих).

  • Выбор файла и метода на сайте NewOCR
  • Всё предельно понятно, выбираем файл из сети или с компьютера (поддерживаются форматы JPEG, PNG, GIF, BMP, TIFF, PDF и DjVu), выбираем язык и способ распознавания (в Cuneiform можно распознать смешанный, русско-английский текст; в Tesseract пока почему-то нельзя) и практически всё.
  • Для примера, распознаем скриншот их хелпов самого сайта NewOCR. Вот такой:

Тестовый скриншот

В предварительном просмотре нам предлагают выбрать область для распознавания. Конечно, у десктопного варианта FineReader возможностей больше, а с онлайновым — вполне сравнимо.

Далее текст распознаётся. Неожиданно быстро, хотя возможно NewOCR просто ещё недостаточно популярен, чтобы быть перегруженным. Хорошо распознаются не только качественные скриншоты, но и довольно шумные сканы и мутные снимки.

Всего год назад эти же программы работали ощутимо хуже.

Интересно, что Tesseract и Cuneiform ошибаются немного по-разному, так что особо сложный текст можно распознавать и тем и другим, а потом сливать результаты каким-нибудь онлайновым diff-ом (если интересно — скажите, я напишу про один из таких).

Системы оптического распознавания текста в Linux — обзор и сравнительное тестирование

Библиотека сайта rus-linux.net

А. Кривошей
апрель 2011 года

Одна из областей, в которых отставание Linux от Windows считается значительным и трудно преодолимым, является оптическое распознавание текста.

Так как необходимость распознать текст время от времени появляется практически у каждого пользователя компьютера, потребность в программном обеспечении такого рода надо признать актуальной проблемой.

В связи с этим недавно я решил потратить немного времени и провести сравнительное тестирование имеющихся систем оптического распознавания текста (OCR), доступных в Linux. Для полноты картины рассматривались как локально устанавливаемые программы, так и онлайновые сервисы.

Методика тестирования

Для более объективной оценки возможностей пакетов оптического распознавания я подготовил три образца. Первый из них представляет собой страницу текста из книги «Война и мир».

Данная страница из электронной книги в формате PDF была импортирована в GIMP с разрешением 300 dpi и сохранена в формате png. Таким образом, она представляет собой практически идеальный объект для распознавания и все программы должны с этим справиться без труда.

Второй образец представляет собой ту же страницу, но импортированную уже с разрешением 200 dpi и сохраненную в формате jpg с уровнем качества 60%. Любопытно посмотреть, как это скажется на качестве распознавания.
Для третьего образца та же самая страница была импортирована с разрешением уже 150 dpi.

После импортирования на рисунок в GIMP был наложен фильтр «Фотокопия», имитирующий копировальную машину, что еще больше усложняет распознавание.
Что касается полученных результатов, они приведены в таблице.

Показателем точности распознавания является отношение количества правильно распознанных слов к общему количеству слов в документе, выраженное в процентах и определяемое с помощью утилиты dwdiff.
Желающие могут скачать образцы и проверить результаты самостоятельно:

  • Образец 1, Образец 2, Образец 3.
  • А теперь рассмотрим наших кандидатов.

Само собой, автор не претендует на какую-либо стопроцентную достоверность полученных результатов. При использовании других образцов результаты могут значительно измениться.

Читайте также:  HP CW450t, CW450, PW460t и SW450 - бюджетные 12 Мп фотокамеры

ABBYY FineReader for Linux

Не секрет, что уже в течение многих лет единоличным лидером на рынке оптического распознавания является российская компания ABBYY со своим продуктом Fine Reader. В настоящее время компания предлагает пакет ABBYY FineReader Engine 8.

0 CLI for Linux, включающий утилиту командой строки для распознавания и SDK для встраивания движка распознавания в различные корпоративные системы документооборота и т.д. Полная версия программы стоит 149 евро, при этом количество распознаваемых страниц ограничено величиной 12000 в год.

Есть и более дорогие версии, в которых это количество значительно больше. Более подробную информацию можно получить на странице проекта. При такой стоимости покупать программу для домашнего использования возможно и не стоит, однако даже для небольшой компании она выглядит вполне приемлемо.

Триальная версия позволяет распознать 100 страниц, ее мы и испытаем.
Для начала необходимо скачать архив с программой весом 290 Мб. Для получения триального ключа необходимо заполнить несложную форму на этом же сайте. Мне через пару дней после ее заполнения пришел ответ с ключом. В архиве находится файл abbyyocr.

run и инструкция по установке, которая в общем заключается в запуске вышеуказанного файла на выполнение от имени суперпользователя (все это делалось в Ubuntu 10.10):

В процессе установки программа запросила ключ, после чего благополучно активировалась. Программа имеет множество ключей командной строки, позволяющих гибко настроить параметры распознавания. Я использовал команду вида:

$ abbyyocr -rl Russian English -if sample.jpg -f RTF -of sample.rtf

В целом здесь все понятно. Ключи -if и -of задают распознаваемый файл и файл, в который записывается результат работы программы. С помощью -f задается формат вывода. Необходимо отметить, что если в тексте имеются слова на иностранном языке, необходимо обязательно задать его вторым после ключа -rl. В противном случае программа будет пытаться распознать все на русском.

ABBYY Fine Reader Online

Для полноты картины необходимо рассмотреть еще один продукт от ABBYY — онлайновый сервис ABBYY Fine Reader Online.

Ранее он позволял после несложной регистрации распознавать бесплатно до 10 страниц в день, теперь же бесплатно можно распознать только три страницы сразу после регистрации, после чего необходимо платить.

Минимальный пакет стоит 3$ за 20 страниц. Сервис поддерживает большое количество языков и форматов файлов.

Cuneiform

На второе место по известности среди систем OCR можно смело поставить программу cuniform. Первоначально программа CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт. CuneiForm поставлялся с некоторыми моделями сканеров.

Однако после нескольких лет перерыва разработки, 12 декабря 2007 года анонсировано открытие исходных текстов программы, которое состоялось 2 апреля 2008 года.
По умолчанию в Ubuntu 10.10 доступна достаточно старая версия 0.7. Однако после добавления соответствующего PPA можно стать обладателем версии 1.0.
Для Cuneiform написаны два графических интерфейса — YAGF и Cuneiform-Qt.

Для тестирования я использовал версию 1.0.0, установленную из вышеуказанного PPA. Распознавание производилось с помощью команды вида:

$ cuneiform -l rus -o sample.txt sample.jpg

В руководстве cuneiform приводится опция —fax, которая включает оптимизацию работы программы для распознавания документов, переданных с помощью факса, однако при ее использовании результат получается хуже, поэтому я не привел его в таблице.

GOCR

GOCR — это свободная кроссплатформенная система оптического распознавания текстов, работающая из командной строки. Программа пока находится в ранней стадии разработки, поэтому имеет ряд серьезных недостатков (например, распознает только одноколоночный текст).

Кроме того, изучение man-страницы показало, что опций, позволяющих задать язык распознавания, программа не имеет, что подтвердилось экспериментом — русский текст gocr пытается распознать как английский. Естественно, в таблицу я данную программу включать не стал.

Ocrad

Ocrad — это система оптического распознавания, разрабатываемая в рамках проекта GNU. Программа использует метод выделения характерных признаков (feature extraction).

Она читает побитовое изображение в формате pgm/pbm и генерирует текст в байтовом (8-битном) формате. Ocrad содержит анализатор макета, способный отделять столбцы или блоки текста, часто встречающиеся в печатных страницах.

К сожалению, поддержка русского языка также отсутствует напрочь. Поэтому из нашего сравнения программу исключаем.

Tesseract

ABBYY FineReader — Википедия

ABBYY FineReader

Тип

распознавание текста

Разработчик

ABBYY

Операционная система

Microsoft Windows, macOS[1] и Linux[2]

Последняя версия

  • 15 (26 декабря 2019)

Читаемые форматы файлов

ABBYY eForm Filler data[d], ABBYY Lingvo dictionary file format[d] и ABBYY FineReader OCR document[d]

Создаваемые форматы файлов

Electronic Publication

Лицензия

проприетарная лицензия

Сайт

pdf.abbyy.com​ (англ.)pdf.abbyy.com/de/​ (нем.)pdf.abbyy.com/pl/​ (польск.)abbyy.cn/fineread…digitalmedia.hr/a…​ (хорв.)ocrszoftver.hu​ (венг.)retia.co.kr/cnt/p…​ (кор.)pdf.abbyy.com/pt/​ (порт.)pdf.abbyy.com/cs/​ (чешск.)pdf.abbyy.com/it/​ (итал.)pdf.abbyy.com/ja/​ (яп.)pdf.abbyy.com/es/​ (исп.)pdf.abbyy.com/fr/​ (фр.)pdf.abbyy.com/uk/​ (укр.)

ABBYY FineReader — программа для оптического распознавания символов, разработанная международной компанией ABBYY.

Программа позволяет переводить изображения документов (фотографий, результатов сканирования, PDF-файлов) в электронные редактируемые форматы. В частности, в Microsoft Word, Microsoft Excel, Microsoft Powerpoint, Rich Text Format, HTML, PDF/A, searchable PDF, CSV и текстовые (plain text) файлы.

Начиная с 11 версии файлы можно сохранять в формате djvu. Версия 14 поддерживает распознавание текста на 192 языках и имеет встроенную проверку орфографии для 48 из них[3].

Помимо прочих языков, начиная с версии 10 имеется поддержка старой орфографии русского языка[4], а также с версии 12 появилась словарная поддержка для этого языка[5].

Программа доступна для Windows и macOS.
Ядро FineReader без графического интерфейса доступно для Linux[6].
Версии 7 и 8 работают под Wine[7].
Есть также онлайн-версия[8], работа которой была приостановлена[9].

В мире — более 20 миллионов пользователей ABBYY FineReader[10][11][12]. В основе FineReader — технология оптического распознавания символов ABBYY OCR, лицензиарами которой являются Fujitsu, Panasonic, Xerox, Samsung[13][14] и другие.

Награды

  • «Лучший soft 2009 года» (журнал Hard & Soft)
  • «Лучший продукт 2009 года» («Мир ПК»)
  • «Лучший продукт 2010 года» («Мир ПК»)
  • Летом 2010 г. FineReader Express Edition for Mac выиграл главный приз в категории «Лучшее профессиональное ПО» на церемонии вручения наград Macworld Awards.
  • Выбор эксперта ITExpert (2011)
  • PC Magazine. Best of the Month 2011
  • «Лучший продукт 2013 года» («Мир ПК»)
  • PCMag Editors' Choice 2014
  • И другие награды[15].

Примечания

  1. ↑ http://www.abbyy.ru/press/press_releases.asp?param=157830&ref=message75 — 2009.
  2. ↑ http://www.ocr4linux.com/en:start — 2012.
  3. ↑ Языки распознавания (неопр.) (недоступная ссылка). Дата обращения: 28 июня 2017. Архивировано 11 августа 2017 года.
  4. ↑ ABBYY FineReader 10: Языки распознавания (неопр.). Дата обращения: 11 августа 2017. Архивировано 11 августа 2017 года.
  5. ↑ Форум ABBYY FineReader: Русский (Старая орфография) (со словарной поддержкой) в FR 12 (неопр.). Дата обращения: 11 августа 2017. Архивировано 19 июня 2016 года.
  6. ↑ ABBYY FineReader Engine CLI for Linux (неопр.). Дата обращения: 2 января 2020. Архивировано 27 сентября 2019 года.
  7. ↑ Инструкции по установке FineReader 7.0 и 8.0 под wine (неопр.). Дата обращения: 25 апреля 2009. Архивировано 26 января 2009 года.
  8. ↑ ABBYY FineReader онлайн-сервис (неопр.). Дата обращения: 2 января 2020. Архивировано 2 января 2020 года.
  9. ↑ Thank you for your interest in FineReader Online. This service is no longer available. (англ.).
  10. ↑ ABBYY выпустила 12 версию своего флагманского продукта FineReader (неопр.). Дата обращения: 28 января 2017. Архивировано 2 февраля 2017 года.
  11. ↑ Вектор модернизации: обзор обновленного ABBYY FineReader 12 (неопр.). Дата обращения: 15 мая 2015. Архивировано 11 апреля 2020 года.
  12. ↑ Группа компаний ABBYY (неопр.). Дата обращения: 15 мая 2015. Архивировано 18 мая 2015 года.
  13. Radyuhin, Vladimir. IT opportunities and challenges in Russia (неопр.) (недоступная ссылка). The Hindu (19 января 2008). Архивировано 16 июля 2014 года.
  14. ↑ С технологией ABBYY смартфон Samsung Galaxy S4 распознает текст с фотографий (неопр.) (недоступная ссылка). Архивировано 14 мая 2015 года.
  15. ↑ About ABBYY (неопр.). Дата обращения: 15 мая 2015. Архивировано 29 октября 2015 года.

Ссылки

  • Официальный сайт ABBYY FineReader Архивная копия от 23 апреля 2015 на Wayback Machine

Источник — https://ru.wikipedia.org/w/index.php?title=ABBYY_FineReader&oldid=123290068

Ссылка на основную публикацию
Adblock
detector