Google взялась за создание открытой системы распознавания текста
Компания Google продолжила открытие технологий связанных с распознаванием текста. В дополнение к ранее открытой системе Tesseract, выпущен новый открытый продукт - OCRopus (лицензия Apache 2.0).
Главная цель OCRopus - выявление и разделение областей текста (и др. объектов) на изображениях. Система модульная, в настоящее время для распознавания текста используется Tesseract, но Google планирует в ближайшие 12 месяцев значительно расширить возможности проекта (например, появится GUI интерфейс и поддержка не только английского языка), релиз намечен на 3 квартал 2022 года.
OCRopus предназначен для автоматизации распознавания отсканированных или снятых на цифровую камеру документов (включая рукописные), программа может использоваться для выявления спама в приложенных к письму изображений.
http://www.opennet.ru/opennews/art.shtml?num=10442