В прошлой главе, рассматривая работу программы оптического распознавания текста FineReader, мы увидели, что текст после сканирования и распознавания нуждается в корректировке, и чем сложнее форматирование текста и чем больше его объем, тем больше усилий придется затратить, чтобы привести его к приемлемому для дальнейшей работы виду.
Программа FineReader и текстовый процессор Word предоставляют мощные и разнообразные средства для решения этой задачи, но изрядную часть работы все-таки приходится делать вручную. Существует не очень известная в России программа AfterScan, которая в ряде случаев способна выполнить корректировку отсканированного текста автоматически. Эта программа может использоваться для обработки и правки текстов больших объемов, введенных с клавиатуры или полученных при помощи программ оптического распознавания текстов, причем для эффективной работы программы важно знать, каким именно способом получен текст.
Авторы программы утверждают, что в ее основе лежат алгоритмы, позволяющие анализировать и исправлять ошибки и опечатки практически любых типов, причем в отличие от программы проверки грамматики Word, программа AfterScan может исправлять ошибки и опечатки самостоятельно.
Рассмотрим эту программу более подробно.
Программа AfterScan выпускается в четырех версиях
AfterScan Express - shareware-версия для домашнего пользования;
AfterScan Professional - для издательств и компаний;
AfterScan Antique - для обработки текстов в старорусской орфографии и перевода его в современную орфографию;
AfterScan Webmaster - для пакетной обработки большого числа документов, например, для обработки текстов, размещаемых на Web-сайтах.
Различия между функциональными возможностями различных версий программ видны из таблицы:
Обработка текстовExpressProfessionalAntiqueWebmasterОбработка ошибок OCR♦♦♦♦Обработка ошибок ручного ввода♦♦♦Обработка старорусских текстов♦Перевод старорусских текстов в современную орфографию♦Чистка пунктуации♦♦♦♦Чистка отступов и пробелов♦♦♦♦Обработка латинских букв в русских словах♦♦♦♦Восстановление специальных символов других языков♦♦♦♦Восстановление римских цифр♦♦♦♦Обнаружение сокращений и аббревиатур♦♦♦♦
Комментарии к книге «Программа обработки текста после сканирования AfterScan», Cadet Bigler
Всего 0 комментариев