KpNemo (IvanStorogev?)

Как почистить сканы книг и сделать книгу

Жанр:

Программирование

Автор:

KpNemo (IvanStorogev?)

«Как почистить сканы книг и сделать книгу»

2734

Описание

В статье описана очистка сканов книг непосредственно после сканирования, перед дальнейшей обработкой. Речь будет идти только о черно-белых книгах (текст и штриховые рисунки). Обработку книг с цветными картинками нужно разбирать отдельно. Способы обработки сканов ScanKromsator.

читать постранично

Настроики

Фон текста:

Текст
Текст
Текст
Текст

Аа
Roboto
Аа
Garamond
Аа
Fira Sans
Аа
Times

IvanStorogev? KpNemo Как почистить сканы книг и сделать книгу

Часть 1.

А зачем?

Здесь есть 2 пути:

После сканирования книги её предполагается выкладывать в сеть (или хранить у себя на диске).

1) Можно распознать сканы в программе OCR, например FineReader (FR).

Если качество оригинала хорошее, например распечатка на лазернике с размером шрифта 12pt, то FR прекрасно распознает её без всяких дополнительных мер. Но вот если распознавать нужно старую книжку, на желтой неровной бумаге, грязную и т. п… Тут предварительная очистка резко повысит качество распознавания, а это значит, что гораздо меньше труда и времени уйдет на вычитку, т.е. ручное исправление ошибок. Надо сказать, что встроенные в FR средства очистки картинки довольно примитивные, так что с плохими, зашумленными сканами он справляется неважно.

2) Можно хранить нераспознанной, в виде растровой картинки, в том или ином формате: DJVU, PDF, TIFF.

Здесь предварительная очистка ещё уместнее. Во-первых, очищенный скан гораздо приятнее и не так утомительно читать. Во-вторых, что ещё важнее, после очистки сканы гораздо, в десятки раз, лучше сжимаются в любой формат. Дело в том, что случайные точки на изображении (шум) практически не сжимаемы, особенно когда их много.

Для очистки изображений применяется много различных методов и программ, порой стоимостью в тысячи и десятки тысяч долларов. Я опишу простой и доступный способ, особенно ценный тем, что руками придется работать только с одной страницей книги, остальные можно обработать автоматически, основываясь на сохраненных параметрах.

1-й этап: сканирование

Сканировать книжку нужно обязательно в режиме grayscale (серый). Обратите внимание: сканировать в режиме b/w (черно-белый) нельзя! В режиме b/w дальнейшая обработка будет невозможна.

Можно сканировать в true image (полноцвет), но это сильно замедлит обработку, увеличит объем файлов, а особенного выигрыша не даст. Исключение составляют случаи, когда на страницах есть цветные пятна грязи, тут работа с цветом может сильно помочь.

Некоторые сканеры позволяют выбрать один из цветовых каналов (красный, зеленый, синий), который будет использоваться при сканировании в серый, есть и другие настройки и их также можно покрутить. Но не увлекайтесь, большая часть фич сканера просто обработка картинки драйвером. То же самое можно сделать в фотошопе, только куда лучше.

Попробуйте разные варианты, выбирать нужно тот, где изображение контрастнее, буквы выглядят более четкими. Если при этом мелких шумов (например, фактура бумаги) будет, в разумных пределах, больше – это неважно, уберем потом.

Наоборот, если на бумаге есть крупные, размером в 2-3 буквы и больше, пятна, то нужно постараться подобрать настройки сканера так, чтобы эти пятна были бледными, по сравнению с буквами, пусть и ценой менее контрастных, по сравнению с другими вариантами букв.

Проще говоря, настраивайте сканер так:

1) Если крупных пятен нет, то главное сделать четкими буквы, а на шум особенно не глядеть.

2) Если крупные пятна есть, то главное их прибить, даже если буквы будут не такие уж четкие.

В том и другом случае нужно не перебарщивать, руководствуясь опытом и здравым смыслом.

Если вы пользуетесь для сканирования FR, то уберите в опциях сканирования «Очистить изображение», «Устранить искажение строк», «Делить развороты». Всё это вы сделаете потом, когда почистите сканы и втяните их обратно в FR. На этом этапе любая обработка изображения в FR только замедлит сканирование и ухудшит чистку изображения в более подходящих программах.

О выборе разрешения скана.

Обычно книжки с текстом сканируют с разрешением 300dpi. Это подходящее значение для чистого текста, приличного качества полиграфии и не слишком мелкого шрифта, короче очередной бестселлер типа: "Глухой против Слепого". Но в этом случае и чистка изображения не требуется. При зашумленном изображении, мелком шрифте нужно сканировать с разрешением 600dpi. Это сильно облегчит очистку и качество окончательного файла, если вы не будете распознавать книгу, а сохраните в виде сжатого растра. Не беспокойтесь о величине окончательного файла. Хорошо почищенная книга с разрешением 600dpi при сжатии в DJVU дает файл немногим больших размеров, чем с разрешением 300dpi.

Растровая форма хранения книг особенно часто применяется для книг с формулами. В этом случае сканирование с разрешением 600dpi обязательно, иначе трудно будет разобрать индексы в формулах, отличить похожие буквы, например "омега" и w. А ведь в математике нередки вложенные индексы (индекс индекса). Там при сканировании с разрешением 300dpi вообще трудно что-либо разобрать, тем более распечатать. Вот смотрите:

Буквы i и j на картинке слева трудно отличить друг от друга. А ведь это не скан, а печать в файл. При сканировании всё будет гораздо хуже – маленькая точка на бумаге и всё, и 2 балла на экзамене!

Таким образом:

Сканировать для наших целей нужно с разрешением 600dpi!

В крайнем случае, 400dpi.

Теперь нужно выбрать образцовую страницу для настройки программ обработки, чтобы остальные обработать автоматически, в пакетном режиме. Выберите самую обычную, типовую страницу, может быть слегка более грязную, чем в среднем.

Посмотрите все отсканенные страницы книги, может быть некоторые нужно пересканить.

Все сильно загрязненные, искаженные, с более мелким шрифтом, чем остальные, с очень крупными пятнами, с рисунками на всю или почти всю страницу и т.п. сразу положите в отдельную папку. Их проще обработать отдельно, по одной. Обычно таких немного.

Дальше приступим к обработке сканов последовательно в программе NeatImagePro+, потом в PhotoShop’е. Начнем с первой.

2-этап: NeatImagePro

Нам понадобится программа NeatImagePro+ (NI+), у неё множество уникальных возможностей, например с её помощью можно делать замечательные "гламурные" картинки обнаженной натуры. Вот её сайт: neatimage.com. Но нам туда не надо, там её свободно не раздают. К счастью, у Вас есть я, а у нас всех Рапидшара:

Neat Image Pro+ Edition v5.0.5.0

пароль:))))))

Это не самая последняя версия, зато с лекарством и вполне рабочая.

NI+ работает следующим образом: выделяется характерный участок картинки с шумом, но без полезного изображения. Программа этот участок оценивает и "вычитает" шум из всей картинки.

Я закавычил "вычитает" потому, что на самом деле не "вычитает", а умножает, и не картинку на шум, а их двухмерные спектральные представления. Да и не умножает, если в школьном смысле… Но мы в эти дебри не полезем:-).

Главное окно программы организовано в виде вкладок:

1) Вкладка: Input Image

Про то, как загрузить файл в программу, я рассказывать не буду, замечу лишь, что NI+ не желает открывать 8-битный TIFF, если он сохранен, например из PhotoShop’а как индексированный 8-битный с палитрой, но нормально открывает, если TIFF сохранить как grayscale.

2) Вкладка: Device Noise Profile

На этом этапе мы должны выбрать участок скана, где нет букв и рисунков, но есть характерные шумы. Обратите внимание: темные полосы около корешка или на краях тоже не должны попасть в наш выбор. На выделенный участок показывает стрелка на Рис. 1:

Рис. 1

После того, как мы выделим подходящий участок, надо щелкнуть по кнопке "Rough NoiseAnalyzer" на левой панели, на Рис.1 подсвечена желтым. Некоторое время наблюдаем за синей полоской… и на левой панели, под упомянутой кнопкой, появятся дополнительные настройки (Рис. 2).

Рис. 2

Проще всего нажать на кнопочку "Auto fine-tune" (подсвечена желтым), и перейти к вкладке 3:

3) Вкладка: Noise Filter Settings

Здесь мы настроим фильтр так, чтобы сделать максимально четкими буквы и убить шумы. Перед настройкой фильтра нужно выделить участок подходящий участок с полезным изображением и увеличить его на весь экран. При выборе участка нужно руководствоваться следующими соображениями:

1) Брать нужно, по возможности, максимально зашумленный участок;

2) Одновременно этот участок должен с наиболее мелким деталями полезного изображения, например с мелким шрифтом.

Поскольку мы обрабатываем не фотографию любимой кошки, а текст, то естественность изображения нас не волнует. Главное, чтобы буквы были почетче, а шума поменьше. Поэтому смело двигаем движки на левой половине панели и смотрим, что получается. Обращайте внимание на мелкие детали букв: хвостики, например сравнивайте "C" и "G"; внутренние участки букв, например в верхней части строчной "е".

Описывать действие каждого движка я не буду, проще пробовать и смотреть.

Рис. 3

На картинке (Рис. 3) изображен результат обработки, а положение движков и чекбоксов можно взять за точку отсчета при собственных экспериментах. В основном играйте движками в "Noise reduction Amounts", особенно движок "Y"; "Sharpening Settings". Эти участки левой панели на рисунке подсвечены желтым. Когда результат вам понравится, подвигайте прямоугольник Preview по всему изображению, чтоб прикинуть, как оно будет выглядеть в разных местах. Если все хорошо, сохраните полученный профиль фильтрации, он будет использован для пакетной обработки остальных страниц.

4) Вкладка: Output Image

Здесь вы можете нажать на Apply и посмотреть, что получилось. А если вы уверены, что настроили NI+ хорошо, то сразу переходите к пакетной обработке остальных страниц. Просто нажмите Esc, и вы попадете в окно пакетного обработчика.

5) Окно пакетного обработчика

File -› Bath, добавляете нужные страницы (не забудьте в "Filter Presets" пометить "Use specified preset" и выбрать сохраненный прежде, при настройке по образцовой странице пресет. Наконец можно запустить процесс обработки. Он долгий, поэтому запустите его на ночь, или, наоборот, с утра, перед уходом на работу.

Дальше нужно продолжить чистку в Фотошопе, но об этом в следующей части, которая будет опубликована, если эта вызовет интерес и желание продолжения у юзеров.

Часть 2.

В первой части статьи мы остановились на этом:

Пойдём дальше. Вторая часть статьи.

Использование Photoshop’а (Curves) для чистки сканов книг + философское отступление.

Напомню, речь идет только о черно-белых книгах (текст и штриховые рисунки). Не о цветных.

* * *

В отзывах к первой части статьи прозвучал много хороших слов и благодарностей. Большое спасибо всем, кто нашел время откликнутся, написать пару строк в комменты, тем более с добрыми словами в мой адрес. Доброе слово, как говорится, и кошке приятно. Всем удачи:-)

Надеюсь, однако, что будет больше замечаний непосредственно по теме. Делитесь своими наработками, рецептами. Некоторые блогеры упомянули о других программах/способах обработки сканов – напишите о них, это будет интересно всем. Профессионалы, расскажите о более серьезных программах, а можно и выложить.

Критикуйте, дополняйте эту статью (это касается всех частей)- ведь это выгодно всем.

* * *

Философское отступление

Да, я знаю, что надо не грузить общими рассуждениями, а говорить конкретно. Но любое дело лучше делать осмысленно. Осмысление же требует хотя бы самого общего представления о сути предмета. Поэтому, пожалуйста, прочтите последующие несколько абзацев не спеша, вдумчиво. Может быть они будут Вам полезны не только в деле очистки сканов книг. Возможно, Вам покажутся общеизвестными высказанные там мысли, но, как показывает опыт общения, это не так.

Если влом читать неконкретные вещи, то можно сразу перейти к Photoshop: Curves, всё, что там написано, можно понять и не читая раздел Философское отступление

Итак, пару слов о шуме (помехе), (полезном) сигнале и фильтрации, в самом общем плане, безотносительно к обработке изображения.

Сигнал.

Имеется ввиду полезный сигнал. Сигнал – это то, что нам нужно…

Это исчерпывающее определение. Например, сигналом может быть часть картинки – изображение текста в примере, который мы разбираем. Или голос исполнителя в музыкальном клипе. Или правда в речах политика, если она там есть. И всё, что угодно.

Шум.

А шум, помеха, это то, что нам не нужно. Например фон текста на картинке (фактура бумаги, пятна, следы грязи на стекле сканера). Или звучание музыкальных инструментов в муз. клипе, если мы хотим выделить голос исполнителя. Или вся речь политика, если правды там нет.

Фильтрация, это процесс разделения сигнала и шума. Это может быть некое электронное или механическое устройство, компьтерная программа. Разум слушателя, если речь идет о словах политика…

Для того, чтобы фильтрация была осуществима, сигнал и шум хоть в чем-то, но должны отличаться. Т.е. мы должны найти параметры, свойства, по которым отличаются шум/сигнал и увеличить это различие.

Вернемся к сканам книги. На краях и переплета после сканирования часто бывают черные полосы. Это тоже шум. От полезного сигнала, изображения текста, он отличается расположением в двумерном пространстве изображения страницы, поэтому отделить его легко руками и относительно легко автоматически. Стоит, однако, неплотно прижать толстую книгу при сканировании и черная полоса будет пересекаться с текстом. И всё, выделить текст в этом месте методами обработки изображения станет невозможно. Но если речь идет всего о 1-2 буквах в начале (конце) строки, мозг, почти на 100% восстановит недостающие буквы. Вдь ткст очн избтчн, при удални глснх всё ещ мжно пнть о чм рчь. Однако фильтрация и восстановление будет идти не изображения, а текста как последовательности букв и слов, с учетом их смысла, семантики.

Программа NeatImage, описанная в 1-ой части статьи использует другой критерий различения шума и сигнала – разницу в двумерных спектрах сигнала и шума. Обратите внимание: указывать где шум, а где сигнал нам пришлось самостоятельно. В иных случаях шум и сигнал могут поменяются местами. Например, криминалисту может быть задан вопрос: – "Где взята бумага, на которой написана жуткая записка?". И фактура бумаги была бы полезным сигналом, а изображение текста – шумом. В 3-й части статьи будет описана работа с фильтром Фотошопа Smart Blur. Там используются другие критерии разделения сигнала и шума.

Вывод

Нужно обязательно понимать, по какому критерию происходит разделение сигнала и шума в используемых вами процедурах фильтрации. Тогда можно будет выработать более эффективный метод обработки.

Ведь если мы по очереди применим несколько фильтров с разными критериями фильтрации, то результат будет хороший. Если же фильтры обрабатывают по одному и тому же критерию, то с какого-то момента, улучшения не будет, а то и начнется ухудшение разделения.

* * *

Photoshop: Curves

Здесь описана работа с Фотошопом, но подобный инструмент есть в любом достаточно мощном растровом редакторе: Gimp, Corel Photopaint, PaintShop Pro и др. Алгоритмы у всех одинаковы. Важно лишь наличие у редактора режима пакетной обработки.

Итак, инструмент Curves. Что, собственно, мы им сделаем? Это очень просто: разделим шум и полезное изображение по критерию яркости. Всё, что будет белее некоторого порога, станет максимально белым. Соответственно всё, что будет темнее некоторого порога, будет совершенно черным. Все наши усилия будут направленны как раз на установление этих порогов так, чтобы фон попал в белое, а текст – в черное. Имейте ввиду, если после предыдущих этапов обработки на изображении есть участки шума более темные, чем наиболее светлые участки текста, то Curves их не только не удалит, а наоборот – подчеркнет.

Вызываем Curves (Меню: Image -› Adjustments -› Curves или просто Ctrl-M). На Рис. 1 стрелками указаны две пипетки: "Уровень черного" и "Уровень белого". Орудуя ими по очереди мы и подгоним пороги так, чтобы текст было побольше, а шума поменьше. Серая пипетка нам не нужна. Кнопка в правом нижнем углу (подсвечена желтым) увеличивает окошко или делает его компактным.

Рис. 1

Перед вызовом Curves нужно увеличить изображение на весь экран так, чтобы были целиком видны 3-4 буквы. Обязательно должна попасть точка и запятая, буквы с мелкими деталями. Лучше выберите сильно зашумленный участок, там где шум более темный. По возможности выберите участок с мелким шрифтом, например текст сноски внизу страницы.

Теперь по очереди, чередую пипетки, щелкайте на белой – на участках с шумом, черной – на полезных участках картинки, на буквах.

Когда будет работать пипетками, контролируйте следующие критерии, они выбраны с учетом характерных ошибок FineReader'а:

– точка "." и запятая "," должны отличаться;

– белый участок внутри букв "е", "о", "R" и т.п не должен быть залит черным;

– мелкие детали букв должны быть различимы, например хвостик у курсивной "а", она не должна превращатся в "о";

– следите за "коромыслом" у буквы "й", точкой над "i" и другими подобными элементами букв;

– обратите внимание на верхние (и нижние) индексы, например значки и цифры, указывающие на сноску;

– мелкие разрывы в вертикальных участках широких букв – "м", "ш" – не страшны;

– в горизонтальных/наклонных участках букв "н", "и", "п" разрывов быть не должно. FR немедленно начинает их путать;

На рисунках 2-6 показаны скриншоты последовательной настройки уровней белого ичерного. Пипетка выделена овалом. Розовым – черная, желтым – белая.

Рис. 2

Рис. 3

Рис. 4

Рис. 5

Рис. 6

Когда настроите Curves, сохраните профиль: "Save…". Он будет использован потом, при пакетной обработке остальных страниц.

Вот что получилось:

Рис. 7

В начале первой части статьи я говорил о том, как влияет очистка изображения на степень сжатия. Посмотрите как последовательно уменьшаются размеры картинок от 2-й до 7-й. С 8806 байт до 1376. Это хорошая иллюстрация к упомянутому утверждению.

Теперь надо записать Action, чтобы автоматически обработать Фотошопом остальные страницы. В нем будет всего две команды:

1) Curves, c ранее сохраненным профилем;

2) Image -› Mode -› Bitmap…

Выскочит окошко Bitmap.

В строке "Resolution" оставьте как есть – 600dpi.

В строке "Metod" выберите "50% Threshold".

Можно сначала попробовать Threshold отдельно, до записи скрипта, чтобы посмотреть, что получилось. Если вам покажется лучше другой уровень Threshold, не 50%, вставьте его в Action отдельной командой, сразу после Curves.

Запускать пакетную обработку в Фотошопе, надеюсь, все умеют? Если нет, то у Фотошопа есть Help…

Следующая, 3-я, часть статьи будет посвящена работе с фильтром Smart Blur.

Может быть, я добавлю туда материалы по некоторым другим способам обработки изображений. А может быть и нет, как со временем будет

Часть 3

Это окончание статьи.

В третьей части я расскажу о фильтре Smart Blur и сделаю краткие выводы по всем 3-м частям статьи.

Пояснения к картинке в начале статьи (в анонсе)

Я сделал эту картинку для того, чтобы наглядно показать разницу между Smart Blur и просто Blur (Меню Filter -› Blur -› Blur more). На 3-D картинке (вверху) яркость пикселей отображена в виде трехмерного рельефа. "Щебень" у подножия горы справа – это шум. Исходное 2-D изображение внизу. Оно ивертировано, для наглядности 3-D картинки. 3-D картинка делалась в Pov-ray.

Photoshop: Smart Blur

Вы найдете этот фильтр в меню Filter -› Blur -› Smart Blur.

Smart Blur переводится как "умное сглаживание". В научной литературе для таких фильтров обычно применяют название адаптивный – adaptive blur, adaptivethresholding и т.п. Аналогичные фильтры есть и в других программах обработки изображения. Ищите названия со словами adaptive, denoiser и т.п. В Paint Shop Pro v9.1 схожий фильтр называется Edge Preserving Smooth (Размытие с защитой краев).

Для того, чтобы понять работу фильтра Smart Blur, немного расскажу что делает просто Blur. Blur переводится как "сглаживание" или "размазывание". Действительно, все фильтры группы Blur выравнивают значения яркости близлежащих точек, как бы размазывая изображение. При этом мелкие детали изображения могут совсем исчезнуть, а резкие переходы на границах крупных деталей делаются размытыми. То есть получается, что убивая шум (мелкие детали), обычный, "тупой", Blur попутно портит, размазывает и крупные детали, т.е. полезную, нужную нам часть изображения. Это хорошо видно на картинке в начале статьи. Похоже на утюг, который выглаживает складки изображения, но и пуговицы прихватывает.

Фильтры Blur – просто, не Smart – есть в Фотошопе во многих вариантах. В меню Filter имеется целое подменю Blur. Фильтр Blur относится к локальным фильтрам.

Как работают локальные фильтры? Компьютер обрабатывает всё точки изображения по очереди. Для каждой точки вычисляется. новое значение, исходя из старых значений самой точки и её ближайших соседей. Это можно представить как окошко, порядка 3x3 – 9x9 точек, которое скользит по изображению. Для вычисления нового значения используется некая функция, определяющая какой вклад внесет в новое значение точки её старое значение и старые значения каждого из соседей. Разным фильтрам (Blur, Sharpen, High Pass)соответствуют разные функции. Именно потому, что для вычислений используют только ближайшие окрестности точки, такие фильтры и называют локальными.

Для перечисленных фильтров вид функции и коэффициенты не меняются от точки к точке, поэтому степень сглаживания не зависит от участка изображения. От того и портится вместе с шумами полезное изображение. Smart Blur меняет степень сглаживания в зависимости от характера текущей части изображения. Участки с небольшими деталями и плавными изменениями яркости фильтр размазывает сильно, а на участках с крупными деталями, большими и резкими перепадамияркостих размазывание гораздо меньше. Т.е. Smart Blur приспосабливается к изображению, потому и называется адаптивным (адаптация – приспособление).

Пользоваться Smart Blur просто – всего два параметра.

Radius – радиус окошка просмотра.

Threshold – влияет на обработку краев крупных деталей изображения.

Начните со значений Radius 12-16, Threshold 35-45. Эти значения можно менять в широких пределах. Не забудьте поставить Quality в High, а Mode в Normal.

Как видим, фильтр Smart Blur достаточно мощное средство очистки изображения от шумов.

После обработки фильтром Smart Blur отправляемся к Curves.

Заключение

Сравнение Neat Image Pro+ и Smart Blur.

NI+ и Smart Blur используют разные подходы к удалению шума. NI+ требуется образец шума, который она "вычитает" из всего изображения, т.е. это глобальный фильтр. Smart Blur работает локально, при этом шумом считается любая мелкая (по размерам и изменению яркости) неоднородность изображения. NI+ лучше использовать когда все изображение зашумлено более-менее равномерно одинаковым шумом. Например, это может быть фактура бумаги, специфический шум именно этого экземпляра/модели сканера, фотокамеры и т.п. Smart Blur не требует никакой информации о шуме. Эти фильтры можно применять последовательно или использовать в конкретном случае только один из них. Если вы будете применять оба фильтра помните: сначало нужно обработать картинку NI+, а потом Smart Blur. Не наоборот! Почему именно так, надеюсь, очевидно. Верно?;-)

Имейте ввиду, NI+ это вообще-то целая программа, а не отдельный фильтр. На самом деле в ней используется более сложная обработка, чем я тут написал, в частности можно усиливать края деталей изображения, управлять размытием и.д.

Кроме Neat Image Pro+ есть и другие программы/плагины к фотошопу со схожими возможностями. Особенно рекомендую Noise Ninja, о ней упоминали в комментах к первой части статьи, и Noiseware Professional Plug-in for PS. Не обязательно работать в Фотошопе. У других растровых графических редакторах, например Paint Shop Pro v9.1, возможности, в части чистки сканов, не хуже.

Три способа получить нужную тебе научно-техническую книгу в электронном виде с минимальными затратами

Итоговый результат, описанного ниже процесса

Термодинамика равновесия жидкость-пар

А.Г. Морачевский, Н.А. Смирнова, Е.М. Пиотровская и др.;

Под ред. А.Г. Морачевского.-Л.: Химия,1989. – 344 с.

размер архива 5004242 Bytes

Уважаемый IvanStorogev написал три части, о том, как чистить сканы, для подготовки книги перед переводом ее в электронный вид:

Помимо технологии, там были и философские отступления. Можете почитать. Ну, а моя философия проста: минимум телодвижений, с по возможности удовлетворительным результатом.

Способ Раз

Вам по учёбе или работе нужна книжка, Вы знаете какая (это важно). Тогда идём по известному многим адресу Поиск книг вводим запрос, получаем ответ, качаем. Всё. Правда, за качество я не отвечаю.

Если Вы любитель математики, то неплохо бы посетить электронную библиотеку мехмата МГУ, с вероятностью 90%, Ваша книга там уже есть.

Существуют ещё места, так что не ленимся, ищем.

Способ Два

Мы сами не местные… (далее по тексту). Идём и просим добрую, отзывчивую душу сделать, нужную нам книжку, желательно с высоким качеством (ну там, сканирование в 600 dpi, качественная обработка рисунков и пр.). Так что, за качество, все претензии к доброй душе.

Способ Три

Ну, если уж Вам ничего не помогло, то придется идти в библиотеку и читать книгу там. Или взять её домой на пару дней и сделать доброе дело, а результатом поделиться с тружениками полей, известных также как колхозники.

И так, в путь.

Всё ниже написанное относится строго к черно-белым книжкам, без полутоновых иллюстраций

1. Этот пункт самый муторный. Это сам процесс сканирования. Как я заметил, по технологии процесса многих разногласий нет. Берётся книга, кладется разворотом на стекло, так чтобы поместились обе страницы, и сканируем с разрешением 300 дпи в градациях серого. Современные сканеры позволяют это делать довольно быстро. Книгу кладём по возможности ровнее, прижимая её чем-либо тяжёлым, возможно рукой. На выходе получаем tiffы, размером порядка 8 метров на разворот. Чтобы не было скучно, смотрим футбол или слушаем музыку. У меня получается примерно 70-80 (140-160 страниц) разворотов за час. Т.е. реально отсканировать среднего размера книгу за 2-3 часа. Я думаю, не сложно найти на это время.

2. Тут на сцену выходит инструмент. Знакомьтесь – ScanKromsator от многоуважаемого bolega. Да, знаю, сейчас понабегут кромсаторы, начнут бурчать, мол народу это не надо, народ этого не понимает, руки прочь от их Кромсатора, мол чтоб Кромсатором пользоваться, три года учиться надо. Ну да и фиг с ними, пускай ворчат. Но в одном они правы: ScanKromsator – мощный инструмент, со многими полезными и не очевидными для новичка функциями. Сам я в нём тоже, мягко говоря не силён, но не бойтесь, это не должно нам помешать. Хоть программа и бесплатна, но не забываем перед каждым её запуском говорить спасибо.

a) Запускаем программу и загружаем в неё наши файлы:

b) Выбираем путь для вывода результатов (закладка Files), тут же можно назначить способ нумерации выходных файлов, и что Очень Важно, назначить выходное разрешение 600 dpi:

c) Находим левее кнопки с наdpiсью Process кнопочку с ножницами (Draft kromsate), появляется окно диалога:

Ставим галочки на Split pages и safe top/bottom, ну и жмём кнопку OK. Теперь можно идти попить чай.

d) Через 10 минут:

Обратите внимание на синенькие полосочки: это резаки, за их пределами все будет безжалостно отрезано, а данная страница будет разрезана на две (центральные резаки). Посмотрите на то, что рядом с названиями страниц появились зелёные галочки!

e)Расставляем опции. Для этого пройдемся по закладочкам (в окне слева).

Первая Pages.

На ней выставляем способ центрирования. По умолчанию стоит "автомат", это значит поместить изображение в верхний левый угол. Но, как правило (это у меня так) горизонтальное выравнивание ставится по центру (Page h.align) C, вертикальное в низ (Page v.align) B.

Despeckle – это убирание мелкого мусора. Deskew – выравнивание наклона страницы, если страница получится криво выровненной, для нее можно включить метод Art.

Опять важно, чтобы опция была применена ко всем страницам – при выборе опции удерживаем Ctrl. Аналогично при выборе остальных опций, которые применяются ко всем страницам сразу.

На закладке Book выставляем размеры выходных страниц, оставляем Page width и height в Auto. Тут я немного не понимаю, как это работает при изменении dpi, но экспериментально я ставлю H.Gap value в 250(300) pixels.

В закладке Files, как было сказано выше, ставим выходное dpi 600, это архи важно. От этого зависит весь окончательный результат.

Во вкладке Options, можно оставить как есть. Или выбрать для Despeckle метод Fine, это уникально-интеллектуальный метод очистки. Например, он не вычищает точки над i и j.

Options 2 пропускаем.

Вкладка Convert – выставляем порог для преобразования из градаций серого в черно-белый. Я обычно выбираю между 170 и 200, надо попробовать, что лучше в конкретном случае. Не забываем удерживать Ctrl при выборе опции, предназначенной для всех страниц.

Ну, и наконец последняя, но очень важная вкладка Quality:

В Enhance image я ничего не понимаю, знатоки фотошопа и так поймут, что делать, лично я делаю, как на иллюстрации. Хотя хотелось бы услышать про оптимальный набор этих параметров.

И опять очень важно, если у вас исходник – это разворот книги, то жмём на Gray enhance, и появляется диалог Gray image enhance, в нём ставим cleaner passes в 1. По этой опции происходит выравнивание освещённости в центре разворота. Незаменимая штука.

f) Тут опять придется попотеть, но к счастью не много. Надо пройтись по всем страницам, с целью проверки правильности расстановки резаков. Если Вы увидите, что автоматически для какой либо страницы резаки установились не правильно, то их надо поправить. Для этого надо снять зелёную галочку, еще раз повторяю снять зелёную галочку, перед вносимыми изменениями. Иначе они будут проигнорированы. Передвигаем резаки, возможно меняем способ центрирования для данной страницы, возвращаем зеленую галку и идем дальше, к следующей странице.

g) Уфф! (Кстати, знаете ли Вы, чтобы все не делать заново, задание можно сохранить).

e) Жмем большую кнопку Process. Тут появляются предупреждения, в здравом ли мы уме, что меняем разрешение, но нам уже всё равно, мы всё уже сделали.

Всё, идём играть в футбол, или спать. Дело сделано, пусть компьютер теперь думает.

На моём компьютере (Pentium M 1400 MHz), этот, блин, процесс занимает порядка полуторы минуты на разворот (если не менять разрешение, то около 15 сек, но мы всё же будем удваивать разрешение).

Часа через три, в указанной ранее папке, нас ждёт результат, смотрим его внимательно, иногда могут быть несколько неправильно выровненных страниц. Их переделываем отдельно.

Особо дотошные, могут почистить остатки в ручную, так называемая тонкая очистка. Лично я это не делаю, за исключением убирания библиотечных штампов, и записей на полях типа: «а это батенька архиважно». Как правило, и так все замечательно.

В итоге получились примерно такие результаты: исходный скан (градации серого 300 dpi), результаты после кромсатора 600 dpi, и тоже 300 dpi. Бумажный исходник – макулатурная бумага.

Не заметить разницу сложно. И это с использованием всего около 10% возможностей этой замечательной бесплатной программы.

Раньше, когда я встречал, мол книга сделана в 600 dpi, я пожимал плечами и шёл дальше, мол, у богатых свои причуды. Но, оказывается, всё гораздо проще: 600 dpi – это ж после обработки! Ну раз так, то грешно теперь портить свой труд, когда можно получить заметно лучший результат, без особых мышечных усилий. Если Вы скачаете эту книгу и результат Вас удовлетворит, то смело можете повторить этот процесс.

Мне кажется, сделать данную работу со много меньшими затратами человеческого ресурса, вряд ли возможно. Естественно возможны и другие рецепты. Есть BookRestorer, есть RasterID, некоторые пропускают сканы для сглаживания текста через CPCTool. Пусть кто-нибудь расскажет и покажет. Но еще раз спасибо bolega за его программу, её и одной достаточно для многого.

Что делать дальше? А что Вам хочется. Можете распознать, можете собрать pdf, но для научно-технической литературы принято жать в djvu. Да, в этом, я тоже не эксперт. В djvu жму самым позорным способом в DjVuEditorPro 4.1.

Асы кромсания, не поленитесь, может тут, надо что-нибудь добавить или поправить. Но только если это принесет заметный глазу эффект, без титанических усилий.

Примечание автора статьи: Если читать мой СканКромсатор для Думмис:) с КпНемо, то там надо исправить:

1. Закладка Book при 600 dpi H.Gap value обычно хорошо получается при 200.

2. Закладка Options Deskew method – interpolate. 3. Закладка Convert – MiddleDark.

А в целом надо слушаться старших, т.е. bolega .:)

Примечание читателя (Alexx_S):

– 1.Последняя версия 5,52beta.

2.Если во время кромсания отрезаются номера страниц, то можно на закладке Options2 увеличить чувствительность текста (text sensitivity).

3. Для порога преобразования существуют предопределенные значения, в большинстве случаев их хватает, лично я чаще всего использую Middle Dark.

4. Для того, чтобы переделать отдельную страницу надо нажать на панели инструментов кнопку:

– process current file – разворот

– process left page – левая страница

– process right page – правая страница

5. Окно просмотра результата. После его закрытия повторный вызов осуществляется командой меню Result-›View All.

Кроме того, окно просмотра результа является также редактором постобработки, обладающим уникальными инструментами, главный из них – чистка мусора.

Для того, чтобы наиболее эффективно его использовать надо сделать следующее:

1. Правый клик, включаем опции AutoSave, AutoClear.

2. ClearOptions настраиваем как на рисунке:

В результате:

1. Весь мусор, размер которого меньше 15 пикселей, подсвечивается красным.

2. Прямоугольное выделение удаляет весь подсвеченный мусор, не трогая все остальное.

Выделение с клавишей Shift – стирает область.

3. Результат чистки сохраняется при переходе к след/пред. файлу.

Комментарий bolega:

Статья замечательная!

Несколько замечаний.

1. Настоятельно не рекомендуется использовать версию 5.51beta. Там немало багов. Берите 5.52, или еще лучше 5.93.

2. В окошке Gray enhance есть неприметная опция Protect black pixels. По умолчанию она включена. Ее нужно отключать! Тогда убирание теней будет намного лучше (эта опция устарела и пришла из старых версий кромсатора).

Если на скане имеется полутоновые иллюстрации, то при выравнивании освещенности они могут сильно пострадать. Чтобы этого не произошло, нужно выделить такие иллюстрации мышкой и в контекстном меню выбрать команду Exclude region. К таким регионам в процессе обработки не будут применяться операции enhance и despeckle. Защита от последнего пригодится и в других случаях, например, для ч/б сканов, содержащих картинки из мелких точек и штрихов.

3. Если нужно убрать тень и мусор от разворота, но при этом не разрезать разворот на две части, то нужно убрать опцию Split, но оставить оба внутренних резака. В этом случае область между ними будет просто очищаться.

4. Резаки можно наклонять (чтобы лучше отсекать грязь и полосы на перекошенных сканах). Для этого нужно двигать бегунок резака правой клавишей мыши, либо левой, но с нажатым Shift. Двойной щелчок на бегунке выпрямляет резак.

Чтобы двигать сразу два резака синхронно (например, верхний и нижний), нужно держать нажатым Ctrl.

5. В пункте f) автор статьи пишет, что перед изменением положения резака или опций нужно обязательно отщелкивать и затем снова взводить зелёную галку перед именем файла. Это совсем не обязательно! (тем более утомительно). Такое поведение будет оправданным, только если не включена большая галка в верхней панели. Если же она включена (горит зелёным), то активен режим авто-запоминания изменения опций, и никаких перещёлкиваний уже не требуется.

6. Если скан неважный (буквы с сильными разрывами), и despeckle заметно портит их, на закладке Options выберите режим despeckle = safe. В этом случае в процессе обработки области, занимаемые буквами, чиститься не будут. Как альтернатива, можно на закладке Pages нажать кнопку Special и там "смягчить" степень деспеклирования (fine-2, fine-3 и т.д.).

7. В списке файлов порядок следования файлов можно менять, если перетаскивать их правой кнопкой мышки, либо воспользоваться контекстным меню. Если изменение порядка выполняется уже после обработки, кромсатор будет автоматически переименовывать и выходные файлы.

8. Если при изменении опции держать нажатым Ctrl, то опция будет применена ко всем отмаркированным файлам в списке. Если же держать нажатым Alt, то кромсатор дополнительно спросит, к какой группе применять.

9. Для перемещения по списку файлов (в главном окне, а также в окне просмотра результатов), можно использовать hotkeys: "q" или "[" (prev) и "]" или "w" (next).

10. Пробел при активном списке файлов выполняет выделение файлов (красным цветом). Чтобы выделить группу, нужно пробелом отметить первый файл в группе, затем стать на последний файл и нажать Shift-пробел.

11. После обработки книги, если было задано PageWidth=PageHeight=auto (т.е. кромсатор сам определял итоговые размеры книги с учетом заданных полей gaps), кромсатор сам подставляет получившиеся размеры в соответствующие поля. После обработки нужно обязательно сменить auto на fixed, чтобы при переделке каких-то отдельных страниц их размер выдерживался равным итоговому размеру книги.

12. Если в задании собраны файлы с разными dpi, то все величины полей и размеров должны задаваться не в пикселях, а в долях миллиметра (см. опцию на закладке Book).

13. Если какую-либо страницу не нужно приводить к общему размеру и добавлять поля (например, обложку), то для этого на закладке Pages нажать кнопку Special и включить опцию ignore gaps, в этом случае размер страницы будет целиком определяться только положениями резаков.

14. Если на выходе требуется получить не одиночные страницы, а развороты, то в задании всё равно нужно задавать разделение страниц (чтобы выполнить независимое выравнивание половинок разворота), но на закладке Book включить опцию Merge pages after split.

См. также Пособие по Кромсатору.

Комментарии к книге «Как почистить сканы книг и сделать книгу», KpNemo (IvanStorogev?)

Всего 0 комментариев

Комментариев к этой книге пока нет, будьте первым!

Войти

Аа

Аа

Аа

Аа

KpNemo (IvanStorogev?)

«Как почистить сканы книг и сделать книгу»

Описание

Аа

Аа

Аа

Аа

IvanStorogev? KpNemo Как почистить сканы книг и сделать книгу

Часть 1.

1-й этап: сканирование

О выборе разрешения скана.

2-этап: NeatImagePro

Рис. 1

Рис. 2

Рис. 3

Часть 2.

Использование Photoshop’а (Curves) для чистки сканов книг + философское отступление.

* * *

* * *

Философское отступление

Вывод

* * *

Photoshop: Curves

Рис. 1

Рис. 2

Рис. 3

Рис. 4

Рис. 5

Рис. 6

Рис. 7

Часть 3

Три способа получить нужную тебе научно-техническую книгу в электронном виде с минимальными затратами

Оглавление

Комментарии к книге «Как почистить сканы книг и сделать книгу», KpNemo (IvanStorogev?)

РЕКОМЕНДУЕМ К ПРОЧТЕНИЮ

Стефан Кох

Мартин Грубер

Рашид Ачилов

Автор неизвестен -- Компьютеры

Albert Makhmutov

А. И. Легалов

У. Клоксин

Дональд Бокс

Скотт Мейерс

Андрей Владимирович Попов

Джеффри П. Мак-Манус

Марк Паулк