Psychedelic

PDF_djvu_to_FB2

Жанр:

Околокомпьютерная литература

Автор:

Psychedelic

«PDF_djvu_to_FB2»

1107

читать постранично

Настроики

Фон текста:

Текст
Текст
Текст
Текст

Аа
Roboto
Аа
Garamond
Аа
Fira Sans
Аа
Times

Untitled

PDF и DJVU в fb2 с распознаванием

Также для тех, кто не знает как конвертировать doc, txt, rtf и др в fb2 (см. ниже «Редактирование FB2»).

Автор : Psychedelic

Версия: 1.0

Декабрь 2008

Итак как распознать и перевести качественно pdf или djvu в fb2?

Мне пришлось довольно долго провозиться (не один день), дабы прийти к единому варианту, который дает качественный fb2 с картинками хорошего качества и небольшого размера.

Программы которые понадобятся:

Если конвертируем djvu, тогда DjvuOCR. Например отсюда /0-0-0-3-20

Abbyy Fine Reader 9 (я пользуюсь Portable версией, она не требует установки и всего один exe) скачать можно здесь (Portable)

Irfan View - для пакетного конвертирования картинок.

BookDesigner (ни в коем случае не FictionBook Designer — она очень глючная и это тоже самое что BD, только BD более свежей версии) Инсталлятор : -ebook.org/rus/?dl_id=1

Обновление : -ebook.org/rus/?dl_id=2

Также для этой программы необходим установленный Word.

FictionBook Editor. %20Editor%202.0%20beta%20build%2002%20Jul.exe

DJVU

1. Запускаем DjvuOC, жмем Djvu Decoder >> жмем Add и добавляем djvu файл в список.

2. Указываем Output Directory ниже, все настройки оставляем по умолчанию, далее жмем Process.

После окончания декодирования получаем tiff'ы, которые грузим в Fine Reader для распознавания.

PDF грузиться напрямую в программу Fine Reader.

Настройка FR

Перед тем как загружать готовые изображения нужно настроить FR.

Итак запускаем программу, заходим в Сервис >> Опции

1. Закладка Документ: Флаг "Распознавать как форматированный пробелами текст" должен быть выключен.

2. Закладка Сканировать: Не обрабатывать полученные изображения (понадобится позже)

3. Закладка "Сохранить": в ней выбираем закладку HTML:

Оформление : форматированный текст.

Сохранять колонтитулы - снимаем флаг.

Качество картинок «пользовательское», и далее в появившейся форме выбираем:

a) Разрешение : Как в оригинале (после мы будем конвертировать)

b) Формат: - если в книге в большинстве фотографии, тогда jpg цветной, качество - 100%, если рисунки (картинки от руки), схемы итп - png (цветной, с пометкой для чертежей и схем). Лучше png, т.к. он дает качественную картинку, при меньшем размере.

с) Улучшать качество картинок - включено.

Жмем ок.

Все жмем Ок в настройках. Все настроено.

Далее, загружаем : Файл >> открыть pdf\изображение, указываем путь к pdf, если у нас djvu тогда указываем путь к нашим tiff, которые были получены с помощью DjvuOCR - Ctrl + A - выделяем их все, и добавляем.

После загрузки можно увидеть содержимое документа.

Имеем три окна - Документ, Изображение и Текст.

Теперь, для того чтобы пропускать колонтитулы (то что обычно пишется вверху, - Глава 1, название романа, номер страницы итп.) выбираем во втором окне "Зона распознавания", и выделяем мышкой ту область, которую нужно распознать. Соответственно туда не должны входить колонтитулы.

После того, как выделили, загружаем это шаблон на все страницы и выбираем :

1. Меню "Области" >> Сохранить шаблон областей.

2. В окне Документы выделяем все страницы - Ctrl + A, если страницы не выделяются, следует выделить мышкой пару страниц, а после нажать Ctrl + A.

3. Области >> Загрузить шаблон областей, и выбирай наш сохраненный.

Прокручиваем в середину и смотрим не захватывает ли область колонтитулы, (т.к. страница не всегда ровно кладется на сканер), вобщем в целом быстрый обзор по документу.

Все готово, далее включаем распознавание Меню Документ >> Раcпознать документ.

После распознавания начинается кропотливая робота. Нужно просмотреть каждую страницу, и если программа не заметила картинки, выделить их. Таблицы также лучше выделить как картинки.

Также желательно сразу исправить ошибки раcпознавания, они выделены синим цветом.

В сумме это может на длительное время и больше, поэтому следует не спешить. Я понимаю что у многих нет времени, но пару часов можно уделять вечером и в выходные. Следует также удалить содержание и другие страницы которые не пригодятся в электронном варианте.

Бывают ситуации, когда программа один и тот же текст ошибочно выделяет разными шрифтами, или ставит другой размер, хотя на деле он напечатан тем же шрифтом. Для этого, ставим курсор на тексте, который выделен другим шрифтом, выбираем Сервис — редактор стилей и выбираем тот шрифт, который должен быть для этого стиля.

Сноски.

При просмотре документа нужно обращать внимание на сноски. Если попалась сноска, можно сделать так, выделяем текст сноски, вырезаем его, ставим курсор туда где сноска обозначена (там где цифра или звездочка) пишем две фигурные (это важно) скобки {}, вставляем курсор между ними, и копируем туда вырезанный текст сноски. В FBE позже, есть скрипт который определит что в фигурных скобках содержится сноска.

Итак когда все готово, сохраняем документ в HTML. Почему выбран именно html а не doc или rtf? Дело в том что так проще редактировать картинки, при переносе doc, Word конвертируем эти картинки в jpg, даже если они были в другом формате, png. Качество этого jpg мне не очень нравиться, картинки немного размытые. Да и в целом у нас есть возможно менять что-то внутри, к примеру те же маркеры. Да и этот формат более близок к Bookdesigner 'у чем doc (эта программа при конвертации какого либо формата, конвертируем его всегда сначала в html)

Итак : в окне текст , выбираем HTML и жмем сохранить. Галка все страницы в один файл должна быть включена.

Картинки

Итак у нас имеется готовый html файл с картинками, которые лежат рядом с ним. Картинки сейчас огромного размера, мы их будем сжимать. В конечной картинке, разрешение у картинок должно быть не больше 760 по высоте, и не больше 570 по ширине. Объясняется это тем, что сейчас очень многие пользуются устройствами для чтения, втч и я — основанных на e-ink. В этих устройствах экран размером 6 дюймов, и поддерживает 800x600. Если картинка больше размером, тогда включается авто-масштабирование, которое всегда будет делать это плохо (т.к. Важна скорость загрузки книги). Повозившись с девайсами PocketBook и Lbook — разрешение при котором картинка отображается без маcштабирования, это не больше 760 и 570. Да и в целом больше и не нужно, даже при чтении с компьютера. Итак картинки должны весить как можно меньше.

Итак программа IrfanView должна быть установлена. При ее помощи можно обработать все картинки, одним движением. Щелкаем по картинке, - картинка отображается в IrfanView, далее жмем английскую букву B. Появилась форма. Жмем кнопку «Add All», добавились все файлы.

Слева есть чекбокс «Use Advanced Options» выбираем его и жмем кнопку Advanced.

Устанавливаем настройки как показано на скриншоте:

Реклама на сайте

Комментарии к книге «PDF_djvu_to_FB2», Psychedelic

Всего 0 комментариев

Комментариев к этой книге пока нет, будьте первым!

Войти

Аа

Аа

Аа

Аа

Psychedelic

«PDF_djvu_to_FB2»

Аа

Аа

Аа

Аа

Комментарии к книге «PDF_djvu_to_FB2», Psychedelic

РЕКОМЕНДУЕМ К ПРОЧТЕНИЮ

Журнал «Компьютерра»

Компьютерра, 2005 № 36 (608)

Марк Руссинович

Внутреннее устройство Microsoft Windows (главы 12-14)

Журнал «Компьютерра»

Компьютерра, 2007 № 39 (707)

Марк Руссинович

Внутреннее устройство Microsoft Windows (главы 1-4)

Алекс Грачев

К вопросу о бесплатном Интернете

Константин Боярко

А была ли ЭВМ

Журнал «Компьютерра»

Компьютерра PDA N114 (04.06.2011-10.06.2011)

Сергей Поляков

Физик

Журнал «Компьютерра»

компьютерра №755

Журнал «Компьютерра»

Компьютерра, 2006 № 35 (655)

Журнал «Компьютерра»

Компьютерра PDA N111 (14.05.2011-20.05.2011)

Журнал «Компьютерра»

Компьютерра, 2006 № 46 (666)