Как перевести книгу в электронный вид
oleg_nn
Я так вижу.
Это не так сложно, как кажется
Ну, самый простой, который и способом-то назвать нельзя – это простое фотографирование на тот же смартфон отдельных глав книги, их проработка, и затем фотографирование следующих глав.
Для получения же полноценного файла в формате DOC, PDF или FB2, нам понадобится немного больше времени и используемых инструментов, среди которых:
Сначала мы просто сканируем книгу
Обычно, это один из самых времяёмких этапов создания электронной книги, но он же и самый простой и механистичный. Просто перелистывать страницы и сканировать. В зависимости от мощности компьютера и размера сканируемого изображения, количество времени на сканирование каждого разворота книги варьируется от нескольких десятков секунд до нескольких минут. Обычно же сканирование одного разворота занимает менее минуты.
Разрешение при сканировании ставлю не менее 300 DPI. Начиная с этого разрешения, распознавание происходит с минимальным числом ошибок.
Для книги я создаю отдельную папку, в которой накапливаются изображения. И через некоторое время, когда вся книга будет отсканирована, в этой папке будет множество изображений, с которых и будет происходить распознавание текста.
Для распознавания текста я использую программу Abbyy FineReader, которая не только хорошо распознаёт текст, но и предоставляет удобные инструменты для предварительной работы с изображениями.
Изначально в программе есть три базовых режима работы со вновь открываемыми изображениями, это:
-Открыть
-Открыть и распознать
-Открыть и проанализировать
Таким образом, оптимальный вариант, который я использую в случае книги – это «Открыть и анализировать». Программа обработает все изображения и выделит в них блоки, но распознавать пока не будет. После того, как я вручную уберу ненужные для распознавания блоки и поправлю те блоки, которая программа выделила некорректно (например, пометила текст в качестве рисунка), то даю программе команду на распознавание.
Через некоторое время программа завершит обработку изображений, и полученный результат можно будет передать в MS Word для дальнейшей обработки. Есть несколько вариантов экспорта в Word, Abbyy FineReader способен сохранить исходное форматирование текста и создать оглавление. Но часто какие-то моменты в оформлении приходится править вручную, особенно в случае оглавления.
В принципе, начиная с этого этапа, мы уже работаем с обычным электронным текстом. Если в книге мало рисунков и таблиц, или они сразу встали на свои места, то можно приступать к чтению или конвертации в FB2. Но нередко Abbyy FineReader передаёт данные в Word в достаточно не эстетичном виде, с непонятно каким форматированием и оформлением. Поэтому, для начала, нужно поправить форматирование. Иногда проще даже сбросить форматирование полностью и сделать его вручную, но обычно таких крайностей не нужно. Достаточно пробежаться по тексту, отметить заголовки и создать оглавление на первой странице.
Если же книга содержит ещё и таблицы с рисунками, то им надо уделить особое внимание, что бы они были на своём месте.
После правки текста в Word, мы сохраняем его в формате DOC, т.е. получаем электронную версию книги для чтения на компьютере. Но программы для чтения эл. книг на смартфонах, а так же на «читалках» e-ink, как правило, могут прочитать в файлах DOC только текст. Картинки, таблицы и содержание пропадают. И тут на помощь приходят конвертеры файлов DOC в формат FB2, в котором практически все девайсы читают все типы данных, отображая и рисунки, и содержание.
Для конвертации я использую программу htmlDocs2fb2, которая производит файл формата FB2 из файла формата DOC, и программу Fb2Fix, которая анализирует получившийся файл FB2 на ошибки и исправляет их. Так же часто эта программа исправляет уже готовые, скачанные из Интернета, файлы FB2, и они начинают открываться на устройствах, на которых раньше не открывались.
Такая связка из двух программ была найдена путём долгих экспериментов с различными конвертерами. А эксперименты были вызваны поиском решения проблемы отображения таблиц. При конвертации DOC в FB2, таблицы превращаются просто в текст, который уже невозможно читать таблицей. Ключевая особенность программы htmlDocs2fb2 в том, что она превращает таблицы в рисунки, и, тем самым, позволяет их просматривать в любой программе для чтения электронных книг формата FB2. Оглавление так же сохраняется и его можно вызвать через отдельное меню, предусмотренное в программах.
Чаще всего я не сканирую книги с нуля, а конвертирую найденный в Интернете файл формата DOC в FB2. Различные материалы по экономике, с множеством таблиц и графиков, вполне корректно конвертируются.
Вот такой небольшой практикум. Тема очень обширна, и если расписывать все тонкости, то уйдёт с десяток страниц. Так что если появились вопросы по теме – попробую ответить, задавайте:)






