ТЕХНОЛОГИИ

Создание текстового слоя и интерактивного содержания в DJVU-файле

Ankalagon Black



Ни для кого не секрет преимущества качественно сделанного djvu над pdf, особенно если это чёрно-белый файл.

Это, прежде всего, намного меньший объём при том же качестве изображения.

Но есть у djvu-книг ещё одно очень существенное преимущество перед pdf.

Это OCR, то есть распознанный текст книги. При сохранении книги в pdf для достижения качественного результата книгу необходимо вычитать, проверить на наличие ошибок, ибо тот, кому эта книга достанется без исходных изображений, уже ничего не сможет сделать.

И такие книги испорченные корявым OCR-ом часто встречаются.

В книгах сделанных в формате djvu этой проблемы нет. Текст сохраняется одновременно с оригинальным файлом. И даже если OCR невычитан, текст можно всегда подправить, сравнив с оригиналом.

В феврале 2008 г. вышла новая версия программы DjvuOCR 2.3 от нашего болгарского друга gencho, с помощью которой, имея FineReader 8.0 или 7.0 даже неискушенный пользователь может сделать OCR-слой для djvu.

Скачать её можно здесь: http://divuocr.ucoz.ru/load/



Порядок действий следующий:

1. Нажимаем кнопку «Декодирование DJVU файла»,

2. Добавляем нужный файл.

3. Выбираем папку для сохранения результатов.



4. Нажимаем кнопку "Обработка".



В результате получаем книгу, разложенную на страницы в формате .tif, пригодные для обработке FineReader'е. Открываем полученные страницы в FineReader'е.



Страницы распознаём, при необходимости текст подправляем. Полученный результат сохраняем как пакет.



В DjvuOCR 2.3 выбираем «Ручной режим OCR manager».



При выборе папки с проектом FineReader выбираем сохранённый ранее пакет.

Выбираем «Результат OCR в TXT файл», указываем любое название. Он создаётся автоматически.

В строке выбора djvu-файла выбираем тот файл, который мы ранее декодировали для распознавания в FineReader'е.

Нажимаем «Обработка». После процесса обработки, получаем готовую djvu-книгу с текстовый OCR-слоем.



Для того чтобы наслаждение от книги, а также удобство пользования ей было более сильным, делаем для неё интерактивное содержание.

Сделать это довольно просто с помощью программы DjVu Hyperlinks Editor. Я пользуюсь версией 0.78.

Скачать её можно здесь: http://natahaus.ifolder.ru/6652936

Эта программа предназначена для автоматического создания гиперссылочного оглавления (и/или алфавитного указателя) в многостраничных DjVu-файлах.


Принцип действия программы:

1. Программа работает только с такими DjVu-книгами, которые содержат внедрённый текстовый OCR-слой (желательно программой DjVu OCR 2.1–2.3).

2. Пользователь указывает программе местонахождение страниц DjVu-книги, содержащих сканированное изображение содержания (или оглавления) исходной бумажной книги, а также вводит мелкие опции.

3. Затем программа полностью автоматически делает следующее:

А. Считывает внедрённый текстовый OCR-слой из указанных страниц "оглавления " DjVu-книги.

Б. Анализирует эту информацию, генерирует на её основе гиперссылки.

В. Вставляет эти гиперссылки в данные страницы "оглавления" DjVu-книги.

В результате получается навигационный механизм для работы с DjVu-книгой — на страницах со сканированными изображениями оглавления исходной бумажной книги появляются гиперссылки для перехода на соответствующие страницы DjVu-книги.

Тем самым также достигается наибольшее приближение к использованию оглавления исходной бумажной книги.


Порядок работы с DjVu Hyperlinks Editor:

1. Делаем предварительную настройку будущего содержания. В поле "Смещение" — разница между номером страницы в бумажной книге и DjVu-книге. Здесь же в какую сторону смещать ("плюс" и "минус"), а также "делить на 2" — для неразрезанных книг, сканированных разворотом.

2. Выставляем страницы содержания "с ___ по ___ " — счёт идёт по страницам DjVu-книги.



3. Выбираем внешний вид для гиперссылок ("Тип границы", "Цвет" и т. д.)



4. Поскольку Содержание и Алфавитный указатель различаются по алгоритму, то лучше выбрать и "Тип работы".

Нажимаем кнопку «Создать».

По неясным пока причинам в некоторых книгах программа напрочь отказывается делать гиперссылки. Там их можно сделать вручную воспользовавшись программой Document Express Editor.

Всякий раз после использования программы необходимо проверять результат её работы — правильность внедрения гиперссылок оглавления. Нередкие ошибки распознавания приводят к соответствующим ошибкам внедрения гиперссылок оглавления.

В таких случаях необходимо вручную корректировать внедрённые гиперссылки посредством Document Express Editor. Я использую версию 5.0. Скачать её можно здесь http://natahaus.ifolder.ru/6653033



С помощью Document Express Editor гиперссылки можно делать и вручную. В программе они называются аннотациями.

Чтобы добавить гиперссылку заходим в меню сервис, далее аннотации, там выбираем вид аннотации.



Загрузка...