ОРГТЕХНИКА

Оцифровка печатных текстов

Материал из Викиучебника



Вместо Введения

Об электронных книгах

«Электронные книги» — это хранимый в компьютере текст, оформленный в виде, свойственном печатным книгам. Так, электронные книги обычно дробят содержимый текст на равноразмерные нумерованные страницы; их типографика соответствует уровню печатных изданий. Важно сразу же различать сканированные и вёрстанные электронные книги.

Вёрстанные книги — это либо материал, подготовленный авторами в издательской системе, либо распознанная и вручную вычитанная и отформатированная бумажная книга. Исходником является обычно файл в формате наглядного текстового процессора (OpenOffice.org или Word) или на языке разметки (LaTeX). О подробностях редактирования электронных текстов в текстовых процессорах вы можете почитать в викиучебнике «работа с электронным текстом». Конечным результатом является электронная книга в формате PDF (Adobe Portable Document Format), реже Постскрипт (Adobe PostScript) или DVI. Такие файлы обычно содержат векторные шрифты и иллюстрации высокого качества, поэтому они пригодны для печати в любом разрешении, для просмотра на экране, и для поиска по тексту книги (включая возможность выделять и копировать куски текста и иллюстрации). Файлы этого вида кратко будем называть векторными. Типичные векторные PDF-файлы имеют размеры от 3 (редко) до 10–15 килобайт на страницу, в зависимости от числа формул и иллюстраций.

Сканированные книги — это файлы, хранящие целые электронные изображения каждой страницы книги. Такие файлы делаются путём сканирования бумажной книги постранично и дальнейшей обработки с целью улучшения качества и уменьшения размеров файла. Поскольку каждая страница хранится в виде ряда точек (растра), то такие книги можно кратко называть растровыми, чтобы отличить их от векторных. Основные форматы, употребляющиеся для растровых файлов, это PDF и DJVU. В этих форматах можно добавить также и распознанный текст, закладки и гиперссылки, чтобы были возможны быстрые переходы по книге и автоматический поиск текста. Поэтому качественно сделанные растровые книги не менее удобны в использовании, чем векторные, и несущественно проигрывают им в качестве распечатанного текста. Типичный размер растровой книги — от 5 (редко) до 10–15 килобайт на страницу, в зависимости от разрешения и качества текста или иллюстраций.

Производство векторной электронной книги из бумажной книги путём компьютерного распознавания (OCR) связано с колоссальными затратами труда, особенно если книга содержит много иллюстраций, графиков, диаграмм, таблиц, или формул, ибо нынешнее состояние распознавательных программ заставляет форматировать всё это вручную, и нередко — исправлять ошибки распознавания текста. Поэтому для таких книг гораздо легче делать именно растровые, а не векторные электронные версии. Даже в чисто текстовых книгах — без иллюстраций, таблиц или формул — автоматическое распознавание порой даёт трудновыявимые ошибки. Гораздо быстрее приготовить растровую электронную книгу, тем более что современная технология сжатия изображений позволяет делать файлы вполне приемлемого размера. Например, средний размер растровых книг, включая распознанный текст — 13 КЬ на страницу. Это означает, что растровая книга, имеющая 400 страниц, в среднем занимает около 5 Mb (цифры приводятся для формата DJVU). На стандартном DVD-носителе (4,5 Gb) может поместиться около 900 таких книг.

Некоторые программы позволяют делать файлы формата PDF, в которых весь плохо распознанный материал содержится в виде отсканированных картинок, а текст является векторным. Такие PDF файлы, однако, сильно проигрывают чисто растровым книгам и по внешнему виду (нестыковка векторных шрифтов и фрагментов изображения страницы), и по размеру файлов.


Форматы DJVU и PDF

Формат DJVU позволяет сжимать растровое изображение несколько лучше, чем PDF, просматривается быстрее, а также более удобен в технической обработке. Например, есть простые и бесплатные программные средства для редактирования гиперлинков, закладок и OCR-слоя в DJVU, но таких средств нет для PDF. Также, файлы DJVU более устойчивы к сбоям, чем PDF, и менее зависимы от версии просмотрщика, поскольку формат DJVU гораздо проще. Недостаток DJVU: возможность внести искажения при сильном сжатии и большое количество разных режимов сжатия приводят к тому, что сделать некачественный файл начинающему пользователю довольно легко. Также, DJVU файлы (по текущему стандарту) позволяют делать гиперлинки на другую страницу того же документа (но не на другой файл), на сайт интернета, и на выбранное место на данной странице (это можно делать и в PDF). Формат DJVU несложен, документирован и содержит гибкий механизм добавления метаинформации: к каждой странице можно добавлять произвольную информацию в виде нескольких пар key=value. Поэтому в принципе можно сделать всё это и многое другое (например проверку md5sum или криптографическую подпись) средствами формата DJVU.

Главное достоинство формата PDF — широкая совместимость (у всех есть бесплатный Acrobat Reader) и тот факт, что большинство людей пока ничего не знают о формате DJVU. Однако надо заметить, что программы для просмотра DJVU тоже бесплатные и требуют гораздо меньших ресурсов компьютера, чем Acrobat Reader. Недостатки PDF в основном технические, но они существенны. Главный недостаток — невозможность определить разрешение растра, находящегося внутри PDF. Это приводит к сильным потерям в качестве изображения при попытках улучшить качество не оптимально сделанного растрового PDF файла. Неоптимальные PDF файлы могут иметь размеры 100–200 КЬ на страницу и даже более. Оптимальный растровый PDF тратит от 10 до 20 КЬ на страницу, что примерно на 30–50 % больше, чем DJVU. Другие недостатки формата PDF — невозможность эффективно редактировать файлы[2] и чувствительность к сбоям при передаче файлов. Сбойный файл часто невозможно просмотреть даже частично. К техническим недостаткам формата PDF относится и то, что иногда не получается произвести оптимизацию размера файла[3], которая в принципе была бы возможна, если бы формат PDF был лучше спроектирован.

Проиллюстрируем соотношение размеров PDF и DJVU файлов. Перевод в формат DJVU типичной отсканированной издательством статьи из журнала Physical Review (у них высокое разрешение и хорошее качество сканирования) уменьшает размер издательского PDF файла в 10 раз. Во многих случаях перевод из векторного PDF в DJVU, даже с высоким качеством изображения и сохранением текста и навигации, всё равно даёт файл DJVU меньшего размера, чем исходный PDF. Это очень часто относится к файлам, созданным такими программами, как Quark Express, Acrobat Distiller (но не к файлам, созданным с помощью Latex/Ghostscript). Иногда векторные PDF файлы содержат много формул в виде вставных растров; такие файлы уменьшаются в 3–4 раза при переводе в DJVU.

Именно технические достоинства формата DJVU и возможность автоматизировано обрабатывать DJVU файлы привели к широкому использованию формата DJVU среди энтузиастов создания растровых электронных книг, в основном научно-технического характера.


Приспособления для сканирования

Получать изображение документа можно сканером или фотоаппаратом. Качественных различий[4] между ними нет, но и у сканеров, и фотоаппаратов есть свои достоинства и недостатки.


Достоинства фотоаппаратов

• Скорость сканирования — мгновения.

• Можно снимать где угодно, хоть прямо в библиотеке.

• Фотографировать можно не только бумажки[5].

Их недостатки

• Низкое разрешение; необходимость съёмки частями (и склейки частей) для получения хорошего качества.

• Неизбежное широкоугольное искажение (выпуклость или дисторсия) изображения, пагубность которого важна для иллюстраций.

• Сложно настраивать для достижения высокого качества.

* * *

Достоинства сканеров

• Высочайшее качество цветопередачи.

• Высокая разрешающая способность.

• Полное отсутствие искажений в случае плоских и плотно прилагаемых документов

Их недостатки

• Относительно низкая скорость.

• Величина и громоздкость, за исключением ручных сканеров.

• Большие различия моделей, приводящие к невозможности описания простого алгоритма настройки.

• Ограниченность размера; иногда — невозможность качественно отсканировать большой лист по частям.

Теперь подробнее обо всех упомянутых особенностях.


Фотоаппарат

Скорость сканирования полностью настроенным фотоаппаратом ограничивается в основном скоростью, с которой пользователь может сменять оригиналы перед объективом и жать на кнопку съёмки. То, что можно пристроиться в тихом уголке библиотеки и там работать сколько душе угодно — экспериментальный факт. Но проблемы начинаются, если потребовать хотя бы минимального качества получаемых документов. Печать на современных принтерах идёт с разрешением от 300 (отмирает) до 2400 (и даже до 4800 в новейших моделях фотопринтеров) точек на дюйм (dots per inch, далее сокращённо dpi). Чтобы получить качественный отпечаток размера 1:1, необходимо иметь оригинал, оцифрованный с тем же разрешением. Таким образом, мы приходим к размеру оригинала, который может за раз оцифровать фотоаппарат, к примеру в 6 мегапикселей с минимально допустимым качеством:

в ширину

3000 пикселей / 300 точек на дюйм * 2,54 см на дюйм = 25,4 см,

и в высоту

2000 пикселей / 300 точек на дюйм * 2,54 см на дюйм = 16,9 см.

Теперь немного стандартов: лист формата А4 имеет размеры 297х210 мм, размер разворотов самых распространённых форматов книг — примерно такой же или чуть меньше: 19,5 см в высоту. В принципе, остаётся ещё один вариант, не предъявляющий столь высоких требований к разрешению — распознавание (OCR), но и тут есть подводные камни: во-первых, распознавание применимо лишь к книгам, содержащим текст безо всяких усложнений: химических и математических формул, иллюстраций или фотографий, во-вторых, нет никаких гарантий отсутствия искажения текста при распознавании на столь низком разрешении. Даже часто практикуемая последующая вычитка текста, хотя и снижает количество ошибок, не помогает избавиться от них полностью (или хотя бы до уровня ГОСТа — 1 опечатка на печатный лист, т. е. на 40000 знаков).

Если обеспечивать достойное качество изображения, то получается, что нужно фотографировать книги постранично или даже кусками страниц — в случае крупноформатных изданий. Про прочие оригиналы уже и говорить не приходится.

Однако после получения изображений кусками их необходимо склеивать. Для панорамных пейзажных снимков существуют программы, осуществляющие автоматическую склейку изображений, аналогичные программные продукты существуют также для сканированных изображений, но они специфичны и в основном представляют собой военные или технические, не бесплатные, разработки для получения полных карт или чертежей. Во всяком случае, опыт их использования в качестве генераторов полных изображений у автора отсутствует.

Второй способ сшивки — это знаменитый Фотошоп или его бесплатный аналог GIMP (Гимп). Удобно, но не автоматизируемо, причём никак.

Дополнительная проблема — для получения частичных изображений необходимо двигать оригинал или фотоаппарат. В любом случае изменяются условия: либо освещённость поверхности, либо угол зрения. Из-за этого, а также стандартной для фотоаппаратов бочкообразной дисторсии, склейка изображений не позволяет добиться их равномерности. Теоретически, конечно, можно соорудить специальный штатив с источниками подсветки для уничтожения этих искажений, но система будет монструозной и к использованию потому не пригодной (разве что в домашних условиях, а при этом теряется основа удобства фотоаппарата — его мобильность).

Далее — "шевелёнка". Держащие фотоаппарат руки дрожат, что приводит к размазыванию изображения, причём известно эмпирическое правило для его устранения: выдержка не должна превышать обратного фокусного расстояния. При неидеальных условиях съёмки, что в библиотеке обычно, выдержка будет относительно высокой, и последствия "шевелёнки" проявятся.

Из этого вывод: штатив при съёмках очень желателен. Нужны также два источника подсветки — справа и слева — для устранения теней на развороте. Но если последующее распознавание текста не требуется, можно обойтись и ручной съёмкой с данным освещением.

Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат. Для выдерживания постоянного характера снимков для их последующей пакетной обработки необходимо выдерживать одинаковую диафрагму, фокусировку и выдержку. Отнюдь не все фотоаппараты позволяют зафиксировать сразу все эти параметры, кроме того, обычно их необходимо фиксировать вручную, а чтобы их правильно подобрать, надо быть умелым фотографом и знать свой фотоаппарат.

При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какой-нибудь десяток-другой снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6x4=24 Мб данных за раз, а существенного сжатия без потери качества фотоаппараты делать не умеют (да это и не нужно при обычной фотосъёмке). Из-за этого либо фотоаппарат необходимо держать постоянно подключённым к компьютеру, сбрасывая снимки по мере их возникновения (но для этого нужно специфическое программное обеспечение), либо закупаться очень большим количеством дополнительной памяти — не менее 1 Gb.

Примечание: в тексте говорится о теоретических проблемах при копировании с помощью фотоаппарата, однако на практике (переведены в djvu сотни книг) даже 3 мегапиксельный фотоаппарат делает djvu разворота книги приемлемого качества. Очевидно, это связано с особенность техники сжатия, текст состоит из мини-изображений букв. Поскольку почти все буквы "а" искажены одинаково, то и глаз человека на этом не спотыкается. Кроме того принципиально важен режим съемки с "ручными" установками диафрагмы и выдержки (маленькая диафрагма + большая выдержка). Большинство фотоаппаратов обеспечивают его только при дистанционном управлении со стороны компьютера. В случае работы на "автомате" качество изображения действительно не выдерживает никакой критики.


Сканер

Основные достоинства сканеров — равномерность подсветки и цветопередачи — в хороших моделях, естественно. Также упомянем невысокую цену по сравнению с фотоаппаратами. С другой стороны, сканер значительно больше фотоаппарата, его можно пронести в библиотеку только в сумке, а как в библиотеках относятся к сумкам — сами понимаете. Более того, покупка CIS-сканера — он и дёшев, и более компактен — приводит к невозможности сканирования толстых книг — в районе корешка текст приподнимается, a CIS-технология имеет очень низкую глубину резкости.


Книжные сканеры

К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:

• для домашнего пользования (например, Plustek OpticBook 3600), сконструированные для облегчения процесса именно книжного сканирования, однако в основе своей имеющие обычный планшетный сканер;

• полуавтоматические (например, Atiz BookDrive DIY), когда страницы книги по-прежнему переворачивают вручную;

• полностью автоматические, или роботизированные (например, Atiz BookDrive, Kirtas APT BookScan 2400, DigiBook 2000LC или 4DigitalBooks DL 3000), оборудованные устройствами различных конструкций для автоматического переворачивания страниц.

В двух последних типах сканеров обычно применяется не сканирующая головка, а одна закрепленная вертикально цифровая камера либо система из двух фотокамер (с эквивалентным разрешением 30-140 Мпикс.), установленных над сканируемой книгой и расположенных под углом друг относительно друга так, чтобы одновременно делать снимки всего разворота. Такой подход позволяет достичь производительности 500—2000, иногда до 3000 стр./ч.


Основные моменты сканирования

Есть два основных метода сканирования: целым разворотом и по одной странице. При любом методе части страницы, где находится текст, должны быть полностью прижаты к стеклу — иначе возникает характерное затемнение в области корешка из-за наклонного падения света лампы подсветки (в любых сканерах) и размывание текста из-за малой глубины резкости (только в CIS-сканерах). По этому практически невозможно хорошо отсканировать книги, которые плохо открываются. (Существует, однако, специальный сканер OpticBook 3600, позволяющий сканировать книгу, открытую на 90 градусов. Этот сканер пока имеет драйверы только под Windows.) При сканировании разворотом, если книга полностью не влезает на стекло, может возникать дополнительное размытие текста на краю страницы из-за того, что текст не прижат к стеклу (только в CIS-сканерах). Всё это необходимо тестировать перед началом сканирования и определить оптимальный метод.

Необходимо также определить оптимальную рамку сканирования и контрастность. Это можно подобрать только методом проб и ошибок, но это необходимо подобрать правильно перед сканированием. Желательно также сразу же установить гамму и точки белого и чёрного, если это позволяет софт Вашего сканера.

Класть книгу абсолютно ровно, без перекосов, у Вас всё равно не получится, но это и не нужно, так как выравнивание можно проделать автоматически специальным софтом на стадии обработки сканов. Разрезание отсканированных разворотов и выравнивание полей тоже делается почти автоматически.

Иногда имеет смысл сделать ксерокс с книги и сканировать этот ксерокс. Дело в том, что в ксерокс-машинах гораздо больше глубина резкости, чем у сканеров, и поэтому удаётся скопировать участки текста, прилегающие к корешку книги, даже если книга плохо раскрывается. Кроме того, ксероксы специально делают повышение контрастности изображения, что позволяет избавиться от серого фона страниц и максимально уменьшить затемнение в середине разворота.

Софт для управления сканером можно использовать любой, например VueScan (есть для Windows/Linux), Irfan View (Windows), XnView (Windows), gimp/sane (Linux). Поддержка сканиров для Linux/Mac гораздо хуже, потому что как правило все производители делают драйверы только для Windows.

НЕ СЛЕДУЕТ пользоваться программой FineReader[6] для сканирования текста при создании электронных книг, потому что FineReader автоматически делает неаккуратное выпрямление косых сканов, из-за которого в изображении появляются "изломы". Эти изломы не мешают при распознавании текстов, но плохо выглядят в растровом варианте отсканированной книги. Вот пример отсканированного текста, в котором появились "изломы" из-за сканирования в FineReader:



Софт для сканирования желательно использовать такой, чтобы получить сырые сканы в формате TIFF (не JPG, так как неизбежна потеря качества!), поименованные автоматически, например, так: page0001.tiff, page0002.tiff и так да-

При сканировании по одной странице бывает удобнее сканировать сначала все четные страницы, потом все нечетные, и только потом переименовать все файлы автоматически по возрастанию номеров. При сканировании из XnView можно сразу указать, что сканируются только чётные или только нечётные страницы, — номера будут проставляться автоматически.

Разрешение (цифра "dpi" — количество пикселей на дюйм) и глубина цвета (черно-белый — 1 бит, серый — 8 бит, цветной — 24 бит) — самые важные параметры сканирования. Софт для сканера должен давать пользователю возможность выбрать эти параметры непосредственно, а не просто выбирать между непонятными режимами типа "текст" — "рисунок" — "фото для интернета". Сканер должен поддерживать разрешение как минимум 600 dpi; других сканеров сейчас не продают, а больше 600 dpi практически никогда не требуется. Сканировать можно либо в 600 dpi, либо в 300 dpi. Никогда не сканируйте в 150 или 200! Время при этом Вы не сможете сэкономить, а качество будет безвозвратно утеряно. Другие разрешения, такие как 360, 400 и т. д., мало смысла использовать — они работают через интерполяцию изображения, то есть реально сканер сканирует в 300 dpi сером и делает интерполяцию до 400 dpi черно-белого. Такую интерполяцию можно и нужно сделать специальным софтом, а не тем софтом, что пришел со сканером.

Многие сканеры одинаково быстро делают скан листа в 300 dpi черно-белого режима и в 300 dpi серого режима (greyscale). Поэтому если вы сканируете в 300 dpi (а не в 600 dpi), то лучше сканировать всегда в сером режиме (greyscale), даже если книга не содержит вообще цветного материала. Специальный софт потом может поднять разрешение 300 dpi серых сканов до 600 dpi черно-белого, при сохранении отличного качества текста (как будто сканировали в 600 dpi черно-белом). Проблемы 300 dpi серых сканов вылазят только в литературе с фотографиями, передаваемыми растровым методом: в некоторых местах появляется эффект муара, то есть волн яркости и/или цвета по изображению.

Для максимального качества рекомендуется книги сканировать в сером режиме при 600 dpi, если же в книге есть информативные цветные иллюстрации, то в цветном 600 dpi. Это разрешение позволяет полностью разбить растровое изображение на отдельные цветные точки, что полностью подавляет муар.

В любом случае, запаситесь свободным пространством на винчестере — несколько гигабайт.


Сканирование цветных материалов

Сканирование и обработка цветных материалов (книги с большим количеством фотографий, важных для содержания) связаны с существенно большими трудностями, чем сканирование черно-белых книг. Гораздо труднее получить конечный файл разумного размера при сохранении хорошего качества изображения. Исходные отсканированные файлы могут достигать ста мегабайт и больше на страницу, а конечный результат — сотен килобайт на страницу.


Обработка сканов

После сканирования необходимо визуально просмотреть все страницы и убедиться, что нет явных огрехов. Например, иногда по недосмотру книга неровно легла на стекло сканера и часть текста на какой-либо странице не отсканировалась, или были вовсе пропущены некоторые страницы. После этого можно архивировать сканы и приступать к обработке. Поскольку сканирование — физически самый трудоёмкий этап, рекомендуется держать резервную копию всех исходных сканов (такими, какими они были до обработки) на случай какого-либо сбоя.

Энтузиасты подготовили полные подробные инструкции по обработке сканированных изображений и созданию электронных книг[7]. Каковы главные задачи обработки? Они зависят от того, ставим ли мы целью создание векторного файла или растрового файла. Для создания векторного файла производится распознавание (OCR) текста и его дальнейшее редактирование вручную в текстовом процессоре (таком, как MS Word или Adobe Pagemaker). Конечным продуктом обычно является сверстанная книга в формате PDF. Для создания растрового файла необходима доводка графических изображений до высокой степени сжатия и качества, а распознавание (OCR) производится лишь начерно, без вычитки и правки текста, в самом конце процесса. Обработка графических изображений производится обычно в пакетном режиме, так что не требуется обрабатывать каждую страницу вручную в Photoshop'е или другом графическом редакторе. Поэтому затраты времени на создание растровой электронной книги гораздо меньше, чем на создание векторной книги.

Графическая обработка сканов состоит из следующих основных шагов:

• преобразование серых сканов в черно-белые (если исходные сканы были серыми в 300 dpi, то после этого получаются черно-белые в 600 dpi)

• разрезание разворотов на два изображения отдельных страниц (если книгу сканировали в развороте)

• поворот изображения каждой страницы, чтобы текст стал по возможности горизонтальным

• отрезание ненужных тёмных полос на краях, создание ровных и одинаковых для всех страниц белых полей

• вычищение "грязи" на страницах (включая помарки от руки, штампы и прочее)

Эти шаги частично автоматизированы в программе "Scan Kromsator" (Windows) и описаны в инструкции "Scan and Share"(см. сноску).

После создания чистовой версии всех страниц книги, которые пока что хранятся в отдельных графических файлах, приступают к сжатию всех страниц в единый файл формата DJVU или PDF.

Файлы PDF и DJVU могут использовать разные степени сжатия. Наибольшее сжатие достигается в формате DJVU (алгоритм JBIG2), если текст черно-белый, отсканирован четко (это сильно зависит от физического состояния исходной книги), шрифт не слишком мелкий, а края букв ровные (не рваные). Формат PDF позволяет сжимать как алгоритмом JBIG2 (при этом размер получается на 20–30 % больше, чем размер DJVU), так и менее эффективными алгоритмами, например TIFF-G4. Размер PDF файла после сжатия PDF/TIFF-G4 примерно в 4–8 раз больше, чем у PDF/JBIG2.

Имеются программы для создания хорошо сжатых DJVU и PDF/JBIG2 файлов. Для формата DJVU это коммерческие программы от LizardTech: DjvuSolo и Djvu

Document Editor. Для формата PDF это коммерческая версия Adobe Acrobat (не Reader). Есть и бесплатные программы для создания DJVU и PDF/JBIG2, но они пока не дают настолько хорошего сжатия, как коммерческие версии. Полубесплатная программа CPCtool, используемая как промежуточный этап перед окончательным сжатием, позволяет несколько улучшить сжатие DJVU (10–30 %) и во многих случаях сгладить "лохматые" контуры букв.

После создания окончательной чистовой версии книги делается распознавание текста (OCR). Распознавание текста на большинстве языков можно производить как коммерческой версией Djvu Document Editor (для DJVU), так и широко распространённой программой FineReader (для PDF). Имеется также бесплатный софт (утилита DjvuOCR) для вставления OCR-слоя в DJVU файлы после распознавания через FineReader. По опыту, FineReader дает лучшее качество распознавания, чем Djvu Document Editor (который использует движок IRIS). Ознакомительные или демо-версии этих программ можно получить на официальных сайтах производителей.

Имеется также возможность автоматически добавить гипертекстовые ссылки в оглавление и индекс DJVU-книги. Это делает бесплатная утилита Djvu Hyperlink Editor и последние версии DEE (Document Express Editor).


Доделка электронных книг

Часто бывает необходимо улучшить уже имеющуюся электронную книгу. Доделка бывает по разным причинам необходима как для вёрстанных, так и для сканированных книг. Поскольку сканирование или вёрстка — самый трудоёмкий этап, то целесообразно обработать уже имеющийся файл до максимально хорошего качества (за исключением крайних случаев, когда качество имеющегося файла книги слишком низкое и лучше переделать всё сначала).


Доделка PS файлов

PS-файлы почти всегда являются продуктом вёрстки в системе LaTeX и могут быть автоматически сконвертированы в формат PDF с помощью бесплатного пакета ghostscript (утилита ps2pdf). Однако при этом иногда появляется проблема, состоящая в том, что полученные PDF файлы не позволяют делать поиск по тексту. Причина этого явления такова. Файлы, созданные ранними версиями LaTeX, часто имеют растровые шрифты (вместо векторных). В таком случае при переводе в PDF текст набран нестандартным (т. е. не векторным) шрифтом и поиск по файлу невозможен. При использовании достаточно новых версий LaTeX можно указать, что шрифты должны быть векторные, и эта проблема автоматически отпадает. Однако существует много PS и PDF-файлов, сделанных по-старому и проявляющих этот дефект.

Исправить этот дефект можно двумя способами:

• Перевести файл в формат DJVU и произвести распознавание (OCR) текста. Перевод из векторного PDF в DJVU производится утилитами gs2djvu или pdftodjvu.

• Если есть исходный PS файл, созданный утилитой dvips версии 5.58 или старше, то можно воспользоваться утилитой pkfix.


Доделка DJVU файлов

Весьма часты случаи, когда доделка DJVU файлов возможна и необходима. Эти случаи таковы:

• Файл DJVU содержит цветную информацию, то есть DJVU-элементы типа IW44 (это видно из свойств страницы, или из результата djvudump), в то время как текст на самом деле чисто чёрно-белый. Цветовая информация является лишней и была включена в файл по ошибке. Исправляется переделкой DJVU в черно-белом режиме. (Строго говоря, это не совсем так — черное поле буквы основное, но в "цветном" режиме края букв выглядят более сглаженными. Поэтому в ряде случаев, если буквы и так низкого разрешения, стоит оставлять книгу как есть. Обработка должна идти до сжатия в DjVu. Доделка часто ухудшает качество и читабельность, пусть даже уменьшая размер. Отключить же цвет в DjVu книге можно просто выбрав другой режим просмотра).

• Страницы в файле D JVU расставлены в неверном порядке. Исправляется вручную с помощью Djvu Editor/Djvu Solo, или с помощью утилит djvm/djvmcvt (разбирая DJVU файл на отдельные страницы и собирая обратно, без перекодирования).

• Гиперлинки показывают на неправильные страницы или на несуществующие файлы. Исправляется редактированием гиперлинков (утилита djvused и текстовый редактор).

• Отсутствует OCR-слой (распознанный текст). OCR-слой можно создать с помощью Fine Reader или Djvu Editor.

• Файл DJVU содержит изображения, сосканированные в развороте (2 страницы на лист), с тёмными полосами по краям, и/или невыровненные изображения страниц. Исправляется переделкой файла в ScanKromsator.

• Файл DJVU был сжат в неоптимальном режиме (например Lossless или с маленьким размером DJVU-словаря) и поэтому имеет слишком большой размер. Исправляется перекодированием в более оптимальном режиме.

Все эти дефекты можно устранить повторной обработкой DJVU-файла. Это позволит сэкономить время на повторное сканирование и получить файл меньшего размера и лучшего качества.

Поскольку формат DJVU использует эффективное сжатие данных, то явно низкокачественный DJVU файл (отсканированный в цвете и/или в низком разрешении)

часто не удаётся переделать в высококачественный. Доделка бывает неэффективной или невозможной в следующих случаях:

• Файл DJVU содержит цветные изображения низкого разрешения (200 dpi и ниже), закодированные не в фото-режиме, а с разделением текста и фона. Результат — текст практически нечитаем. Исправить нельзя, так как большая часть изображения уже потеряна или не была отсканирована.

• Файл DJVU содержит отсканированные изображения, содержащие большую долю неразделимо слившегося с текстом "шума" из-за пятен на бумаге, помарок, расплывшихся чернил, "волос" и других дефектов печати. Результат — файл очень большого размера. Если сканы были высокого разрешения (400 дпи и выше), то текст с экрана читается неплохо, а если файл в разрешении 300 дпи и ниже, то читается довольно плохо. Исправить затруднительно, без трудоёмкой чистки изображений вручную.

Анатомия сканера: взгляд изнутри

(автор: артист)



Вступление

Конструкция абсолютно любого устройства, в особенности, если оно (устройство) включает в себя как электронные, так и механические элементы, может показаться неосведомленному человеку кладезем тайн и загадок, в которых ой как трудно разобраться самому. Планшетные сканеры — как раз такой вариант. При первом рассмотрении устройство сканера не кажется каким-то уж особо сложным: корпус с немногочисленными разъемами и парочкой кнопок, съемная крышка планшета, да стекло, на которое кладутся оригиналы для сканирования. Но вот как "хозяйство" работает, и что обозначают цифры его спецификации — это уже, как говорится, совершенно другая песня. Чтобы научиться ориентироваться в многочисленных моделях сканеров, представленных сегодня на компьютерном рынке, нужно представлять себе реальное значение указываемых производителями характеристик. Но чтобы данная статья была более познавательной, разберем конструкцию сканера, как говорится, в буквальном смысле слова "разберем".

Начнем, пожалуй, с самого важного элемента любого сканера — светочувствительной матрицы, являющейся как бы его "глазами".


Матрица

Да. Именно матрица является важнейшей частью любого сканера. Матрица трансформирует изменения цвета и яркости принимаемого светового потока в аналого вые электрические сигналы, которые будут понятны лишь единственному ее электронному другу — аналого-цифровому преобразователю (АЦП). С этой точки зрения, АЦП можно сравнить с гидом-переводчиком, неизменным ее компаньоном. Только он как никто другой понимает матрицу, ведь никакие процессоры или контроллеры не разберут ее аналоговые сигналы без предварительного толкования преобразователем. Только он способен обеспечить работой всех своих цифровых коллег, воспринимающих лишь один язык — язык нулей и единиц. С другой стороны, можно взять любой процессор, преобразователь или усилитель, осветить их самым ярким источником света и ожидать какой-либо реакции столь долго, пока не надоест. Результат заранее известен — он будет нулевой, ибо никакие другие электронные компоненты сканера к нему не чувствительны. Если угодно, все они незрячи от рождения. Другое дело — матрица. Световой поток, падая на ее поверхность, буквально "вышибает" электроны из ее чувствительных ячеек. И чем ярче свет, тем больше электронов окажется в накопителях матрицы, тем больше будет их сила, когда они непрерывным потоком ринутся к выходу. Однако сила тока электронов настолько несоизмеримо мала, что вряд ли их "услышит" даже самый чувствительный АЦП. Именно поэтому на выходе из матрицы их ждет усилитель, который сравним с огромным рупором, превращающим, образно говоря, даже комариный писк в вой громогласной сирены. Усиленный сигнал (пока еще аналоговый) "взвесит" преобразователь, и присвоит каждому электрону цифровое значение, согласно его силе тока. А дальше… Дальше электроны будут представлять собой цифровую информацию, обработкой которой займутся другие специалисты. Работа над воссозданием изображения больше не требует помощи матрицы.

Но оставим общие рассуждения. Давайте рассмотрим практическую сторону дела. Большинство современных сканеров для дома и офиса базируются на матрицах двух типов: на CCD (Charge Coupled Device) или на CIS (Contact Image Sensor). Сей факт порождает в умах пользователей два вопроса: в чем разница и что лучше? Если разница заметна даже невооруженным взглядом — корпус CIS-сканера плоский, в сравнении с аналогичным CCD-аппаратом (его высота обычно составляет порядка 40–50 мм), то ответить на второй вопрос гораздо сложнее. Ответ здесь нужно аргументировать, чтобы избежать лавины порождаемых вопросов типа "а чем он лучше?", "а почему он лучше?".

Для начала давайте рассмотрим основные достоинства и недостатки этих двух классов сканеров. Для удобства я свел их в небольшую табличку:


Достоинства и недостатки CCD- и CIS-сканеров

∙ CCD ∙

Достоинства

Высокая разрешающая способность (недорогие CCD-сканеры имеют на сегодняшний день разрешения до 2400 dpi);

Долгий срок службы лампы;

Высокое качество сканирования;

Большая глубина резкости;

Возможность работы со слайд-адаптерами и автоподатчиками документов


Недостатки

Сравнительно высокая стоимость (по отношению к СIS-сканерам);

Длительный прогрев лампы перед сканированием;

Необходимость в дополнительном источнике питания


∙ CIS ∙

Достоинства

Небольшие габариты;

Быстрый старт;

Невысокая стоимость;

Низкое энергопотребление (многие CIS-сканеры получают питание по USB); Автономность


Недостатки

Ограниченное разрешение (до 1200 dpi);

Небольшая глубина резкости;

Чувствительность к боковой засветке;

Сравнительно низкое качество сканирования


CCD-сканер обладает большей глубиной резкости, нежели его CIS-собрат. Достигается это за счет применения в его конструкции объектива и системы зеркал[8].



Сканеры с CCD-матрицей распространены гораздо больше, чем CIS-аппараты. Объяснить это можно тем, что сканеры в большинстве случаев приобретаются не только для оцифровки листовых текстовых документов, но и для сканирования фотографий и цветных изображений. В этом плане, пользователю хочется получить скан с наиболее точной и достоверной цветопередачей, а в аспекте светочувствительности CCD-сканер гораздо строже передает цветовые оттенки, света и полутона, нежели CIS-сканер. Отмечу, что погрешность разброса уровней цветовых оттенков, различаемых стандартными CCD-сканерами составляет порядка ±20 %, тогда как у CIS-аппаратов эта погрешность составляет уже ±40 %.



CIS-матрица состоит из светодиодной линейки, которая освещает поверхность сканируемого оригинала, самофокусирующихся микролинз и непосредственно самих сенсоров. Конструкция матрицы очень компактна, таким образом, сканер, в котором используется контактный сенсор, всегда будет намного тоньше своего CCD-собрата. К тому же, такие аппараты славятся низким энергопотреблением; они практически нечувствительны к механическим воздействиям. Однако CIS-сканеры несколько ограничены в применении: аппараты, как правило, не приспособлены к работе со слайд-модулями и автоподатчиками документов.

Из-за особенностей технологии CIS-матрица обладает сравнительно небольшой глубиной резкости. Для сравнения, у CCD-сканеров глубина резкости составляет ±30 мм, у CIS — ±3 мм. Другими словами, положив на планшет такого сканера толстую книгу, получишь скан с размытой полосой посередине, т. е. в том месте, где оригинал не соприкасается со стеклом. У CCD-аппарата вся картина будет резкой, поскольку в его конструкции есть система зеркал и фокусирующая линза. В свою очередь, именно достаточно громоздкая оптическая система и не позволяет CCD-сканеру достичь столь же компактных размеров, как у CIS-собрата. Однако с другой стороны, именно оптика обеспечивает очевидный выигрыш в качестве. Замечу, требования к оптике очень высоки, поэтому слухи, что в некоторых моделях сканеров применяются, де, "пластмассовые зеркала" сильно преувеличены, если не сказать "вымышлены".;)

В плане разрешающей способности CIS-сканеры также не конкурент CCD. Уже сейчас некоторые модели CCD-сканеров для дома и офиса обладают оптическим разрешением порядка 3200 dpi, тогда как у CIS-аппаратов оптическое разрешение ограничено, если не ошибаюсь, пока что 1200 dpi. Но, в общем-то, сбрасывать со щитов CIS-технологию не стоит. Все технологии стремительно развивается. Сканеры с CIS-матрицей нашли свое применение там, где требуется оцифровывать не книги, а листовые оригиналы. Тот факт, что эти сканеры целиком получают питание по шине USB и не нуждаются в дополнительном источнике питания, пришелся как нельзя кстати владельцам портативных компьютеров. Оцифровать оригинал и перевести его в текстовый файл они могут где бы то ни было, не завязываясь с близостью электрических сетей, что позволяет закрыть глаза на ряд недостатков контактного сенсора. Собственно поэтому, ответить на вопрос "какой сканер лучше" можно исходя из ваших конкретных запросов.



Самый важный элемент сканера — CCD-матрица



Вид сбоку на CCD-матрицу


На виде сбоку можно заметить два обычных винта, которые выполняют "деликатную" роль". С их помощью на этапе сборки сканера производилась точная юстировка матрицы (обратите также внимание на П-образные прорези в печатной плате на виде сверху), чтобы падающий на нее отраженный свет от зеркал ложился бы равномерно по всей ее поверхности. Кстати, в случае перекоса одного из элементов оптической системы воссозданное компьютером изображение окажется "полосатым".



Увеличенное изображение части CCD-матрицы (макросъемка произведена цифровым фотоаппаратом Canon EOS D60)


На увеличенной фотографии CCD-матрицы достаточно хорошо видно, что CCD-матрица оснащена собственным RGB-фильтром. Именно он и представляет собой главный элемент системы разделения цветов, о чем многие говорят, но мало кто представляет, как на самом деле это работает. Обычно, многие обозреватели ограничиваются стандартной формулировкой: "стандартный планшетный сканер использует источник света, систему разделения цветов и прибор с зарядовой связью (CCD) для сбора оптической информации о сканируемом объекте". На самом деле, свет можно разделить на его цветовые составляющие, а затем сфокусировать на фильтрах матрицы. Столь же немаловажным элементом системы разделения цветов является объектив сканера.



Объектив сканера на самом деле не так велик, как кажется на фотографии.


Корпус



Корпус сканера должен обладать достаточной жесткостью, чтобы исключить возможные перекосы конструкции. Безусловно, лучше всего, если основа сканера представляет собой металлическое шасси. Однако корпуса большинства выпускаемых сегодня сканеров для дома и офиса, в целях снижения стоимости, полностью сделаны из пластмассы. В этом случае, необходимую прочность конструкции придают ребра жесткости, которые можно сравнить с нервюрами и лонжеронами самолета.



Немаловажным элементом корпуса является транспортный фиксатор, наличие которого призвано уберечь сканирующую каретку от повреждений при транспортировке сканера. Необходимо помнить, что перед включением любого сканера, оснащенного таким фиксатором, нужно осуществить его разблокировку. В противном случае, можно повредить механизмы аппарата. В принципе, производители акцентируют внимание покуnameлей на этот небольшой нюанс яркими наклейками с соответствующими предупреждениями.

Некоторые полагают, что уж корпус-то никак не может влиять на качество сканирования. Однако это далеко не так. Дело в том, что оптическая система сканера не терпит пыли, поэтому корпус аппарата должен быть герметичным, без каких-либо щелей (даже технологических). Мне не раз попадались модели, которые таким требованиям не соответствовали. Если вам предстоит покупка сканера, то я порекомендовал бы обратить на это внимание.

Также при покупке сканера обратите внимание на возможность отделения крышки планшета. Такое свойство аппарата особенно полезно при сканировании таких оригиналов, как толстые книги или журналы.

Края планшета должны иметь пологий спуск — это облегчает задачу по быстрому извлечению оригинала со стекла. Кроме того, между стеклом и планшетом не должно быть никакого зазора, который препятствовал бы извлечению оригинала. Также обратите внимание на наличие разметки по периметру планшета.


Блок управления

Все сканеры управляются с персонального компьютера, к которому они подключены, а необходимые настройки перед сканированием задаются в пользовательском окне управляющей программы. По этой причине, сканерам для дома и офиса совсем не обязательно иметь собственный блок управления. Однако многие производители идут навстречу самым неподготовленным пользователям, и устанавливают (обычно на лицевую панель) несколько кнопок "быстрого сканирования".



Кнопки быстрого сканирования — элемент, без которого можно обойтись



На приведенной выше фотографии видно, что каждой кнопке соответствует определенный значок. Типовые функции быстрого старта обычно подразумевают запуск стандартной операции сканирования, с выводом на принтер, с последующей отправкой по электронной почте, по факсу и т. п. Понятно, что для той или иной кнопки заданы конкретные параметры качества сканирования. Впрочем, нажатие на ту или иную кнопку сначала приводит к запуску на компьютере приложения (если таковых несколько), отвечающего за вызываемую операцию. Замечу, что далеко не все SOHO-сканеры снабжены собственным блоком управления, а в профессиональных аппаратах такие элементы отсутствуют и подавно.

Некоторые производители "грешат" тем, что исключают из драйвера сканера ряд настроек, которыми, по их мнению, не пользуются большинство рядовых пользователей. Так, например, в SOHO-сканерах Hewlett-Packard отсутствует возможность изменения gamma-коррекции, загрузки ICC-профилей и многого другого. Зато именно Hewlett-Packard как никто другой любит "баловать" пользователей наличием ряда кнопок быстрого сканирования.


Об источниках света

Абсолютно в каждом сканере используется свой осветитель. Так называется небольшой и мощный модуль, в задачу которого входит включение и выключение лампы сканера (или того, что эту лампу заменяет). В CIS-сканерах в качестве источников света применяют светодиодную линейку, за счет чего данный класс аппаратов потребляет так мало энергии.

В CCD-сканерах оригиналы стандартно освещает люминесцентная лампа с холодным катодом. Ее свет в тысячи раз ярче светодиодов. Но для того чтобы вызвать свечение газа внутри лампы нужно подать на ее вход очень высокое напряжение. Его вырабатывает отдельный блок, называемый инвертором.



Высоковольтный модуль необходим для питания лампы


Инвертор повышает напряжение с пяти Вольт до нескольких киловольт, а также преобразует постоянный ток в переменный.

Вообще различают три главных вида ламп, использующихся в сканерах:

♦ ксеноновая газоразрядная лампа (Xenon Gas Discharge);

♦ флуоресцентная лампа с горячим катодом (Hot Cathode Fluorescent);

♦ флуоресцентная лампа с холодным катодом (Cold Cathode Fluorescent)

Однако в сканерах для дома и офиса по ряду причин используются лишь лампы с холодным катодом.



Лампа с холодным катодом


Лампа сканера закреплена на пластмассовом шасси сканирующей каретки непосредственно над отражателем. Сам отражатель имеет форму рефлектора (эффективного "собирателя" и отражателя света) в форме увеличительного зеркала. Свет от него усиливается, чтобы ярко осветить объект на планшете. Отразившись от оригинала на стекле, свет проходит сквозь щель шасси (на фотографии ее контур я выделил голубым цветом) и принимается первым, самым длинным зеркалом оптической системы.

Среди очевидных преимуществ лампы с холодным катодом можно отметить большой срок службы, который составляет 5000-10000 часов. По этой причине, кстати, в некоторых сканерах не используются отключение лампы после завершения операции сканирования. Кроме этого, лампы не требуют какого-то дополнительного охлаждения и очень дешевы при производстве. Из недостатков отмечу очень медленное включение. Типовое время разогрева лампы от 30 секунд до нескольких минут.

Лампа оказывает важное воздействие на результат сканирования. Даже при небольшом уходе характеристик источника света изменяется и падающий на приемную матрицу отраженный от оригинала световой поток. Отчасти поэтому и нужно столь длительное время разогрева лампы перед сканированием. Замечу, что некоторые драйверы позволяют уменьшить время разогрева, если качество оцифровки не так важно (например, при сканировании текстовой информации). Добавлю, чтобы как-то скомпенсировать уход характеристик лампы (а это неизбежно происходит при длительной эксплуатации аппарата), сканеры автоматически выполняют процедуру самокалибровки по черно-белой мишени, располагающейся внутри корпуса.



На фотографии хорошо заметно, как под воздействием света с течением времени тускнеет корпусная пластмасса и калибровочная мишень


Исследуемый сканер не исключение. На приведенной фотографии хорошо видна цветовая мишень, по которой сканер подстраивает цвета перед сканированием, компенсируя "старение" лампы. Здесь видно также и то, что с течением времени тускнеет не только перманентно освещаемая лампой внутрикорпусная пластмасса, но и сама калибровочная мишень. Это, в свою очередь, приводит к уходу цветов и увеличению цветовых искажений.



Лампа с холодным катодом чем-то напоминает лампу дневного света… только маленькую


На фотографии ниже вы видите нецелевое использование лампы сканера. Модуль инвертора был подключен к стандартному компьютерному блоку питания, для чего к его плате были подпаяны проводки с переходничком. В принципе, если сюда приспособить какой-нибудь держатель, то выйдет довольно-таки неплохая и яркая настольная лампа.



При желании из инвертора и лампы с холодным катодом можно соорудить настольную лампу


Работа АЦП

Кто помогает процессору сканера "найти общий язык" с матрицей? Конечно же, аналого-цифровой преобразователь, занимающийся переводом аналоговых сигналов в цифровую форму. Этот интересный процесс можно представить следующим образом. Сначала АЦП как бы "взвешивает" входное напряжение, напоминая продавца в магазине, подбирающего набор стандартных гирек того же веса, что и товар. Затем, когда напряжение измерено, АЦП представляет данные своему "боссу", то бишь процессору, но уже в виде цифр. И в результате все довольны.

Можно представить себя в роли процессора и поинтересоваться, что же происходит на выходе АЦП, при смене входного напряжения? Подадим, к примеру, на вход преобразователя 4 Вольта, потом 9 Вольт. На его выходе появятся следующие вариации цифр: сначала 00000100, затем 00001001. В двоичном коде это цифры 4 и 9. Количество же нулей и единиц, которыми АЦП выражает измеренное значение — это его разрядность, которая измеряется в битах. Такой параметр, как разрядность преобразователя крайне важен для сканера, ведь он характеризует точность измерения входного сигнала.

Сегодня на прилавках магазинов можно увидеть недорогие сканеры, в которых работают преобразователи с разрядностью от 24 до 48 бит. Теоретически всегда лучше выбирать сканер, у которого разрядность больше. При этом следует учитывать одну тонкость: иногда производители крупно пишут на коробках "48 bit", а где-нибудь в уголке мелким шрифтом уточняют: "software 48 bit, hardware 36 bit". Это означает, что большая красивая цифра не имеет ничего общего к точности установленного в сканере АЦП, а реальная разрядность в этом случае составляет 36 бит. Именно на нее и следует ориентироваться. Следует признать, что в домашней практике различия между результатами работы 36-ти и 42-х-битных сканеров практически незаметны (человеческий глаз способен различить примерно 24 бита цветовых оттенков, т. е. около 16,7 млн.). В нашем случае, разрядность преобразователя и глубина цвета — это одно и то же. Ведь преобразователь рассчитывает не что иное, как цвета точек, из которых складывается изображение. Чем больше разрядность преобразователя, тем достовернее сканер может передать цвет каждой точки изображения. Соответственно, тем больше изображение будет походить на оригинал.


Процессор

Современные сканеры оснащают специализированными процессорами. В число задач такого процессора входит согласование действий всех цепей и узлов, а также формирование данных об изображении для передачи персональному компьютеру. В некоторых моделях сканеров на процессор возлагаются также функции контроллера интерфейса.

Список программных инструкций для процессора хранится в микросхеме постоянной памяти. Данные в эту микросхему записываются производителем сканера на этапе производства. Содержимое микросхемы называется "микропрограммой" или "firmware". У некоторых профессиональных сканеров предусмотрена возможность ее обновления, но в недорогих моделях для дома и офиса это обычно не требуется.

Помимо микросхемы постоянной памяти в сканерах используется и оперативная память, играющая роль буфера (ее типовые значения — 1 или 2 Мбайт). Сюда направляется сканируемая информация, которая практически сразу передается на ПК. После отправки содержимого из памяти персональному компьютеру, процессор обнуляет буфер для формирования новой посылки. Замечу, что инструкции для процессора также заносятся в ячейки оперативной памяти, но уже самого процессора (для этого он оснащен несколькими килобайтами собственной "оперативки"). Организация его памяти построена по принципу конвейера, т. е. после выполнения инструкции, стоящей в очереди первой, ее место занимает вторая, а место последней — новая инструкция.

Объем оперативной памяти сканера ранее указывался производителями в технических спецификациях сканеров. Однако, т. к. данный параметр практически не сказывается на быстродействии аппарата, в современных сканерах он часто умалчивается. Умалчивается он и в том случае, если конкретный сканер использует некоторую область оперативной памяти самого компьютера, что реализуется средствами драйвера.


Контроллер интерфейса

За обмен информацией и командами между сканером и компьютером отвечает контроллер интерфейса. Как я отмечал выше, данная микросхема может отсутствовать в том случае, если процессор располагает интегрированным модулем контроллера. В эпоху "двушек" и "трешек" сканеры выпускались с интерфейсами SCSI, IEEE1284 (LPT) и даже с RS-232. Сегодняшний ассортимент SOHO-сканеров ограничивается интерфейсами USB, FireWire и SCSI. Одно время ходили слухи о появлении Bluetooth-сканеров, но пока дальше слухов дело не пошло. Совершенно очевидно, что в аппаратах с разными интерфейсами установлены такие же разные контроллеры. Между собой они не совместимы, потому как "говорят на разных языках".



В нашем случае интерфейсная плата сочетает SCSI- и USB-порты, а также располагает двумя гнездами для подключения дополнительных модулей


SCSI (Small Computer Systems Interface)

Сканеры с интерфейсом SCSI были наиболее распространены несколько лет назад. Надо признать, что эра SCSI-сканеров подходит (или уже подошла) к концу. Основная причина — появление высокоскоростных интерфейсов USB и FireWire, не требующих ни особой деликатности при подключении, ни дополнительных адаптеров. Среди достоинств SCSI-интерфейса можно выделить его высокую пропускную способность, а также возможность подключения до семи различных устройств на одну шину. Из основных недостатков SCSI — высокую стоимость организации интерфейса и необходимости задействования дополнительного контроллера.


USB (Universal Serial Bus)

Интерфейс USB получил самое широкое распространение благодаря его интеграции во все современные системные платы в качестве основного разъема для периферийных устройств. Сегодня абсолютное большинство сканеров для дома выпускается именно с USB-интерфейсом. Кроме того, группа CIS-сканеров получает необходимое питание по USB-порту, чем привлекает владельцев портативных компьютеров. Согласитесь, такое качество не реализуешь посредством SCSI.


FireWire (IEEE1394)

При выборе типа подключения, по крайней мере, для меня FireWire-интерфейс является более предпочтительным. FireWire представляет собой последовательный высокоскоростной интерфейс ввода/вывода, отличаясь от USB тем, что для обеспечения соединения он не требует управляющего контроллера. Организация его работы выполнена по схеме peer-to-peer. Собственно за счет этого и достигается более низкая (в сравнении с USB) загрузка центрального процессора.

В скором времени свет увидят периферийные устройства с новой модификацией этого интерфейса — FireWire 800 (IEEE1394b). Именно тогда он станет самым скоростным среди периферийных стандартов, которые когда-либо были разработаны.


Протяжный механизм

Основной подвижный модуль сканера — его сканирующая каретка. В нее входят оптический блок, с системой линз и зеркал, светочувствительная матрица, лампа с холодным катодом (если это CCD-сканер) и плата инвертора. К сканирующей каретке жестко закреплен зубчатый протяжный ремень, который приводит в движение шаговый двигатель аппарата.



Место крепления ремня к сканирующей каретке



Элементы протяжного механизма


За плотный контакт ремня с шестеренками отвечает специальная натяжная пружина, которая надевается непосредственно на него. Лафет со сканирующей кареткой перемещается по направляющим салазкам, вдоль корпуса аппарата (см. фото).


Двигатель

Шаговый электродвигатель (Step Motor) может поворачивать шпиндель в обе стороны совсем небольшими шажками. Из-за этой особенности всегда есть возможность переместить каретку сканера на строго определенное расстояние. Такой двигатель есть в каждом планшетном сканере. Он вращает редуктор (шестеренки, которые вы видите на фотографии) и приводит в движение каретку, в которой заключен оптический блок, лампа, и матрица. За выбор направления и скорости вращения отвечает специальная микросхема — контроллер двигателя. Точность перемещения каретки называют механическим разрешением по направлению "Y" (Y-direction).



Шаговый двигатель



Оптическое разрешение сканера — направление X, а его механическое разрешение — направление Y


Вообще, оптическое разрешение определяется числом элементов линии матрицы, деленное на ширину рабочей области. Механическое — число шагов сканирующей каретки по направлению движения Y. В спецификациях к сканерам можно встретить обозначения, типа, "600x1200". Здесь вторая цифра и есть механическое разрешение, тогда как первая характеризует оптическое разрешение сканера. Различают также интерполированное разрешение, которое иногда на несколько порядков больше значений оптического, но никак не зависит от физического оснащения аппарата. Я бы назвал его "разрешением масштабирования". Функции интерполирования (увеличения оригинального изображения) исполняет программное обеспечение сканера. Ценность указываемых производителями значений интерполяции сомнительна — любое изображение можно с тем же успехом увеличить средствами Photoshop.



Внутренности двигателя


Сердечник двигателя с внешней стороны соединен зубчатой передачей, представляющей простейший редуктор. Его большая шестеренка и протягивает ремешок, к которому закреплена сканирующая каретка.



Редуктор


Блок питания



Блок питания сканера


Домашние или офисные сканеры потребляют не слишком много энергии от сети, поэтому в блоках питания SOHO-аппаратов не найти мощных элементов. Внутренний блок питания рассматриваемого в данной статье аппарата выдает напряжения 24 Вольт / 0.69 А, 12 Вольт / 0.15 А и 5 Вольт / 1 А. Т. к. для источника света — лампы с холодным катодом, требуется высокое напряжение в несколько киловольт, за ее питание отвечает отдельный блок, о котором я рассказывал чуть выше.


Дополнительные устройства

Для многих планшетных сканеров выпускаются сопутствующие дополнительные приспособления, в большинстве случаев приобретаемые отдельно. Из таковых можно отметить автоподатчик документов и адаптер для сканирования прозрачных оригиналов (слайд-адаптер).



Сканер с автоподатчиком документов представляет собой громоздкую конструкцию


Автоподатчик бумаги требуется в тех случаях, когда приходится сканировать множество печатных листов стандартного формата. Удостовериться, что к вашему сканеру можно подключить автоподатчик достаточно просто. Для этого можно просто взглянуть на панель подключений и убедиться в наличии гнезда ADF (Automatic Document Feeder). Следует заметить, что автоподатчик документов всегда "привязан" к конкретной модели сканера, либо к серии моделей. Универсального податчика не существует! Причина заключается в том, что данное устройство управляется с интерфейсной платы сканера. Понятно, что работа податчика невозможна при отсутствии связи со сканером, поэтому при покупке будьте внимательны, и удостоверьтесь, что ваш сканер поддерживает работу с конкретным автоподатчиком.



Вид на прозрачное окошко автоподатчика документов с другой стороны стекла


Работает автоподатчик следующим образом. После этапа автокалибровки и проверки готовности сканер позиционирует каретку перед прозрачным окном автоподатчика. Затем, с его входного лотка поочередно забираются листовые оригиналы, и при проходе через означенное окно они оцифровываются.

Слайд-адаптер представляет собой дополнительное приспособление, предназначенное для оцифровки прозрачных оригиналов (пленок, слайдов и негативов). Существуют два типа таких адаптеров: пассивный, который использует лампу сканера, и активный, просвечивающий прозрачный оригинал собственной лампой.

Активный слайд-адаптер оснащен собственным источником света, просвечивающим прозрачный оригинал. Некоторые модели таких слайд-адаптеров имеют подвижную каретку с источником света, которая приводится двигателем и протяжным механизмом. Источник света перемещается вдоль направляющей, согласно позиционирования каретки сканера. Собственная лампа сканера при этом отключается. Сегодня более распространены модели сканеров для дома и офиса без подвижных частей в модуле слайд-адаптера. Типичный пример — не так давно протестированный нашей тестовой лабораторией EPSON Perfection 3200 Photo. Его источник света встроен в крышку сканера и занимает всю ее полезную поверхность. Для согласования адаптера со сканером из крышки выходит провод с разъемом, подключающийся к специальному гнезду на задней панели аппарата (оно обозначается аббревиатурой ХРА). Активизация лампы адаптера происходит автоматически при смене типа оригинала в управляющей программе, что дополнительно сообщается индикатором в крышке сканера. Прозрачные оригиналы устанавливаются в прилагаемые в комплекте шаблоны, которые поддерживают: ленту 35 мм пленки из 12 кадров, четыре 35 мм слайда вставленных в рамки, пленки 120/220 (6 x 9 см) / 4 х 5''. Ну а сами шаблоны кладутся на стекло сканера. Во время сканирования, поток света проходит сквозь прозрачный оригинал, и, попадая на вход оптической системы сканера, обрабатывается аналогичным (как и непрозрачный оригинал) образом. Понятно, что такие свойства сканера, как оптическое разрешение и глубина света при использовании слайд-адаптера не меняются, чего не скажешь о диапазоне оптических плотностей. Этот параметр сканера напрямую зависит от яркости источника света и времени экспонирования. Представить это можно так: чем темнее оригинал, тем меньше света он пропускает, тем дольше нужно времени, чтобы накопители CCD-матрицы собрали нужное количество заряда. Самый темный из прозрачных оригиналов — это рентгеновские пленки (до 3.6D). Чтобы получить с них качественный скан, нужен яркий источник света. Однако диапазон воспроизводимых оптических плотностей сканера отнюдь не определяется только лишь яркостью лампы. Главным образом он зависит от разрядности (или точности) аналого-цифрового преобразователя, качества оптической системы и способностей светочувствительной матрицы.

Пассивный слайд-модуль устроен проще, нежели активный. Такой адаптер использует в качестве источника света лампу самого сканера. Интенсивность светового потока в этом случае существенно ниже, чем в случае с активным адаптером. Соответственно, ниже и качество отсканированных изображений, которое вполне приемлемо, к примеру, для Web. Пассивные слайд-адаптеры также отличаются невысокой ценой.


Заключение

В общем-то, о сканере, как о сложнейшем электронном приборе можно рассказывать довольно долго, но все равно в рамках одной статьи невозможно передать всех интересных нюансов. Сегодня мы выяснили следующее: по каким причинам CCD-сканеры оцифровывают оригиналы гораздо качественнее, чем аппараты с контактным сенсором; почему важна разрядность преобразователя, и чем отличается оптическое разрешение от механического; какие бывают источники света и как они влияют на качество сканирования; как осуществляется взаимодействие электронных и механических частей сканера, и почему слайд-адаптеры подходят далеко не всем аппаратам. В общем, я постарался, как можно в более доступной форме рассказать об особенностях современных SOHO-сканеров, и мне будет небезынтересно узнать ваше мнение об этой статье.

Анатомия сенсоров изображений

Бараш Л.




Сенсоры изображений (image sensors) являются главным элементом цифровых фотоаппаратов, сканеров и многих приборов, использующихся в науке, медицине и в военных целях. В основе функционирования всех сенсоров лежит одно и то же явление фотоэффекта — взаимодействия света (фотонов) с электронами, однако технологии изготовления сенсорных матриц и механизмы их работы различаются. Хотя сенсоры изображений применяются во многих устройствах, мы будем рассматривать их особенности только в контексте цифровых фотоаппаратов.

Точная дата рождения цифровой фотографии неизвестна. Наиболее вероятным периодом называют конец 1960-х гг. — время, когда многие исследователи обнаружили, что структуры КМОП (CMOS) обладают чувствительностью к свету. Второй тип фоточувствительных полупроводниковых устройств — приборы с зарядовой связью, ПЗС, или в английском написании CCD (Charge Coupled Device) — были изобретены в конце 1969 г. Уильямом Бойлем (William Boyle) и Джорджем Смитом (George Smith) из Bell Labs. Качество формирования изображений у этих устройств было на то время столь высоким, что они быстро затмили матрицы на КМОП.

Первые коммерчески доступные ПЗС-сенсоры появились в 1973 г. Впечатляющие возможности по переносу заряда сделали их идеальным выбором для изготовления сенсорных матриц. Сегодня ПЗС являются специализированными чипами, применяемыми, как правило, только для захвата изображения. Они производятся небольшим числом компаний, в частности Sony, Philips, Kodak, Matsushita, Fuji и Sharp. КМОП также продолжают использоваться в фотокамерах, однако более прочно утвердились для изготовления памяти, обработки данных и других цифровых функций ввиду их низкого энергопотребления и гибкой полупроводниковой технологии. Тем не менее ряд характеристик этих устройств продолжает привлекать к себе внимание производителей цифровой фототехники. Поскольку особенности архитектуры КМОП позволяют осуществлять обработку изображений и преобразование аналог-код прямо в чипе, цифровые камеры и другие устройства на базе КМОП получаются значительно дешевле. Вдобавок КМОП-камеры требуют меньше сопутствующей электроники и печатных плат и могут быть размером с ноготь или еще меньше. В начале 90-х характеристики КМОП-сенсоров, а также технология производства были значительно улучшены. Например, прогресс в субмикронной литографии и дальнейшая миниатюризация транзисторов в интегральных схемах позволили применять в КМОП-сенсорах более тонкие соединения. Это, в свою очередь, привело к увеличению фоточувствительности за счет большего процента облучаемой площади матрицы. Таким образом, в последние годы КМОП стали практической альтернативой ПЗС. Однако в сегменте высокоуровневых решений ПЗС в ближайшее время будут удерживать первенство.


Что происходит в кремнии

Большинство сенсоров изображений строится на базе кремния. Напомним вкратце основные принципы взаимодействия света и электронов в полупроводниках.

Как известно, энергия фотона связана с частотой (длиной волны) соотношением

Е = hv = /λ

где — h постоянная Планка, с — скорость света, v — частота, λ — длина волны падающего света. Если энергия фотона больше, чем ширина энергетической щели, разделяющей валентную зону и зону проводимости полупроводника, то электрон при взаимодействии с таким фотоном может перейти из валентной зоны в зону проводимости и стать подвижным. Важным следствием данного соотношения является существование минимальной длины волны света, при которой возможно появление подвижного электрона. Обычно полупроводник легируют соответствующим материалом, что приводит к образованию промежуточных энергетических уровней в запрещенной зоне. Это позволяет свету с длиной волны большей, чем минимальная, генерировать электроны проводимости. Легирование бором создает полупроводник р-типа, а фосфором — n-типа.

Вообще говоря, электроны проводимости способен генерировать свет в видимом диапазоне длин волн (400–750 нм) и в ближней инфракрасной области спектра (1100 нм). Количество электронов, так называемый квантовый выход, является линейной функцией от числа фотонов, падающих на единицу площади за единицу времени (интенсивности света). Оно может быть меньше (рис. 1) за счет отраженных и поглощенных фотонов и рекомбинации возбужденных электронов или больше — при взаимодействии с высокоэнергетическими фотонами. Квантовый выход является одним из важнейших параметров, используемых при оценке качества фотодетектора.



Пиксели

Сенсор изображений состоит из набора фотоприемников — пикселов, которые образуют прямоугольную матрицу. Хотя структура пикселов зависит от типа сенсора, принципы их работы одинаковы.

Падающий свет попадает на фоточувствительную зону пикселов, где генерирует электроны, которые собираются в потенциальных ямах. Величина аккумулируемого заряда определяется интенсивностью падающего света. Время, за которое собирается заряд, называется временем интеграции (integration time). Таким образом, потенциальная яма содержит информацию о части изображения в форме электрического заряда, порожденного падающим светом.

В своей основе сенсор изображений должен выполнять четыре основные задачи: сгенерировать заряд от падающего фотона, собрать полученные заряды, перенести суммарный заряд и преобразовать его в напряжение. И ПЗС-, и КМОП-сенсоры решают все четыре задачи. Первые две они выполняют одинаково, но расходятся в методах переноса заряда и преобразования его в напряжение. В дальнейшем мы уделим большее внимание сенсорам на базе ПЗС.


Как работает ПЗС-сенсор

Он выполняет меньше функций на чипе, чем КМОП-сенсоры, но изящная простота ПЗС позволяет обеспечить превосходное качество изображения. Конечно, только наличие матрицы ПЗС в фотокамере не означает, что она будет делать хорошие снимки. Их качество определяется всей системой, включающей оптику, АЦП, схемы обработки изображений и другие компоненты. Более того, важным фактором является и способ взаимодействия всех составляющих.

На рис. 2 представлена схема формирования потенциальной ямы.



ПЗС-структура состоит из легированного поликремния, отделенного от подложки изолирующим слоем двуокиси кремния. Прикладывая напряжение к поликремниевым электродам, которые служат своеобразными вентилями (затворами), можно менять электрические потенциалы в прилегающих зонах внутри кремния. Так, положительное напряжение создает потенциальную яму, куда устремляются электроны, выбитые фотонами из валентной зоны. Электроны удерживаются в зоне под затвором за счет создания вокруг нее потенциального барьера — посредством приложения отрицательного потенциала к соседним электродам. Потенциальную яму или барьер можно сформировать под любым затвором.

Собранный заряд, соответствующий некоторому элементу изображения и удерживаемый в потенциальной яме, необходимо теперь каким-то образом доставить к преобразователям и усилителям, которые физически отделены от пиксела. Применяемые сегодня методы включают четыре различных способа переноса заряда: четырехфазный, трехфазный, псевдодвухфазный и истинный двухфазный. Остановимся подробнее на первом, поскольку остальные являются его вариациями.

Для переноса заряда в ПЗС-матрице с помощью поликремниевых электродов создаются сдвиговые регистры — так, что они образуют цепочку вдоль одной оси (строку или колонку). В названии метода отражено то, что пиксел формируется четырьмя электродами (Ф1, Ф2, ФЗ и Ф4 на рис. 3).



Если приложить к Ф1 и Ф2 высокое напряжение, удерживая низкое на ФЗ и Ф4, можно создать потенциальную яму под пикселом Рп, в которую будут стекаться электроны проводимости (фаза t1). Если затем изменить полярность на электродах Ф1 и ФЗ (фаза t2), то "зарядовый пакет" под действием электростатических сил будет перемещаться от Ф1 к ФЗ. В следующей фазе (t3) меняется полярность электродов Ф2 и Ф4, и заряд перетекает в потенциальную яму, образованную под электродами ФЗ и Ф4. Этот процесс применяется синхронно для всех сдвиговых регистров. Таким образом, заряды смещаются строка за строкой, как бы связанные друг с другом. Собственно говоря, данному процессу такие устройства и обязаны своим названием — приборы с зарядовой связью. Цикл повторяется до тех пор, пока все зарядовые пакеты достигнут выходных цепей, которые преобразуют величину заряда, накопленного каждым пикселом, в соответствующее напряжение и усилят его.


Форматы ПЗС-матриц

Существуют три формата ПЗС-матриц, определяющих способ получения (сканирования) изображения: точечные, линейные и просматривающие изображение по площади.

При точечном сканировании используется один фотодетектор, а полное изображение получается путем перемещения детектора в плоскости XY. Линейное сканирование предполагает, что массив фотодетекторов размещается в один ряд и сканирование выполняется в одном направлении (рис. 4,а). При таком способе изображение формируется построчно, и, прежде чем отсканировать очередную строку, текущие данные передаются на выходные цепи. Это медленные процессы, к тому же они требуют шаговых двигателей, которые усложняют систему, создают шум и служат дополнительным источником отказов.



Для захвата изображения по всей площади формируется двумерный массив детекторов, на который проецируется полное изображение (рис. 4,б), — таким образом устраняется необходимость использования механических компонентов, а значит, сложность системы сводится к минимуму. Данный метод формирования изображения обеспечивает в фотокамерах максимальную скорость съемки и точность в расположении пикселов. Недостатками этой схемы являются пониженное значение отношения сигнал/шум и высокая стоимость, поскольку из одной пластины получается меньшее количество устройств.


Архитектура ПЗС-матриц

ПЗС-матрицы строятся по различной архитектуре. Наиболее распространенными сегодня являются матрицы с двумя разными механизмами сдвига кадра, которые называются перенос полного кадра (Full-Frame Transfer — FFT) и перенос кадра (Frame-Transfer — FT). В таких устройствах в качестве детекторов используются фотоконденсаторы. В третьем типе архитектуры — матрицы с межстрочным переносом (Interline Transfer — IT) детектор состоит из фотодиода и фотоконденсатора.

Из всех трех FFT-матрицы имеют простейшую архитектуру, технологию производства и способ функционирования. Они содержат параллельный сдвиговый регистр, последовательный сдвиговый регистр и выходной усилитель (рис. 5).



Сцена оптически проецируется на параллельный массив детекторов, служащий плоскостью изображения. Затем строки, содержащие информацию о сцене, параллельно сдвигаются, попадая в последовательный сдвиговый регистр, который передает строку информации на выходные цепи. Процесс повторяется до тех пор, пока все строки изображения не передадутся на выход. Далее выполняется реконструкция образа. Поскольку параллельный регистр используется как для формирования изображения, так и для его переноса, то на время процесса сенсорная матрица защищается от попадания света. Ввиду простоты конструкции такие матрицы обладают наивысшим разрешением и плотностью.

Архитектура FT-матрицы (рис. 6) во многом схожа с предыдущей. Различие состоит лишь в том, что здесь добавляется идентичный, но отдельный и нечувствительный к свету параллельный сдвиговый регистр, который называется областью хранения (storage array).



Идея заключается в том, чтобы очень быстро сдвинуть захваченную сцену из фоточувствительной области в область хранения. Перенос зарядовых пакетов из последней выполняется так же, как и для архитектуры FFT. Преимущество такого построения — съемку можно выполнять практически непрерывно. Вследствие того, что для реализации этой архитектуры требуется вдвое большая площадь матрицы, чем для сенсоров FFT, камеры на ее основе имеют меньшее разрешение и более высокую стоимость.

Ограничения FT-архитектуры преодолеваются матрицами с межстрочным переносом. Это достигается разделением функций захвата изображения и переноса информации посредством размещения рядов фотодетекторов между рядами нечувствительных свету или защищенных от него считывающих элементов (рис. 7).



После захвата сцены заряд, накопленный каждым пикселом, немедленно передается в защищенный от света параллельный сдвиговый регистр ПЗС. Затем выполняется уже рассмотренный выше перенос заряда на выходные цепи. Во время этого, как и для FT-матриц, может осуществляться захват следующей сцены. Такая архитектура также обеспечивает высокую скорость съемки, причем степень размытости изображения намного ниже, чем для матриц FT-архитектуры. Основным недостатком межстрочных матриц является сложность их изготовления, приводящая к повышению стоимости. Кроме того, у таких матриц ниже чувствительность, поскольку меньше площадь светочувствительной зоны, что равносильно уменьшению апертуры. Это также ведет к увеличению количества ошибок при оцифровке (квантизации) изображения.


Архитектура КМОП-сенсоров

Остановимся вкратце на архитектуре КМОП-сенсоров (детальное изложение принципов их работы требует отдельной статьи). Сенсоры изображений, построенные на базе структур КМОП, выполняют больше функций на микросхеме, чем ПЗС-матрицы. Кроме генерации электронов проводимости под действием падающего света и их переноса, КМОП-сенсоры могут также производить обработку изображений, выделение контуров, способны понижать уровень шума и осуществлять преобразования аналог-код. Однако наиболее привлекательная их особенность — возможность программирования различных функций. Это позволяет делать КМОП-устройства очень гибкими. Такая интеграция функций на одном чипе является основным преимуществом КМОП над ПЗС. Столь высокая степень интеграции не требует установки в цифровых фотокамерах дополнительных чипов, например процессора цифровой обработки сигналов и АЦП. Вдобавок, поскольку КМОП-устройства потребляют меньше энергии, чем ПЗС, они не так нагреваются и, следовательно, имеют более низкий уровень тепловых шумов.

Переворот в технологии КМОП-сенсоров произошел в начале 90-х, когда в лаборатории реактивного движения (Jet Propulsion Laboratory — JPL) NASA успешно реализовали Active Pixel Sensors (APS). Теоретические исследования были выполнены еще несколько десятков лет тому назад, но практическое использование активного сенсора отодвинулось до 1993 г.

APS добавляет к каждому пикселу транзисторный усилитель для считывания (рис. 8), что дает возможность преобразовывать заряд в напряжение прямо в пикселе. Это обеспечило также произвольный доступ к фотодетекторам наподобие реализованного в ОЗУ.



С помощью механизма произвольного доступа можно выполнять считывание выбранных групп пикселов. Данная операция получила название кадрированного считывания (windowing readout). Кадрирование позволяет уменьшить размер захваченного изображения и потенциально увеличить скорость считывания по сравнению с ПЗС-сенсорами, поскольку в последних необходимо выгрузить всю информацию. Вдобавок к усилителю внутри пиксела, усилительные схемы могут быть размещены в любом месте по цепи прохождения сигнала. Это позволяет создавать усилительные каскады и повышать чувствительность в условиях плохого освещения. Возможно установление отдельных усилителей для каждого цвета, что улучшает, в частности, балансировку белого.

Однако все дополнительные цепи приводят к тому, что у КМОП-сенсоров традиционно возникают такие трудности, как высокий уровень шума, ток утечки и остаточный заряд. Этим недостаткам есть некоторая компенсация: с помощью дополнительных схем можно устранить темновой ток и уменьшить вносимые им помехи. Неудивительно, что при таких возможностях существует множество модификаций КМОП-сенсоров.

Нами не рассмотрена еще одна, органически связанная с сенсорами изображений, тема — как создается цвет. К ней мы обратимся в дальнейших публикациях.

Наглядное сравнение сканеров CCD И CIS

(автор: NIP с http://www.natahaus.ru)


Незрелый ананас, для человека справедливого,

Всегда хуже зрелой смородины.

(с) Козьма Прутков



Немного теории

CCD (Charge-Coupled Device, прибор с зарядовой связью — ПЗС) — светочувствительный элемент представляет собой узкую полоску из множества фотодатчиков, на которую при сканировании на каждом шаге двигателя отражается от документа и через систему зеркал попадает свет от лампы, установленной на каретке. На каждом шаге каретки сканер фиксирует одну горизонтальную полоску оригинала, разбитую в свою очередь на некоторое количество пикселей на CCD-линейке. Итоговое изображение, составленное из полосок, представляет собой как бы мозаику из пикселей одинакового размера и разного цвета. Для проецирования изображения с подсвеченного оригинала на CCD-линейку используется специальная оптическая система из объектива и нескольких зеркал.



Рис. 1. Устройство каретки сканера на основе CCD матрицы.


CIS (Contact Image Sensor, контактный датчик изображения) — светочувствительный элемент представляет собой линейку одинаковых фотодатчиков, равную по ширине рабочему полю сканирования, непосредственно воспринимающих световой поток от оригинала. Оптическая система — зеркала, преломляющая призма, объектив — полностью отсутствует.



Рис. 2. Устройство каретки сканера на основе CIS матрицы.


Подопытные кролики

Mustek Be@rPaw 120ОCU Plus — планшетный сканер для домашнего использования. В сканере используется CIS-матрица (Contact Image Sensor). Аппаратные разрешения: 600x1200dpi

Epson Perfection 1270 — планшетный сканер, предназначенный для домашних пользователей. В сканере используется цветной линейный датчик CCD (Charge-Coupled Device). Аппаратные разрешения: 1200x2400dpi


Смотри и сравнивай

Чтобы сравнить сканеры CCD и CIS, применительно к оцифровке печатных изданий, я отсканировал в оттенках серого с разрешением 300 dpi один и тоже разворот середины брошюры с текстом в 10-ти миллиметрах от кромки переплета. Для наглядности отличий в резкости получаемого результата сканировал с разной степенью прилегания материала к стеклу. Фильтры пост обработки в драйверах отключены. Полученные сканы обработке, кроме обрезки и преобразования в jpg, не подвергались.



Рис. 3. Окна настроек драйверов при сканировании.



Рис. 4. Хороший прижим: 6 мм от стекла до кромки переплета. Линия сканирования перпендикулярна строкам.



Рис. 5. Средний прижим: 20 мм от стекла до кромки переплета. Линия сканирования перпендикулярна строкам.



Рис. 6. Без прижима: 38 мм от стекла до кромки переплета. Линия сканирования перпендикулярна строкам.



Рис. 7. Без прижима: 38 мм от стекла до кромки переплета. Линия сканирования параллельна строкам, а переплет расположен по центру планшета.


Перегонки

Условия: сканирую всю область формата А4 в оттенках серого при разрешении 300 dpi. Все замеры делаю по часам с точностью до секунды.



Подопытный CIS сканер медленнее в 3,8 раза!

Отмечу, что обнаруженные тормоза, скорее всего, не общая характеристика CIS-сканеров, а особенность конкретной модели. Т. к. в спецификации на Mustek Be@rPaw 120OCU Plus указан тип интерфейса USB 1.1, тогда как у Epson Perfection 1270 используется USB 2.0.

Повторив тест на скорость Epson Perfection 1270 для сканирования в цветном режиме 48bit 300dpi я получил практически те же результаты, хотя в его характеристиках, найденных в Интернете, указаны такие параметры: черно-белый текст, А4, 300 dpi: 13 секунд; цветное фото А4, 300 dpi: 19 секунд.


Мнения "ведущих собаководов"

Информация от консультантов сети магазинов компьютерной техники "Позитроника" (21.03.2007):

CCD-сканеры имеют ряд неоспоримых преимуществ перед CIS-моделями.

Во-первых, они обеспечивают большую (примерно в 10 раз) глубину резкости. Это означает, что с CCD-сканером 3-мерные объекты или даже книги и журналы будут отсканированы с хорошей резкостью. При сканировании CIS сканером сканируемый объект должен быть максимально плоским, иначе полученное изображение будет размытым и нерезким.

Во-вторых, они обеспечивают лучшую чувствительность к оттенкам.

В-третьих, срок службы таких сканеров значительно продолжительнее. CCD сканеры обеспечивают стабильно высокое качество сканирования в течение более 10 тыс. часов. У существующих в настоящее время CIS сканеров наблюдается падение яркости в среднем на 30 % после нескольких сотен часов работы.

В-четвертых, CCD-сканеры имеют более высокую разрешающую способность.

Для объективности заметим, что разработчики и конструкторы обоих типов сканеров не перестают совершенствовать свои творения, поэтому соревнование между ними еще не закончилось абсолютной победой одного из участников.

Фрагмент статьи о тестировании МФУ OKI В2500 MFP (19.06.2007):

Примененная недорогая CIS-технология имеет некоторые недостатки, одними из главных являются неточная цветопередача и слабые показатели глубины сканирования (возможность передать объем сканируемого предмета).

Тест на глубину сканирования (охват объема) проводился с помощью линейки, установленной под углом, образуя, таким образом, со стеклом сканера и опорой прямоугольный треугольник. Высота опоры (один катет прямоугольного треугольника) равна 1.5 см — спичечный коробок, длина части линейки от стекла до опоры (гипотенуза) равна 10 см.



Видно, что четко различимая часть линейки составляет примерно 1 см, откуда простым расчетом получим глубину сканирования около 1.5 мм. Что ж, не шибко хороший результат, но ведь это "заслуга" примененной в сканере ClS-матрицы…


Посмотрев на это всё… (IMHO, но не только)

Глубину сканирования Epson Perfection 1270 проверяю по технологии, приведенной выше в отрывке статьи о тестировании МФУ, при помощи линейки и спичечного коробка. Сравните с рисунком 8 или со своим сканером.



Рис. 9. Тест на глубину сканирования (охват объема) CCD-сканера Epson Perfection 1270.


Даже при относительно хорошем прижиме сканируемого объекта к стеклу планшета, как это видно на рисунке 3, CIS-сканер размывает места находящиеся в долях миллиметра от стекла. Малая глубина резкости обусловлена отсутствием оптики — название "контактный датчик" говорит само за себя.

Можно было бы прижать чуть сильнее, и проблема пропадет, решат некоторые. Вот тут то мы и наступим на грабли!

Из-за того, что каретка с другой стороны очень близко прижимается к стеклу, малейший прогиб планшета может привести к подтормаживанию каретки и в результате образуются "сдавленные" промежутки. Если сканируем простой текст для дальнейшей обработки в программе OCR — это еще пол беды, а вот если сканируем графику или схемы — хорошего мало.



Рис. 10. Скан сильно прижатого текста. Линия сканирования параллельна строкам. Изменена экспозиция для выделения проблемного участка скана.


Кроме малой глубины резкости (из-за отсутствия оптики) у CIS-сканера есть еще один принципиальный недостаток — небольшие зазоры между соседними фотодатчиками. Чтобы сделать его менее заметным CIS-матрицу фокусируют чуть ниже плоскости планшета, т. е. CIS-сканеры изначально дают слегка размытый результат (или, если хотите, сглаженный — менеджеры по продажам иногда относят эту особенность технологии к достоинствам). Проявление этого недостатка становится заметным на потерявших резкость участках скана в виде полосатости, которая хорошо видна, например, на рисунке 6.

А у CCD-сканера наоборот есть недостаток, связанный с наличием оптики — разный ход луча (разное расстояние) при сканировании изображения в центре и по краям. Искажение от этой особенности CCD-сканера на изображении начинает проявляться, только если объект сканирования отходит от планшета. Т. е. проблемы с геометрией у CCD-сканера начинаются там же, где начинаются проблемы с резкостью у CIS-сканера. Но даже сильно искаженное изображение CCD-сканера пригодно к применению, в отличие от размытого изображения CIS-сканера (см. рисунок 6).

Кроме того искажения можно минимизировать, расположив сканируемую книгу на планшете так, чтобы переплет был перпендикулярен линии сканирования и располагался как можно ближе к центру планшета. Пример такого скана на рисунке 7, а тот же фрагмент с искажениями на рисунке 6. Правда при сканировании обычной книги этим способом разворот не поместится на планшет целиком и придется сканировать каждую страницу в отдельности.

Еще один из часто называемых недостатков CCD-сканера — длительный прогорев лампы. Но у подопытного сканера лампа включается сразу после включения его в сеть и отключается автоматически только при длительном простое. Т. е. при пакетном сканировании, по крайней мере, у этой конкретной модели, абсолютно нет задержек по этой причине. Обратная сторона медали: из-за того, что лампа выделяет тепло, на внутренней поверхности стеклянного планшета с течением времени появляется налет, который нужно чистить, иначе на изображении появится синева и нечеткость. Вывод: включай CCD-сканер в розетку только тогда, когда собрался сканировать.

Как одно из достоинств CIS-сканера указывают его постоянную готовность к сканированию, тогда почему время от нажатия на кнопку сканирования до фактического начала сканирования у подопытного CIS-сканера больше (см. раздел "Перегонки" выше), чем у подопытного CCD-сканера? Ответ прост: перед сканированием каретка сканера проходит цикл калибровки на специальной области под планшетом вне зоны сканирования и более медлительный сканер проходит этот цикл дольше.

Использование CIS-матрицы не только заметно уменьшает габариты и вес устройства, но и позволяет использовать питание от компьютера через USB-интерфейс. Кроме того, CIS-сканеры работают, как правило, гораздо тише. Хотя, IMHO, плата за меньший шум — медлительность.

Считается, что отсутствие оптики делает CIS-сканер менее чувствительным к внешним механическим воздействиям, т. е. его труднее испортить неаккуратным обращением. Но следует учесть также и то, что стекло планшета у такого сканера часто тоньше, чем у его конкурента с оптикой.

В одной из публикаций, датируемой концом 2003-го года, приведена краткая сводная таблица достоинств и недостатков сканеров обоих технологий. Вот эта таблица с моими исправлениями, которые выделены цветом и знаком вопроса.



Красным цветом выделены и зачеркнуты характеристики, которые к середине 2007 года утратили актуальность. Синим со знаком вопроса — характеристики, которые характерны не для всех моделей. Зеленым цветом — мой комментарий.

Что изменилось по состоянию на середину 2007-го года?

У CCD-сканеров существенно снизилась цена и в нижнем ценовом диапазоне есть модели, у которых нет задержек при пакетном сканировании, связанных с прогревом лампы.

У CIS-сканеров увеличено разрешение до 2400x4800 dpi, правда пока только у более дорогих моделей, и у некоторых моделей появилась возможность работать со слайд-адаптерами.

Например, компания Canon выпускает CIS-сканер CanoScan LiDE 80 — новую ведущую модель с функцией сканирования фотоплёнок, далее цитата с сайта Canon: "Это — первый в мире сканер с контактным датчиком изображения (Contact Image Sensor, или CIS) и функцией сканирования фотоплёнок, первый в мире CIS-сканер с разрешением 2400x4800 точек на дюйм и первый в мире CIS-сканер с применением технологии FARE (Автоматическое ретуширование и улучшение изображений на плёнке). Сочетание всех этих технологических достижений в столь компактной модели — толщиной всего 38 мм…". Розничная цена на него по состоянию на лето 2007-го года чуть меньше 180 у.е.

Для сравнения цена подопытного CIS-сканера Mustek Be0rPaw 120 °CU Plus около 45 у.е., а цена подопытного CCD-сканера Epson Perfection 1270 около 65 у.е.


Выбор сканера для домашнего сканирования книг (IMHO)

Для сканирования большинства книг важна в первую очередь скорость при хорошем качестве.

Именно поэтому для сканирования книг без сложных иллюстраций выбираю разрешение 300dpi.

CCD-сканер, на мой взгляд, обеспечивает наилучшие качество и скорость сканирования.

При выборе модели нужно обратить особое внимание на время полного цикла сканирования, которое сильно зависит от способа прогрева лампы и интерфейса передачи данных на компьютер.

Преимущества CIS-сканера не имеют отношения к качеству получаемого изображения и относятся к потребительским характеристикам, которые могут быть востребованы только в случае, когда возникла необходимость сканировать в читальном зале на ноутбук и нет возможности подключиться к электросети.

Следует отметить, что есть специализированные устройства для сканирования книг: например Plustek Optic Book 3600 (http://www.plustek.ru/), у которого любая книга может полностью лечь на стекло сканера и в результате — идеально отсканированное изображение без раздражающей книжной тени от переплета и никаких искаженных линий текста, причем бумажный оригинал не повреждается. Скорость сканирования — примерно 7 секунд полный цикл одной страницы 300 dpi.

Цена Plustek Optic Book 3600 по состоянию на лето 2007-го года около 280 у.е.




Мой путь по граблям…:)

Когда я брал себе сканер то не подозревал, что буду использовать его для перевода книг в электронный вид и уж тем более не задумывался о таких тонкостях как тип приемного элемента. По крайней мере, я хоть знал, чем отличается максимальное оптическое разрешение от просто максимального (интерполированного), которое производители сканеров любят писать большими буквами сами знаете для чего.

Главными показателями при выборе сканера для меня тогда были:

1) цена — сами понимаете, чем дешевле, тем "зачем платить больше?";

2) качество сканирования — как его определить, если до этого весь опыт в сканировании сводился к скану нескольких фотографий, да нескольких страниц текста на случайных сканерах…;

3) удобство пользования — лишнего места на столе нет, да и свободные розетки на удлинителе сами не появляются;

4) надежность — чтобы не ломался.

Выбор модели также оказался делом случая. На работе был Mustek Be@rPaw 2448 Plus (со слайд модулем), а это кстати сказать CCD сканер. Для дома выбрал модель попроще — Mustek Be0rPaw 1200, а это опять таки CCD сканер (но тогда я об этом не задумывался). Продавец на фирме сказал, что у них есть за меньшие деньги новая модель с питанием от USB. Когда я спросил — "а в чем разница и почему дешевле?" — мне ответили: "так ведь экономия на блоке питания, а в остальном всё то же самое".

Но теперь то ясно, что Mustek Be@rPaw 120ОU Plus ЭТО УЖЕ CIS СКАНЕР!

И этот CIS-сканер меня долго устраивал! Для сканирования фотографий небольшое размытие (или сглаживание) только на пользу. FineReader с его сканами текста справлялся на ура. Плюс дополнительные пользовательские удобства: отсутствие блока питания, малый вес и габариты.



Пока не наступил на грабли — хотел задать на форуме вопрос о "подгоревшем" блоке стиральной машинки, положил плату на сканер — а результат совсем нечеткий:(

О сканировании книг повторяться не буду, всё видно на примерах из раздела "Смотри и сравнивай".

Еще один не очевидный недостаток CIS-сканера Mustek Be@rPaw 120ОCU Plus — нерабочие WIA-драйвера, при использовании которых уже на втором сканировании возникает сообщение, что сканер не подключен. При сканировании через TWAIN-драйвера все нормально.

Когда решил найти ему замену как нельзя более, кстати, прочитал статью monday2000 "Описание покупки сканера (январь 2007)".

Теперь вполне доволен CCD-сканером Epson Perfection 1270.


Расшифровка некоторых терминов для людей далеких от техники

Датчик (он же сенсор, он же рецептор) — устройство, непосредственно принимающее, преобразующее и передающее специальным приборам данные каких-нибудь измерений.

IMHO (In My Humble Opinion) — по моему скромному мнению.

OCR (Optical Character Recognition) — оптическое распознавание символов, автоматическое распознавание с помощью специальных программ графических изображений символов печатного текста и преобразование их в формат, пригодный для обработки текстовыми процессорами, редакторами текстов и т. д.

Загрузка...