Опыт изготовления электронных копий документов в Национальной библиотеке Беларуси: подходы к сканированию различных типов документов, технические требования к сканированию

Костюкевич Н.Г., Национальная библиотека Беларуси

Научно-техническая революция, начавшаяся в середине прошлого века, плавно переросла в революцию информационную. Всеобщая компьютеризация, создание локальных и глобальных вычислительных и информационных сетей породили совершенно новые требования к формам представления информации и организации доступа к ней. Для того, чтобы включить во всеобщее информационное киберпространство всю ту информацию, которую создало человечество в виде рукописных и печатных источников, необходимо её оцифровать, т. е. перевести в машиночитаемую форму. В связи с этим, в последние десятилетия институты, выполняющие функции аккумулирования таких документов (а это, в первую очередь, библиотеки, архивы и т. п. организации), начали активную деятельность по оцифровке своих фондов. Не стала исключением и Национальная библиотека Беларуси.

Создание электронных копий документов (в частности, путем сканирования) является процессом трудоёмким и затратным. Затраты складываются из первоначальной высокой стоимости специализированного профессионального оборудования (сканеры, компьютеры, серверы, вычислительные сети, дисковые накопители, программное обеспечение) и расходов на его обслуживание, оплаты труда квалифицированных специалистов, содержания соответствующим образом оборудованных помещений (лабораторий), амортизационных отчислений, налогов и т. д.

Снизить стоимость создания и хранения электронной копии возможно путем упрощения самой копии до пределов, соответствующих целям её предполагаемого применения.

Основными параметрами цифровой копии являются:

  1. Форматы графических файлов, содержащих образы страниц
  2. Разрешение сканирования
  3. Размерность
  4. Цветность

Используемыми в нашей практике форматами графических файлов для представления образов страниц являются TIFF и JPEG. Формат TIFF предполагает хранение образа отсканированной страницы в том виде, в котором он был получен сканером (т. е. без потерь, уменьшение размеров файла (сжатие) может быть достигнуто только алгоритмами, сходными с алгоритмами архивирования файлов без искажения самого образа). Формат JPEG, в общем случае, предполагает уменьшение размеров файла за счет упрощения самого образа.

Параметр РАЗРЕШЕНИЕ СКАНИРОВАНИЯ ограничивается оптическими возможностями устройства сканирования и определяет, из скольких дискретных (отдельно описываемых в результирующем графическом файле) элементов состоит единица ширины (разрешение по ширине) или высоты (разрешение по высоте) изображения при формировании графического файла (например, 300 ppi, т. е. 300 пикселов на дюйм). Мы, как правило, будем вести речь о графических файлах, горизонтальное и вертикальное разрешение которых совпадают.

Параметр РАЗМЕРНОСТЬ определяет, сколько дискретных элементов изображения (точек/пикселов) содержится по ширине и по высоте полученного скана (например, 1754×2480 px). Зависит от физических размеров оригинала и заданного РАЗРЕШЕНИЯ СКАНИРОВАНИЯ и определяется как их произведение.

Параметр ЦВЕТНОСТЬ определяет способ передачи цветовой составляющей документа. При сканировании возможно, как правило, использование трех моделей передачи цвета:

B&W (черно-белое изображение);

GRAY SCALE 8-bit (256 оттенков серого);

RGB 24-bit (полноцветное представление).

Предполагаемыми целями применения электронной копии являются:

  1. Резервирование, т. е. создание копии с целью восстановления оригинала в случае его порчи или износа, уничтожения.
  2. Использование копии при создании художественных тематических, презентационных, научных мультимедийных ресурсов.
  3. Использование копии в электронной библиотеке.

Первые два вида возможного применения электронной копии, безусловно, требуют создания копии в полной цветовой гамме и с высоким разрешением для максимально возможной передачи не только текста и графики издания, но и фактуры, степени износа и других характеристик материала (бумаги, папируса, ткани), из которого это издание изготовлено. Но…

  1. создание электронных копий с целью резервирования вызывает ряд сомнений: во-первых, не определен реальный срок хранения магнитных и оптических носителей, во-вторых, есть сомнения в том, что распечатанная с электронной копии старинная рукопись или фолиант являются «восстановлением» оригинала;
  2. использование копии при создании художественных мультимедийных ресурсов носит выборочный характер (1–5% от общего количества сканируемых документов) и, в принципе, не должно носить определяющий характер при выработке стандартов поточного производственного сканирования документов для создания электронной библиотеки.

Основные требования, которым, на мой взгляд, должна удовлетворять электронная копия документа, предназначенная для использования в составе электронной библиотеки, это:

  1. разумный размер файла электронной копии или её части для передачи по локальной/глобальной сети за приемлемое для пользователя время;
  2. достоверная и достаточно удобно читаемая передача текстовой информации оригинала;
  3. удовлетворительная передача графических цветных, в оттенках серого и черно-белых материалов оригинала;
  4. «распознанность», там, где это возможно и целесообразно (например, авторефераты диссертаций и диссертации), текстовой составляющей оригинала для возможности индексирования полного текста документа и последующего контекстного поиска нужной информации. Отчасти исходя из этих требований, основными форматами представления документов в электронных библиотеках выбраны PDF и DjVU, позволяющие, в отличие от основных графических форматов (JPEG и TIFF) объединять в одном файле графику и текст.

Таким образом, предстоит принять ряд непростых решений по выработке окончательных стандартов по сканированию документов. Решение видится в разбивке всего потока документов на те, которые подлежат сканированию в полноцветном режиме и с захватом обложки (редкие и раритетные), на те, которые подлежат сканированию в полноцветном режиме без захвата обложки (полноцветные оригиналы), на те, которые подлежат сканированию в оттенках серого (одноцветные издания, содержащие графику) и на те, которые подлежат сканированию в режиме Black&White (чисто текстовые издания), а ещё точнее придется комбинировать критерии сканирования в зависимости от содержания конкретных страниц конкретного издания.

Это приведет, безусловно, к некоторому замедлению процессов подготовки к сканированию, но должно заметно ускорить процедуру собственно сканирования, а также к более чем значительной экономии времени на дальнейшую обработку сканов и дисковой памяти для их хранения (для примера, файл скана разрешения 300 ppi формата А4 в несжатом формате TIFF в режимах черно-белого, серого и полноцветного представления имеет размеры, соответственно 1,21Mb, 9,48Mb и 28,4Mb, время сканирования в цвете в 1,4 — 1,5 раза превышает время сканирования в оттенках серого и черно-белом варианте).

Предлагаемые параметры сканирования для различных типов документов

В целом, предложения по сканированию документов выглядят примерно таким образом:

  1. ДОКУМЕНТЫ, ОРИГИНАЛОВ КОТОРЫХ НЕТ В НАЦИОНАЛЬНОЙ БИБЛИОТЕКЕ (т. е. мы либо заказываем копию у держателя оригинала, либо получаем оригинал на время для сканирования на своем оборудовании) следует сканировать/заказывать «по полной программе», т. е. с разрешением не ниже 300 ppi и в полноцветном режиме RGB (24-bit).
  2. ДОКУМЕНТЫ ОДНОЦВЕТНОЙ ПЕЧАТИ, НЕ СОДЕРЖАЩИЕ ГРАФИЧЕСКИХ ИЗОБРАЖЕНИЙ, ТРЕБУЮЩИХ ИХ ПЕРЕДАЧИ В ОТТЕНКАХ СЕРОГО (т. е. содержащие только текст, схемы, чертежи), сканируются с разрешением 300 ppi в режиме Black&White. (Это, например, авторефераты диссертаций и диссертации, памятные книги губерний Российской империи, отчеты акционерных обществ, попечительских советов, художественная неиллюстрированная литература и т. д.)
  3. ДОКУМЕНТЫ ОДНОЦВЕТНОЙ ПЕЧАТИ, СОДЕРЖАЩИЕ ГРАФИЧЕСКИЕ ИЗОБРАЖЕНИЯ (фотографии, картинки, диаграммы и т. п.), ТРЕБУЮЩИЕ ИХ ПЕРЕДАЧИ В ОТТЕНКАХ СЕРОГО сканируются в режиме GrayScale (8-bit или 256 градаций серого цвета) с разрешением 300 ppi. (Это, например, художественные альбомы одноцветной печати, периодические издания, содержащие большое количество фотоматериалов (пресса) и т. п.)
  4. ДОКУМЕНТЫ РАРИТЕТНЫЕ, РЕДКИЕ, ТЕ, ДЛЯ КОТОРЫХ СУЩЕСТВЕННА ПЕРЕДАЧА ФАКТУРЫ САМОГО ДОКУМЕНТА (содержащие автографы, водяные знаки и т. п.), ПОЛНОЦВЕТНЫЕ ДОКУМЕНТЫ сканируются в режиме RGB (24-bit) с разрешением 300 ppi. (это рукописи, инкунабулы. редкие книги, полноцветные издания всех типов.

Общие требования к технике и качеству сканирования

Сканирование документов для предоставления электронной копии отделу формирования электронной библиотеки Национальной библиотеки Беларуси должно осуществляться в полноцветном режиме RGB (24-bit) с оптическим разрешением не ниже 300 ppi, преимущественно в формате TIFF (без сжатия LZW, если предполагается последующее распознавание текстовой составляющей документа) в постраничном представлении со сквозной нумерацией файлов — образов страниц обрабатываемого документа (например, 0001.tif — 9999.tif).

В случае, если полноцветный режим не поддерживается имеющимся типом сканера или упрощение цветопрердачи несущественно для данного документа, а сам документ создан путем одноцветной печати, допускается сканирование документа в режиме 8-bit GrayScale (256 оттенков серого).

В случае, если формат TIFF не поддерживается имеющимся типом сканера (например, при создании копии методом электронной фотографии) или некоторое упрощение самого изображения несущественно для данного документа, а выигрыш в размере результирующих файлов имеет большое значение, допускается формирование образов страниц в формате JPEG c высоким качеством.

Результат сканирования должен быть аутентичен оригиналу, т. е. с максимально возможной полнотой передавать информацию оригинала, его цветовую гамму, не содержать линейных искажений (например, на краях изображения при изгибе страниц объемного оригинала), его текстовая составляющая должна быть выровнена по горизонтали.

Образы стандартных страниц, т. е. имеющих одинаковый для данного документа размер, также должны иметь стандартный размер по ширине и высоте. Встречающиеся в документах нестандартные страницы, содержащие картинки, планы, схемы, чертежи и т. д., расположенные на вклейках, разворотах и т. п., сканируются отдельно в соответствии с их физическими размерами и параметрами необходимой цветопередачи.

Документы сканируются полностью, включая лицевую и тыльную сторону обложки, титульный лист и оборот титульного листа, концевой титульный лист (колофон), оборотную сторону переплётной крышки, вклейки и оборотные стороны вклеек и т. д. Пустые страницы (вакаты) также подлежат сканированию, независимо от наличия или отсутствия на них номера и другой значащей информации. Ориентация изображений графических образов должна соответствовать оригиналу (книге).

При сканировании редких, раритетных и иных ценных изданий захватываются границы документа с запасом 1–3 мм.

В отдельных случаях (для изданий особо редких и ценных, содержащих элементы, различимые только в условиях значительного увеличения) сканирование осуществляется с разрешением 600 ppi. Также допускается выборочная оцифровка на комплексе высококачественного сканирования с оптическим разрешением 1200 ppi отдельных особо ценных картографических изданий, иллюстраций и авторских рисунков.

За рамками данного доклада остались такие важные темы, как последующая обработка отсканированоого материала, включающая как первичную обработку (дополнительную обрезку, выравнивание, устранение перекосов и т. п.), так и попытки «улучшить» отсканированный материал путем тонокоррекции, ретуши и других средств, входящими в состав графических редакторов, распознавание текста и сохранение изображения совместно с текстовой составляющей в форматах PDF или DjVU.
Не менее важными являются и технические решения, связанные с созданием архивов отсканированных документов (например, использование систем Enerprise Content Management (ECM) — систем управления контентом предприятия, позволяющих создать упорядоченный архив разнородных электронных документов, разграничить доступ к различным областям архива для определенных групп пользователей, осуществлять быстрый поиск и передачу информации по запросам.
Сам процесс производства электронных копий документов также требует определенной формализации и автоматизации. В Национальной библиотеке создан программный комплекс на базе MS Access 2003, позволяющий отслеживать прецессы прохождения электронной копии документа через все этапы обработки от сканирования до размещения в электронной библиотеке, фиксирующий при этом персональные объёмы выполненных работ на каждом этапе обработки.

Выводы

Как показала конференция, все участники процесса сохранения документального наследия интуитивно движутся примерно в одном направлении. Сканирование документов осуществляется, как правило, с разрешением в диапазоне от 300 до 600 ppi с глубиной передачи цвета в зависимсоти от типа сканируемого документа. В исключительных случаях (малый размер оригинала, наличие в нем мелких деталей, микротекста и т. п.) используется более высокое разрешение сканирования. Очень важный момент — практически всеми используется профессиональное оборудование. Это связано как с предопределенно лучшим качеством сканирования (автофокусировка в значительном диапазоне расстояния, большая глубина резкости, больший динамический диапазон, т. е. способность устройства воспроизводить тонкие тоновые изменения), с бережным отношением к сканируемым документам (наличие колыбелей и ложементов для оригиналов, мягкие характеристики светового излучения и температуры при сканировании), а также с надежностью и производительностью профессионального оборудования.

Требования, предъявляемые к качеству сканирования, также имеют общий характер, но вот оценка соответствия результатов сканирования этим требованиям, в подавляющем большинстве случаев, оценивается визуально, т. е. носит весьма субъективный характер.

В связи с важностью работ по сохранению документального наследия назрела необходимость разработки методических рекомендаций по их выполнению и оценке их качества, а в отдаленной перспективе — и межгосударственных стандартов на эти работы. Это потребует создания средств инструментального контроля сканирующего оборудования (тестовых таблиц, мишеней и т. п.) и программного обеспечения, осуществляющего анализ соответствия результатов их сканирования цифровым эталонам. Далее следует определить максимально возможные допустимые отклонения различных параметров результата от эталона, что и станет стандартом для объективной оценки качества сканирования бумажных документов.

Подпишитесь!

На рассылку полезных статьей об информатизации в архивах и получите программу "Календарь памятных дат" в подарок!