Создание электронных архивов предприятий

Алексей Рындин

Источник: www.stor-m.ru

Общая концепция построения электронного архива

Создание электронных архивов является в каждом случае уникальной задачей для каждого предприятия с одной стороны, но имеет общие закономерности, с другой стороны, позволяющие производить их поблочную реализацию и поэтапно получить законченное программно-аппаратное решение. При этом важно, что результатом каждого этапа также является законченное решение, готовое к использованию до проведения работ по следующим этапам. Структура любого электронного архива изображена на рисунке 1 и состоит из следующих подсистем:

Схема электронного архива предприятия

Проблема создания электронных архивов предприятий в настоящее время очень актуальна. Основная причина необходимости её решения состоит в наличии большого количества бумажной документации, постепенно приходящей в негодность, низкой эффективности ручной работы с документацией с одной стороны и наличием уже внедренных на предприятиях САПР, существовании необходимых программно-аппаратных средств для создания электронного архива, с другой стороны. Создание законченной системы документооборота конструкторской документации ведет прежде всего к повышению эффективности работы предприятия, и, как следствие к росту прибылей. Рассмотрим создание каждой из вышеперечисленных подсистем электронного архива.

Создание подсистемы сканирования

Создание подсистемы следует начать, прежде всего, с изучения «бумажного» архива предприятия. Как правило, архив любого предприятия состоит из десятков, тысяч и даже миллионов документов. Все документы имеют различные форматы, состояние, плотность и толщину бумаги. Частью документов могут быть «синьки», кальки. Часто встречаются документы на цветных и серых бумагах. Документы могут быть в виде отдельных листов и сброшюрованные в книги и альбомы. На любом предприятии обязательно найдется часть документации, сохранность и состояние которой оставляют желать лучшего — ветхие и выцветшие документы. Поэтому, правильно было быначать процесс создания электронного архива с определения объемов документации, которые необходимо «поместить» в электронный архив. При этом, для правильного подбора оборудования необходимо произвести тщательное изучение документов по следующим параметрам:

Конечно, невозможно произвести абсолютно точный подсчет, но следует помнить что, чем точнее будет проведено обследование архива, тем точнее будет подобрано оборудование, и эффективнее будет создаваться электронный архив.
Далее, необходимо определить сроки создания архива и интенсивность его пополнения новыми документами. Очень важно определить какие форматы файлов должны иметь электронные документы.

Наличие формализованной определенным образом информации позволяет определить наиболее подходящее оборудование. Так, для сканирования больших объемов узкоформатной (до формата А3) несшитой документации применяются поточные сканеры Fujitsu, Inotex Scamax, позволяющие сканировать со скоростью до 90 листов/минуту или до 180 страниц/минуту. Поточные сканеры имеют также режим ручной подачи. Так, например, при наличии в пачках сканируемой документации некоторого количества документов на бумаге низкой плотности, ветхих, которые сканер не может протягивать с указанными скоростями, оператору сканирования предоставляется возможность на время переключиться в режим ручной подачи для сканирования таких документов и обратно в режим автоматической подачи, не прерывая процесса сканирования пачки.

Получаемые форматы файлов: — *.tif — монохромный, Gray Scale одностраничный, двухстраничный, *.pdf. Особенностью данных сканеров и управляющего программного обеспечения является наличие множества дополнительных функций, например: двустороннее сканирование; аппаратные модули динамического контраста, позволяющие получить высококачественные изображения с неконтрастных, серых и цветных оригиналов, работа с баркодами, надпечатка на документах, получение изображений Gray Scale и другие. Для предприятий, планирующих менее интенсивные темпы создания архивов и меньшие объемы не сшитой узкоформатной документации форматов до А3, использование дорогостоящих сканеров Scamax не всегда целесообразно и экономически не оправдывается. В этом случае, возможно использование поточных сканеров компании Fujitsu, имеющих в зависимости от модели производительность 15 — 90 листов/минуту. Получаемый формат файлов *.tif монохром, Grayscale, цветной. Отличительной особенностью сканеров этого Fujitsu является одновременная возможность поточного и планшетного сканирования. При наличии небольшого процента документации, которая не может быть протянута механизмом поточного сканирования, отдельные ветхие листы и листына бумаге низкой плотности можно отсканировать на планшете сканера. Сканеры Fujitsu содержит дополнительные программные и аппаратные модули, ориентированные на выполнение различных операций. Особенно можно отметить модуль обработки изображений ICP, позволяющий резко поднять качество изображений полученных при сканировании неконтрастных, некачественных документов.

Для сканирования сшитой узкоформатной (до формата А3) документации формата до А3 могут применяться бесконтактные книжные сканеры Bookeye, Minolta и Zeutschel. Особенностями данных сканеров является отсутствие механического контакта со сканируемыми материалами. Сканирующая камера расположена над столом на котором располагаются сшитые документы. Время сканирования разворота 3–5 секунд. Получаемый формат файла — *.tif монохромный и Gray scale. Сканер и программное обеспечение управления имеют опции, необходимые для работы со сшитыми документами — корректировку изгиба страниц и ряд дополнительных функций, позволяющих наиболее удобно поставить технологию сканирования, например, работа с баркодами. При наличии толстых книг и пачек сшитой документации целесообразно применять специальные дополнительные подставки. Оператор перелистывает страницы вручную. Запуск процесса сканирования может осуществляться при помощи педали, пульта управления сканером или прямо из ПО. Данные сканеры могут успешно применяться и для сканирования отдельных узкоформатных листов, имеющих ветхое состояние. Если на предприятии отсутствует необходимость сканирования узкоформатной сброшюированной документации, но имеются небольшие объемы ветхих узкоформатных документов, то использование бесконтактных сканеров в этом случае нецелесообразно. Для этих целей вполне подходит простой планшетный сканер или планшет поточного сканера Fujitsu.

Для сканирования широкоформатной документации могут применяться широкоформатные сканеры компаний Contex Scanning Technologies и Vidar Systems Sorporation. Эти сканеры предназначены для перевода в электронный вид документации широких форматов (свыше А3 до А0) без ограничения по длине сканируемого листа. В сканерах аппаратно реализованы алгоритмы цифровой обработки изображений. Например, на сканерах Contex оператор управляет лишь выбором алгоритмов или их параметрами, но сам процесс обработки результата сканирования «зашит» в устройство и происходит в режиме реального времени. Среди основных алгоритмов, используемых для получения наилучших результатов, — механизм независимого улучшения деталей переднего плана и фона (Dual 2D-Adaptive Enhancement), выделение полутонов для качественного копирования (ADL + Error Diffusion Halftoning), динамическое выставление порога сканирования (2D-Adaptive Thresholding), фильтры повышения резкости (2D-Sharpening), сглаживания (2D-Softening) и размытия (2D-Blur) полутонового и цветного изображений, выделение деталей изображения по цветовым признакам (Color Feature Extraction), приведение цветовой палитры к заданным цветам (8 бит). Для разных типов оригинальных изображений используются различные наборы алгоритмов. Таким образом, оператор получает в руки мощный механизм обработки, и зачастую качество отсканированного изображения превосходит качество оригинала — например, при сканировании «синек» или выцветших оригиналов. Сканеры модельного ряда Vidar и Contex имеют прямой тракт протяжки с равномерно расположенными роликами, что позволяет успешно сканировать ветхую документацию и кальки. Оба модельных ряда имеют возможность монохромного, Gray scale и цветного сканирования. Конкретные модели отличаются также и по производительности.

При построении подсистемы сканирования электронного архива перспективным является сканирующее оборудование репрографических комплексов OSE TDS400, TDS600, TDS800, имеющее высокую производительность и качество. В состав комплекса входит сканер, плоттер и контроллер, являющийся связующим звеном между ними. Поддерживаемые форматы файлов: HP-GL, HP-GL2, Calcomp, Tiff и Cals, используемые в большинстве CAD- и EDMS-систем. Опционально предусмотрена поддержка Adobe PostScript 3, включающая прямую печать PDF-форматов. PDF- наиболее распространенный формат для большинства офисных приложений, все чаще применяемый для обмена данными в Internet и архивного хранения. Кроме того, TDS400 поддерживает форматы ASCII. Скорость сканирования TDS400 — 3 метра/мин, TDS600 — 5 метров/минуту, TDS800 -10 метров/минуту. Сканеры предназначены для сканирования большеформатной документации формат — до А0. Длина оригиналов может достигать 15 метров и определяется автоматически. К сожалению, в рамках одной статьи невозможно привести подробное описание всей техники Вы можете получить его в офисе Consistent Software, на сайте www.csoft.spb.ru, www.oce.ru или связавшись по телефону +7 (812) 430–3434 +7 (812) 430–3434.

Подобрать то или иное оборудование, как отмечалось выше, можно лишь после обследования «бумажного"архива предприятия и требований, выдвигаемых к электронному архиву. Обязательной для создания подсистемы сканирования является разработка непосредственно самой технологии сканирования, уникальной, как правило, в каждом отдельном случае и соответствующего подобранной технологии программного обеспечения обработки сканированных изображений. При подборе оборудования часто возникают ошибки, связанные с тем, что не учитывается технология проведения работ. Так, например поточный сканер A3 формата Scamax 2600 имеет производительность 90 листов в минуту. Но это совсем не означает, что за 8 часов работы будет отсканировано 8×60×90 = 43200 документов. На самом деле, производительность данной модели в среднем 10000–20000 отсканированных документов в день. Точная цифра зависит от качества документов, технологии работ. При наличии изображений низкого качества на бумажных документах, приходится включать дополнительные опции автоматической обработки изображений в программном обеспечении управления сканером, которые замедляют процесс сканирования. Если при поточном сканировании в пачках встречаются документы на бумаге низкого качества, то оператор сканирования будет вынужден периодически переходить из режима автоподачи в режим ручной подачи, что в свою очередь, замедляет производительность сканера. Разработка технологии проведения работ по сканированию является серьезной задачей и требует определенного опыта и знания всех, в том числе и дополнительных возможностей оборудования и ПО (работа с баркодами, корректирующие опции ПО, дополнительные блоки и аппаратные модули). Велика вероятность того, что Вам потребуется дополнительная обработка файлов, например устранение перекосов, «вырезание» изображений по формату, пакетное удаление повторяющихся и ненужных частей изображений (например, изображений перфорации на спецификациях). Необходимость дополнительных операций по обработке имеет следующие причины:

Эти причины могут привести к тому, что часть изображений не будет иметь удовлетворительного качества. Часть из перечисленных недостатков может устраняться прямо в процессе сканирования при помощи стандартных аппаратных или программных опций. Как правило, сканирующее оборудование и программное обеспечение имеет ряд дополнительных аппаратных и программных блоков, приобретаемых отдельно, которые помогут справиться с имеющейся проблемой. Не стоит скрывать того, что некоторые из перечисленных выше недостатков изображений невозможно устранить в процессе сканирования при помощи дополнительных аппаратных блоков и опцийпрограммного обеспечения. В этом случае необходима дополнительная обработка изображений. Правильно было бы стремиться максимально исключить «ручную» обработку и использовать дополнительное программное обеспечение пакетной обработки, которое автоматически устраняет недостатки полученных изображений. Всегда стоит помнить о том, что в архиве предприятия найдется часть документов, электронные копии которых возможно отредактировать лишь «вручную». Пакетная обработка не приемлема для файлов, недостатки изображений в которых не имеют каких-либо закономерностей и не встречаются в других файлах. В этих случаях, как правило, предусматривается использование дополнительного программного обеспечения. Исходя из вышеизложенного, при разработке подсистемы сканирования электронного архива предусматривается использование дополнительных программных пакетов, например SPOTLIGHT PRO V4 производства компании Consistent Software, выполняющего функции обработки растров, дигитайзирования, трассировки, векторизации, гибридной обработки. Специалисты компании Consistent Software помогут Вам произвести исследование «бумажного» архива, правильно подобрать необходимое оборудование, программное обеспечение и разработать технологию работы подсистемы сканирования электронного архива. Смоделировать процессы работы подсистемы сканирования по разработанной технологии Вы сможете прямо в нашем офисе на работающем оборудовании.

Создание системы хранения

Следующим этапом создания электронного архива является разработка системы хранения в составе устройств оперативного накопления и подсистемы долговременного хранения. Современные информационные технологии и аппаратное обеспечение без особых проблем и затрат позволяют создать оперативный электронный архив. Устройством оперативного накопления может являться жесткий диск или Raid — массив, объем которого определяется общей технологией создания архива. При расчете объема учитывается общий объем информации, подлежащий оперативному накоплению до записи в устройство долговременного хранения и оперативному использованию (на основе производительности блока сканирования и задач предприятия).

Более сложной является разработка подсистемы долгосрочного хранения. Это связано с большими и сверхбольшими объемами электронной информации, полученной при переводе «бумажного» архива предприятия в электронный вид. В качестве устройств долговременного хранения могут быть использованы роботизированные CD-DVD библиотеки под управлением специализированного программного обеспечения. Система долгосрочного хранения является одной из важнейших во всей структуре электронного архива и выполняет следующие задачи:

  1. Организация хранения больших и сверхбольших объемов информации;
  2. Организация доступа к большим и сверхбольшим объемам информации;
  3. Организация пополнения хранящейся информации по мере её накопления на предприятии.

Кроме требований, вытекающих из вышеперечисленных задач, к модулю долгосрочного хранения выдвигаются следующие:

  1. Надежность хранения информации (физическая, техническая надежность и возможность разграничения по правам доступа);
  2. Совместимость с системами автоматизации предприятия, обеспечение возможности обращения к информации не только в «файл-серверном» режиме, как к открытому для тех или иных пользователей сетевому ресурсу, но и из программных надстроек (СУБД, систем автоматизации и т. д.);
  3. Возможность расширения объемов хранения;
  4. Возможность увеличения производительности при увеличении числа пользователей;
  5. Наращиваемость системы;
  6. Возможность дальнейшего развития решения при дальнейшем развитии информационных технологий при исключении больших финансовых затрат.

Одним из решений по созданию системы долгосрочного хранения могут являться роботизированные библиотеки компании NSM AG. Роботизированная CD-DVD библиотека под управлением специализированного программного обеспечения является высокотехнологичным накопителем информации. Носителями информации являются CD и DVD диски, являющиеся в настоящее время самым надежным и развивающимся носителем, позволяющим иметь удельную стоимость хранения единичного объема на порядок ниже по отношению к HDD и Raid — массивам. Кроме того, применяемые носители менее критичны к условиям эксплуатации (магнитные поля, температура и т. д.), не требуют перемагничивания и прочих процедур, необходимых при обслуживании жестких дисков. Время хранения информации ~ 75 лет (по оценкам разных экспертов — от 50 до 100). Все носители размещены в одном корпусе и при помощи специализированного программного обеспечения объединены в один локальный или сетевой ресурс сверхбольшого объема, администрируемый по правам пользователей и позволяющий обращаться к нему как в «файл-серверном» режиме, так и через вышестоящее программную надстройку (СУБД, систему автоматизации и т. д.). При обращении к тому или иному файлу, робот, размещенный внутри корпуса извлекает носитель и вставляет его в привод, далее, через SCSI — интерфейс, осуществляется его передача на управляющий PC и при помощи ПО, файл отдается в сеть.

Роботизированные библиотеки позволяют:

  1. Разместить в одном корпусе ~ от 120 до 600 CD-DVD носителей; В зависимости от модели, число дисков может быть ~ 135, 300, 400 или 600. Каждый диск размещается в отдельном слоте внутри корпуса библиотеки. Особенностями накопителей предлагаемого модельного ряда в организации размещения носителей являются:
    o использование технологии «No Tuch», заключающейся в том, что каждый носитель хранится в отдельном пластиковом конверте, исключающем механическое прикосновение к диску и, как следствие, не допускаются повреждения, влияющие на работоспособность системы;
    o возможность подключения дисков через mail-slot (по одному отдельно хранимому диску) или при помощи дополнительных магазинов. Каждый дополнительный магазин содержит по пятнадцать дисков, необходимость постоянной работы с которыми отсутствует. Магазины могут храниться отдельно (вне корпуса библиотеки и подключаться при необходимости). Важной особенностью подключения магазинов является отсутствие необходимости выключать или перезагружать систему.
  2. Представить весь массив носителей в виде локального или сетевого ресурса (проще говоря, в виде одного диска размером до ~ 3 терабайт;
  3. Организовать доступ к хранимой информации, как к сетевому ресурсу;
  4. Организовать запись на CD и DVD — носители при увеличении объемов информации (пополнении архива);
  5. Повышать производительность системы (модульность устройств позволяет наращивать число приводов). Так, например, Вы можете установить базовый модуль NSM6000 на 620 слото-мест с одним приводом. При наполнении архива и увеличении интенсивности доступа к нему, число приводов может быть увеличено до 14;
  6. Переходить на новые, постоянно развивающиеся технологии (Например, сейчас наивысшим стандартом, поддерживающим все ранее разрабатываемые является DVD — 4.7 GB. Это означает, что привода указанного стандарта читают CD, DVD — 2.6, DVD-4.7). При появлении новых стандартов, библиотека не «устаревает». Необходимо лишь установить новый привод;
  7. Увеличивать объемы хранимой информации. Так, например при установке пишущих DVD приводов, возможна перезапись с существующих CD носителей на DVD, что позволит при использовании той же модели, при том же числе слото-мест значительно повысить «емкость» хранилища.

Задача создания подсистемы долгосрочного хранения подразумевает высокую надежность системы и большое время наработки на отказ.

Задача обеспечения надежности решается:

— Техническими параметрами устройств. Роботизированные библиотеки имеют следующие параметры, определяющие техническую надежность устройств:

— Организационно-техническими мероприятиями, обеспечиваемыми Предприятием и Поставщиком:

— Использованием метода резервирования;

— Использованием устройств бесперебойного питания и т. д.

Необходимый объем системы долговременного хранения рассчитывается, исходя из объемов электронных документов. Необходимая производительность (число и типы приводов) рассчитываются исходя из планируемого числа пользователей.
При создании системы долговременного хранения важно не только правильно рассчитать аппаратную часть, но и правильно подобрать ПО управления библиотекой.

Основные задачи и функции ПО:

  1. Создание ресурса на уровне файловой системы. Говоря проще, все хранилище представляется в виде одного логического диска размером до 3 Gb доступ к которому определяется средствами администрирования OSOS Winnt-4.0 Server, Winnt-4.0 W-s, W-2000, Unix, как к файл-серверу;
  2. Создание томов, структурирование информации, расположенной на разных носителях;
  3. Административные функции;
  4. Диагностические функции;
  5. Обеспечение совместимости с вышестоящим программным обеспечением-надстройкой (системой автоматизации, СУБД). В этом случае, индексная часть СУБД хранится на сервере СУБД, а отдельные поля СУБД, системы автоматизации содержат ссылки на объекты, хранящиеся на сетевом ресурсе, являющимся хранилищем;
  6. Кэширование информации. На HDD PC управления создается кэш, объем которого произвольно устанавливается с использованием соответствующей опции программным обеспечением управления. Размеры кэша определяются исходя из конкретных задач. Кэширование информации позволяет значительно повысить скорость доступа к архиву и делают практически незаметным наличие механики, инерционности приводов для файлов, обращения к которым наиболее часты.

Существует программное обеспечение управления под различные OS, поддерживающее различные функции, работающее с разными типами носителей и универсальное. Для правильного подбора программного обеспечения необходимо, прежде всего разработать технологию обращения и пополнения архива долговременного хранения и выбрать версию программного обеспечения наиболее соответствующую не только объему хранилища и типу носителей, но и всем необходимым звеньям технологической цепочки записи и доступа.

Создание подсистемы выпуска и тиражирования конструкторской документации

Ценность любого электронного архива определяется не только возможностью надежного хранения информации, но и возможностью извлечь необходимый документ и тиражировать его. При создании подсистемы тиражирования, как и при создании каждой подсистемы электронного архива, прежде всего, изучаются конкретные задачи на предприятии. Необходимо уточнение задач по следующим пунктам:

Наиболее перспективными и производительными устройствами для использования в подсистеме тиражирования для печати широкоформатных документов являются LED — плоттеры Oce. Эти устройства могут работать как отдельно, так и в составе рептографического комплекса (совместно со сканером под управлением контроллера, объединяющего сканер и плоттер). О сканирующей части рептографических комплексов писалось выше (при рассмотрении подсистемы сканирования). Наиболее перспективными и производительными моделями являются TDS400, TDS600 и TDS800, имеющие производительность печати 3 м/мин (2А0/мин), 5 м/мин (4A0/мин) и 13 м/мин (10А0/мин) соответственно. Разрешение при печати: 600 dpi (TDS400) и 400 dpi (TDS600, TDS800). Все модели имеют автоподачу бумаги. Максимальная длина печати TDS400 — 15 м, ТDS600 — 615 м, TDS800 — 200 м. Модели TDS400 и TDS600 имеют практически мгновенную готовность к работе.

Если объемы документации, планируемой к тиражированию, относительно невелики и отсутствуют перспективы резкого их увеличения, возможно использование устройств модельного ряда Mutoh, Encad, HP, Canon. При выборе конкретной модели учитываются задачи по тиражированию и перспективы их изменения. Учитывать эти перспективы необходимо в связи с тем, что приобретения какого-либо дополнительного оборудования для новых задач тиражирования можно избежать, если приобретенное вами ранее оборудование способно получить новые функциональные возможности при использовании дополнительных программных или аппаратных модулей. В рамки статьи не входит подробное описание технических характеристик устройств. Более подробно, Вы сможете ознакомиться с ними на сайте www.csoft.spb.ru, www.esg.spb.ru или в офисе Consistent Software.

Для тиражирования узкоформатной документации (форматов до А3) имеется множество устройств различных производителей, имеющих разные характеристики. Наиболее интересным на наш взгляд являются полноцветные принтеры HP DesignJet ColorPro CAD/GA. Эти модели предназначены для пользователей в области машиностроения, САПР, схемотехники, архитектуры, ГИС, дизайн и принтбюро (модель GA). HP DesignJet ColorPro CAD/GA предоставляют пользователям возможность печатать документы от почтовых карточек (10×15 см.) до полноформатных А3/В (33×48 см.). HP DesignJet ColorPro CAD/GA идеальны для чертежей, инженерной документации, иллюстраций, проспектов, презентаций и контрольных отпечатков. Разрешение 600×600 dpi, что обеспечивает качественную печать черно-белых и цветных материалов. Скорость печати листа А3: ч/б — 15 секунд, цветной — 1,5 — 2 минуты. Модель GA имеет сетевой интерфейс и язык PostScript. Модель CAD может иметь эти функции, как дополнительные опции.

Продолжение

Подпишитесь!

На рассылку полезных статьей об информатизации в архивах и получите программу "Календарь памятных дат" в подарок!