Обеспечение сохранности электронных документов

Продолжение

Если проблемы физической сохранности файлов в настоящее время решаются довольно успешно, то другие аспекты долговременного хранения электронных документов ждут своего методологического обоснования и технологического прорыва. Возникающие проблемы связаны с быстрой сменой и устареванием аппаратного и программного компьютерного обеспечения. Со временем устройства, с помощью которых информация считывается с внешних носителей, изнашиваются и морально устаревают. Так, например, исчезли 5-дюймовые магнитные дискеты, а вслед за ними компьютеры перестали оснащать дисководами и драйверами для их считывания. В ближайшее время подобная судьба ожидает 3-дюймовые дискеты: многие современные модели ПК уже выпускают без дисководов к ним. Устройства для считывания информации с оптических дисков скорее всего также со временем изменятся.

Приблизительный жизненный цикл подобных технологий — 10–15 лет, после чего следует их быстрое вытеснение из производства. Такие технологические изменения нужно учитывать при организации долговременного хранения электронных документов. Желательно каждые 10–15 лет копировать документы на новейшие типы электронных носителей. Так что вопрос: сохранят ли свои качества магнитные ленты или оптические диски после 50 лет хранения, теряет остроту. Архивам достаточно гарантий производителей на ближайшие 15–20 лет.

Воспроизведение электронных документов зависит в первую очередь от применяемого программного обеспечения: операционной системы, системы управления базами данных (СУБД), текстовых редакторов и процессоров (Word, Pad), графических (ACDSee) и web-браузеров (Internet Explorer, Opera), специализированных проектных (AutoCAD, ArchInfo) и гео- приложений (MapInfo), программ, специально разработанных для работы с конкретными базами данных. Для основной массы делопроизводственных и финансовых электронных документов с небольшими сроками хранения зависимость от смены программного обеспечения не существенна: жизненный цикл программного обеспечения оценивается в 5–7 лет. К тому же, многие современные электронные делопроизводственные системы и системы электронного архива организации (например, на базе таких широко известных систем управления документооборотом как DOCUMENTUM или DocsOpen) снабжаются необходимыми конверторами форматов. В кратковременной перспективе для доступа и воспроизведения большинства текстовых, графических и видео- документов (но не баз данных или сложных конструкторских систем и мультимедиа) использование таких конверторов самодостаточно.
При организации долговременного хранения электронных документов смена программной платформы может привести к полной утрате документа из-за невозможности их просмотреть. Существует несколько решений данной проблемы:

1. Миграция — своевременный перевод баз данных и других электронных документов на современную технологическую платформу, чаще всего в форматы, которые используются в организации для оперативного управления информационными ресурсами (т.н. «пользовательские форматы»). Это сложный и дорогой путь. Как правило, простых конверторов здесь не достаточно. Наибольшие проблемы возникают с базами данных. Обычно к миграции прибегают для обеспечения доступа к оперативным и архивным информационным ресурсам, которые имеют важное значение для деятельности организации и постоянно используются в работе. В государственных архивах этот путь рационально использовать для организации оперативного доступа к наиболее важным или часто используемым архивным электронным ресурсам.

2. При организации долговременного хранения баз данных и других электронных документов желательна их предварительная миграция в «открытые» или «архивные» (страховые) форматы. Для текстовых документов это — txt, rtf, pdf; для графических — tiff, jpg; для таблиц и баз данных — txt, xls, db, dbf. Цель такой подготовки к архивному хранению заключается в том, что в случае необходимости из страховых форматов проще конвертировать документы в форматы текущих информационных систем.

3. Иногда миграция информационных ресурсов на другие платформы по какой-то причине представляется нереальной или может существенно исказить оригиналы электронных документов. Это, в первую очередь, относится к сложноструктурным и многоформатным ресурсам: документам из систем автоматизации проектных работ (САПР) и геоинформационных систем, мультимедиа-продуктам и т. п. В таких ситуациях можно использовать эмуляторы программной среды, что, впрочем, бывает непросто сделать, так как они могут быть разработаны не для всех программных оболочек[8]. Именно поэтому при разработке информационных систем следует изначально ориентироваться не только на распространенные форматы хранения, но и на распространенные операционные системы, СУБД и другое программное обеспечение. В этом случае может быть проще найти необходимые эмуляторы, которые могут разрабатываться и поставляться на рынок самими производителями программного обеспечения. Например, операционные системы MS Windows’95, 98, NT, 2000, XP поддерживают эмулятор операционной системы MS DOS. Так как это широко распространенные операционные системы, есть надежда, что корпорация Microsoft и в дальнейшем будет поддерживать эмуляторы своих старых ОС.

4. Инкапсуляция — включение электронных документов в состав файлов межплатформенных форматов, например в XML. В настоящее время американские архивисты рассматривают этот способ как наиболее оптимальный для обмена и долговременного хранения электронных документов[9], хотя вряд ли его можно считать панацеей от всех проблем.

Следует отметить, что исследования, связанные с применением эмуляции и инкапсуляции при долговременном хранении электронных документов, носят пока единичный характер. Даже если вскоре и будут предложены некоторые методики, потребуется немало времени для их апробации. Поэтому единственным проверенным способом долговременного хранения электронных документов пока остается миграция.

С методами обеспечения сохранности электронных документов тесно связана еще одна проблема — обеспечение их целостности и аутентичности.

До сих пор главным средством аутентификации электронной документации служат протоколы аудита сетевых ресурсов. С их помощью можно проследить историю документов и выявить случаи несанкционированного доступа к ним. Однако слабым местом такой системы аутентификации являются сами протоколы, находящиеся в практически бесконтрольной власти сетевых администраторов. Другая проблема — обеспечение аутентичности в межсетевом (межкорпоративном) пространстве. Без четких представлений о происхождении электронных документов и твердых гарантий их целостности суды отказываются признать за ними доказательную силу и принимать в качестве письменных свидетельств. Обмен электронными документами осуществляется на доверительной основе (например, электронная почта) и их достоверность гарантируется лишь авторитетом владельца информационного ресурса или электронного адреса. В свое время именно нерешенность вопросов аутентичности и целостности электронных документов помешала реализации идей «безбумажного офиса».

С середины 1990-х гг. наметился заметный прогресс в аутентификации электронных данных, в технологическом и правовом отношениях. Все большее распространение получают электронные средства защиты целостности данных и их идентификации с определенным физическим лицом — так называемые цифровые (электронные, электронно-цифровые) подписи и печати, электронные «водяные знаки», контрольные суммы файлов и т. п.

Все множество цифровых подписей условно можно свести к двум классам: 1) с использованием биометрических параметров человека — отпечатков пальцев, тембра голоса, радужной оболочки глаз и т. п.; 2) с применением методов криптографии. Последний класс получил название — «электронная цифровая подпись» (ЭЦП). Именно ЭЦП считается наиболее надежным средством аутентификации в межкорпоративном электронном пространстве.

В правовом отношении ЭЦП долгое время находила применение лишь в частноправовой сфере. Для ее применения необходимо было заключение двусторонних или многосторонних договоров (на бумаге), в которых определялись все нюансы генерации, верификации, хранения ЭЦП и ответственность сторон. Рубеж веков стал периодом массового правового признания электронных средств аутентификации в открытых информационных сетях. Законы об ЭЦП или электронном документе были приняты в большинстве развитых и многих развивающихся странах.

Правовое признание ЭЦП превращает этот реквизит в надежное средство, обеспечивающее аутентичность и целостность электронных документов, однако, только тех, которые находятся в оперативном использовании, со сроком хранения пять, максимум 10 лет. Для аутентификации документов на протяжении десятков лет ЭЦП не годится. Чтобы понять, почему это происходит, нужно несколько слов сказать о том, что собой представляют технологии криптографической аутентификации и защиты информации, определяемые законодательством как «аналог собственноручной подписи».

Российский закон об ЭЦП помогает раскрыть сущность этой технологии. В нем ЭЦП определяется как «реквизит электронного документа, предназначенный для защиты данного электронного документа от подделки, полученный в результате криптографического преобразования информации с использованием закрытого ключа электронной цифровой подписи и позволяющий идентифицировать владельца сертификата ключа подписи, а также установить отсутствие искажения информации в электронном документе» (ст. 3).

ЭЦП выглядит как последовательность цифр и других символов, что собственно и позволяет говорить о ней как о реквизите, обособленном от других реквизитов электронного документа. Технологически ЭЦП возникает в результате выполнения системой криптозащиты так называемого асимметричного алгоритма шифрования, т. е. шифрования с использованием ключа (опять же последовательность цифр), который отличается от ключа, применяемого потом для расшифрования сообщений. Первый ключ называется закрытым (тайным, личным) ключом. Им может владеть только тот человек, от лица которого документ подписывается. Второй ключ — открытый ключ, значение которого может узнать любой, кому необходимо удостовериться в подлинности ЭЦП. Эта пара ключей взаимосвязана, но при этом закрытый ключ не может быть за обозримое время вычислен, исходя из значения открытого ключа. Таким образом, использование открытого ключа при аутентификации надежно связывает подписанный документ с обладателем закрытого ключа.

В то же время особенностью ЭЦП, которое отличает ее от собственноручной подписи человека, является то, что идентифицирует она не столько лицо, подписавшее электронный документ, сколько конкретный документ: два разных документа, подписанные с использованием одного и того же закрытого ключа, будут иметь разные числовые выражения ЭЦП. Связано это с тем, что кроме закрытого ключа в алгоритм вычисления ЭЦП включены и другие параметры, в первую очередь, так называемый хэш-код файла/ов с электронным документом.

Алгоритмы хэширования информации реализуются с помощью хэш-функций, которые в криптографии относятся к разряду однонаправленных, т. е. таких, которые достаточно легко высчитать, но очень непросто обратить. При использовании качественной хэш-функции вероятность получения одного и того же хэш-кода для двух различных файлов ничтожно мала. Именно хэш-код электронного документа гарантирует его целостность-то, что после подписания документа можно будет легко установить, вносились ли в него изменения или нет. Удобство хэш-функций при вычислении ЭЦП заключается также в том, что они преобразовывают цифровые последовательности (файлы) разнообразной длины в последовательности (хэш-коды) фиксированной длины в 56, 64 и т. п. бит информации. Этим самым экономятся вычислительные ресурсы пользовательских компьютеров.

Идею асимметричного шифрования выдвинули в 1976 г. американские криптографы У. Диффи и М. Хеллман. Тогда же появился RSA, широко используемый и в настоящее время алгоритм шифрования с открытым ключом. В нашей стране в 1994 г. были изданы ГОСТ 34.10 на генерацию и верификацию ЭЦП и ГОСТ 34.11 на хэширование информации. Большинство существующих на российском рынке средств ЭЦП основаны именно на этих стандартах. С 1 июля 2002 г. вступил в действие новый ГОСТ 34.10–2001, который в два раза увеличил длину ключа подписи (до 1024 бита).

Существуют разные технологии приложения ЭЦП к электронному документу. Одни из них дописывают хэш-код, подпись и другие, связанные с ними реквизиты (например, отметку о времени подписания), непосредственно в файл с документом. Другие размещают эту информацию в связанных с документом файлах. Во многом именно по этой причине ЭЦП, сгенерированную в одной системе криптозащиты, невозможно проверить в другой системе, даже если они основаны на одних и тех же алгоритмах шифрования. Кроме этого российские средства ЭЦП — «Верба», «Криптон», «Крипто-Про», «Корвет», «ЛАН Крипто» — часто реализуют различные протоколы (правила) аутентификации, что также не способствует их совместимости. Таким образом, подлинность подписи лучше проверять тем же средством ЭЦП, с помощью которого она была сгенерирована. Справедливости ради, стоит добавить, что начиная с 2003 г. производители отечественных средств ЭЦП приступили к выработке общего стандарта правил аутентификации для создания условий кросс-сертификации своих продуктов. Однако до сих пор приемлемое для всех решение не появилось.

Следует также отметить, что подтверждение подлинности ЭЦП — процесс технологически кратковременный. Он зависит от жизненного цикла средства ЭЦП — конкретной системы криптографической защиты данных. В частности, аутентификация электронного документа становится невозможной после смены технологической платформы или бесполезной после утраты юридической силы сертификата средства ЭЦП. Это значит, что под вопросом оказывается подлинность документов, подписанных ранее.

Немаловажен и вопрос о стойкости ЭЦП, которая в первую очередь зависит от длины открытого ключа подписи. В середине 1970-х гг. считалось, что для разложения на множители числа из 125 цифр потребуются десятки квадрильоны лет. Однако всего через два десятилетия с помощью нескольких тысяч компьютеров, соединенных через Интернет, удалось разложить число из 129 цифр[10]. Это стало возможным благодаря как новым методам разложения больших чисел, так и возросшей производительности компьютеров и объединения их в глобальные вычислительные сети. В настоящее время при расчете стойкости алгоритмов генерации и верификации ЭЦП во внимание принимается срок ответственности по основным банковским операциям. А он не превышает пяти лет. Например, первый ГОСТ Р 34.10–94 использовал 512-битный алгоритм шифрования. ГОСТ Р 34.10–2001 использует уже 1024-битный алгоритм. По мнению экспертов, данный ГОСТ сможет сохранить устойчивость к вскрытию лишь в ближайшие 5–6 лет. То есть через 10–15 лет никто не гарантирует, что ЭЦП, сгенерированная с использованием этого ГОСТа, не была фальсифицирована неделю назад.

Но главная проблема при аутентификации электронных документов, подписанных ЭЦП, состоит в том, что этот реквизит (как и значение отдельного хэш-кода или контрольной суммы, гарантирующих целостность документа) неразрывно связан с форматом документа. При переформатировании электронного документа (что неизбежно при долговременном хранении) проверка подлинности ЭЦП становится бессмысленной.

Наиболее приемлемым методом обеспечения аутентичности электронных документов при долговременном хранении (особенно заверенных ЭЦП) можно было бы считать применение эмуляторов или конверторов при их воспроизведении. Но подобная практика пока мало изучена. Проблемы здесь видятся как в ограниченном наборе этих программных средств, так и в возможных ошибках воспроизведения документов, которые могут возникать при эмуляции или конвертировании, что опять-таки негативно сказывается на доказательной силе электронных документов при долговременном хранении. Инкапсуляция вероятно самый перспективный способ. Именно способ решения проблемы аутентичности электронных документов видят в нем американские архивисты. Но он требует долговременной апробации и дальнейшего развития.

Необходимость переформатирования электронных документов при долговременном хранении приводит к тому, что, по существу, появляется другой документ с измененными реквизитами и контрольными характеристиками: датой последнего сохранения, объемом, контрольной суммой, хэш-кодом, ЭЦП и т. п. Получается, что подлинник электронного документа будет не возможно прочитать и использовать, а его миграционная копия не будет иметь юридической силы.

Отмеченная проблема — обеспечение аутентичности электронных документов в долговременной перспективе — на сегодняшний день, пожалуй, самая острая и сложная. Четких рекомендаций как ее решить нет пока ни в нашей стране, ни за рубежом. Пока что выход видится в одном: не стоит на этапе делопроизводства создавать, а затем хранить исключительно в электронном виде документы, предполагающие длительный срок хранения и серьезную ответственность сторон. Желательно одновременно создавать и хранить этот официальный документ также на бумажном носителе.

Таким образом, применение только лишь технологических средств для удостоверения аутентичности и целостности электронных документов (в том числе находящихся на хранении в архиве) пока недостаточно. Они эффективно работают только на этапе оперативного использования документа или до момента перехода на новую аппаратно-программную платформу. Гораздо более эффективным оказывается сочетание технологических средств с организационными, а именно как можно более раннее включение электронных документов в документальные взаимосвязи в делопроизводстве и архиве, а также его привязка к определенному электронному носителю.

В условиях нерешенности технологических проблем аутентификации электронной информации, на первое место выходит «старый дедовский метод»: удостоверение подлинности электронных документов при передаче их на внешних носителях в архив с помощью документов на бумаге, оформленных в соответствии с требованиями ГОСТ 6.10.4–84 и ГОСТ 28388–89. Указанные госты технологически и концептуально давно устарели, многие их положения на практике просто не выполнимы[11]. Однако они по-прежнему действуют и включают в себя рациональное ядро, которое можно использовать при разработке формы удостоверяющего документа. Подобный документ (удостоверяющий лист, сопроводительное письмо, акт приема-передачи документов или т. п.) должен включать идентификационные характеристики файлов и электронного носителя и быть заверенным подписями должностных лиц и печатью.

Таким образом, анализ природы электронных документов позволяет определить несколько условий, выполнение которых обеспечивает их сохранность и возможности использования на протяжении десятков лет:

1. В архив должны приниматься и храниться «информационные объекты» (файлы), включающие, главным образом, содержательную и контекстную информацию (данные). Прием на хранение информационных ресурсов в комплекте с исполняемыми программами (оболочками прикладных информационных систем) бессмысленно, так как со временем это может вызвать правовые и технологические проблемы их использования. Прием компьютерных программ необходим в исключительных случаях, когда без этого невозможно воспроизведение принимаемых на хранение электронных документов.

2. В краткосрочной перспективе (5–10 лет) сохранность документов обеспечивается размещением файлов одних и тех же информационных ресурсов на нескольких отдельных электронных носителях, то есть созданием резервного и рабочего экземпляров электронных документов.

3. В долговременной перспективе (более 10 лет) необходимо проведение миграции документов в так называемые программно независимые форматы (страховые форматы), причем таким образом, чтобы в дальнейшем полученное поколение документов можно было признать подлинниками.

4. Электронные документы в страховых форматах могут оказаться очень неудобными в использовании и могут значительно замедлять время доступа пользователей к архивной информации. Оперативность доступа к архивным электронным документам может обеспечивается тем, что они будут приниматься, храниться и/или своевременно переводится в форматы текущей информационной системы архива — пользовательские форматы. Процедура миграции в пользовательские форматы также должна быть ориентирована на возможное признание полученных документов подлинниками. Эта мера необходима в связи с тем, что заранее трудно определить, какие из форматов (страховые, пользовательские или те, в которых документы приняты на хранение) могут стать основой для создания миграционных страховых копий последующих поколений.

5. При обеспечении сохранности электронных документов большое внимание следует также уделять вопросам информационной безопасности: обеспечению их аутентичности, защите от вредоносных компьютерных программ (вирусов) и от несанкционированного доступа.

В заключение следует отметить, что методология и принципы архивного хранения электронных документов только начинают складываться. Здесь важен учет мнений и опыта всех заинтересованных сторон: архивистов (в архивах организаций и государственных архивах), документоведов, ИТ-специалистов, управленцев, менеджеров, историков, других пользователей электронными информационными ресурсами. От этого зависит, что станется с накопленным информационным богатством страны, с каким интеллектуальным багажом мы окажемся среди других «путешественников» к открытому информационному обществу.

---------------------------------------

[1] См.: Center for Electronic Records of National Archives and Records Administration (www.nara.gov); UK National Digital Archive of Datasets (NDAD) (http://ndad.ulcc.ac.uk/ndad). О практике работы с электронными документами в зарубежных архивах см. также: Вальберг Х. Электронные документы в архивах. Отечественные архивы. 2004. № 1. С.72–79.
[2] См., например: Носевич В. Л. Архив электронных документов: белорусский опыт // Отечественные архива. 2002. № 1. С.44–52.
[3] См., например: Моисеенко Т., Свищев М. Изучение аграрной истории России последних десятилетий: перспективы «компьютерного источниковедения» // История и компьютер: Новые информационные технологии в исторических исследованиях и образовании. St. Katharinen, 1993.
[4] См.: Ларин М. В. Актуальные проблемы обмена документированной информацией в государственном управлении // Документация в информационном обществе: унификация и стандартизация межведомственного и корпоративного документооборота. Доклады и сообщения IX Международной научно-практической конференции, 5—6 декабря 2002 г. М., 2003. С. 37.
[5] См.: пп. 1.3.4, 2.1.4, 2.3.5, 2.4.2, 4.4.2.4, 4.4.2.5, 6.3.5, 7.7.4; приложения № 5, 31–34.
[6] См., например: Через пару лет информация с CD-R исчезнет (http://www.rambler.ru/db/news/msg.html?mid=4528814&s=5).
[7] См.: ISO 18923, 18925, 18933.
[8] См., например: Rothenberg Jeff. Avoiding Technological Quicksand: Finding a Viable Technical Foundation for Digital Preservation. A Report to the Council on Library and Information Resources. Washington, DC, 1999. (http://www.clir.org/pubs/reports/rothenberg/pub77.pdf — от 18.02.1999).
[9] См: INFORMATION MANAGEMENT. Challenges in Managing and Preserving Electronic Records. GAO. United States General Accounting Office. Report to Congressional Requesters. June 2002. GAO-02-586.
[10] См.: Анин Б. Ю. Защита компьютерной информации. СПб., 2000. С. 121.
[11] Это замечание в наибольшей степени относится к ГОСТ 6.10.4–84.

Подпишитесь!

На рассылку полезных статьей об информатизации в архивах и получите программу "Календарь памятных дат" в подарок!