Информационные технологии в сохранении и
описании цифровых аудиовизуальных документов

Тихонов В.И., к.и.н., заместитель директора
Информационного центра Главархива Москвы

(Текст выступления на конференции «Технотронные документы — информационная база источниковедения и архивоведения», посвященной 70-летию профессора В. М. Магидова, Москва, Историко-архивный институт РГГУ, 15 мая 2008 г.)

Современный мир вступил в эпоху глобального информационного общества. Информация способствует развитию интеграционных процессов, служит целям государственных и межличностных отношений. Однако, как и века назад, несмотря на обилие информации, лишь незначительная ее часть превращается в такой феномен культуры как документ. Отличие современной эпохи заключается в том, что наряду с текстовыми и графическими документами все большее значение приобретают документы аудиовизуального характера. Развитие и доступность компьютерной техники и сети Интернет способствовали увеличению доли последних в общей массе документированной информации. Выросло целое поколение молодых людей, которые мобильным телефоном и цифровым фотоаппаратом пользуются чаще, чем авторучкой.

Другим характерным признаком последних двух десятилетий явилось возрастание негативных факторов, влияющих на долговременную сохранность зафиксированной информации. Все меньшая доля документов, и аудиовизуальных документов в особенности, стали «доживать» до архивной стадии. С крахом социалистической системы рухнула стройная система организаций — источников комплектования государственных архивов аудиовизуальной документации.

Дополнительным фактором, негативно влияющим на комплектование архивов аудиовизуальными документами, оказалось то, что привело к их лавинообразному росту: широкое распространение специализированной компьютерной техники — цифровых фото- и видеокамер, звукозаписывающих устройств и т. п. Например, буквально за несколько лет доступность и удобство пользования цифровыми фотокамерами привело к тому, что пленочные фотоаппараты практически исчезли из употребления. Но, создавая и используя цифровые аудиовизуальные документы, их авторы чаще всего не задумываются о перспективах их долговременной (если не постоянной) сохранности, и в этой связи, об обеспечении их аутентичности, авторских и имущественных прав, проблемах учета и описания. То есть над теми вопросами, на решение которых направлена вся деятельность государственных архивов.

Стоит отметить, что цифровые фото, аудио и видео документы создаются, хранятся и используются в виде компьютерных файлов. По сути, это — типичные электронные документы со всеми их достоинствами и недостатками. Достоинства электронных документов заключаются в их мобильности («перемещении» с носителя на носитель), в способности существовать во множестве экземпляров, в возможностях и простоте обработки. Недостатки связаны с технологической зависимостью: чтобы воспользоваться документом, необходимо применить адекватное аппаратное и программное компьютерное обеспечение. Поэтому единственный способ долговременного сохранения электронных документов — их своевременная миграция (конвертирование, преобразование, «перевод») в современную технологическую среду.

Файлы с цифровыми аудиовизуальными документами представляют собой одну из самых простых программно-компьютерных структур. Их технологическая зависимость выражается только лишь через формат данных. При наличии конверторов проведение миграции таких файлов из одного формата в другой не представляет особой сложности. Таким образом, среди всех видов электронных документов цифровые аудиовизуальные документы представляются наиболее перспективным объектом для архивного хранения. Именно поэтому опыт работы с электронными документами начинает накапливаться как раз в тех ведомственных и государственных архивах, которые комплектуются цифровыми фото-, аудио- и видеодокументами: Российском государственном архиве кинофотодокументов, Государственном фонде кинофильмов РФ, Российском государственном архиве фонодокументов, Государственном архиве электронной и кинодокументации Чувашской Республики, Псковском архиве страхового фонда и аудиовизуальных документов и многих других.

Отдельно стоит упомянуть проблему сохранения аудиовизуальных документов, записанных на «традиционные» носители. Никакая консервация или обычная реставрация кинопленок, грампластинок, магнитных лент, цветных негативов и слайдов не сможет надолго предотвратить деградацию носителя. Рано или поздно, но мы утратим большинство оригиналов этих документов. И чем активнее намечается их использование, тем быстрее это произойдет. Поэтому оцифровка аудиовизуальных документов — единственный способ сохранения нашего аудиовизуального наследия, информационные технологии и компьютеры превращаются из вспомогательных средств работы архивистов в их основной инструментарий.

Однако новые виды архивных документов и новые методы обеспечения их сохранности ставят новые методические проблемы: проблемы хранения, учета, описания, использования и т. д. Подходов намечается множество, каждый архив старается привнести свое видение проблем и только лишь многолетняя практика сможет ответить на все поставленные вопросы.

Данная статья посвящена опыту работы с цифровыми аудиовизуальными документами, накопленному специалистами московских архивов в течение нескольких последних лет.

Центральный архив аудиовизуальных документов Москвы (ЦААДМ) существует уже более 30 лет. В составе его фондов около 1,5 млн фотографий, тысячи единиц учета кино-, фоно- и видеодокументов. Начиная с 2001 г., архив в экспериментальном порядке начал принимать на хранение аудиодокументы, записанные на компакт-диски. Типологическая схожесть грампластинок и компакт-дисков позволила без труда адоптировать описание и учет цифровых аудиодокументов к архивным правилам, а также к требованиям существующей автоматизированной информационной системы архива, построенной в СУБД Oracle. При описании фонодокумента на компакт-диске, кроме традиционных идентификационных и содержательных полей (номера единиц учета, номера единиц хранения, фондообразователя, заголовка фотодокумента, общего времени звучания, даты и места записи и т. п.), предусматриваются специфические реквизиты: частота дискредитации (в килогерцах — КГц), разрядность цифровой аудиозаписи (в битах), обозначение записывающей программы.

В рамках работ по обеспечению сохранности и в целях развития фонда пользования в архиве с 2004 г. проводится оцифровка фонодокументов, хранящихся на магнитной ленте. За четыре года было оцифровано 664 ед. хр. из общего фонда в 4629 ед. хр. В качестве кодека используется PCM (Pulse Code Modulation), преобразующий звуковые сигналы в цифровой формат несжатого (т. е. без потери качества) звука. Оцифровка проводится с частотой дискретизации 44,1 КГц и разрядностью 16 бит. Запись фонда пользования в настоящее время производится на оптические диски CD, однако вскоре для этой цели планируется использовать диски DVD, причем, каждая единица учета будет записываться на два отдельных диска. В связи с тем, что прогнозируется частая перезапись единиц учета на новые носители (раз в 5–6 лет), учет фонда пользования фонодокументами проводится не по описям, а по книге учета, предполагающей учет как поступлений, так и выбытий ед. хр. фонда пользования. В Книгу учета и описания фонда пользования фонодокументами включены следующие статьи описания:
— № ед. уч. фонда пользования (ФП);
— дата поступления ФП;
— дата записи ФП;
— № ед. хр. ФП;
— производственный (заводской) номер оптического диска;
— общее время звучания ед. уч. ФП;
— формат оцифровки (кодек);
— частота дискредитации;
— разрядность;
— № ед. уч. оригинала;
— № ед. хр. оригинала;
— номер трека;
— время звучания трека;
— качество звучания трека;
— дата и основание выбытия ед. хр. ФП.

С 2005 г. ЦААДМ проводит оцифровку фотодокументов: негативов, позитивов и слайдов. Сканирование производится с разрешением 2000 точек на дюйм в страховом формате TIFF, после чего создается дополнительная копия в пользовательском формате JPEG. В итоге файлы с оцифрованными фотодокументами получаются очень объемными — до 150 мегабайт. В настоящее время оцифровано чуть более 4 тыс. фотодокументов, что составляет 0,5% всего фонда архива. Файлы хранятся в трех экземплярах: на двух отдельных оптических дисках (TIFF-файлы на DVD, JPEG-файлы на CD) и на сервере Главархива Москвы. В дальнейшем, в связи с большими объемами итоговых файлов, на сервере планируется оставлять лишь файлы в формате JPEG, которые позволят наладить эффективную работу автоматизированной информационно-поисковой системы.

Созданный фонд пользования учитывается в «Книге учета поступлений дисковых носителей, записанных с архивных фотодокументов», включающей следующие графы:
— № пп;
— № ед. хр. фотодокумента (оригинала);
— вид фотодокумента;
— дата поступления;
— количество ед. хр. оригинала, записанных на носитель;
— формат записи (TIFF, JPEG);
— тип носителя (CD, DVD);
— № ед. хр. ФП (резервная);
— № ед. хр. ФП (рабочая).

В 2005 г. другой московский архив — Центральный архив документов на электронных носителях Москвы (ЦАДЭНМ) — приступил к изучению вопросов архивного хранения цифровых фотодокументов. В своей работе ЦАДЭНМ вынужден был пойти другим, нежели ЦААДМ, путем. Возможность записи на один электронный носитель множества цифровых фотоизображений, возможность их копирования с носителя на носитель без потери качества, технологическая специфика цифровых фотодокументов — всё это серьезно модифицирует традиционную систему их учета и описания. По своим функциям электронный носитель является не столько средством фиксации информации как, например, негативы, слайды, фотоальбомы, сколько средством временного хранения документов. Что-то вроде миниатюрной полки, стеллажа или даже целого архивохранилища. Кроме того, следовало учитывать апробированную и принятую к тому моменту в ЦАДЭНМ практику работы с электронными документами, основными принципами которой являлись:
— по возможности, хранение электронных документов в программно независимых, межплатформенных или широко распространенных компьютерных форматах (для файлов с цифровыми фотодокументами — это JPEG и TIFF);
— хранение одних и тех же файлов с электронными документами в двух экземплярах, т. е. на двух оптических дисках, допускающих только однократную запись информации (CD-R, DVD-R, DVD+R);
— раздельный учет ед. хр. и ед. уч. электронных документов;
— включение в опись, в качестве единиц учета электронных документов, компьютерных файлов и папок;
— сквозная нумерация ед. уч. (файлов и папок) по описи;
— составление, хранение и использование описей электронных документов как в электронной форме, так и на бумажном носителе (страховой и пользовательский экземпляры);
— использование для удостоверения подлинности как самих электронных документов, так и их электронных описей, «удостоверяющих листов», оформленных на бумажной основе с традиционными удостоверяющими реквизитами — подписями и печатями.

В 2005—2007 гг. в ЦАДЭНМ были разработаны и апробированы все необходимые формы учетных и иных документов — описей, карточек единиц хранения (оптических дисков CD и DVD), разнообразных актов и т. п. Опись цифровых фотодокументов включает следующие статьи описания:

Идентификационные:
— учетный номер ед. уч. фотодокументов (файла) по описи;
— имя файла с цифровым фотодокументом (с расширением, указывающим на формат);
— объем файла в байтах;
— дата последнего изменения файла (обозначается цифрами, например, «09.05.2005»);
— время последнего изменения файла (часы, минуты и секунды обозначаются цифрами, например, «12:25:43»);
— контрольная сумма файла[1].

Содержательные:
— аннотация цифрового фотодокумента;
— дата проведения съемки;
— место съемки;
— автор съемки.

Технические:
— размер фотокадра в пикселях (например, «3072×2048» или «4368×2912»);
— глубина цвета фотоизображения в битах (24 бита).

Идентификация и характеристика единиц хранения цифровых фотодокументов в описи размещались перед статьями описания и включали: тип носителя (CD-R, DVD-R, DVD+R); емкость; фирму-производителя; производственный (заводской номер) носителя (например, «4246 50MJ 085109»); дату и время записи фотодокументов на носитель; номер и размер дорожки, на которую записаны документы; имя компьютерной папки, в которой размещены файлы с документами; учетный номер единицы хранения.

В качестве автоматизированного научно-справочного аппарата в ЦАДЭНМ использовалась база данных «Электронный каталог цифровых фотодокументов ЦАДЭНМ», созданная в СУБД MS Access и включающая описание цифровых фотодокументов, редуцированные копии фонда пользования, а также взаимосвязанный с каталогом именной указатель.

В феврале 2008 г. цифровые фотодокументы были переданы для окончательной обработки и приема на хранение в новый московский архив — Центральный архив электронных и аудиовизуальных документов Москвы (ЦАЭиАДМ), который был образован на базе ЦААДМ и ЦАДЭНМ. Предполагается запись и хранение резервного экземпляра цифровых фотодокументов на DVD-дисках, а размещение рабочего экземпляра и фонда пользования — на сервере Главархива Москвы. Соответственно планируется автоматизация большинства работ, связанных с комплектованием, описанием, учетом и использованием этого вида фотодокументов. В связи с этим потребовалась доработка информационной системы ЦАЭиАДМ с учетом опыта работы с цифровыми фотодокументами обоих архивов. Ниже представлены основные поля, которые должна включать учетно-поисковая база данных ЦАЭиАДМ.

Реквизиты экранной формы карточки единицы учета цифровых фотодокументов:
— вид фотодокумента: «ЦФ»;
— архивный № ед. уч.: «0000001»;
— производственный № (по сдаточной описи): «3»;
— фондообразователь;
— № сдаточной описи: «ГМ20-09»;
— № архивной описи: «2»;
— вид оригинала: «Цифровой фотодокумент» (может быть «Негатив», «Позитив» и тому подобные оцифрованные фотодокументы);
— формат файла: «JPG»;
— разрешение фотоизображения (в пикселях): «4368×2912»;
— глубина цвета (в битах): «24» (может быть «12», «36», «48» и т. д.);
— количество экземпляров фотодокумента: «2»;
— наличие копии в страховом формате TIFF (если создана):
— наличие и имя файла с копией для использования в формате TIFF (если создана):
— № описи копий в страховом формате: «1»;
— ОЦ;
— аннотация фотодокумента;
— место события;
— автор съемки;
— дата съемки;
— индекс;
— рубрика;
— состояние: «В наличии» (т.п.);
— составитель;
— дата составления.

Раздел «Файл с цифровым фотодокументом»:
— имя файла: «GM20-09-003-IMG_3529»;
— формат файла (расширение файла): «JPG»;
— степень компрессии (сжатия оригинального TIFF-формата): «8,6»;
— объем файла в Мб: «4,12»;
— объем файла в байтах: «4 301 949»;
— дата последнего изменения файла: «08.02.2007»;
— время последнего изменения файла: «10:09:16»;
— контрольная сумма файла: «921DD792»;
— учетный № ед. хр. резервной: «0003»;
— учетный № ед. хр. рабочей: «0004»;
— имя папки, содержащей фотодокумент: «0000001–0000155».

Раздел «Единица хранения цифровых фотодокументов»:
— тип носителя: «DVD-R»;
— емкость (Гб): «4,7»;
— фирма-изготовитель: «TDK»;
— размер физический (в см): «12,0»;
— В какой стране изготовлено: «Индия»;
— дата изготовления: «2006 г.«;
— производственный (заводской) номер: «07193R12G31821504»;
— совместимость записи: «ISO 9660»;
— статус экземпляра документов: «Резервный».

Помимо работы с цифровыми аудио- и фотодокументами в ЦАЭиАДМ ведется активная подготовка к приему на хранение цифровых видеодокументов. Летом 2008 г. в эксплуатацию будет введен электронный видеокомплекс архива — один из самых больших в Восточной Европе. Уже смонтирована ленточная библиотека для хранения цифровых видеодокументов размером в 1887 лент LTO общей емкостью в 750 терабайт, проводятся пуско-наладочные работы с оборудованием, позволяющим конвертировать, импортировать и экспортировать видеодокументы в самые разнообразные форматы (нелинейная монтажная станция Avid Liquid Chrome HD). Параллельно проходит разработка информационно-поисковой системы и ее стыковка с существующей системой архива. Основным источником комплектования ЦАЭиАДМ цифровыми видеодокументами намечена телекомпания «ТВЦ», с которой достигнуто принципиальное соглашение. Установленное оборудование позволит также провести оцифровку аналоговых видеодокументов, хранящихся в архиве в объеме 1 тыс. часов, и создать для них фонд пользования, отвечающий самым современным требованиям.

Новый вид видеодокументов поставил вопрос их описания и учета. И если описание и учет видеодокументов, поступающих на цифровых видеокассетах (DVCAM, DVCPRO и др.), можно вести в традиционных учетных формах, то цифровые видеодокументы, поступающие в виде компьютерных файлов на дисках DVD, или оцифрованный фонд пользования требуют разработки специфических форм, которые должны включать значительное количество технических характеристик. Состав полей описания и метаданных должен определять содержательную характеристику видеодокумента, характеристику видеоизображения и звукового сопровождения, а также реквизиты компьютерных файлов, содержащих документ. Таким образом, были определены следующие позиции технологического описания цифровых видеодокументов:

Видеоизображение:
— количество видеофайлов: «1», «4» и т. д.;
— цифровой видеоформат: может быть «DIF», «MPEG-2» и т. п.;
— кодек: «DV», «MPEG-2» и т. п.;
— битрейт, скорость видеопотока, data rate: «6,7», «25», «50» и т. п. (мегабит в сек.);
— размер кадра, original image size: «640×480», «704×480», «720×576» и т. д. пикселей;
— разрядность: «12», «24», «36» бит;
— частота кадров, samples/s: «25» — PAL и SECAM, «30» — NTSС;
— форматное соотношение пикселей, pixel format: «1,067: 1 (CCIR PAL)»;
— тип развертки, content is interlaced: «чересстрочная», «прогрессивная».

Звуковое сопровождение:
— количество звуковых каналов: «2», «4»;
— аудиоформат: «WAV», «MP3», «AIFF» и т. п.;
— кодек: «PCM», «MP3» и т. п.;
— частота дискретизации, samples/s: «16», «24», «48» и т. п. КГц;
— разрядность в битах, bits/sample: «8», «16» и т. п. бит.

Описание компьютерных папок:
— имя папки;
— объем всех файлов, записанных в папку (в гигабайтах);
— количество всех включенных папок;
— количество всех включенных файлов.

Описание файлов:
— имя файла;
— расширение файла;
— размер файла (в гигабайтах);
— дата последнего изменения файла;
— время последнего изменения файла;
— контрольная сумма файла.

Учет фонда пользования видеодокументами планируется осуществлять в Книге учета поступлений и описания цифровых копий фонда пользования видеодокументами, содержащей следующие графы:
— № ед. хр. фонда пользования (ФП);
— метка картриджа LTO;
— дата поступления ед. хр. ФП;
— дата оцифровки ед. уч. оригинала;
— идентификатор карточки ед. уч. ФП в базе данных;
— видеоформат;
— аудиоформат;
— количество всех файлов;
— объем всех файлов в гигабайтах;
— номера ед.уч./ед.хр. оригинала;
— вид носителя оригинала;
— продолжительность ед.уч.;
— количество звуковых каналов;
— дата и основание выбытия ед. хр. ФП.

Итак, цифровые аудиовизуальные документы только лишь начали поступать в государственные архивы. Подобно другим документам, вся их специфика проявится не сразу, а в результате кропотливой работы архивистов. Но с полной уверенностью можно уже сейчас говорить о том, что наиболее полное их технологическое описание будет способствовать организации эффективного учета, обеспечения сохранности и, как результат, их полноценного использования в интересах общества и отдельных граждан.

---------------------------------------

[1] Контрольная сумма файла — уникальная контрольная характеристика файла, которая рассчитывается программными средствами по алгоритму CRC-32 (Cyclic Redundancy Codes на 32 бита). Вероятность существования двух разных файлов с одинаковой контрольной суммой ничтожно мала. В опись контрольная сумма файла вносится в шестнадцатиричном формате, например: 8FAA4B10.

Подпишитесь!

На рассылку полезных статьей об информатизации в архивах и получите программу "Календарь памятных дат" в подарок!