Архивные сайты Рунета: технологии

Начало

Увы, статистика сотрудничества архивных сайтов Рунета с порталом "Архивы России" выглядит не блестяще: за период с 1 января 2006 г. по май 2007 г. только 16 сайтов из 52 (31%) присылали в Службу поддержки "Архивов России" информацию о новых материалах, размещенных на собственных сайтах. При этом ровно половина - 8 сайтов присылали информацию не о новостях сайта как таковых, а только о том, что сайт официально открыт. И потом, как правило, замолкали. Наиболее активно информирует пользователей архивных ресурсов о своих новостях через портал "Архивы России" сайт филиала РГАНТД. За 1,5 года они прислали 11 новостных ссылок, причем самая свежая датируется апрелем 2007 г. Это единственный из федеральных архивов, кто понимает необходимость тесного сотрудничества с общеотраслевым порталом. 9 ссылок прислал в 2006 г. сайт Государственного архива Пермской области. 7 ссылок прислал в 2006 г. сайт Госкомитета по делам архивов Челябинской области. Одним из самый активных в этом плане является даже не самостоятельный сайт, а небольшой раздел архивного отдела на сайте Администрации Приморского края. За 2006 год на них было опубликовано 4 ссылки. Всего 2 ссылки были опубликованы от сайта Архивы Карелии. Дважды в 2006 году присылались ссылки от сайтов архивистов Самары и Кургана. В начале 2006 г. были получены по одной новости от сайтов Архивного комитета Пермской области и Государственного общественно-политического архива Пермской области. И это все.

Вызывает также некоторое удивление, что до сих пор на 23% архивных сайтов Рунета не стоит ссылка ни на портал "Архивы России", ни на Росархив. Как же мы при таком положении вещей можем говорить о реализации единого архивного информационного поискового пространства в России?

Если для информирования пользователей о новостях сайт заведена рассылка "Новости сайта" через службу subscribe.ru необходимо обязательно добиться ее перевода из категории "бронзовые рассылки" в категорию "серебряные".[33] Этот шаг позволит всем подписчиками сервиса Subscribe (а их уже более 4 млн. человек) узнать о вашем сайте благодаря комплексу рекламных анонсов рассылки, предусмотренных в этом случае на сервисе Subscribe.

Третья рекомендация: соблюдать правила юзабилити для поисковых систем.

Почему это так важно? Потому что поисковые системы являются одними из основных трафикогенераторов[34]. По оценкам экспертов, эти системы ежедневно приносят сайтам от 30 до 60% посетителей. График, полученный на основе данных системы статистики Spylog, показывает нам, что около 33% посетителей попадает на сайт http://www.rusarchives.ru из поисковых систем.

Нельзя использовать фреймы - они плохо индексируются.

Нельзя использовать флеш-технологии для создания навигации на сайте - ссылки, прописанные во флеше, индексируются далеко не всеми поисковиками.

Нежелательно использовать на сайте закрытые от поисковиков БД[36] - доступ к информации, содержащейся в них, из поисковика невозможен и, следовательно, эта информация будет использоваться менее эффективно.

Не нужно создавать большие гипертекстовые страницы - часть поисковиков не проиндексирует весь объем текста на странице, если он превышает 200 символов.

Необходимо минимизировать вред от использования скриптов в навигации. Гиперссылки, прописанные в скриптах не индексируются вообще. Но скрипты позволяют создавать удобные для человека меню. Поэтому, если принято решение создавать меню с помощью скриптов, рекомендуется либо создать текстовую карту сайта, в которой будут содержаться ссылки на все разделы, либо использовать параллельно и дополнительную текстовую навигацию по разделам.

Необходимо минимизировать вред от использования динамических страниц. Динамические сайты индексируются плохо. Рекомендуется создать текстовую карту сайта, в которой будут содержаться ссылки на все динамические страницы.

Анализ юзабилити архивных сайтов Рунета для поисковых систем показал, что: на 25% сайтов используются фреймы, что может препятствовать индексации этих сайтов поисковыми системами; на 5,7% сайтов используются закрытые для индексации поисковыми системами БД; лишь на 36% сайтов присутствует карта сайта; на 11-и сайтах (21%) либо для основных меню, либо для исполнения отдельных навигационных элементов сайта используются скрипты; при этом на 7 из этих 11-и сайтах нет карты сайта или она тоже сделала с помощью скриптов, что может препятствовать индексации этих сайтов поисковыми системами; на почти 40% сайтов используются динамические страницы, что само по себе неплохо, но из них на почти 52% сайтов отсутствует текстовая карта сайта, что также может препятствовать индексации этих сайтов поисковыми системами.

Четвертая рекомендация: постоянно заниматься оптимизацией контента сайтов для поисковых систем (SEO[37]). Все то, что размещено на странице (и текстовая и графическая составляющие контента сайта), является так называемыми внутренними факторами, влияющими на позицию сайта в выдаче поисковой системы. Чем выше сайт находится в выдаче, тем больше вероятность, что пользователь его заметит и посетит.

Оптимизация текстовой составляющей

Оптимизация изобразительной составляющей

Оптимизация ссылочной составляющей. Так как текст ссылок непосредственно влияет на релевантность запросов той страницы, на которую они ведут, то все ссылки, обеспечивающие навигацию по сайту, должны иметь адекватное описание. Кроме того, именно ссылки влияют на так называемый "индекс цитируемости" сайта, использующийся для оценки степени известности и авторитетности сайта в сети Интернет.

Анализ уровня оптимизации архивных сайтов Рунета показал, что только на 5 сайтах (9,6%) предпринимаются более или менее осмысленные попытки оптимизировать текстовый контент сайта; на 3-х сайтах осмысленно прописываются атрибуты alt для картинок, еще на двух сайтах они то прописываются, то нет.

Измерение авторитетности сайта

Для того, чтобы оценить, насколько архивные сайты известны и авторитетны в сети Интернет и, следовательно, насколько успешно они выполняют свои основные функции - обеспечение расширения доступа граждан к архивным информационным ресурсам и популяризацию архивов в современном обществе, можно использовать уже давно созданные и успешно применяемые поисковыми машинами механизмы измерения авторитетности сайтов - индексы цитирования. Индекс цитирования (ИЦ) - показатель поисковой системы, вычисляемый на основе числа ссылок на данный ресурс с других ресурсов сети Интернет. В простейшей разновидности индекса цитирования учитывается только количество ссылок на ресурс. Тематический индекс цитирования (тИЦ) учитывает также тематику ссылающихся на ресурс сайтов, а взвешенный индекс цитирования - популярность ссылающихся сайтов (также в большинстве случаев вычисляемую на основе индекса цитирования).

Факторы, определяющие релевантность страницы в выдаче поисковой системы по поисковому запросу пользователя, подразделяются на внешние и внутренние. Про внутренние факторы мы говорили, когда затрагивали вопрос о необходимости SEO (проведение работ по оптимизации сайта под поисковые системы). Внешние факторы, в свою очередь подразделяются на статические (не зависящие от текста запроса) и динамические (зависящие от текста запроса). К статическим внешним факторам и относятся показатели авторитетности сайта, которые характеризуют "мнение" о сайте со стороны других Интернет-ресурсов. Чем больше внешних Интернет-ресурсов ссылаются на сайт, тем выше его авторитетность. Но важно понимать, что учтенные поисковиком ссылки на ресурс не просто суммируются - авторитетность ссылки напрямую зависит от авторитетности ресурса, поставившего ссылку на данный сайт. К динамическим внешним факторам относится принцип ссылочного ранжирования. Он основан на учете исключительно текста ссылок. При этом оценивается влияние текстовой ссылки, поставленной на стороннем ресурсе, на релевантность страницы сайта поисковому запросу, содержащемуся в тексте ссылки. Чем более авторитетна страница, с которой поставлена текстовая ссылка, тем весомее воздействие внешних факторов.

Принципы влияние внешних факторов на релевантность сайта:

  1. Ссылки на сайт с внешних ресурсов повышают его авторитетность
  2. Ссылка с большим весом сильнее влияет на авторитетность, чем ссылка с малым весом. Вес ссылки напрямую зависит от авторитетности ссылающегося сайта.
  3. Внешняя ссылка на страницы сайта, в тексте которой содержится поисковый запрос, повышает релевантность страницы сайта по этому запросу.

Первой крупной поисковой системой, начавшей активно использовать индекс цитирования, стала Google, создав технологию PageRank. PageRank - показатель, который рассчитывается для каждой страницы сайта, проиндексированного Google. Логика расчета такова: если страница А ссылается на страницу В, она считает ее важной. Если на страницу ссылается много важных страниц, то важность этой страницы возрастает и ссылки с этой страницы становятся более сильными. При подсчете PageRank учитываются не только внешние ссылки, но и ссылки с внутренних страниц сайта. PageRank не учитывает текста ссылок, ведущих на страницу и измеряется по шакале от 0 до 10. Как правило, авторитетными сайтами считаются сайты, у страниц которых значение PageRank не меньше четырех. PageRank от 4 до 5 - наиболее типичный для большинства сайтов средней "раскрученности". 6 - очень хорошо "раскрученный" сайт. 7 - величина, практически недостижимая для множества сайтов, но иногда встречается. Значения 8, 9, 10 имеют исключительно популярные и значимые проекты. Например, сейчас у сайта NARA (http://www.archives.gov/index.html) PageRank = 8. Значение 10 имеют всего несколько десятков сайтов, например сайт Белого Дома (http://www.whitehouse.gov).

В русскоязычном сегменте Интернета наибольшей известностью среди индексов цитирования пользуется тИЦ Яндекса. Однако, в отличие от PageRank, тИЦ рассчитывается для интернет-ресурсов, а не для отдельных страниц. При этом ссылкам с ресурсов сходной тематики придается больший вес[39]. Под интернет-ресурсом может пониматься как самостоятельный сайт (например, домен второго или третьего уровня), так и некоторый раздел сайта (директория на сервере). Раздел сайта (директория) считается самостоятельным ресурсом только в том случае, если она описана в каталоге Яндекса.

Анализ авторитетности архивных сайтов Рунета, проведенный в мае 2007 года показал следующее:

тИЦ. Только 5 архивных сайтов Рунета имеют тИЦ больший 100 (http://rusarchives.ru/ - 2200, http://victory.rusarchives.ru/ - 700, http://rgantd.ru/ - 425, http://archives.karelia.ru/ - 240, http://www.mosarchiv.mos.ru/ - 100). Еще 25 сайтов имеют тИЦ от 20 до 70. 10 сайтов имеют минимальный тИЦ - 10. 12 сайтов имеют тИЦ менее 10. Для 4 сайтов величину тИЦ провести не удалось, так как у них в адресе сайта присутствует значок ~ (http://www.kmtn.ru/~komarhiv/, http://www.kmtn.ru/~arhiv/, http://www.ic.omskreg.ru/~archive/ и http://www.megalink.ru/~gadls/) и, видимо, этот факт не позволяет Яндексу считать их отдельными информационными ресурсами.

PageRank. Только http://rusarchives.ru/ имеет PR - 6. 5 сайтов (http://victory.rusarchives.ru/, http://rgantd.ru/, http://www.mosarchiv.mos.ru/, http://guides.rusarchives.ru/, http://www.rgaspi.ru/) имеет PR 5. 12 сайтов имеют PR 4. 29 сайтов имеют PR 3. 9 сайтов имеют уже крайне низкий PR от 2 до 0.

В целом авторитетность и известность архивных сайтов в Рунете крайне низка!

И в заключение приведем данные результататов анализа видимости архивных сайтов Рунета в поисковых системах по состоянию на май 2007 г.

Через Яндекс, самую популярную поисковую систему Рунета, невозможно найти такие сайты, как: http://www.chiefarh.samaracity.ru/, http://rgali.ru[40], http://www.arhivtuva.da.ru/, http://www.gosarhiv.narod.ru/

Через Google - самую популярную поисковую систему Интернета, невозможно найти такие сайты, как: http://www.sakha-arhive.ykt.ru/[41], http://www.gachochit.narod.ru/ и http://www.gasrb.ru[42].

Минимально проиндексированы этой системой и такие сайты, как: http://www.photoarchive.spb.ru/ - 1 страница[43], http://rgali.ru - 1 страница[44], http://www.archiv.ab.ru/ - 6 страниц[45], http://astrahanarhive.narod.ru/ - 6 страниц[46], http://www.arhivtuva.da.ru/ - 1 страница, http://ao.avo.ru/ - 3 страницы.

Рамблером вообще не проиндексированы: http://rgali.ru[47], http://www.arhivtuva.da.ru/ , а минимально проиндексированы: http://www.mosarchiv.mos.ru/ - 12 страниц[48], http://www.archiv.nnov.ru/ - 25 страниц[49], http://www.sakhalinarhiv.ru/- 4 страницы[50], http://www.sakha-arhive.ykt.ru/ - 4 страницы, http://archive.khv.ru/ - 6 страниц[51].

Для трех сайтов, расположенных на серверах администраций регионов и не зарегистрированных в TOP100 Рамблера, определить количество проиндексированных страниц невозможно, так как Рамблер не считает их отдельным уникальным ресурсом.

В Апорте невозможно найти 28 сайтов (54%). Еще 9 сайтов проиндексированы Апортом минимально.

Приз за "невидимость в сети Интернет" можно присудить сайту http://www.arhivtuva.da.ru/ , на котором из всех поисковых систем только Google проиндексировал всего лишь 1 страницу.

 

Таким образом мы можем сделать вывод о том, что недостаточное понимание в среде архивистов роли и задач архивных сайтов определяют отсутствие достаточно грамотных действий по техническим аспектам создания и поддержки сайтов, а это, в свою очередь, приводит к тому, что в целом известность и авторитетность архивных сайтов в Рунете пока еще крайне низка, а доступ пользователей к уже созданным и размещенным в сети Интернет архивным информационным ресурсом затруднен.


[1] "Целевой посетитель" - посетитель, который попадает на страницы Интернет ресурса целенаправленно, по интересующим его запросам, и находит там ту информацию, которую он и хотел получить.

[2] Этот показатель очень важен потому, что согласно статистике посещения архивных ресурсов от 30 до 60% посетителей архивных сайтов попадают на них через поисковые машины Интернета по низкочастотным запросам, и чем больше гипертекстовых страниц ресурса проиндексировано поисковыми системами, тем выше посещаемость ресурса.

[3] Все данные анализа здесь и ниже приводятся по состоянию на май 2007 г., если специально не оговорена иная дата.

[4] Сага о Usability // Мир Internet. 3 (54) март 2001

[5] По состоянию на апрель 2008 г. эта ошибка устранена разработчиками.

[6] Разрешение экрана - качество картинки, определяемое числом индивидуальных точек (пикселей), формирующих изображение. Чем выше разрешение, тем лучше качество картинки.

[7] Фрейм - элемент языка HTML версии 3.0 и выше. Фреймы позволяют разделить веб-страницу на несколько независимых окон и в каждом из них размещать отдельную веб-страницу. При этом допускаются ссылки из одного окна в другое окно. Обычно фреймы применяется для организации меню, постоянно находящихся на экране.

[8] Служебные разделы содержат ссылки на вспомогательные страницы, облегчающий доступ к основной информации сайта, - карту сайта, страницу поиска, помощи и т.д.

[9] Часто в виде логотипа.

[10] Простейший java-скрипт с автоматическим редиректорм выглядит так:

[11] 404 - это один из так называемых "кодов состояний", которые выдает сервер при невозможности загрузить страницу в связи с ее физическим отсутствием.

[12] Рекомендации по созданию архивного сайта в Интернет. Приложение к письму Росархива от 17.05.2001 № 6/513-К (http://www.rusarchives.ru/methodics/sait.shtml)

[13] RSS - семейство XML-форматов, предназначенных для описания лент новостей, анонсов статей, изменений в блогах и т. п. Информация из различных источников, представленная в формате RSS, может быть собрана, обработана и представлена пользователю в удобном для него виде специальными программами-агрегаторами. Одним из популярных RSS-агрегаторов является Лента.Яндекс (http://lenta.yandex.ru/)

[14] На http://www.archives.gov-vyatka.ru/ она ошибочно названа форумом

[15] Уже после проведения совещания-семинара было открыто три новых архивных форума. В октябре 2007 г. на сайте Государственного архива Пермской области (но, несмотря на довольно активную посещаемость, он просуществовал только до 1 февраля 2008 г. и был закрыт, как написано на сайте "по техническим причинам). В Ноябре 2007 г. был открыт форум на сайте Национального архива республики Карелия. Но открыт он был только в связи с проведением карельскими архивистами Интернет-семинара по теме "Внедрение "Правил организации хранения, комплектования, учета и использования документов Архивного фонда Российской Федерации и других архивных документов в государственных и муниципальных архивах, музеях и библиотеках, организациях Российской академии наук" и после закрытия Интернет-семинара как самостоятельный форум не используется. 10 марта 2008 г. был открыт Форум Портала "Архивы России", на котором только за первый месяц работы были зарегистрированы около 100 пользователей, написавших около 300 сообщений в 45 темах.

[16] Блог - производное от английского веб-лог (weblog), что означает "онлайн-дневник" или "онлайн-журнал". Блог - это способ периодической организации информации в вебе одним или несколькими авторами. Информация в блоге организована в виде новостной ленты (обновляющейся по мере публикации новых записей), в верхней части которой находятся самые последние записи, и предусмотрена возможность интерактивного общения с читателями путем оставления последними комментариев к тексту каждой конкретной записи (посту).

[17] Для этого можно использовать свободно распространяемый движок WordPress.

[18] В ноябре 2007 г. сообщество "Архивы России" насчитывало 360 участников и 470 читателей.

[19] В ноябре 2007 г. сообщество журналистов насчитывало 5298 участников и 6292 читателей

[20] По данным статистики Spylog.

[21] Количество таких запросов варьировалось от 2,5 тыс. до 500.

[22] Обратите внимание, что поисковики различают регистр написания букв в запросе.

[23] Как правило, архивные сайта регистрируются в разделе "Научные библиотеки" - http://yaca.yandex.ru/yca/cat/Science/Sciences/Administration/Libraries_1/

[24] В каталоге Апорта для архивных сайтов есть специальный раздел "Архивы" - http://catalog.aport.ru/rus/themes.aspx?id=1447

[25] Архивные сайта обычно регистрируются либо в разделе "История" - http://top100.rambler.ru/top100/History/, либо в разделе "Наука" - http://top100.rambler.ru/top100/Science/

[26] Архивные сайты, как правило, регистрируются в рубрике "Науки общественные" - http://top.mail.ru/Rating/Science-Social_Science/

[27] В этом каталоге-рейтинге есть рубрика "Архивоведение" - http://dir1.spylog.ru/index1.phtml?group=4368&level=4&offset=0&ses=0&sort=4

[28] В этом каталоге-рейтинге архивные сайты, как правило, регистрируются в рубрике "История" - http://top.hotlog.ru/cgi-bin/hotlog/top?cat_id=50040

[29] http://rusarchives.ru/, http://victory.rusarchives.ru/, http://archives.karelia.ru/, http://www.photoarchive.spb.ru/, http://www.mosarchiv.mos.ru/, http://rgantd.ru/, http://rgakfd.ru/, http://komitet.archiv.perm.ru/

[30] http://rusarchives.ru/, http://victory.rusarchives.ru/, http://archives.karelia.ru/, http://www.photoarchive.spb.ru/, http://www.rgantd.saminfo.ru, http://gasur.narod.ru/, http://www.chiefarh.samaracity.ru/, http://kursk.rusarchives.ru/, http://www.archive.gov.tatarstan.ru/

[31] На адрес support@archives.ru

[32] Правила публикации новостей архивных учреждений в разделе "Новости отрасли" размещены на Форуме Портала "Архивы России" - http://forum.rusarchives.ru/announcement.php?f=34&a=2

[33] О новостных рассылках подробно написано в статье Петрковой М. Создание и ведение рассылки: полезные советы для новичков - http://ftad.ru/library/mailinglists.shtml

[34] Трафикогенератор - сайт обеспечивающий приток на другие сайты постоянных посетителей.

[35] Их называют поисковый робот, бот, паук

[36] Имеется в виду БД, доступ к содержанию которых может быть получен только после введения в окно поиска поискового запроса. Поисковые боты не люди - они не умеют сами формировать запросы.

[37] Поисковая оптимизация (англ. search engine optimization, SEO) - оптимизация HTML-кода, текста, структуры и внешних факторов сайта с целью поднятия его в выдаче поисковой системы.

[38] Выдача поисковой системы -список сайтов, который выводится пользователю на экран, после того, как он ввел в систему свой запрос.

[39] Сходство тематик определяется по наличию описаний этих сайтов в одном и том же разделе каталога Яндекса (http://yaca.yandex.ru). Поэтому очень важно не только зарегистрировать свой сайт в каталоге, но и зарегистрировать его в "правильном" разделе.

[40] По состоянию на апрель 2008 уже проиндексирована 3891 страница.

[41] По состоянию на апрель 2008 г. всего лишь проиндексирована 1 страница.

[42] По состоянию на апрель 2008 уже проиндексировано 108 страниц.

[43] По состоянию на апрель 2008 уже проиндексировано 519 страниц.

[44] По состоянию на апрель 2008 уже проиндексировано 1740 страниц.

[45] По состоянию на апрель 2008 количество проиндексированных страниц сократилось до 1-й.

[46] По состоянию на апрель 2008 проиндексировано 24 страницы.

[47] По состоянию на апрель 2008 уже проиндексировано 40989 страниц.

[48] По состоянию на апрель 2008 уже проиндексировано 69 страниц

[49] По состоянию на апрель 2008 г. всего лишь проиндексирована 31 страница.

[50] По состоянию на апрель 2008 уже проиндексирована 131 страница.

[51] По состоянию на апрель 2008 г. всего лишь проиндексировано 10 страниц.

Подпишитесь!

На рассылку полезных статьей об информатизации в архивах и получите программу "Календарь памятных дат" в подарок!