Информационно-поисковая система

Городилов А.В.
Крагин А.Н.

Источник: archive.alee.ru

Система разработана в рамках дипломного проекта. Кафедра ИПОВС, МИЭТ. В ближайшее время будут выложены подробные описания системы, а также исходный код модулей.

Обзор существующих технологий построения и организации электронных архивов.

В данном разделе я постарался выделить общее в технологиях построения и организации электронных архивов.

Технология построения электронного архива.

Процесс построения электронного архива включает:

Существует несколько типовых решений проблемы создания Электронного архива документов.

«Минимальное решение»

Это самое дешёвое решение для организаций, стремящихся упорядочить доступ к архивной информации, но не предполагающих активно использовать электронные образы документов.

При таком решении создаётся электронная картотека архива — база данных с полноценным формализованным описанием документов по нескольким поисковым полям (обычно 5–10) и точным физическим адресом (раздел, шкаф, стеллаж) расположения бумажного документа.

Зная характеристики документа, архивариус запрашивает систему о его местонахождении в хранилище, а, получив физический адрес, легко находит и сам документ. Такая электронная картотека во много раз облегчает структуризацию бумажного архива, упрощает поиск документов и учёт их использования.

«Стандартное решение»

Более распространённое и функциональное решение — электронная картотека, дополненная массивом графических образов документов (отсканированных изображений).

Такой архив позволяет полностью отказаться от использования в повседневном обороте оригиналов документов, которые могут в этом случае храниться удалённо, на площадях с низкой стоимостью и, при необходимости, под надёжной охраной.
Стандартный программно-аппаратный комплекс архива гарантирует, что в результате поиска по электронной картотеке сотрудник организации получит в своё распоряжение точный образ нужного документа, который можно использовать для просмотра, передачи по сети или печати бумажной копии. При этом автоматизированная система управления доступом обеспечит учёт и авторизацию всех обращений, а также надёжную защиту от несанкционированного использования документов.

Стандартное решение позволяет организовать единое управление архивом даже для территориально распределённой организации и обеспечить полноценный контроль за всеми её документами из единого центра.

«Максимальное решение»

Наиболее эффективный электронный архив, в котором электронная картотека и массив графических образов дополняются файлами, содержащими тексты всех документов архива.

Тексты документов создаются набором вручную или путем автоматического распознавания и верификации их графических образов. Поиск в таком архиве может быть организован как по поисковым полям (картотеке), так и по содержанию самих документов (контекстный поиск). Найденные документы можно просматривать, пересылать и распечатывать как в виде их исходных образов, так и в виде текстовых файлов, доступных для редактирования стандартными текстовыми редакторами.

Выбор «Решения»

Для создания Электронного архива Управления было выбрано наиболее полное и функциональное решение. Проанализировав Максимальное решение в контексте технологии построения электронного архива, было принято решение о создании программного комплекса для решения следующих задач:

Концепция функционирования ИПС

В концепции функционирования Электронного архива ИПС я выделил следующие основные информационные и функциональные сущности:

Контрольно-регистрационная карточка документа содержит учетно-регистрационную информацию, различные признаки документа и его атрибуты. Кроме того, карточка документа содержит ряд признаков, по которым можно провести однозначную идентификацию документа, его место хранения, параметры привязки отдельного документа в комплекте документации в целом и т. п.

В файле документа представлено собственно содержание документа в электронном виде.

Приложение документа служит программным средством для работы с документом.

Таким образом, можно выделить основные программно-аппаратные компоненты системы ИПС:

Ядро системы управления документами (СУД);
Сервер БД архивной системы (Картотека);
Файловый сервер документов (Хранилище документов);
Сервер приложений (Поисковый сервер);
Сеть клиентских рабочих мест.
Ядро системы управления документами.

Ядро системы управления документами или другими словами, бизнес-логика функционирования системы, встроено в клиентское приложение. Вся работа по авторизации пользователей ИПС, аутентификации пользователей ИПС, работе с документами, администрированию и настройке системы проводится с помощью клиентского приложения ИПС. Именно ядро отвечает за правильность и целостность хранения данных в БД и на файловом сервере документов.

Сервер БД архивной системы (Картотека).
Сервер БД архивной системы (Картотека). Роль сервера БД в системе играет SQL-сервер Borland InterBase6. С версии 6.0 этот продукт является совершенно бесплатным и распространяется с открытыми исходными текстами.
Файловый сервер документов (Хранилище документов).
Файловый сервер документов

(Хранилище документов) — это файловый сервер с большим дисковым пространством под хранение текстов документов, а также их txt-образов и индекса документов. Взаимодействие Хранилища документов с ядром системы осуществляется посредством протокола обмена файлами (FTP).

Сервер приложений (Поисковый сервер). Полноценный поиск по документам включает в себя две составляющие:

  1. Поиск по реквизитам.
  2. Поиск по содержимому документа.

Если с первой задачей можно успешно справится средствами языка структурированных запросов (SQL) к базе данных, то в задаче поиска по контексту без полнотекстовой индексации документов не обойтись. Учитывая то, что в функциональности Электронного архива первое место отводится мощности, скорости и простоте контекстного поиска было решено для полнотекстовой индексацией в ИПС применить библиотеку ABBYY RETRIEVAL & MORPHOLOGY 4.0 ENGINE. Эта библиотека предоставляет разработчику Retrieval API в. реализацию которого входят следующий функции:

1) Полнотекстовая индексация. Инструментарий позволяет создать эффективный полнотекстовый индекс многоязычных документов. Индекс хранит информацию о словах и их местоположении в информационном хранилище (файловых серверах, WEB-серверах или базах данных). Для того, чтобы создать наиболее компактный индекс, который в дальнейшем обеспечит наибольшую скорость поиска, система использует знание морфологии, лемматизацию и словари стоп-слов. В результате использования лемматизации (нахождения начальной формы слова по любой его словоформе) система включает в индекс не все 4 000 000 словоформ русского языка, а только 150 000 его словооснов. Словари стоп-слов содержат набор незначимых для поиска символов языка (предлоги, союзы), которые не включаются в индекс и делают его короче. В общем случае скорость индексирования и относительного размера индекса зависят от большого числа параметров — конфигурации компьютера, структуры исходной информационной базы, формата и языков документов и т. д. Ниже приведена приблизительная оценка характеристик системы при индексировании одноязычного «гладкого текста» в формате TXT:
Скорость индексирования 20 мб\мин
Отношение размера индекса к информационному источнику 40%.

2) Полнотекстовый поиск. Функции полнотекстового поиска позволяют, указав в запросе любую форму нужного слова, найти в проиндексированных документах все вхождения этого слова как в заданной, так и в остальных его формах. ARM Engine позволяет осуществлять как простой, так и расширенный поиск. При простом поиске запрос состоит из одного или нескольких слов, а также логических операторов (AND, OR, NOT). Так как индекс содержит информацию о координатах каждого слова в проиндексированных документах, возможно также задать дистанцию между искомыми словами и их относительную позицию. Запрос для расширенного поиска представляет собой строку на специальном «языке запросов», что позволяет более точно задать параметры поиска, используя произвольную комбинацию логических операторов. В обоих случаях, благодаря использованию компактного индекса, Булевой логики, словарей словоформ и стоп-слов, поиск даже в многоязычных документах осуществляется настолько эффективно, что скорость поиска составляет доли секунды и практически сравнима со скоростью реакции пользователя.

3) Нечеткий поиск. ARM Engine позволяет осуществлять нечеткий поиск, т. е. находить слова, которые отличаются от исходного несколькими символами. Такая возможность полезна в случае, если документы содержат слова с ошибками, пользователь не уверен в правильности написания слов или хочет найти похожие слова.

Проанализировав возможности этой библиотеки, а также, учитывая возможность довольно безболезненной интеграции библиотеки в ИПС, нами было принято решение об использовании ее в качестве Полнотекстового Индексирующего Механизма.

Лицензионная политика компании ABBYY позволяет разработчикам программного обеспечения (потенциальным покупателям их продукта) получить бесплатную полнофункциональную версию ARM Engine для тестирования и разработки механизмов взаимодействия.

Сеть клиентских рабочих мест

Сеть клиентских рабочих мест состоит из клиентских приложений ИПС. Для взаимодействия с сервером БД (Хранилищем документов) клиентское приложение использует InterBase API. Для взаимодействия с Поисковым сервером клиентское приложение использует Retrieval API. Взаимодействие с пользователем осуществляется с помощью стандартных графических средств MS Windows — Windows GUI.

Техническое обеспечение ИПС

Для функционирования системы ИПС «НПДок» необходимо следующие техническое обеспечение:

1) Локальная вычислительная сеть под управлением домена MS Windows. Обязательное присутствие домена объясняется использованием ARM Engine технологии DCOM (Distributed Component Object Model). DCOM — это программная архитектура, разработанная компанией Microsoft для распределения приложений между несколькими компьютерами в сети. Программный компонент на одной из машин может использовать DCOM для передачи сообщения (его называют удаленным вызовом процедуры) к компоненту на другой машине. DCOM автоматически устанавливает соединение, передает сообщение и возвращает ответ удаленного компонента.

2) Сервер InterBase 6. Системные требования для сервера InterBase6:
Операционная система: MS Windows 9x\NT\2000
Компьютер на базе Intel Pentium II
Оперативная память: не менее 128 мб
Свободное дисковое пространство: на начальном этапе достаточно 50 мб, но с ростом базы потребуется дополнительное дисковое пространство

3) Сервер ABBYY FTRE. Библиотека полнотекстовой индексации устанавливается сервисом в систему MS Windows NT 4.0/5.0/5.1. Системные требования Поискового сервера:
Операционная система: MS Windows NT\2000
Компьютер на базе Intel Pentium II
Оперативная память: не менее 128 мб
Свободное дисковое пространство: на начальном этапе достаточно 500 мб, но с ростом базы потребуется дополнительное дисковое пространство

4) Клиентские места системы ИПС. Системные требования для компьютеров, обеспечивающих работу Клиента ИПС:
Операционная система: MS Windows 9x\NT\2000
Компьютер на базе Intel Pentium 200Mhz
Оперативная память: 32 мб
Свободное дисковое пространство: 3 мб

Подпишитесь!

На рассылку полезных статьей об информатизации в архивах и получите программу "Календарь памятных дат" в подарок!