Булатов А. Н., г. Пермь

УДК 338:681.3

ПРИМЕНЕНИЕ ПАРАМЕТРИЧЕСКИХ ИЗМЕРЕНИЙ
ДЛЯ РЕАЛИЗЦИИ ПОДДЕРЖКИ МЕДЛЕННО МЕНЯЮЩИХСЯ РАЗМЕРНОСТЕЙ
В ХРАНИЛИЩАХ ДАННЫХ

В данной статье излагается проблема медленно меняющихся размерностей, возникающая при эксплуатации хранилищ данных, и описывается, как использование модели параметрических измерений позволяет решить эту задачу.

В настоящее время технология хранилищ данных (ХД) вызывает особенный интерес у крупных организаций и предприятий. Исторически сложившаяся ситуация с большим количеством локальных баз данных (БД) характеризуется избыточностью, несогласованностью, трудностью синхронизации данных и показателей. Для решения этих проблем была предложена концепция ХД [5], определяемая как «предметно-ориентированная, интегрированная, инвариантная по времени, не разрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений» [2]. Основным структурным отличием от операционных систем в технологии ХД является модель многомерного представления данных (ММПД).

Центральным моментом ММПД является описание предметной области в виде набора многомерных кубов [6]. Каждый куб содержит набор равнозначных измерений и набор показателей, значения которых однозначно определяются фиксацией элементов соответствующих измерений. Существенную роль играет тот факт, что измерения имеют иерархическую структуру, что позволяет аналитику мыслить в терминах предметной области.

Одной из существенных проблем, возникающих в процессе эксплуатации ХД, является проблема медленно меняющихся размерностей (ММР) [7]. Дело в том, что ХД, спроектированное на определенный момент времени, не может включать в себя изменения, которые возникают уже после начала эксплуатации. Эти изменения могут носить как внутренний характер (например, структурная реорганизация предприятия), так и внешний (например, изменение плана счетов). В общем случае эти изменения так или иначе должны затронуть структуру ХД. Основной задачей проектировщика ХД является задача заложить в его структуру возможности внесения изменений с минимальной стоимостью сопровождения. Спецификой ММПД является то, что наибольшую актуальность представляют собой изменения структуры измерений. Таким образом, проблема ММР — это проблема изменения структуры измерений с течением времени.

Ниже рассмотрены ситуации, которые могут происходить с элементами измерения с течением времени (рис. 1).

Рис. 1. Изменение элементов измерения с течение времени:
а) удаление - перкращение существования элемента;
б) создание - появление нового элемента;
в) детализация - один крупный элемент расщепляется на несколько мелких;
г) уточнение разделением - производится отделение смешанных признаков в отдельные элементы;
д) консолидация - несколько детальных элементов объединяются в один крупный;
е) уточнение слиянием - один признак объединяется с несколькими

Теперь рассмотрим варианты изменения структуры измерения с течением времени (рис. 2).

Рассмотрим вопрос реализации поддержки ММР в случае реляционной СУБД [1, 4] с точки зрения организации измерения. Таблица измерения должна содержать следующие поля:

Уникальный код является первичным ключом и однозначно определяет каждую запись таблицы. Код элемента  одинаков у разных версий одного и того же элемента. Дата начала и окончания означают временные рамки существования указанного элемента, любая из них может быть открытой.

Как вариант допустимо отсутствие уникального кода. В этом случае первичным становится суррогатный ключ из трех оставшихся полей.

Однако структуры хранения данных для ММР составляют лишь половину проблемы [4]. Не менее важно существование механизма, позволяющего использовать такие измерения в реальных аналитических приложениях.

В качестве такого механизма предлагается модель параметрических измерений. Этот механизм обеспечивает возможность управления структурой любого измерения системы через воздействие управляющих параметров.

 Перечислим свойства управляющих параметров измерения:

Приведем пример использования параметрических измерений в построении отчетной системы ХД по установленным формам отчетности. В качестве параметрического измерения рассмотрим измерение «Графы форм».

Данная отчетная система является частью ХД. По этой причине структура измерения может изменяться из-за изменений требований к отчетам с течением времени. В то же время необходимо иметь возможность получать ретроспективные отчеты.

Рис. 3. Параметрические измерение "Графы форм"

С другой стороны, это измерение должно являться единым и единственным местом получения доступа к показателям отчетности. Это означает, что структура всех существующих форм и все новые формы будут размещаться в этой размерности. Таким образом, данное измерение является классическим случаем ММР.

Создав такое измерение, очень просто, в зависимости от потребностей, получать нужные разрезы показателей для конструирования любых типов отчетов, в том числе и параметризованных отчетов Direct Business Intelligence (Direct BI) [3]. Примеры использования такого измерения изображены на рис. 3)

Таким образом, параметрические измерения естественным образом решают проблему ММР, не требуя введения других специализированных механизмов. Помимо проблемы ММР параметрические измерения позволяют решать широкий спектр задач использования сложноорганизованных многомерных данных. В целом, технология параметрических измерений существенно упрощает процесс развертывания ХД на предприятии или организации независимо от используемой схемы построения ХД.

Технология параметрических измерений показала свою эффективность, служа базисом для разрабатываемых компанией ЗАО «Прогноз» аналитических решений, что подтверждается внедрением этих систем на многих предприятиях и в организациях, таких как ОАО «Газпром», Счетная Палата РФ, Центральный Банк РФ и других.

Литература

  1. Конноли Т., Бегг К., Страчан А. Базы данных: проектирование, реализация и сопровождение. Теория и практика: Учебное пособие. – 2-е изд. / Пер. с англ.– М.: Издательский дом «Вильямс», 2000. – 1120 с.
  2. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Том. 1. / Пер. с англ. – М.: Издательский дом «Вильямс», 2001.
  3. Хаусон С. На пути к просвещению // Intersoft Lab. – http://www.iso.ru/journal/articles/170.html
  4. Codd E.F., Codd S.B., Salley C.T. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. – N.Y.: John Wiley & Sons, 1993.
  5. Demarest M. Building the Data Mart // DBMS. – 1994. – July.
  6. Inmon W.H. Building the Data Warehouse. – N.Y.: John Wiley & Sons, 1993.
  7. Kimball R., Reeves L., Ross M., Thornthwaite W. The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses. – N.Y.: John Wiley & Sons, 1998.