Хранилища данных
и бизнес-аналитика
Конспект DAMA DMBOK2 на русском языке
Глава 11
Введение в тему
Хранилища данных появились в 80-х годах — технология позволила организациям интегрировать данные из множества разнородных источников данных. Интеграция данных считалась самым многообещающим инструментов для детального изучения операционных процессов компаний.

Использование хранилищ данных развернулось всерьез в 1990-е годы. С тех пор, особенно в связи с одновременным развитием бизнес-аналитики (Business Intelligence, BI) как основного драйвера принятия бизнес-решений, корпоративные хранилища данных успели стать привычными. Хотя концепция хранилища данных и считается устоявшейся, ее развитие не останавливается.

Цель управления хранилищами данных и бизнес-аналитикой: планирование, внедрение и контроль процессов предоставления данных для принятия решений и формирования отчетности.

Поддержка деятельности BI
BI нужны для всестороннего и глубокого понимания устройства и работы организации, ее клиентов и продуктов
Повышение эффективности бизнес-анализа
Организация, деятельность которой основана на знаниях, полученных посредством грамотного бизнес-анализа, способна к повышению эффективности и получению конкурентных преимуществ
Поиск новых возможностей
По мере роста темпов поступления объемов данных BI всё более переходит от исторической оценки к предиктивной (предсказательной) аналитике
Ключевые принципы управления
Фокус на целях бизнеса
Хранилище данных должно соответствовать приоритетам организации и способствовать решению бизнес-задач
Видение полной картины вместе с деталями
Мыслите глобальными категориями при планировании архитектуры, но руководствуйтесь локальными соображениями при построении. Реализация глобальной цели идет итерационно — целевыми проектами или «спринтерскими рывками», обеспечивающими быструю окупаемость инвестиций
Максимальная детализация в начале
Выстраивайте системную архитектуру на основе максимально детализированных данных. Обобщение и оптимизация производятся на завершающих, а не начальных этапах реализации проектов ХД
Прозрачность и self-service
Поддержка каталогов данных, каталогов метаданных вместе с широкой информированностью сотрудников по вопросам происхождения данных и процессам их интеграции
Метаданные важны
Выстраивание метаданных параллельно с хранилищем: структура метаданных должна моделироваться на стадии проработки модели данных, а учет и управление — входить в состав рабочих процессов и текущих операций
Сотрудничество и гибкость
Сотрудничайте со всеми другими направлениями и проектами в области управления данными, прежде всего с ответственными за руководство данными, обеспечение качества данных и ведение метаданных. И помните, что различным группам потребителей данных требуются различные инструменты и продукты.
Входные материалы для процесса
бизнес-требования
ИТ-стратегия, ИТ-политики и стандарты
требования по
масштабируемости, проведению операций, инфраструктуре, а также технической поддержке
внутренние источники данных и справочники
требования по качеству, безопасности и доступу к данным
отраслевые и внешние данные
Результаты процесса
архитектура DW/BI
процесс сопровождения информационного продукта
информационные продукты: процесс заполнения, процесс перехода, план обучения, план выпуска релизов
мониторинг использования средств BI
Основные термины
Бизнес-аналитика
У этого термина есть два значения.
Первое: вид анализа данных, который нацелен на изучение деятельности организации и выявление потенциальных возможностей для развития бизнеса.
Второе: комплекс технологий, используемых для такого анализа данных.
Являясь логическим развитием инструментов поддержки принятия решений, инструменты BI предоставляют возможности по:
  • формированию и обработке запросов (querying),
  • извлечению информации (data mining),
  • проведению статистического анализа (statistical analysis),
  • формированию отчетности (reporting),
  • сценарному моделированию (scenario modeling),
  • визуализации данных (data visualization),
  • а также созданию и применению информационных панелей (dashboarding).
Средства BI сегодня находят применение во всех областях — от бюджетного планирования до расширенной аналитики (advanced analytics).
Хранилище данных (ХД)
Включает два ключевых компонента — интегрированную базу данных, необходимых для принятия решений, и связанное с ней программное обеспечение, используемое для сбора, очистки, преобразования и хранения данных. В самом широком контексте под ХД может пониматься весь комплекс хранилищ, баз и витрин данных, используемых в организации в целях BI.

Корпоративным хранилищем данных (КХД) называют централизованное ХД, предназначенное для информационного обеспечения BI-потребностей всей организации.
Ведение хранилища данных
Процесс включает осуществление действий по извлечению, очистке, преобразованию, контролю и загрузке — для обеспечения поддержки данных в хранилище в надлежащем состоянии. В процессе ведения ХД первоочередное внимание уделяется обеспечению целостности и преемственности данных в историческом и бизнес-контекстах за счет применения к операционным данным адекватных бизнес-правил и реляционных связей.
Корпоративная информационная фабрика
Этот тип организации хранилища данных как предметно- ориентированный, интегрированный, поддерживающий привязку ко времени, неизменяющийся набор данных, предназначенный для поддержки принятия решений. Такое хранилище строится на основе нормализованной реляционной модели данных.
Многомерное хранилище данных
Этот тип организации хранилища данных как копии совокупности транзакционных данных, специфическим образом структурированных для обработки запросов и анализа. Подход подразумевает использование многомерной модели данных для ХД.

Важнейшим отличием многомерных схем хранения данных от традиционных реляционных является отказ от нормализации.

Многомерные модели, часто называемые также звездообразными схемами (Star Schema), представляют собой подборки таблиц фактов, под которыми понимаются числовые данные или характеристики бизнес-процессов (например, объем продаж) в проекции на измерения.
Интеграция данных
Интеграция данных включает в себя алгоритмы извлечения, преобразования и загрузки (ETL), виртуализацию данных и другие технические средства унификации, формализации и доставки данных по месту назначения.
Витрины данных
Разновидность систем хранения данных, используемых для выдачи или представления особым образом отфильтрованных, отсортированных и упорядоченных данных из ХД пользователям или приложениям.
Пакетная регистрация изменений данных
Хранилища данных часто предусматривают загрузку в них накопившихся изменений раз в сутки (обычно, ночью, когда нагрузка минимальна) посредством пакетной обработки вводных данных из различных операционных систем. В процессе загрузки могут выявляться и учитываться различные изменения, а используемые для этого технические процедуры регистрации изменений зависят от характера систем-источников.
Режим реального времени (режим, близкий к реальному времени)
Подход к загрузке данных в ХД из систем-источников. Две ключевые концепции, которые должны быть реализованы для обеспечения обмена данными в режиме, близком к реальному времени, — вычленение и регистрация в центральном хранилище данных о каждом дискретном изменении и отказ от пакетной обработки данных в пользу альтернативных решений, обеспечивающих незамедлительную запись транзакционных данных из оперативной памяти в хранилище.
Проводимые работы
1
Выработка понимания требований к ХД

При сборе требований к проектам ХД/BI начать лучше с определения целей и стратегии бизнеса. Выявите и очертите области деятельности, затем выявите ключевых людей в каждой области и детально обсудите с ними, чем именно они занимаются и почему. Важно сформулировать их ожидания и какие потребности они хотят закрывать с помощью данных.
2
Определение и сопровождение архитектуры ХД/BI

→ Определение технической архитектуры ХД/BI
Идеальная архитектура ХД/BI должна изначально предусматривать механизм обратной связи, обеспечивающий поступление в ХД транзакционных и операционных отчетов должного уровня детализации. Естественным продолжением этого процесса является обеспечение полной согласованности архитектуры ХД/BI с корпоративной моделью данных (или, как минимум, подтверждение отсутствия явных противоречий между ними).

→ Определение процессов управления ХД/BI
Должно осуществляться скоординированным образом и включать полный комплекс необходимых регламентных работ и регулярный выпуск обновлений, а также новых версий.
3
Проектирование и разработка хранилища и витрин данных

Обычно работы по проектированию ХД/BI ведутся параллельно по трем направлениям.
→ Данные: определяются информационно-аналитические потребности бизнеса и источники данных, позволяющие их удовлетворить.
→ Технологии: проектирование служебных систем и процессов, обеспечивающих функцио- нирование хранилища и движение потоков данных.
→ Бизнес-аналитический инструментарий: разработка пакета приложений для потребителей данных.
4
Заполнение хранилища данных

Самая трудоемкая часть работы по созданию ХД/BI — подготовка к приему, обработке и сохранению данных, поступающих из различных источников, в рабочем режиме. Архитектура и модель данных определяют детальное содержание ХД и являются ключевым приоритетом при проектировании системной архитектуры ХД/BI.

Рекомендуется по максимуму инвестировать средства в обеспечение устойчиво высокого качества данных, технической архитектуры и производственной среды. Следующие шаги — надстройка над этим фундаментом.
5
Внедрение инструментов BI

Внедрение портфеля BI-приложений требует прежде всего грамотного выбора программных средств и инструментов, требующихся различным сообществам пользователей или бизнес-подразделениям.

→ Распределение пользователей по группам потребностей
→ Обеспечение соответствия инструментария потребностям
6
Сопровождение информационных продуктов

Сопровождение комплекса ХД/BI должно включать регулярное наращивание функциональных возможностей по всем ключевым параметрам, вот только добиться этого в динамической рабочей среде бывает не так-то просто. Совместно с бизнес-партнерами очертите круг основных приоритетов — и сфокусируйте основные усилия на самых необходимых доработках и усовершенствованиях.

→ Управление релизами
→ Управление жизненным циклом разработки продукта
→ Мониторинг и оптимизация нагрузки
→ Мониторинг использования и настройка производительности средств BI
Инструменты и методы
Процесс выбора исходного набора инструментов может оказаться долгим и непростым. Ведь нужно постараться сделать так, чтобы выбранный инструментарий обеспечивал удовлетворение и первоочередных насущных потребностей, и нефункциональных спецификаций, и даже еще не сформулированных требований в отношении решений следующего поколения. Ускорить выбор помогают готовые наборы критериев принятия решений и инструментов внедрения процессов, а также привлечение профильных специалистов.


→ Репозитории метаданных (словари, глоссарии, модели данных)
→ Средства интеграции данных
→ Типы инструментов BI (операционная отчетность, управление эффективностью бизнеса, аналитические приложения, OLAP, self-service BI)
Self-Service BI
Важнейшим принципом организации портфеля BI-приложений является самообслуживание (self-service).

Доступные пользователю действия обычно регулируются настройками профиля на портале доступа, где можно выбирать, подключать/отключать и конфигурировать различные функциональности, уведомления, сообщения и предупреждения, периодичность просмотра производственных отчетов, порядок взаимодействия с аналитическими отчетами, разрабатывать собственные отчеты и пользоваться настройками и функциями дашбордов.

Отчеты могут публиковаться по стандартному расписанию, чтобы пользователи могли ознакомиться с ними, когда это необходимо. Или же пользователи могут получать отчеты из хранилища с помощью запросов с портала. Наконец, порталы BI позволяют налаживать и обмен контентом между различными организациями.
Рекомендации
Стабильная архитектура с возможностью ее масштабирования по мере роста потребностей — первое непременное условие успешного проекта хранилища данных.
Группа эксплуатационного сопровождения и технической поддержки, способная грамотно справляться с ежедневной загрузкой и анализом данных, обеспечением работоспособности всех систем и обработкой заявок пользователей, — второе непременное условие.
В дополнение к первым двум условиям для обеспечения устойчиво успешной работы комплекса ХД/BI требуется согласованность действий и интересов технических и бизнес-подразделений.
Метрики для отслеживания
показатели использования
Основными показателями использования и востребованности комплекса ХД/BI обычно являются число зарегистрированных пользователей, а также число подключенных или активных пользователей за отчетный период или в среднем за сутки / рабочий день.
доли востребованных данных по предметным областям
Процентные показатели востребованности данных по различным предметным областям позволяют выявить, какие участки хранилища (с точки зрения топологии данных) пользуются спросом у каждого подразделения.
показатели времени ответа и производительности
Большинство программных средств фиксируют время отправки запроса и получения ответа. По этим данным и рассчитываются усредненные показатели времени отклика или производительности.
Подписывайтесь на новые выпуски проекта
Получайте обновления конспекта DMBOK2 себе на почту по мере их публикации
Подпишитесь на новые конспекты
И получайте их себе на почту по мере их выхода