Интеграция
данных

И интероперабельность.
Конспект DAMA DMBOK2 на русском языке
Глава 8
Введение в тему
Интеграция и интероперабельность данных — Data Integration and Interoperability, или сокращенно DII, описывает процессы, связанные с перемещением и консолидацией данных.

Некоторые примеры функций бизнеса, которые опираются на принципы интеграции и интероперабельности данных:

→ миграция и конвертация данных
→ интеграция программных продуктов сторонних поставщиков в единый комплекс приложений организации
→ совместное использование данных различными приложениями как в рамках одной организации, так и в рамках группы организаций
→ распространение данных по хранилищам и ЦОДам

... и другие.

Интеграция и интероперабельность данных критически важны для ведения хранилищ данных и бизнес-аналитики, а также для управления справочными и основными данными, в том числе и Big Data

Поскольку в большинстве компаний сотни баз и хранилищ данных, управление процессами перемещения данных между ними и обмена данными с другими организациями становится одной из главных сфер ответственности любой ИТ-службы.
Цели интеграции и интероперабельности данных
Предоставление данных

С соблюдением требований безопасности, в нужном формате и в нужное время
Снижение
стоимости

И сложности решений по управлению данными за счет разработки
общих моделей и интерфейсов
Автоматизация решений

Выявление значимых событий и автоматический запуск процедур выдачи уведомлений
и принятия мер
Поддержка
BI

И функций аналитики, управления основными данными и обеспечение операционной эффективности
Входные материалы для процесса
цели и стратегии бизнеса
архитектура данных и процессов
потребности в данных и стандарты данных
семантика данных
требования по безопасности и праву
данные источников
Результаты процесса
архитектура DII
сервисы данных
спецификации обмена данными
условия реагирования и нотификации при обработке сложных событий
соглашения о доступе к данным

Снижение сложности управления интерфейсами обмена данными может сократить затраты на их обслуживание и дать возможность перераспределить ресурсы сопровождения на решение других приоритетных задач организации

Основные термины
Извлечение, преобразование и загрузка (ETL)
В основе любых решений в области интеграции и интероперабельности данных лежит процесс извлечения, преобразования и загрузки (Extract, Transform, and Load, ETL).

Процесс извлечения включает выбор требуемых данных и выгрузку их из источника. Процесс преобразования переводит выбранные данные в структуру, совместимую с целевым хранилищем. Процесс загрузки отвечает за физическое сохранение или представление преобразованных данных в целевой системе.
Примеры преобразований могут включать следующее.

Изменения формата. Перекодировка данных из одного формата в другой
Изменения структуры хранения данных
Семантическая конверсия. Преобразование данных для поддержки соответствующего семантического представления. Пример: в исходном наборе данных допустимые значения атрибута Пол — 0, 1, 2 или 3; в целевом наборе им соответствуют текстовые значения: НЕ ИЗВЕСТЕН, МУЖСКОЙ, ЖЕНСКИЙ или ДАННЫЕ НЕ ПРЕДОСТАВЛЕНЫ
Дедупликация. Удаление дублирующих строк
Переупорядочивание. Изменение порядка элементов данных или записей в соответствии с определенным шаблоном
Извлечение, загрузка и преобразование (ELT)
Если целевая система располагает значительно большими возможностями трансформации, чем исходная, порядок процессов может быть изменен на ELT (Extract, Load, and Transform). ELT позволяет выполнять преобразование данных после загрузки в целевое хранилище или нередко как часть процесса загрузки.
Мэппинг
Процесс преобразования данных из исходной структуры в целевую или результат этого процесса. Многие ПО для интеграции предлагают функции визуализации мэппинга, позволяющие разработчикам использовать графический интерфейс для создания кода преобразования.
Пакетная обработка (batch)
Является способом перемещения объема данных между приложениями или организациями в массивах или файлах, отправка которых выполняется по запросу пользователей либо в автоматическом режиме по расписанию.
Репликация
Синхронизация физически распределенных копий наборов данных. Решения с использованием репликации позволяют минимизировать влияние операций по анализу и сложных запросов на производительность среды, обеспечивающей в первую очередь обработку транзакций.
Архивирование
Перенос неиспользуемых данных в альтернативную структуру или на устройство хранения, которое требует от организации меньших затрат.
Программное обеспечение как услуга (SaaS)
Это модель поставки и лицензирования ПО, в рамках которой приложения предоставляют услугу, но сами они и данные физически находятся в ЦОДах поставщика ПО, а не приобретающей лицензию организации.
Интеграционная платформа как услуга (IPaaS)
Это форма интеграции систем, предоставляемая как облачный сервис, реализующий различные варианты использования данных, процессов, сервис-ориентированной архитектуры (SOA) и интеграции приложений.
Проводимые работы
1
Планирование и анализ
→ Требования к интеграции и жизненному циклу данных
→ Исследование данных
→ Документирование происхождения данных
→ Профилирование данных
→ Проверка соблюдения бизнес-правил
2
Проектирование DII-решений
→ Проектирование компонентов решения
→ Мэппинг исходных структур данных на целевые
→ Проектирование оркестровки данных
3
Разработка DII-решений
→ Разработка сервисов данных
→ Разработка потоков данных
→ Выработка подхода к миграции данных
→ Разработка потоков обработки сложных событий
→ Ведение метаданных для DII
4
Внедрение и мониторинг
Инструменты для обеспечения интеграции и интероперабельности
Программный комплекс преобразования данных (ETL-инструмент)
ETL-инструмент — основной инструмент в наборе интеграционных программных средств, являющийся главным условием выполнения корпоративной программы интеграции данных. Такие комплексы обычно поддерживают как непосредственное выполнение операций по преобразованию данных, так и их проектирование.
Сервер виртуализации данных
Программные комплексы для преобразования данных, как правило, извлекают, преобразуют и загружают данные на физическом уровне, в то время как серверы виртуализации данных позволяют выполнять эти операции виртуально и при этом объединять структурированные данные с неструктурированными.
Корпоративная шина данных
Корпоративной шиной данных (ESB) помимо модели программной архитектуры называют разновидность ориентированного на передачу сообщений промежуточного ПО в рамках одной организации. Большинство внутренних интеграционных решений, требующих согласования данных чаще, чем раз в сутки, строятся на основе именно этой архитектуры и технологии.
Средства моделирования данных и процессов
Инструменты моделирования данных следует использовать для проектирования целевых и промежуточных структур данных, необходимых для реализации решений по интеграции.
Средства профилирования данных
Профилирование данных предполагает статистический анализ содержимого информационных массивов с целью получения более полного представления о формате, полноте, согласованности, достоверности, актуальности и структуре данных.
Репозиторий метаданных
Репозиторий метаданных содержит информацию о данных организации с описанием их структуры, содержимого и бизнес-правил управления данными.
Рекомендации и принципы
При проектировании стоит придерживаться корпоративного подхода, обеспечивающего возможность последующего расширения и масштабирования. Этап реализации лучше проводить итерационно, то есть пошагово вводить новые решения в эксплуатацию.
Внедряя решения DLL, нужно сбалансированно учитывать локальные и корпоративные потребности в данных, а также в поддержке и сопровождении.
Следует обеспечить ответственность бизнеса в области DII. Эксперты со стороны бизнеса должны привлекаться к разработке и модификации правил преобразования данных.
Метрики для отслеживания
объемы и скорость передачи данных
стоимость и сложность решения
задержка данных
полученная выгода
время внедрения доработок

Проект Data Literacy в России по популяризации «DAMA-DMBOK2: Cвода знаний по управлению данными». Постепенно разбираем труд в формате конспектов, вебинаров и подкастов

Все термины и определения по проекту Конспекта DAMA DMBOK2. Собраны на одной страничке для вашего удобства с любовью

Проект Data Literacy в России по популяризации «DAMA-DMBOK2: Cвода знаний по управлению данными». Постепенно разбираем труд в формате конспектов, вебинаров и подкастов

Изучаем свод знаний по управлению данными вместе с Qlik

Вебинар по прикладным идеям DMBOK2

Изучаем свод знаний по управлению данными вместе с Qlik

Изучаем свод знаний по управлению данными вместе с Qlik

Подписывайтесь на новые выпуски проекта
Получайте обновления конспекта DMBOK2 себе на почту по мере их публикации
Подпишитесь на новые конспекты
И получайте их себе на почту по мере их выхода