У компаний есть часто используемые данные, которые необходимы для функционирования многих бизнес-процессов и систем. Когда подобные данные централизованы и открыты для общего доступа сотрудникам, и компания и ее клиенты только выигрывают.
Это могут быть списки клиентов, коды филиалов и географических мест, списки бизнес-подразделений, номенклатуры товаров, коды и ставки налогов и сборов… Любые данные, которые необходимы для ведения бизнеса.
Пользователи рассчитывают на их согласованность в рамках компании — любое столкновение «нескольких истин» создает сложности.
Введение в тему
В большинстве компаний информационные системы и модели данных развиваются более стихийными путями, чем хотелось бы специалистам по управлению данными. В подобных условиях, неизбежно возрастает рассогласованность данных, а любые расхождения влекут риски.
Для снижения рисков наличия расхождения в данных необходимо осуществлять управление основными и справочными данными (Master Data and Reference Data Management)
Цели управления справочными и основными данными
Совместное использование
Поддержка совместного использования данных в различных областях управления бизнесом и приложениями в масштабах организации
Обеспечение доверия
Предоставление доверенного источника согласованных справочных и основных данных проверенного качества
Снижение стоимости
Снижение затрат на ведение и уменьшение сложности данных за счет использования стандартов, общих моделей данных и шаблонов интеграции
Ключевые принципы управления
Совместное использование
Управление справочными и основными данными таким образом, чтобы обеспечивалась возможность их совместного использования в рамках всей организации
Владение
Справочные и основные данные принадлежат всей организации, а не конкретным подразделениям. Распоряжение ими должно осуществляться на как можно более высоком уровне
Качество
Требуется непрерывный мониторинг качества справочных и основных данных и руководство его обеспечением
Распоряжение
За контроль и обеспечение качества справочных данных отвечают распорядители бизнес-данных
Контролируемые изменения
В каждый момент времени основные данные должны соответствовать как можно более точному текущему представлению организации о положении дел. Процедуры внесения изменений в справочные данные должны выполняться в рамках строго определенного процесса
Авторитетность источника
Значения основных данных должны тиражироваться только с помощью единой системы записи. Для обеспечения совместного использования основных данных в масштабах организации может потребоваться применение эталонной справочной системы
Входные материалы для процесса
бизнес-драйверы
кросс-функциональные требования
отраслевые стандарты
глоссарий данных
наборы данных и кодов из внешних источников
бизнес-правила
Результаты процесса
требования к справочным и основным данным
модели данных и шаблоны интеграции
достоверные справочные и открытые данные
повторно используемые сервисы данных
Основные термины
Различия между основными и справочными данными
Обычно принято проводить четкое разграничение между транзакционными и основными данными, а также между основными и справочными данными.
Основные данные — данные, предоставляющие контекст для сведений о бизнес-деятельности, представленные в форме относящихся к этой деятельности общепринятых абстрактных понятий. Они включают описания (определения и идентификаторы) деталей внутренних и внешних объектов, вовлеченных в бизнес-процессы, таких как клиенты, продукты, сотрудники, продавцы и контролируемые области.
Справочные данные — менее изменчивы, проще по структуре и менее объемны, чем наборы транзакционных или основных данных.
В предложенной Малкольмом Чисхолмом таксономии данных выделены 6 следующие категории: → метаданные, → справочные данные, → данные о структуре организации, → данные о структуре транзакций (transaction structure data), → данные о деятельности в рамках транзакций (transaction activity data) → данные аудита транзакций (transaction audit data) (Chisholm, 2008; Talburt and Zhou, 2015).
В рамках этой таксономии основныеданные определяются как объединение справочных данных, данных о структуре организации и данных о структуре транзакций.
Управление основными данными (MDM)
Контроль значений и идентификаторов, обеспечивающий cогласованность данных во всех системах и наиболее точное отражение актуальных сведений об основных бизнес-сущностях.
Цели MDM включают обеспечение доступности точных текущих значений основных данных и минимизацию риска, cвязанного с их неоднозначной идентификацией.
Управление моделью данных
В логической модели основных данных термины и определения автоматически подразумевают их применимость в масштабе всей организации и должны с равным успехом вписываться в контекст операций всех без исключения бизнес-подразделений организации, а кроме того, не зависеть от терминологии, используемой в низовых системах, служащих источниками значений различных данных
Сбор и накопление данных
Планирование, оценка и подключение новых источников данных к системному решению по управлению основными данными должны осуществляться в рамках надежного, многократно воспроизводимого процесса.
Проверка, стандартизация и обогащение данных
Для обеспечения разрешения сущностей данные требуется сделать как можно более согласованными и однородными по структуре. Это подразумевает, как минимум, устранение разнобоя в форматах и рассогласованных значений. Устранение противоречий необходимо для минимизации риска ошибок из-за рассогласования записей в системе MDM
Разрешение сущностей
Разрешением сущностей называется процесс определения, относятся ли две различные ссылки на объекты реального мира к двум разным объектам или одному и тому же объекту (Talburt, 2011). Разрешение сущностей реализуется через процедуру принятия решения. Модели этой процедуры могут варьироваться в зависимости от выбранного подхода к определению тождественности или различия объектов, на которые указывают две ссылки.
Совместное использование и распоряжение данными
В идеале уроки, почерпнутые в процессе обслуживания основных данных, можно и нужно использовать для совершенствования алгоритмов и дальнейшей автоматизации процессов сравнения и согласования записей с целью минимизации ручной работы
Управление справочными данными (RDM)
Контроль допустимых множеств значений данных и их определений.
Цель RDM — обеспечить организации доступ к полному набору точных и актуальных текущих значений всех представляемых справочными данными понятий.
Собственные или внутренние справочные данные
Многие организации создают справочные данные для внутренних систем, процессов и приложений самостоятельно. Одним из компонентов RDM является управление наборами справочных данных организации, а в идеале и обеспечение их полной согласованности между собой в масштабах организации, поскольку рассогласованность чревата серьезными рисками.
Отраслевые справочные данные
Предельно обобщенный термин, описывающий любые наборы данных, создаваемые и регулярно обновляемые отраслевыми ассоциациями или регулирующими органами с целью обеспечения единообразия стандартов кодификации важных понятий.
Только кодификация способна обеспечить взаимопонимание и единую трактовку данных в отрасли, без чего невозможны ни корректный обмен, ни обеспечение совместимости систем по данным.
Системы записи и эталонные справочные системы
Система записи — это официально утвержденная система создания, сбора или регистрации данных и их последующего ведения согласно установленным правилам. Например, система ERP может по совместительству являться и системой записи для учета продаж.
Эталонная справочная система — это официально признанная система, через которую потребители данных могут получать надежные данные для текущей работы и анализа, даже если данные создаются в другой системе.
Часто в роли эталонной справочной системы выступают MDM-приложения, хабы для совместного использования данных или хранилища данных.
Доверенные источники и «золотые записи»
Доверенным источником (Trusted Source) признается тот, данные из которого представляют «лучшую версию правды» (best version of the truth), за счет автоматизированного применения правил проверки и ручного обслуживания контента распорядителями данных.
Любая MDM-система должна поддерживаться в таком состоянии, чтобы на нее можно было полагаться как на доверенный источник.
Записи, хранящиеся в доверенном источнике, с наиболее точной информацией об экземплярах сущностей принято называть золотыми записями (Golden Records)
Проводимые работы
1
Определение драйверов и требований → Валидация определений данных
Факторы влияния включают число, тип и поколение используемых ИТ-систем, поддерживаемые ими бизнес-процессы, назначение и порядок использования самих основных данных в транзакционных и аналитических процессах.
Драйверы развития систем MDM часто включают поиск возможностей для совершенствования обслуживания клиентов и повышения эффективности, а также снижения рисков в области информационной безопасности, защиты конфиденциальных и персональных данных.
2
Анализ и оценка источников данных
За основу при проработке структуры основных данных в системе MDM так или иначе берутся существующие данные приложений. Важно понять структуру и содержание данных каждого приложения и процессы их сбора или создания, оценить их качество и согласованность.
3
Определение архитектурного подхода
Выбор архитектуры среды MDM зависит от стратегии бизнеса, платформ существующих источников данных, характера и структуры самих данных, в частности от их генеалогии и волатильности, а также от допусков по запаздыванию синхронизации данных.
Архитектура должна согласовываться с моделями потребления данных и совместного доступа к данным. Инструментальное оснащение также будет зависеть не только от потребностей бизнеса, но и от выбранных вариантов архитектурных решений.
4
Моделирование данных
Управление основными данными — это процесс интеграции данных из множественных источников. Для обеспечения согласованности получаемых результатов и возможности оперативного подключения новых источников по мере расширения организации необходимо иметь проработанные модели данных во всех предметных областях
5
Внедрение процессов распоряжения и ведения
Нужно своевременно выявлять и исправлять случаи выпадения отдельных записей из автоматизированного процесса, а также отыскивать и устранять первопричины таких выпадений на уровне самих процессов.
6
Определение руководящих политик
В рамках внедрения MDM должна быть создана дорожная карта перевода всех информационных систем на использование значений и идентификаторов основных данных при реализации операционных процессов.
Инструменты и методы
Управление основными данными требует инструментария, разработанного специально для управления идентификаторами записей. Для реализации MDM могут использоваться средства интеграции данных, программы корректировки данных, операционные хранилища данных, хабы совместного использования данных или специализированные MDM-приложения.
Пакетные решения по управлению продуктами, счетами, учетными записями и базами данных, а также пакеты служб проверки качества данных тоже могут послужить отправной точкой для начала внедрения крупномасштабных программ MDM.
Рекомендации
→
Управление и основными, и справочными данными по формальному признаку может быть отнесено к работам по интеграции данных. Следовательно, внедряемые системы MDM и RDM должны обеспечивать соблюдение принципов интеграции и совместимости данных, описанных в главе 8.
→
Функциональности систем MDM и RDM единым мощным рывком не внедряются и сами со- бой не складываются. Решения в этой области требуют детального знания как специфики бизнеса, так и информационных технологий.
Организации должны рассчитывать на поэтапное внедрение и постепенное наращивание функциональных возможностей решений по MDM и RDM посредством последовательной реализации проектов, предусмотренных дорожной картой внедрения, приоритетность и очередность которых зависит как от нужд бизнеса, так и от общей архитектуры их информационных систем.
→
Особо отметим, что реализация программ MDM обречена на провал при отсутствии должного высокоуровневого управления. Специалисты по распоряжению данными организации должны в полной мере понимать сложности, присущие MDM и RDM, и трезво оценивать зрелость организации и ее способность справляться с этими трудностями — подробнее в главе 15.
Метрики для отслеживания
качество и соответствие данных
В частности, должны отображаться оценки (%) достоверности и соответствия нуждам организации данных по предметным областям, объектам или атрибутам.
контроль изменений
Метрики должны обязательно включать частоту изменения значений данных, поскольку она позволяет судить о внутренних характеристиках систем — источников данных и подстраивать под них алгоритмы процессов MDM в среде совместного доступа.
показатели трафика данных
Показатели входящего и исходящего трафика по каналам обмена данными позволяют отслеживать системы, вносящие наибольший вклад в сбор данных, и бизнес-процессы, наиболее нуждающиеся в данных, получаемых по подписке из среды совместного доступа.
соглашения об уровнях обслуживания (SLA)
полнота и своевременность обновления данных ответственными лицами
У каждой категории данных должен иметься распорядитель (должностное лицо или отдел), отвечающий за полноту содержания и своевременное обновление данных.
себестоимость данных
Потребление данных из внешних источников системами MDM/RDM и спрос на справочные и основные данные отслеживаются по входящему/исходящему трафику и позволяют судить об эффективности работы среды совместного доступа.