Глоссарий
DAMA DMBOK2
Работая над проектом по популяризации «DAMA DMBOK2: Cвода знаний по управлению данными» мы столкнулись с большим количеством узкоспециализированных терминов. И решили их собрать на одной странице, чтобы дать возможность всем, кому это будет интересно и полезно, изучить определения, которыми оперирует DAMA DMBOK2 в частности и отрасль работы с данными в целом.

Глоссарий пополняется после разбора каждой новой главы DAMA DMBOK2.
Общие термины и определения
Архитектура данных
Определяет план управления активами данных в соответствии со стратегией организации по установлению стратегических требований к данным и проектам, отвечающим этим требованиям
Хранилище данных
Это система, в которой структурированно хранятся все виды данных для использования в целях анализа и/или составления отчетов. Считается ключевым компонентом систем бизнес-аналитики
Центральное хранилище данных
Отдельное, централизованное хранилище, в котором хранятся все данные компании. Отдельное и централизованное — в смысле структуры. Вполне возможно, что центральное хранилище данных работает на нескольких физических системах и/или в разных местах. Для пользователей это единственный центральный источник данных
Инструменты бизнес-анализа
Инструменты бизнес-анализа предназначены для грамотного создания отчетов и интерактивных дашбордов всевозможных форм и размеров. Примеры функциональных возможностей инструментов бизнес-анализа: таблицы, графики, детализации, формирование срезов данных, показатели эффективности, составление отчетов в реальном времени
Модель данных
Модель данных описывает способ структурирования данных в информационной системе

Концептуальная модель данных описывает структуру отношений между концептуальными объектами данных — сущностями. Графическая запись концептуальной модели данных обычно выполняется в виде диаграммы сущностей и связей (ERD)

Логическая модель данных описывает структуру ссылок между объектами логических данных — таблицами. Концептуальная модель связана с логической моделью в том, что сущности преобразуются в таблицы (точнее, в определения таблиц), а отношения преобразуются в ограничения по связи этих таблиц. Логическую модель данных можно графически записать в виде диаграммы структуры данных (DSD)

Физическая модель данных описывает способ хранения данных в отдельной базе данных. Связь между логической и физической моделью данных устанавливается путем преобразования объектов логических данных в инструкции по определению баз данных в соответствии с конкретным языком определения данных (DDL, Data Definition Language). После исполнения языка определения данных на физической базе данных, определения объектов базы данных хранятся в словаре данных
Метаданные
Метаданные — это важная часть хранилища данных. Метаданные описывают фактические данные, находящиеся в хранилище. Примеры метаданных: определения полей в таблицах, описания преобразований из источника в хранилище данных, информация об обновлении хранилища данных и т. д. Метаданные хранятся в так называемом репозитории метаданных или словаре данных
Словарь данных
Это база данных, в которой хранятся уточняющие данные о структурах данных и базах данных — метаданные. Словарь данных или репозиторий метаданных — это централизованное хранилище информации о данных: определения, список значений, отношения с другими данными, происхождение и использование, формат, формулы расчета
Хранение и операции над данными
Процессы разработки, реализации и поддержки хранимых данных для максимального увеличения их ценности. Операции обеспечивают поддержку на протяжении всего жизненного цикла данных от планирования до удаления данных (уничтожения)
Утилизация данных
Процесс утилизации данных, хранящихся на магнитных лентах, жестких дисках и других формах электронных носителей, так, что данные становятся полностью нечитаемыми и не могут быть доступны или использованы в несанкционированных целях
Этика обращения с данными
Комплекс мер по обеспечению соответствия практик получения, хранения, управления, интерпретации, анализа, применения и ликвидации данных общечеловеческим этическим принципам, включая ответственность перед обществом
Безопасность данных
Обеспечивает сохранение приватности и конфиденциальности данных, защиту данных и надлежащий к ним доступ
Интеграция данных
Включает процессы, связанные с перемещением и консолидацией данных внутри и между хранилищами данных, приложениями и организациями
Качество данных
То, чему соответствуют данные согласно установленным требованиям касательно, например, надежности, валидности, полноты, актуальности и степени, к которой относятся данные в соответствии с бизнес-правилами.
Гарантия качества (QA)
Это процесс, который гарантирует определенное качество данных или корректные результаты исходя из поставленных требований. Обеспечение качества определено в стандарте «Системы менеджмента качества»
Процессы и продукты ETL
Программное обеспечение класса ETL обеспечивает доступ к исходным файлам и правильную загрузку хранилища данных. Но ETL — это скорее процесс, по которому данные извлекаются из исходной системы (Extract, извлечение), проверяются и корректируются для соответствия нормам хранилища данных (Transform, преобразование), а затем загружаются в хранилище данных (Load, загрузка). Во время процесса преобразования чаще всего данные очищаются, приводятся к единому формату и проверяются на качество — чтобы затем загрузить их целевое хранилище данных в приемлемом виде
Бизнес-правила
Это преобразование деловой стратегии, законодательства или опыта в руководство к действиям. Это система регулирований, которые сотрудники и компании должны учитывать при осуществлении своей деятельности
Управление результативностью
Управление результативностью организации — это постоянный процесс, в котором достижение целей, или повышение эффективности деятельности, контролируется конечной целью реализации стратегии. Оно сосредоточено не только на финансовых целях, но и на внутренних процессах, на клиенте, на инновациях и на росте организации: на всех четырех аспектах сбалансированной системы показателей. Термин используется для описания методов, показателей, процессов и систем, используемых для контроля и управления эффективностью деятельности предприятия
Сбалансированная система показателей
Методология, разработанная Робертом Капланом и Девидом Нортоном в 1992 году, с целью получить четкое представление об эффективности организации. Сбалансированная система показателей работает с показателями, дающими оценку по предварительно определенным критериям. На основании этих оценок можно получить представление об эффективности работы организации. Критерии делятся на четыре равновесных аспекта: клиент, процесс, инновации и финансы
Ключевые факторы успеха
Ключевые факторы успеха показывают, что именно делает (или должно делать) организацию действительно уникальной, и описывают процессы, которые являются определяющими для успеха или провала организации. Ключевой фактор успеха — это характеристика организации или среды, существенной для жизнеспособности и успеха этой организации. Он может быть как положительным, так и отрицательным

Основная мысль заключается в том, что некоторые аспекты работы настолько важны, что им необходимо уделять больше внимания — на стратегическом уровне. Каплан и Нортон наоборот утверждают, что стратегия должна содержать ограниченное число ключевых факторов успеха, от 7 до 10. Иначе она быстро станет непонятной, а внимание — рассеянным среди слишком большого количества объектов. Кроме того, ключевые факторы успеха должны быть уравновешены, равномерно распределены среди разных направлений при управлении организацией
Директор по данным (Chief Data Officer)
Это должностное лицо компании, ответственное в масштабах предприятия за управление информацией и ее использование в качестве основного актива путем обработки, анализа, поиска данных, торговли информацией и другими способами
Возврат от инвестиций (ROI)
Это коэффициент, показывающий уровень доходности или убыточности бизнеса или внедряемой системы, учитывая сумму сделанных вложений. Может выражаться во времени (за какой период мои инвестиции окупятся) или в процентах (какой процент прибыли мне принесут мои инвестиции)
Совокупная стоимость владения (TCO)
Это совокупные (ожидаемые) затраты, связанные с внедрением информационного решения или системы. Охватывает больше, чем просто инвестиции, и включает также расходы на управление, содержание, стоимость возможных рисков и прочее
Управление качеством информации (IQM)
Это процесс, с помощью которого измеряются и улучшаются интерпретируемое качество и значение информации, используемой для принятия решений, анализа деятельности и управления организации
Стюард информации
Стюард информации несет ответственность за внесение элементов данных в реестре метаданных. Эта функция встречается в организациях, в которых важен обмен и повторное использование данных между несколькими системами
Управление знаниями (KM)
Это процесс сбора, обработки и особенно обмен знаниями, умениями и опытом в компании с целью переработки и сохранения массива качественных экспертных знаний
Концептуальная модель данных (Conceptual Data Model, CDM)
Фиксирует высокоуровневые требования к данным как к набору взаимосвязанных понятий. Она содержит только базовые и критически важные для бизнеса сущности в рассматриваемой функциональной области с описанием каждой сущности и связей между ними
Логическая модель данных (Logical Data Model, LDM)
Детально отражает требования к данным, обычно в контексте их конкретного применения — например, с точки зрения потребностей в данных пользовательских приложений. На логическом уровне модель данных всё еще независима от каких-либо технологических ограничений, которые возникают и учитываются лишь на стадии реализации. Обычно логическая модель, по крайней мере поначалу, строится как детализирующее расширение концептуальной модели данных. В реляционных схемах логическая модель данных строится путем добавления атрибутов к объектам концептуальной модели
Физическая модель данных (Physical Data Model, PDM)
Отражает детализированное техническое решение, за основу которого обычно берется логическая модель данных, а затем доводится до состояния полной совместимости с комплексом аппаратного и программного обеспечения и сетевого оборудования. Физические модели данных разрабатываются в расчете на конкретные технологии. Реляционные базы данных, например, проектируются с учетом функциональной специфики СУБД, которую планируется использовать
Денормализация данных
Намеренное внесение в физические таблицы, создаваемые на основе нормализованной логической модели, избыточных или дублирующих друг друга полей данных (т.е. подразумевается умышленное размещение одного и того же атрибута в двух или более местах)
Нормализация данных
Заключается в применении наборов правил, позволяющих упорядочить всё разнообразие необходимых для ведения бизнеса данных в стабильные структуры (по сути — сделать так, чтобы каждый атрибут содержался строго в одном месте во избежание избыточности данных и, как следствие, их возможной противоречивости)
Прямое проектирование
Построение нового приложения, начиная с выяснения предъявляемых к нему требований. Cначала создается CMD, чтобы понять границы и состав предстоящих работ, выработать и согласовать ключевую терминологию. Затем создается LMD, документирующая бизнес-решение, и наконец — PMD, документирующая техническое решение.

Создание концептуального моделирования данных (CMD) включает:
  • Выбор схемы
  • Выбор нотации
  • Создание исходной CMD
  • Учет корпоративной терминологии
  • Окончательное согласование
Логическое моделирование данных
Логические модели данных требуют модификаций и адаптации с целью получения итогового проектного решения, обеспечивающего эффективную работу в среде конкретной СУБД.

  • Анализ информационных потребностей
  • Анализ имеющейся документации
  • Добавление ассоциативных сущностей
  • Добавление атрибутов
  • Определение доменов
  • Определение ключей
Физическое моделирование данных
Включает:
  • Разрешение логических абстракций
  • Добавление детальной информации об атрибутах
  • Добавление объектов справочных данных
  • Определение суррогатных ключей
  • Повышение производительности за счет денормализации
  • Повышение производительности за счет индексирования
  • Повышение производительности за счет секционирования
  • Создание представлений данных
Обратное проектирование – реверс-инжиниринг
Это процесс документирования существующей базы данных. Первым делом составляется PMD с целью понять техническое устройство имеющейся системы, затем создается LMD с целью документирования решаемых ею бизнес-задач, и, наконец, подготавливается CMD для документирования области применения системы и используемой терминологии

Содержание конспектов
Публикуем раз в месяц, сопровождая онлайн-вебинарами и обсуждениями