День 02 • Заговори на языке данных

В поисках
общего основания

→ о типах данных
→ об агрегациях
→ о процессах управления данными

день 02

Сегодня на волнах нашего дата-эфира

Продолжаем погружение в работу с данными. Сегодня поговорим о фундаменте — типах данных, видах шкал и агрегациях. Закончим день дополнительной темой понимания процессов управления данными, которые выстроены в компаниях.

Введение в грамматику данных

Все кто когда-либо учил иностранный язык понимают, что изучение языка — комплексное освоение навыков чтения, понимания, разговора и восприятия.

Язык данных включает те же самые подходы, которые мы используем в нашем «разговорном» мире. Мы учимся читать и изучаем основные блоки языка. Мы учимся слушать других и обрабатывать, то что воспроизводится другими. Мы начинаем формулировать собственные сообщения. Мы делимся ими с другими людьми и наблюдаем за реакцией окружающих на наши мысли и предложения. И, конечно же, мы стремимся пообщаться с теми, кто свободно общается на новом для нас языке.

Понимание типов данных

Начнем с простого определения. Данные — это набор фактов и наблюдений, которые можно использовать для анализа, расчетов, планирования и прогнозирования. Все данные можно разделить на две категории: структурированные данные и неструктурированные.

Большинство данных в мире неструктурированно. Такие данные, как правило, представлены в виде текста, который может содержать любую информацию: цифры, даты, прочие факты.

→ примеры неструктурированных данных

Примером неструктурированных данных могут являться любые тексты, книги, видео, аудио, изображения – вообще практически все, что вы видите вокруг себя.

Даже эта страница является примером неструктурированных данных, несмотря на то, что она содержит в себе определенную структуру, способствующей отображению страницы (HTML-код). Мы все равно не можем провести какой-либо анализ содержимого на этой странице без этапа обработки и подготовки данных.

Здесь можно снова вспомнить схему этапов обработки данных из предыдущего дня. Для этапа подготовки неструктурированных данных к анализу используют методы интеллектуального анализа данных (Data Mining) и методы обработки естественного языка (для распознавания речи, Natural Language Processing). Также существуют более простые системы, например, сервисы веб-скрейпинга (Web Scraping) для сбора и категоризации текстовых данных из веб-страниц.

→ примеры структурированных данных

Структурированные данные – все, которые имеют формализованную структуру. То есть, их можно разложить на столбцы и строки и загрузить в инструмент для анализа данных.

Это данные о посещении сайтов в системах веб-аналитики, о покупках в интернет-магазине (или просто в магазине, nalog.ru), о проведенных финансовых операциях, транзакциях, мобильной связи, в общем... примеров можно найти очень много.

Структурированные данные упорядочены и типизированы. Хранятся в форме таблицы, имеют столбцы (поля), и строки (записи). Еще говорят, что каждый столбец представляет собой атрибут данных, а каждая строка — единицу наблюдения

атрибуты таблицы формируют каркас для нашего анализа, а единицы наблюдения наполняют его

Основные виды измерения данных

Так как данные могут находиться в любом виде (структурированном и неструктурированном), нам скорее важнее понять как с ними работать? Что можно рассчитать на основе тех или иных данных? Какие методы анализа применимы к тому или иному виду данных?

Нам важно понимать, как мы измеряем те или иные данные, чтобы применять подходящие методы их анализа

Поэтому, мы акцентируем внимание на типах шкал — типах измерения данных. Зная с какими данными вам предстоит работать, вы будете знать и ваш план действий, чтобы провести анализ грамотно.

Виды измерения данных делятся на качественные и количественные. Каждый из них делится еще на два типа со своими особенностями. Их и рассмотрим.

Качественные данные

Содержат наименования категорий, поэтому их также называют категориальными. На таких данных нельзя провести никаких математических операций. Мы не можем умножить апельсины на овсяные печенья, правда? Значения категорий уникальны. По своей форме, качественные данные могут содержать только текст («овсяное печенье»), могут состоять полностью из цифр (номер паспорта), а могут содержать и то и другое (номер автомобиля).

Качественные данные делятся на номинальные и порядковые. Здесь все просто: у номинальных данных нет порядка, а у порядковых есть заданная последовательность. Мы не можем количественно сравнивать номинальные данные, но можем оценить порядковые данные: у каждой порядковой категории есть свое значение.

Номинальные данные —
жанры кино: боевик, комедия, драма, детектив
набор фруктов: яблоко, апельсин, банан
ученики класса: Даша, Вова, Ксюша, Петя

Порядковые данные —
медаль, полученная на соревнованиях: бронза, серебро, золото
размеры одежды: XS-S-M-L-XL
рейтинги книг, фильмов, ресторанов: от 1 до 5 звезд
опросная шкала Лейкерта: от «полностью несогласен» до «полностью согласен»

→ подробнее про номинальные и порядковые данные

В жанрах кино нет заданной последовательности, мы не можем сказать какой жанр больше или меньше остального (количество фильмов будет уже новым показателем, новым типом данных). Мы можем проверить только равенство или неравенство значений: «боевик"="комедия»?

При работе с порядковыми данными, мы имеем такие же различающиеся наименования категорий, только теперь у каждой категории есть значение и это позволяет нам сравнить, какая из категорий больше или меньше. Мы знаем, что золотая медаль > серебряной, а серебряная > бронзы (мы можем сравнить стоимость металла). При этом, если подумать, стоимость золота отличается от серебра сильнее, чем стоимость серебра от бронзы, поэтому ценность порядковых категорий не равнозначна.

Количественные данные

Содержат в себе числа, поэтому позволяют совершать над собой разные математические операции. Как и порядковые данные, количественные данные могут сравниваться между собой при помощи сравнения больше/меньше.

Количественные данные делятся на интервальные и относительные.

Интервальные данные также проименованы и имеют заданный порядок, как в предыдущих двух видах. Но основным отличием является свойство равных интервалов. Интервальная шкала позволяет однозначно определить, какое значение больше или меньше и на сколько. Однако, не все виды математических операций могут быть применимы (зачем нам нужна сумма наблюдений температур в городе за неделю?)

Интервальные данные —
температура
географические координаты
года (2018, 2019, 2020)

Относительные данные —
рост
вес
возраст

Относительные данные похожи на интервальные. Основное отличие: относительные данные не могут быть отрицательными, у них есть действительный ноль. «В интервальных данных тоже есть ноль!» — скажете вы. Но на самом деле, 0º температуры за окном или нулевой год — это условность, которая была искусственно придумана для облегчения жизни. Не бывает «отсутствия» температуры, как и не бывает нулевого, в истинном смысле, года на нашей прямой времени.

Временные данные

Для работы в инструментах для анализа и визуализации данных можно выделить и третий вид измерения данных для работы со временем.

Время с точки зрения структуры имеет много уровней. Представьте текущую неделю в календаре. Ее можно записать, как:
→ 15.03.2021, 16.03.2021, 17.03.2021 (интервальная)
→ 15 марта, 16 марта, 17 марта (номинальная)
→ понедельник, вторник, среда (порядковая)

Кроме того, мы можем разбить нашу шкалу на часы, минуты, недели, кварталы – в общем, иметь разный вид представления, который зависит от ваших задач. Поэтому, временная шкала по-своему уникальна.

Помимо использования периодов для анализа операционной деятельности (час-день-неделя), также используются более агрегированные периоды. Вы можете встретить следующие аббревиатуры для обозначения агрегированных периодов: QRT, H, YTD, MAT. Нередко, использование данных периодов привязано к бизнес-циклам (получение бонусов, подсчет итогов года), либо для учета сезонности или сглаживания объемных поставок/продаж.

Дмитрий Ткачук

Ведущий эксперт по анализу рынка, ГИЛС и НП


QRT – Quarter – квартал, календарный квартал
H – Half of year – полугодие, 6 месяцев
YTD – year to date – накопительный итог с начала года
MAT – moving annual total – скользящий 12-месячный период
Например: 1QRT = Янв-Фев-Мар,
2H = второе полугодие, Июл-Авг-Сен-Окт-Ноя-Дек
YTD-May = Янв-Фев-Мар-Апр-Май, либо если допустим, финансовый год начинается в октябре, то тогда Окт-Ноя-Дек-Янв-Фев-Мар-Апр-Май
MAT-May = Июн-Июл-Авг-Сен-Окт-Ноя-Дек-Янв-Фев-Мар-Апр-Май

Основные виды агрегации данных

Второе важное понятие при работе с данными, это агрегация.

Возможности нашего восприятия не позволяют проводить анализ данных в уме, просматривая сотни записей в таблице одна за одной. Но возможности программ и приложений для анализа данных основаны на функциях агрегирования данных! Это основной способ получения представления об имеющихся данных.

Агрегация — это способ объединения данных для упрощения их восприятия и анализа.

Представьте, что у вас есть набор данных погоды в вашем городе за последние 10 лет: это более 3500 тысяч наблюдений по нескольким показателям. Чтобы ответить на вопрос «стали ли зимы теплее», вам нужно оценить изменение температуры за сотни записей во времени. Просматривать 3500 строк «вручную» неэффективно, но вы можете сделать агрегацию — среднюю температуру за каждый год и отследить ее динамику.

сумма

суммирование всех наблюдений

среднее

подсчет арифметического среднего

минимум / максимум

наименьшее или наибольшее наблюдение

количество

сколько раз встречается то или иное значение

Количество — немного «искусственная» агрегация, т.к. мы можем посчитать количество чего-угодно — хоть количество цифр, хоть количество уникальных категорий.

Еще есть способы агрегации данных, о которых мы поговорим в дне 04, разбирая тему мер центральной тенденции (среднее, медиана, мода).

Понимание агрегаций само по себе важно, но также важно понимать к чему их можно применять. Например, мы не можем просуммировать номинальные значения фруктов («яблоко"+"груша»?), но в инструментах для анализа данных вы сможете найти технический минимум или максимум для той же категории (по алфавитному порядку первой буквы), вопрос в том — будет ли это иметь смысл.

Агрегации могут быть и усложненными. То есть, это могут быть комплексные показатели и метрики, которые рассчитают одно значение на основании имеющихся у вас данных. Но все агрегации и агрегированные метрики ставят перед собой цель упростить понимание данных, показать характеристику данных, их качества максимально емко.

Управление данными

Концептуально, работа с данными не сводится только к его анализу. В прошлом дне Марафона мы уже упоминали необходимость этапа подготовки данных к анализу — их трансформации, очистке и проверке на качество. Но на самом деле, можно выделить 11 областей знаний, которые поддерживают процессы управления данными.

→ Архитектура данных
→ Управление качеством данных
→ Управление метаданными
→ Ведение хранилищ данных и бизнес-аналитика
→ Управление справочными и основными данными
→ Управление документами и контентом
→ Интеграция и интероперабельность данных (ETL)
→ Управление безопасностью данных
→ Хранение и операции с данными
→ Моделирование и проектирование данных
→ Руководство данными

Эти направления входят в так называемое «колесо DAMA». И если перед вами стоит задача управления данными в рамках большого количества потоков данных, скорее всего, вы сможете получить базовые знания по этим дисциплинам в книге DAMA DMBOK — Свода знаний по управлению данными.

DAMA DMBOK действительно можно назвать фундаментальным сводом знаний, покрывающий все направления работы с данными в организациях.

Конспекты DAMA DMBOK2

DataLiteracyProject бесплатно публикует краткие конспекты с основные идеями из всех 11 глав DAMA DMBOK2. Проект ставит перед собой цель популяризации и формирования общего понимания базовых принципов работы с данными — доступно и бесплатно

Перейти

Про важность управления данными

Михаил Садофьев

Руководитель направления продвинутой аналитики, Accenture Россия

Важность управления данными как комплексной задачи, которая требует отдельного внимания организации, можно проиллюстрировать следующим характерным кейсом.

Крупный российский банк много лет развивает практику аналитики, хранилище данных и BI-инструменты. В определенный момент развития Банк столкнулся со следующими комплексными проблемами:
→ Нет практики оценки соответствия задач потребностям развития Банка, механизмов приоритезации задач аналитики
→ Нет выделенных центров ответственности и экспертизы за блоки данных, а также взаимодействия между ними
→ Требования к данным и аналитике со стороны разных подразделений Банка не согласованы. Отсутствует единая бизнес-терминология.

еще проблемы

→ Бизнес-аналитики выполняют совмещенные функции бизнес и системного анализа и часто переданы в прямое управление бизнес-заказчикам
→ Неконтролируемый рост одновременно поддерживаемых пилотных решений отчетности и «песочниц», неоптимальное использование ресурсов
→ Контроль качества данных осуществляется только для ограниченного набора областей данных
→ Отсутствие сквозного и системного архитектурного надзора привело к необходимости масштабного реинжиниринга аналитической инфраструктуры

Как следствие, время реализации аналитических задач не всегда соответствует требованиям бизнеса. А отчетность получается иногда далеко не с первого раза из-за проблем понимания, интеграции и качества данных.

Для эффективной работы функции управления данными необходимо обеспечить кросс-функциональное взаимодействие между различными подразделениями.

Для этого в Банке были внедрены:
→ Институт Владельцев данных в подразделениях-заказчиках
→ Ресурсы для организации процессов управления данными в масштабах организации
→ Инструменты управления данными — воркфлоу задач, архитектурный репозиторий, бизнес-глоссарий и каталог данных

Был сделан шаг к развитию Self-Service.

Развитие Self-Service — одна из инициатив, которая позволяет изменить пользовательский опыт при работе с данными. При этом Self-service как правило не работает или работает с большими ограничениями без развития архитектуры данных, функции управления данными и оптимизации внутренних процессов разработки моделей и потоков данных начиная с перехода от фрагментированного к полному подключению источников к единому источнику данных для аналитики, те все то, о чем говорит DMBoK.

ряд метрик, принятых банком для улучшения аналитики

Ниже приведены ряд метрик, принятых Банком, которые любая организация может, а иногда и должна, использовать для планомерного движения в сторону улучшения аналитической функции:

Количество показателей, доступных для анализа на отчетный день
Выполнение SLA (целевого времени) по разработке новой, развитию и поддержке существующей отчетности включая Data Service Desk
Доля предметных областей, покрытых бизнес-глоссарием и каталогом данных
Соблюдение требуемого уровня качества данных
Доля активных ad-hoc пользователей, использующих инструменты Self-Service BI
Уровень удовлетворенности пользователей (готовая и self-service аналитика)

Ключевым фактором успеха этого и аналогичных проектов является выстраивание открытой среды обмена мнениями и единой площадки для обсуждения как проблем, так и перспектив развития аналитики в компании включая не только и не столько технологические решения, сколько общее понимание важности правильной организации и методическому обеспечению работы с данными.

а теперь... Практика

На разминку. Давайте разберемся с видами измерения данных — со шкалами, поскольку это наиболее практически важная тема сегодняшнего дня.

Задание 01.

На фотографии с раскладкой овощей, фруктов и ягод можно найти несколько категорий данных. У нас есть как качественные параметры, так и количественные характеристики.

Например, категория «продукты». Это номинальный тип данных, с простым перечислением всех имеющихся на столе овощей и фруктов. Мы можем посчитать их количество или рассортировать по цвету…

→ 01.1. Придумайте еще два вида номинальных шкал на основе фотографии. Посмотрите на параметры изображенных предметов

→ 01.2. Придумайте еще два вида порядковых шкал. Здесь можно использовать свое воображение и додумать то, чего мы не видим в явном виде (очередность созревания, свежесть)

→ 01.3. И еще один интервальный вид шкал. Это уже количественные свойства предметов.

→ 01.4. И три вида относительных шкал.

Задание 02.

В продолжение задания выше, попробуйте дать ответ и на такой вопрос.

В исследовании, моделирующем деятельность авиадиспетчера, группа испытуемых (студентов физического факультета ЛГУ) проходила подготовку перед началом работы на тренажере. Испытуемые должны были решать задачи по выбору оптимального типа взлетно-посадочной полосы для данного типа самолета. Показатели количества ошибок в тренировочной сессии приведены в таблице.

→ 02.1. Поставьте оценки за тренировочную сессию на основе имеющихся данных.
→ 02.2. Определите, кого можно допускать к работе, а какого – нельзя.
→ 02.3. Определите шкалы, по которым проведены измерения:
– количество ошибок
– оценка (за тренировочную сессию)
– допуск к работе

По поводу шкал...

К какому типу шкалы относится поле «количество ошибок»

номинальная

порядковая

интервальная

относительная

Ответить

Спасибо! Ваш голос засчитан

а теперь... Материалы

On the theory of scales of measurement → Science

Статья 1946 года в журнале Science (англ.), в которой С. С. Стивенс предлагает классификацию типов шкал для измерения данных

Сравнение разных шкал → Роман Бунин

Статья о том, чем отличается равномерная, логарифмическая и степенная шкала

Спасибо за эфир!

За сегодня мы смогли погрузиться в виды измерения данных и основные агрегации. Впереди нас ждет погружение в статистику и более подробное понимание практического приложения анализа данных. До встречи в дне 03.