День 04 • Заговори на языке данных

Распределяемся
и веселимся

→ о природе данных
→ о мерах центральной тенденции
→ о распределениях
→ о доверительных интервалах

день 04

Сегодня на волнах нашего дата-эфира

Сегодня очень насыщенный день, но мы правда старались сделать его емким и понятным. День 04 даст вам представление о некоторых статистических агрегациях, распределениях и доверительных интервалах —погружение в статистические термины с пониманием природы данных.

Экстренное внимание! Лонгрид получился длинным, но просто очень интересным. Изучайте дозированно! Спасибо за понимание

Пять вопросов о природе ваших данных

Начиная любую работу с данными, вне зависимости от того, что именно вы хотите с ними сделать, будет полезно сформулировать для себя ответы на ключевые вопросы о их природе. Эти вопросы применимы ко всем трем областям использования данных, о которых мы говорили вчера: профессиональная среда, общественная и личная. Вопросы также не зависят от формы имеющихся данных — таблица, база данных, корпоративный дашборд или презентация. Иногда ответы на эти вопросы бывают очень простыми, а иногда требуют длительных размышлений.

→ 01. Что является источником ваших данных?

Этот вопрос напрямую влияет на доверие к полученным результатам анализа. Если кто-либо делится с вами фактами, показывает какие-либо промежуточные данные, но при этом не раскрывает источник информации, отнеситесь к этому с максимальной осторожностью.

Данные могут появится из простого опроса общественного мнения, или записи голосовой беседы, или поступать из расположенного в облаках корпоративного хранилища данных. Данные также могут иметь достаточно длительную цепочку преобразований и быть собранными из нескольких источников, объединенных вместе (например, показатель рекламных расходов на одного клиента). В этом случае финансовые транзакции могут поступать из простого Excel-файла наполняемого финансовой службой, а клиентский данные из корпоративной системы управления взаимоотношений с клиентами (CRM).

→ посмотрите как растет количество источников данных для маркетинга — систем сбора информации о клиентах

→ 02. Кто владеет данными и поддерживает их актуальность?

Как только вы разберетесь с источником данных, следует понять кто поддерживает данные в актуальном виде, кто является их ответственным владельцем.

Например, в корпоративной среде, физически базы данных могут поддерживаться службой информационных технологий, а наполняться уже бизнес-пользователями, которые работают с конечными агентами, заключающими страховые сделки.

подробнее про источники

В крупной страховой компании может легко присутствовать более трёх сотен источников данных, которые поддерживают бизнес-процессы организации. Из-за такой разрозненной природы информационных систем, департамент информационных технологий обычно обладает небольшими знаниями о содержащейся в базах данных информации и ее полезности для бизнеса. В то же время, бизнес пользователи не знают почти ничего, что происходит с данными после того, как они введены в формы сбора данных.

Процессы перемещения данных в компаниях насколько сложны и имеют много уровней, что для управления ими существует отдельные информационные системы и методологии.

→ 03. Когда данные последний раз обновлялись?

Это может казаться вам незначительной деталью, но ответ на этот вопрос приводит к потрясающей разнице в результате. Время — это фундаментальная характеристика любых данных, которые мы с вами собираем. Если кто-то будет показывать вам любой график или диаграмму, вы всегда будете интересоваться к какому времени относятся эти данные.

время тянет за собой сразу целый набор обязательных вопросов:

— С какой задержкой собираются данные, попадают ли в источник данных сразу или через какое-то время?
— Если данные включают в себя время суток, то к какому часовому поясу была привязка данных при их сборе?
— Сколько временных периодов заполнено полностью или частично? (полные недели, кварталы, месяца)
— Когда начался сбор данных? Когда была собрана последняя запись?

→ 04. Какие переменные являются наиболее значимыми и как они определяются?

Наборы данных часто могут быть очень большими, и каждая запись может характеризоваться десятками, сотнями или даже тысячами атрибутов или переменных. Часто совсем нецелесообразно рассматривать каждую из них по отдельности. Для поиска закономерностей вам придется сузить поле зрения до наиболее важных переменных, те, которые именно вы считаете важными. Вам также надо подумать о форме этих переменных — будут ли они рассматриваться вами в виде индивидуальных значений или агрегированного числа или в виде стат.показателей.

Ну и когда дело доходит до определения показателей, дьявол кроется в деталях. Всегда узнавайте описание важных переменных. Если вы не встречаете и не находите его, обязательно запрашивайте отдельно, если есть возможность.

→ 05. Как эти данные были изменены, собраны и сохранены?

Каждое значение данных создается процессом или системой, которая может включать в себя как человеческий, так и машинный ввод.

Если вы смотрите на оценки удовлетворённости клиентов, как они были получены? Данные получились в результате опроса или анкетирования? Было ли это проведено лично или в электронном виде? Это было анонимно? Кому был отправлен опрос? Было ли заполнение опроса необязательным или обязательно? Все эти и многие другие вопросы помогают вам определить что на самом деле значат результаты опроса.

Между данными в системах и реальностью всегда есть разрыв, который часто зависит от системы сбора и измерения данных. Ваша задача — понять, насколько этот разрыв может быть критическим.

Репрезентативность данных: как делать выводы об общем на основе частного

Как только мы задали все вопросы к данным относительно их природы, у нас возникают новые — уже по сути. Самые простые из вопросов касаются прошлого, и это, обычно, нам узнать проще всего. Например, получая статистику по продажам йогурта, мы точно можем ответить на такие вопросы, как «сколько йогурта было продано», «сколько выручки принесли продажи йогурта», «в какой день недели или время суток йогурт покупали чаще всего».

Когда мы хотим найти ответ на вопрос, не имея всех (!) необходимых данных, мы формируем выводы на основе выборки данных

Представьте, что мы хотим изучить мнение пользователей нашего мобильного приложения по доставке еды. Хотим узнать удовлетворенность сервисом. Но как можно опросить абсолютно всех пользователей приложения? Что если у нас несколько сотен пользователей? Индивидуальный прямой опрос каждого получится долгим и дорогим.

Но если мы отправим для части пользователей предложение пройти опрос, то какая-то группа людей его пройдет. Мы получим выборку пользователей, а на ее основе — сможем посчитать и оценку удовлетворенности — тех, кто ответил на наш опрос. После этого, мы сможем примерно понять и уровень удовлетворенности вообще всех клиентов. Он будет не идеально точным (мы не можем опросить их всех), но такое приближенное знание будет лучше, чем вообще ничего.

В терминах статистики, все пользователи приложения – это генеральная совокупность (population). Генеральная совокупность – это все люди или все объекты с общим признаком, которые мы бы хотели изучить, будь у нас безграничные ресурсы. Это могут быть все жители планеты Земля, все потенциальные клиенты будущего музыкального приложения, все запасные части автомобилей в продаже. Очевидно, мы физически не можем изучить все эти объекты.

Генеральная совокупность — это все люди или все объекты с общим признаком, которые мы бы хотели изучить, будь у нас безграничные ресурсы

Пользователи, которые прошли наш опрос — попадают в выборку (sample) для нашего анализа. На основе выборки, мы можем заключать выводы, которые при хорошем качестве выборки затем распространяются на генеральную совокупность.

После анализа выборки, мы обладаем набором статистик, причем, чем больше выборка, тем полученная статистика будет более приближенной к параметрам исходной генеральной совокупности.

→ подробнее про выборки
→ подробнее про репрезентативность

Доверительные интервалы

Из полученной выборки данных мы легко сможем найти средний показатель удовлетворенности. Допустим, в нашем первом опросе он оказался равен 7,6 баллов из 10. Если мы решим провести опрос повторно, показатель средней удовлетворенности вряд ли окажется ровно таким же. Как нам понять, насколько сильно этот показатель может меняться, и насколько мы можем вообще ему доверять?

Мы можем давать не точечные оценки («показатель равен строго 7,6»), а интервальные («средний показатель варьируется от 7,4 до 8,2»), используя доверительные интервалы.

Доверительный интервал — это числовой диапазон между двумя значениями, которые представляют собой верхнюю и нижнюю доверительные границы

Обычно, доверительный интервал задается на уровне 95%. Это значит, что если мы используем 95%-ный доверительный интервал, то после составления многих выборок и расчета среднего показателя по каждой из них, конечный результат будет находиться в пределах указанного доверительного интервала в 95% случаев.

→ подробнее про доверительные интервалы

Широкий доверительный интервал указывает на то, что оценка неточна, узкий указывает на точную оценку.

Меры центральной тенденции

Для ёмкой оценки набора данных используют методы описательной статистики: агрегации и меры центральной тенденции.

«Центральная тенденция» — это «середина» того или иного распределения. Меры центральной тенденции — это числа, которые могут описать множество значений в наборе данных одним числом. Наиболее популярные из них: среднее, медиана, мода.

→ подробнее про медиану
→ подробнее про моду

Статистические методы можно «рассчитать» только на основе количественных данных. Однако, и в качественных переменных можно найти свою моду и медиану (только в порядковых)

Если у нас есть данные по заработной плате 24 сотрудников компании, большинство из которых — рядовые менеджеры, а 3 занимают руководящие топ-должности. Какая мера центральной тенденции подойдет для характеристики такого набора лучше всего?

Так как среднее просто делит сумму всех наблюдений на их количество, то показатель среднего не будет учитывать неравномерное распределение величин. Не смотря на то, что правдивая средняя у большинства (!) сотрудников будет где-то в районе 30−40 тысяч рублей, то рассчитанная средняя показывает 130 тысяч. Медиана ближе к наблюдаемой истине — ведь мы знаем и видим природу этих данных еще и визуально.

Вы можете использовать эти меры как угодно, но важно запомнить, что среднее сильнее подвержена выбросам и большому разбросу значений, чем медиана.

Выбросы

Посчитать какую-либо меру центральной тенденции для определения характеристики данных иногда бывает недостаточно. Мы стараемся описать данные одной цифрой, но иногда ответ на вопрос кроется в чем-то еще. Посмотрим на выбросы и меру разброса данных.

Выбросы — это значения, которые очень сильно отличаются от имеющихся в выборке.

Выбросы можно определять по-разному, но на них точно следует обращать внимание. Они почти всегда говорят о необходимости перепроверки данных. Возможно, выброс появился из-за ошибки в записи данных — это важно отыскать, чтобы результаты анализа были корректными. Или, возможно, выброс попал к вам из другой категории данных, которую вы не берете в свой анализ (анализировали только подростков, а попал взрослый).

→ подробнее про выбросы

когда использовать медиану, а когда среднее?

Если мы работаем с данными, которые подвержены большой вариативности (например, стоимость квартир, которая может быть в районе 2 млн и в районе 60 млн рублей), то корректнее будет использовать медиану, а не среднее. И наоборот, в таких данных, как оценки фильма или рост человека выбросы не могут происходить на таком же уровне — можно использовать среднее.

Разброс значений

Как только мы получили представление, где находится центр имеющегося набора данных, возникает вопрос — насколько сильно данные отличаются друг от друга? Можем использовать два метода для этой оценки: размах (вариацию) и стандартное отклонение.

Размах — это разница между минимальным и максимальным значением. То есть, размах дает понимание диапазона всех значений. Как и среднее значение, размах очень чувствителен к выбросам.

Стандартное отклонение, или среднеквадратичное отклонение, более совершенный термин из статистики. Это мера оценки разброса значений от их средней величины. Иногда два набора данных с одинаковым средним могут оказаться совершенно разными по разбросу величин. Для этого считают стандартное отклонение.

→ подробнее про стандартное отклонение

На практике, нам важно знать, что чем больше стандартное отклонение, тем сильнее изменчивость ряда значений. И наоборот. Чем меньше стандартное отклонение, тем значения ближе к среднему, менее волатильны.

Распределения: как понять данные наглядно

Распределения помогают нам оценить свойства имеющихся данных. Для работы с распределениями чаще всего используют гистограммы и диаграммы boxplot (ящик-с-усами).

Графики распределения показывают количество наблюдений того или иного значения в наборе данных.

Важно обратить внимание, что гистограмма показывает количество наблюдений, а не абсолютный показатель, не смотря на то, что внешне гистограмма похожа на обычную столбиковую диаграмму.

→ подробнее про гистограммы

в чем особенность гистограмм?

Для показа количества наблюдений на гистограмме, значения собирают в интервалы (контейнеры, bins). Причем, гистограмма может быть построена как на непрерывных данных (рост, вес, возраст), так и на дискретных данных (количество забитых мячей в баскетболе, количество тренировок).

Еще интересно, что на гистограмме, частотность значений измеряется площадью столбца. А в столбиковой диаграмме, частотность измеряется высотой столбика.

Виды распределения

Распределения важны для понимания природы наших данных. На гистограмме будут хорошо видны асимметрии, возможные выбросы, меры центральной тенденции. В общем, это некий «слепок» наших данных, который мы, кстати, можем сравнивать с другими слепками других данных — и это будет эффективно!

Обычно, имеющиеся данные сравнивают с разными эталонными моделями — распределениями, которые встречаются настолько часто, что они были выведены в устоявшиеся закономерности. Одно из них — нормальное распределение.

про нормальное распределение

Нормальное распределение имеет колоколообразную форму: серединные значения встречаются там чаще, чем значения на краях распределения. Более того: все меры центральной тенденции (среднее, медиана и мода) находятся в одной точке. Медиана делит все значения ровно пополам — 50% данных находится слева и справа от нее.

Конечно, в настоящей жизни встретить идеальное нормальное распределение сложно — но многие данные и наблюдения к нему стремятся.

Например, если мы проведем два замера результатов тестирования учеников — до обучения и после обучения — то получим два отличающихся распределения. В первом случае, распределение выглядит более нормальным, а во втором — со смещением вправо. Т. е. большее количество учеников получили более высокий результат тестирования после обучения.

Распределения могут быть очень разнообразны, например, с асимметрией в правую или в левую сторону (т.е. большая часть значения сосредоточена ближе к одному или другому концу). Также выделяют бимодальное распределение или мультимодальное (2 или много мод соответственно).

Распределения нужны нам для сопоставления реальных данных с неким «эталоном», характеристики которого уже давно известны

Помимо гистограммы, распределения визуально можно представить с помощью боксплота — диаграммы «ящик с усами». Она в компактном виде позволяет понять ключевые значения, например, медиану и персентили, наличие выбросов и симметрию данных.

→ подробнее про диаграмму

На практике, боксплоты полезны когда нужно сравнить распределения по нескольким наборам данных. Три гистограммы между собой сравнить будет сложно, а боксплоты отлично с этим справятся.

Здесь спрятана интересная ссылка

Почитай подробнее про Квартет Энскомба — четыре набора числовых данных, у которых простые статистические свойства идентичны, но их графики существенно отличаются

Почитать

Кейс о составлении оптимального маршрута в Утконос ОНЛАЙН

Данила Наумов

Директор по данным, Утконос ОНЛАЙН

Наши клиенты делают заказы в конкретные временные интервалы. Внутри компании используют TMS систему для того, чтобы составить маршруты курьеров. Заказы должны быть доставлены вовремя и с минимальными затратами. При этом, при составлении маршрутов необходимо оценить два типа времени: время на дорогу из точки, А в точку В (для этого используют Яндекс), и время на обслуживание клиента.

Раньше для обслуживания каждого покупателя закладывали 19 минут. И оценить реальное время обслуживания было возможно лишь вручную, засекая секундомер в поездке с курьером. После размещения телеметрии в автомобилях, проанализировав Большие Данные GPS трекеров, в команде смогли оценить реальное время обслуживания клиентов. По времени пробития чека и времени закрытия заказа курьером в его приложении привязали его к конкретным заказам. Медиана реального времени обслуживания была 14 минут. При этом были случаи обслуживания и 20 минут, и 30 минут, и 40 минут. Возникла идея построения модели прогнозирования времени обслуживания клиента для учета этого времени в маршрутизации.

Модель учитывает факторы: Вес заказа, Объем заказа, Этаж, Гео-координаты (широта, долгота), Тип оплаты, Интервал доставки, Количество ящиков. По оценкам, модель позволит на 8% сократить среднее время обслуживания клиентов, на 1% увеличить кол-во доступных заказов, при тех же самых ресурсах, сохранив уровень сервиса. Модель внедрена в TMS и тестируется на реальных заказах.

В планах по развитию провести Хакатон с использованием партнерских гео-данных (наличие домофона, шлагбаума, парковки) для повышения точности модели и формирования ИТ-бренда Утконос.

а теперь... Практика

Задание 01.

Продолжаем тему с открытыми данными (которые вы можете воспользоваться, если у вас пока еще нет профессионального опыта работы с данными). Узнать природу каждого набора данных на портале очень легко, т.к. обычно, все метаданные указываются в явном виде, вплоть до конкретного ответственного.

Напоминаем ссылки:
открытые данные России
открытые данные Москвы
открытые данные Санкт-Петербурга

→ 01.1. Откройте несколько интересных для вас наборов данных и изучите таблицу с метаданными (описание набора, "паспорт").

→ 01.2. Проанализируйте интервалы обновления этих таблиц. Есть ли там заданная периодичность? Поддерживаются ли данные в актуальном состоянии?

→ 01.3. Указывается ли в наборе источник самих данных, метод их сбора? Можно ли ему доверять?

Задание 02.

Каждые данные имеют свою структуру распределения. Конечно, «идеальные» распределения редко встречаются в жизни, но очень часто данные к ним могут быть достаточно сильно приближены.

→ 02.1. Посмотрите на 4 примера распределения ниже. И ответьте на вопрос в викторине: какой из этих типов распределения больше похож на распределение количества посетителей в кафе?

→ 02.2. Подумайте, какие повседневные ситуации могут описывать другие виды распределений на картинке.

→ 02.3. Попробуйте нарисовать свое! Возьмите любое наблюдение из вашей жизни и схематично нарисуйте его. Присылайте свои варианты в телеграм-чат.

Найдите нужное распределение

Какой вариант выше описывает распределение посетителей в кафе?

Ответить

Спасибо! Ваш голос засчитан

а теперь... Материалы

От инсайтов — к фабрике данных: основа клиентской аналитики

В качестве дополнительного материала, предлагаем вам посмотреть выступление Георгия Нанеишвили из Qlik на конференции Матемаркетинг. Георгий рассказал о практических решениях, которые можно принимать при помощи бизнес-аналитики. Кейсы крупных компаний из России и СНГ из разных отраслей — FMCG, ритейл, дистрибуция, нефтепереработка, энергетика, телеком. Примеры пользы, которую приносит аналитика разных областей бизнеса — от маркетинга до HR.

Спасибо за эфир!

Уф, ну и день! Длинный и насыщенный. Но уже завтра будет легче. Продолжим изучать способы тестирования разных вариантов при помощи A/B тестов.