→ о применении данных в жизни и в бизнесе
→ о шуме и сигнале
→ о корреляции
день 03
Убираем шум, усиливаем сигнал
Сегодня на волнах нашего дата-эфира
В день 03 мы поговорим о различных доменах применения данных: в бизнесе, в обществе и в личной жизни. Узнаем, чем сигнал отличается от шума и что такое корреляция и причинно-следственная связь.
Три домена применения знаний
Сегодняшний день мы хотим начать с обсуждения областей нашей жизни, в которых мы используем данные. Мы хотим обсудить применение данных, но немного заглянуть за пределы нашего рабочего места.

Для начала, давайте сделаем небольшое упражнение и ответим на несколько вопросов которые касаются вас лично.
Упражнение.

→ Что мотивирует вас изучать язык данных? Приведите три различные причины почему вы хотите развиваться в этой сфере и улучшать свои знания и навыки в области работы с данными?
Как показывает обсуждение в чате нашего марафона, многие участники рассматривают навыки работы с данными в контексте их профессиональной карьеры. Когда мы слышим о данных, нам всегда приходят образы компаний, которые решают какие-либо бизнес задачи, у нас возникают образы и названия профессий, таких как дата-аналитики или дата-инженеры.

Но не стоит ограничивать сферу применения грамотной работы с данными только коммерческой деятельностью. Данные помогают нашему обществу создавать более умный и функциональный мир вокруг нас. Навыки грамотной работы с данными так же хорошо помогают и в личной жизни каждого человека.
Профессиональная деятельность
Скорость инноваций за последние несколько десятилетий увеличилась драматически, и мы вынуждены изучать новые навыки для того, чтобы успевать за временем. В 80-х годах переход от больших мэйнфреймов к персональным компьютерам привел к необходимости изучения базовых компьютерных навыков. В 90-х развитие интернета и всемирной сети накрыло информационными технологиями большую часть планеты. Переход в новое тысячелетие и быстрое развитие социальных медиа породило сотни профессий связанных с данными — ввод данных, инженерия данных, работа с базами данных, дата-аналитика… После 2015 года начала быстро развиваться волна self-service аналитики и работа с данными перестала быть уделом небольшого количества специалистов. Каждый должен быть грамотным по работе с данными.

→ Исследование LinkedIn по необходимым навыкам работы в 2020 году (англ.) (из РФ доступ к LinkedIn заблокирован)
→ Статистика вакансий аналитиков данных по hh.ru
Общественная деятельность
Если мы применим наши знания только в области корпоративных интересов, работа с данными не сможет раскрыть весь свой потенциал. Это происходит потому, что корпоративная нацеленность на получение прибыли становится бóльшим приоритетом, чем здоровье общества и окружающей среды.

Данные не уберегут нас от капиталистических отношений, но могут снабдить нас знаниями и осветить основные проблемы, с которыми мы сталкиваемся в обществе. Некоммерческие организации и отдельные граждане могут собирать, находить, анализировать данные по разным темам, таким как:
→ Изменение климата и окружающей среды
→ Права человека
→ Кризисы, связанные с инфекционными заболеваниями
… и многим другим.

Порталы открытых данных (вы можете найти и другие, если поищите термин «открытые данные»)
открытые данные России
открытые данные Москвы
открытые данные Санкт-Петербурга

Применяя здоровую долю скептицизма к данным, а также имея возможность и желание изучать что-то новое, мы можем сделать сбор данных, распространение информации, знаний и мудрости началом больших преобразований в обществе.
Персональные проекты
Данные могут быть полезны не только на уровне корпораций, государственных органов, коммьюнити или общества, но также могут помочь в нашей личной жизни.

Мы все живем в мире с большим количеством сенсорных устройств вокруг нас: на наших запястьях, в наших карманах, иногда даже встроенных в наше тело. Эти устройства помогают нам узнать сколько шагов мы прошли, как долго и куда мы путешествовали, уровень нашего сердцебиения, как хорошо мы спим ночью, уровень сахара в крови и ещё множество-множество разных полезных метрик о нас самих.

Такое количество возможностей привело в последнее время к отдельному большому течению — «Quantified self movement». Проводятся конференции, выпускаются журналы, собираются онлайн-форумы для обмена подходами к сбору данных о самих себе и их анализу с целью улучшения качества жизни.

→ Описание термина Quantified self на Википедии
→ Сайт движения (англ.)

Будете ли вы отслеживать свои персональные данные через трекеры или различные сенсорные устройства или просто будете вести заметки о своей жизни — это может стать хорошим первым шагом на вашем пути к грамотной работе с данными.
Шум и сигнал
Перейдем к следующей теме, которая поможет различать важное и неважное: шум/сигнал. Сигнал — это та информация, которая вам необходима. Шум — это вся остальная информация, которая мешает найти нужный сигнал.

Представьте себя игроком баскетбольной команды, вам надо принять решение — передавать кому-то пас или попытаться забить мяч самостоятельно? За пару секунд вы должны оценить положение игроков своей команды, игроков команды противника, вспомнить их сильные и слабые стороны, прислушаться к тренеру и своей интуиции, услышать подсказки болельщиков и вспомнить математические прогнозы, которые вы читали неделю назад. Довольно много информации? Но не вся из нее полезна.

Мы постоянно ищем сигналы среди шума. Больше данных создает больше шума.

При исследовании данных руководствуйтесь несколькими ключевыми принципами, которые помогут вам получить наиболее качественный результат.
1. Четко определите свой вопрос
Что вы ищете? Поставьте цель исследования. Не важно, большая у вас цель или маленькая, личная или имеющая значение для большой группы людей. Важно четко поставить вопрос «что для меня истинно важно». Иначе будет очень легко потеряться и уйти от исходной задачи.
2. Оставьте предрассудки
Мы подвержены десяткам когнитивных искажений (то, чему в английском соответствует термин bias). Постарайтесь исключить из процесса работы с данными уже сформированные мнения и убеждения. Помните о том, что любой вывод лучше подвергнуть сомнению и перепроверить. Вы можете легко допустить, например, ошибку выборки, или некорректную формулировку условий. Просто потому, что вы живой человек со своим опытом и уже сформированными мнениями.
3. Перепроверяйте. Всегда
Этот совет вытекает из предыдущего совета. Оставайтесь скептиками и задавайте новые вопросы. Почему полученные цифры так отличаются друг от друга? Может, пропущена часть данных? Это соотносится с моим изначальным поставленным вопросом?
4. Задавайте вопрос «Почему?»
Это самый мощный вопрос в вашем арсенале для проведения исследования. Старайтесь посмотреть сквозь полученные цифры, ищите смысл, перепроверяйте на соответствие исходной цели исследования.
Когнитивные искажения
На наше восприятие влияет большое количество когнитивных искажений. Чаще всего, при работе с информацией, наш мозг сталкивается с четырьмя большими группами проблем:
→ Переизбыток информации — это сложно и тяжело, поэтому мы агрессивно отсекаем всё ненужное. Среди шума ищем и выявляем сигнал.
→ Недопонимание нас путает, поэтому мы активно достраиваем картину, заполняем пробелы в понимании в соответствии с нашим опытом. Сигнал становится историей.
→ Нам приходится действовать быстро, чтобы не упустить шанс, поэтому мы сразу перепрыгиваем к заключениям. Истории оформляются в решения.
→ Проще нам от этого не становится, поэтому мы пытаемся запомнить самое важное. Решения дают нам информацию для корректировки моделей мира и себя.

Если ты запомнишь четыре главных проблемы и четыре ошибки, к которым приводят наши стратегии их решения, то эвристика доступности (конкретнее, феномен Баадера — Майнхоф) приведут к тому, что ты начнёшь чаще обращать внимание на собственные когнитивные искажения.

Эти четыре проблемы вызывают четыре ошибки-последствия:
→ Мы не видим всего. Часть информации, которую мы отсекаем, на самом деле оказывается ценной и важной.
→ Поиск смыслов приводит нас к галлюцинациям. Иногда мы придумываем несуществующие детали только из-за предположений и предубеждённости, а также достраиваем смыслы и истории, которых не было в реальности.
→ Быстрые решения могут быть плохими. Некоторые из быстрых реакций и решений оказываются нечестными, корыстными и непродуктивными.
→ Память усиливает ошибки. Некоторые вещи, которые мы запоминаем, усиливают когнитивные искажения и обусловленность, ухудшая мыслительные процессы.

→ Подробнее про когнитивные искажения можно прочитать тут
Узнав о склонности к подтверждению своей точки зрения, я теперь постоянно вижу подтверждение её существования!
Колесо когнитивных искажений
Наименования наиболее популярных когнитивных искажений в разбивке по четырем группам проблем на русском языке
Корреляция и причинно-следственные связи
Теперь мы начинаем постепенно погружаться в статистику. И начинаем с понятия корреляции и причинно-следственной связи.

Корреляция часто рассчитывается на начальном этапе анализа данных, она позволяет посмотреть как связаны друг с другом выбранные переменные.
Корреляция — статистическая взаимосвязь двух или более величин.
Корреляция двух величин может говорить о существовании некоторого общего фактора, который влияет на параллельное изменение этих величин. Хотя сами показатели напрямую могут не взаимодействовать.

Сила корреляции двух величин рассчитывается коэффициентом корреляции.
Коэффициент корреляции — это число, которое выражает степень корреляции.
подробнее про коэффициент корреляции
Коэффициент корреляции показывает степень корреляции между величинами и варьируется -1 до +1.

Правило простое: если коэффициент корреляции больше 0, то корреляция положительна, если меньше 0 – отрицательна. Если коэффициент = 0, корреляция отсутствует. Чем ближе R к нулю, тем отношение слабее. Чем ближе R к границам, тем отношение сильнее.
Причинно-следственная связь
Корреляция — вполне логичная и математически проверяемая история. Есть коэффициент корреляции, которой говорит о ее силе. Обычно, сложности начинаются с попытки ответить на вопрос: как влияют друг на друга рассматриваемые величины? Как одна переменная зависит от второй? Такое поведение объясняется причинно-следственной связью.

Причинно-следственная связь означает, что некое событие, А является причиной события Б. Корреляция означает, что, А и Б часто встречаются одновременно («если я наблюдаю А, то где-то рядом будет и Б»).

Но важно понимать разницу между этими концепциями, потому что каждая из них приводит к очень разным выводам. При корреляции непонятно что на что влияет – может событие А влияет на событие Б, или событие Б влияет на событие А? А может, есть некоторое третье событие С, которое влияет и на А и на Б. Все эти варианты приведут к разным выводам, хотя исходные данные будут одними и теми же.
а теперь... Практика
Задание 01.
Даже если вы не работаете с данными в профессиональной области, попробуйте найти для себя интересные наборы данных из открытых источников на основе своих интересов.

открытые данные России
открытые данные Москвы
открытые данные Санкт-Петербурга
открытые данные Министерства Культуры

→ 01.1. Найдите хотя бы один набор данных по интересной вам тематике

→ 01.2. Скачайте набор данных в формате XLSX. Откройте его в любом редакторе электронных таблиц (Excel, Google Sheets)

→ 01.3. Посмотрите на записи и атрибуты. Какая информация вам была бы полезна? Представьте, какой сигнал вы можете найти среди шума. Может быть, получится его отыскать?
а теперь... Материалы
Проект DataLiteracy.ru проводил обсуждения темы грамотной работы с данными с представителями бизнеса, образования и общественных организаций, на которых поднимались интересные вопросы. Предлагаем вам изучить любой из представленных ниже разговоров (или сразу несколько) по наиболее интересному для вас домену знаний.
Спасибо за эфир!
Вот и закончили интересный день — поговорили о доменах применения данных, о встречающихся когнитивных искажениях и познакомились с корреляцией и причинно-следственной связью. До встречи завтра!