→ о пяти видах анализа данных
день 09
Анализируем визуально
Сегодня на волнах нашего дата-эфира
Узнав о компонентах и строительных блоках визуализации, переходим к подаче результатов и видам анализа данных. Поговорим про разные виды анализа данных и о том, как аналитика помогает принимать решения.
От простого вопроса к предписательной аналитике
Анализ данных — огромная область знаний, коллекция методов и инструментов, которые преследуют единственную цель: превращение данных в решения, мудрость и выгоду. Работая с данными, мы задаем множество разных вопросов — от простого «что произошло вчера?» до «что мне со всем этим теперь делать?».

Череда вопросов от легких и понятных усложняется с каждым уровнем анализа данных. И чем сложнее вопросы и неоднозначнее ответы, тем больше выгода, которую мы можем получить в конце.
Представьте, что пациент приходит ко врачу с жалобами на боли в сердце. Врач может собрать первичные данные, например, при помощи кардиограммы и разных обследований — узнать сердечный ритм, особенности работы желудочков, изучить имеющиеся паттерны работы сердца и, возможно, объяснить изначальную проблему.

Затем, врач может обратиться к своему опыту, чтобы оценить, насколько проблема текущего пациента распространена? Является ли уникальной? Можно ли к ней применить уже имеющиеся знания из прошлой практики или нужно выбрать другой подход?

Для понимания более глубокой картины пациента, нужно не только иметь данные первичного осмотра, но и знать историю болезни, хронические заболевания, привычки и образ жизни. Они позволят сформулировать более полное понимание его жалобы. И, может быть, найти причины.

Мы также можем попробовать предсказать, как болезнь будет протекать вероятнее всего -например, при текущем образе жизни. А можем дать рекомендации на основе полученных данных и общего опыта — что нужно делать, чтобы сделать сердце здоровее!

Вид 1. Описательный анализ данных
Это самый базовый, наиболее общий и простой с точки зрения технологий и методов вид анализа данных.

Описательный анализ данных стремится найти ответ на вопрос «Что случилось в прошлом?»

Для анализа берутся исторические данные (которые обычно легко можно получить), которые могут относиться как в недавнему периоду во времени (за сегодня, вчера или за эту неделю), так и к более широкому диапазону дат.
→ Какая книжка была лидером продаж на прошлой неделе?
→ Сколько участников зарегистрировалось на Марафон сегодня?
→ Насколько сильно различаются результаты экзаменов прошлого года и текущего?
Для проведения описательного анализа используют описательную статистику: разные агрегации (сумма, количество, минимум и максимум), отношения и пропорции, меры центральной тенденции (среднее, медиана, мода), меры разброса значений (размах, среднеквадратичное отклонение).
Время привести пример
Risk Monitor — это информационно-аналитический сервис на базе платформы Qlik Sense, в котором собраны количественные показатели, закономерности и тренды, отражающие изменения, которые вносит в мировую повестку эпидемия коронавируса: ограничения, меры поддержки и их влияние на бизнес-среду в стране и в мире.

Сервис позволяет собирать информацию об экономической ситуации, а также выявлять быстро меняющиеся тренды. С помощью аналитических дэшбордов пользователь может в едином сервисе сравнивать и изучать сразу несколько различных показателей.

Risk Monitor собирает информацию из более 40 официальных источников, ведущих мировых аналитических центров и собственных баз данных Deloitte.

Если вы еще не знакомы с работой с дашбордами, то посмотрите → объясняющее видео.

Интерактивное приложение Risk Monitor доступно → по ссылке.
Вид 2. Метод статистического вывода
Как и описательный вид анализа, метод статистического вывода пытается ответить на вопрос что случилось в прошлом. Но здесь используются не только имеющиеся у нас исторические данные, но и те данные, которых у нас нет.
→ Как пользователи оценивают интерфейс нашего приложения?
→ Сколько участников Марафона посчитают информацию в лонгридах полезной?
→ Какой средний уровень грамотности при работе с данными в России?
Ключевая особенность заключается в том, что мы физически не можем опросить всех (абсолютно всех) пользователей нашего приложения, или всех участников Марафона, или всех жителей страны. Но можем посмотреть на статистику небольшой группы людей (нашей «выборки») и потом с определенными допущениями перенести выводы с выборки на всю потенциальную «генеральную совокупность» людей.

В методе статистического вывода используют полученную статистику на основе выборки для определения параметров всей генеральной совокупности.

Как видите, здесь имеющиеся у нас данные сочетаются с допущениями и расчетными показателями — с теми данными, которых у нас не было.
Время привести пример
Кейс Марафона из → дня 04 может выступать в качестве примера анализа методом статистического вывода. Если нам физически сложно отследить всех водителей и все передвижения, мы можем оценить выборку водителей.

После размещения телеметрии в автомобилях, проанализировав Большие Данные GPS трекеров, в команде смогли оценить реальное время обслуживания клиентов. Медиана реального времени обслуживания составила 14 минут и теперь эту цифру используют для анализа и дальнейших расчетов.
Мы тоже попробуем воспользоваться методом статистического вывода и сделаем выборку участников Марафона, ответивших на наш опрос!
Расскажите нам свое мнение о Марафоне
Ответьте на два коротких вопроса за пару минут. Вы поможете нам стать лучше
Вид 3. Исследовательский анализ
Этот вид анализа выходит за рамки описательного анализа, разыскивая ранее неизвестные или скрытые закономерности в данных. Мы не просто хотим узнать что случилось, но и почему это произошло, какой фактор повлиял сильнее остальных?

Исследовательский анализ пытается найти ответ на вопрос «Что происходит на самом деле?»

Детализация, поиск корреляций, определение выбросов и аномалий — все это дает чуть больше деталей по неизвестным нам данным, помогая составить полную картинку.
Вид 4. Предсказательный анализ

Предсказательный анализ старается ответить на вопрос «Что вероятнее всего случится дальше?»

В этом виде анализа, мы используем исторические данные, чтобы делать прогнозы. Здесь в качестве инструментов для анализа выступает отслеживание трендов, использование линий регрессии, тестирование гипотез и само прогнозирование.

Прогнозы основываются на статистических моделях, но, конечно, случаются события, которые никто не может прогнозировать — например, пандемия covid-19. Поэтому, чем дальше во времени от текущей точки, тем точность прогнозов будет ниже.
Время привести пример
Кейс Марафона из → дня 06 может выступать в качестве примера предсказательного анализа.

Регрессионная модель, построенная для прогнозирования выручки по разным категориям товаров, помогает точнее спланировать закупки товаров, отвечая на вопросы: «какие категории следует расширять в первую очередь и как расширение ассортимента в разных категориях влияет на изменение выручки?»
Вид 5. Предписательный анализ

Предписательный анализ пытается дать ответ на вопрос «Что мы должны делать?»

Предписательный вид анализа основан на всех предыдущих четырех видах. Это наименее структурированный и наиболее комплексный анализ. В нем активную роль играют уже не методы статистики и не алгоритмы анализа данных, а опыт и накопленные знания людей.
Интерактивные визуализации
Вообще, правильно сформулированный вопрос и подходящий вид графика в правильном контексте (как и отсутствие грубых ошибок при создании графика) уже сможет дать вам нужный ответ. Но именно интерактивная составляющая визуализации поможет ответить на вопросы эффективно.

Интерактивность позволяет реагировать на действия пользователя, исследовать данные с разных сторон для поиска ответа на возникающие вопросы.

Интерактивность — наиболее мощное оружие для исследования данных. Статичные отчеты обычно говорят об уже найденных цифрах и хорошо работают, когда нужно просто рассказать кому-то о результате анализа — в сжатое время в сжатом формате.

Но у любой аудитории будут появляться вопросы к данным. Если заметят аномалию, то захотят узнать, что на нее повлияло. Или захотят «покрутить» данные так, чтобы, наоборот, найти что-то необычное.
Под интерактивностью понимаются действия, которые настроены на диаграмме и доступны пользователю для взаимодействия с данными: изучения, преобразования, трансформации.
Можно выделить несколько ключевых направлений по интерактивности:

→ 1. выделить точки данных на диаграмме для взаимодействия и привлечения внимания
→ 2. изучить область данных, путем приближения/отдаления, прокрутки
→ 3. видоизменить структуру, например, если у пользователя есть возможность выбрать какие переменные нужно показать на диаграмме
→ 4. изменить детализацию, т. е. углубиться в данные, или наоборот, подняться на уровень выше
→ 5. отфильтровать данные
→ 6. проследить взаимосвязи, например, выделить один элемент данных и увидеть все взаимосвязанные с ним точки данных

Несмотря на то, что с интерактивными элементами может изменяться представление данных, сами данные остаются неизменны

В конечном счете, использование интерактивности сокращает дистанцию между вопросом и ответом. Если вы готовите визуализацию для кого-то еще, то интерактивность и сокращает дистанцию между вами и теми людьми, которые будут пользоваться результатами вашей работы. Вы не можете заранее предугадать вопросы, которые могут возникнуть у аудитории, но вы можете предоставить инструмент, который позволит получить максимум.

Интерактивные диаграммы отлично работают как сами по себе, так и как составная часть целостного дашборда с несколькими диаграммами.

Дашборды собирают воедино несколько диаграмм и графиков, которые раскрывают общую тему. Создавая дашборд, вы упрощаете подачу информации, стираете границы, делая сложное простым. С помощью дашбордов мы общаемся на языке данных с другими.

Дашборд — это прежде всего средство коммуникации. Дашборд представляет ценность, если показывает данные доступными и наглядными средствами, формируя понимание ситуации, помогая формированию выводов, побуждая к изучению имеющихся данных, если в них что-то не так. В идеальном мире дашборд должен способствовать диалогу между вами и данными.
... Для более подробного разбора дашбордов приглашаем вас на следующие Марафоны!
а теперь... Практика
Задание 01.
Попробуйте проанализировать всю практику, которую вы сделали во время Марафона. Какие дни и какие темы относятся к каждому виду анализа данных?

Какие бы из кейсов партнеров мы могли бы расширить на другие виды анализа данных и как?
По поводу видов анализа...
Какой вид анализа основан на переносе выводов с выборки на общую генеральную совокупность? 
Спасибо! Ваш голос засчитан
Расскажите нам свое мнение о Марафоне
Ответьте на два коротких вопроса за пару минут. Вы поможете нам стать лучше
а теперь... Материалы
Как уделять внимание мелочам и планировать интерфейсы под потребности конечного пользователя
Спасибо за эфир!
Разобрали пять видов анализа данных и интерактивные стратегии, обеспечивающие ответы на все вопросы. Оставили свое мнение по Марафону и движемся к финишу!