→ о проверке гипотез
→ о наблюдениях и экспериментах
день 07
Просто седьмой день
Сегодня на волнах нашего дата-эфира
Сегодняшним днем завершаем наше погружение в темы статистики разговором о тестировании гипотез и проведении экспериментов. Важное знание, которое поможет вам в сборе данных для дальнейшего анализа.
Зачем нужны гипотетические гипотезы
Тему гипотез мы частично обсуждали в дне 05. Проведение A/B тестирования требует выдвижения гипотезы для ее проверки на практике: например, увеличит ли продажи интернет-магазина новое расположение кнопки «добавить в корзину» или нет?

Гипотеза — это наше предположение. Мы пока не знаем, подтвердится ли оно на практике, будет ли правдиво? Это наше допущение, догадка, утверждение, которое мы хотим проверить

Зачем нужна постановка гипотез, если можно сразу начать проверять свои догадки на практике? При больших и длительных исследованиях, проверка каждой гипотезы может стоить дорого, поэтому лучше заранее спланировать что именно мы хотим проверить. Кроме того, за время исследования вы можете сбиться с начальной цели анализа или неосознанно подгонять результаты под желаемый результат.
Кроме того, гипотезы помогают нам четко отслеживать результаты тестирования.

Представим, что мы — фармацевтическая компания, которая разрабатывает новую формулу для уже существующего лекарства. Мы провели серию наблюдений, замеряя эффект от новой формулы, и затем сравнили полученный показатель с аналогичным для текущей формулы. Допустим, на практике мы увидели небольшое улучшение эффективности новой формулы, но действительно ли полученный результат гарантирует более высокую эффективность новой формулы? Наше небольшое улучшение эффекта может быть случайностью.

Мы пока не знаем эффективность новой формулы и решаем начать исследование насколько новая формула эффективнее, чем текущая. Для этого сформулируем две гипотезы: базовую (нулевую) и альтернативную.
Нулевая и альтернативные гипотезы
В статистике гипотезы обозначаются как H0 и .

H0 — нулевая гипотеза — наше базовое утверждение касательно события или действия, которое считается правдивым, если не доказано обратное.

 — это альтернативная гипотеза, предположение, которое мы хотим проверить, найти любые доказательства для ее подтверждения. При подтверждении альтернативной гипотезы, наша нулевая гипотеза автоматически опровергается.

Вы уже понимаете как бы могли звучат нулевая и альтернативная гипотезы?
проверьте формулировку гипотез по формуле лекарства
Доказательство гипотезы
После постановки гипотез, мы собираем данные для проверки. В нашем случае, представим, что мы провели серию наблюдений по эффективности каждой формулы и записали данные. Сбор данных может происходить как при помощи экспериментов, так и при помощи наблюдений.

Далее начинается статистический этап проверки гипотез. Мы не будем в него погружаться, потому что специализированные ресурсы справятся с формулами и расчетами лучше, чем мы.

В двух словах: на основании имеющихся данных, статистически рассчитывается p-уровень значимости (используя t-тест, критерий Фишера, критерий хи-квадрат). Чем меньше наш полученный p-уровень значимости, тем больше у нас оснований отклонить нулевую гипотезу.

Чаще всего, пороговый уровень значимости для принятия или отклонения гипотезы принимается как 0,05. В более серьезных исследованиях, задают уровень значимости равный 0,01 или 0,001 (или какой-угодно еще, на самом деле, вы сами определяете его значение).

Получая p-уровень значимости меньше нашего порогового, мы получаем статистически значимый результат успешности альтернативной гипотезы и можем отклонить нулевую.

Контекст важнее всего.

Контекст превращает аналитику в инсайты.

При этом, если мы не можем отвергнуть нулевую гипотезу, это не значит что мы доказали ее справедливость. Значит только то, что наше исследование не предоставило достаточных доказательств ее справедливости, а имеющиеся данные в целом согласуются с нулевой гипотезой.

Если наше p-value < a, то мы отвергли нулевую гипотезу и наш тест был успешным.
Если наше p-value > a, то мы не смогли отвергнуть нашу нулевую гипотезу.

Например, в нашем тесте двух формул, мы нашли p-value 0,008, а это меньше чем пороговое значение 0,01, то есть новая формула лучше справляется со своей задачей.

Эксперименты
Мы уже сказали о том, что данные для доказательства гипотезы можно собрать с помощью наблюдения или экспериментов. Но между ними есть существенная разница.

При наблюдении мы измеряем характеристики объектов исследования или опрашиваем участников выборки без вмешательства и попыток повлиять на результат. В эксперименте, наоборот — мы можем напрямую влиять на ход событий, контролировать его.

Важно понимать также и то, что наблюдения обычно дают нам возможность наблюдать какую-то связь как бы со стороны. Но мы не можем знать наверняка, чем эта связь вызвана, мы просто ее смогли понаблюдать. Чтобы доказать причинно-следственную связь между некоторыми событиями, нужно провести эксперимент.
→ 01. Определите проблему
→ 02. Выберите меры
→ 03. Определите факторы влияния
→ 04. Составьте план
→ 05. Аккуратно измерьте
→ 06. Проанализируйте и сделайте выводы
Наибольшее количество сложностей может ждать вас на этапе выбора объектов для эксперимента. Чтобы быть уверенным, что полученные оценки будут аккуратны, нужно убедиться, что объекты эксперимента были выбраны случайным образом (если не указывается обратное).

Кроме этого, очень легко допустить систематическую ошибку выборки. Самое основное правило — это проведение четкого соответствия между выбранными объектами эксперимента и той генеральной совокупности, на которую вы хотите применить результаты.

Например, если вы хотите изучить всех бактерий, которые живут на поручнях в метро и используете фильтр с порами диаметром 1 микрометр, то бактерии меньше 1 мкм не попадут в ваш эксперимент. Если вы планируете применять результаты только на бактерии крупнее 1 мкм, то никаких проблем нет, ваши результаты будут корректны. Главное, не пытаться распространить результаты на все бактерии, в том числе — и тех, что меньше 1 мкм.

Если для вас это подходит, вы можете разделить выбранные объекты на две группы случайным образом. Первая группа — экспериментальная, а вторая группа — контрольная. Обеспечивая максимально возможную одинаковость условий в двух группах, мы искусственно изменяем один признак в экспериментальной группе. После завершения эксперимента, сравниваем результат экспериментальной группы с результатом контрольной группы, исключая погрешности.

Эксперимент может служить доказательством гипотезы, но эксперименты не всегда возможны.

а теперь... Практика
Конечно, мы не будем предлагать вам рассчитывать p-уровень значимости, используя статистику и сложные формулы. Вместо этого, предлагаем подумать над вечными вопросами бытия с заданием ниже.
Задание 01.
→ 01.1. Подумайте, какие переменные из приведенных наборов ниже, скорее всего, будут зависимыми, а какие — независимыми при проведении исследования?

→ Пол, потребление алкоголя, стиль вождения.
→ Средний балл в школе, средний балл на первом курсе университета, выбор профильной дисциплины в университете до зачисления, этническая принадлежность, пол.
Возраст, этническая принадлежность, отношение к сладкому, вероятность диабета.
→ Аккуратность выполнения задания по математике, тип полученных инструкций, время тренировки и уровень тревожности.
По поводу проверки гипотез...
Какое значение p-уровня значимости стоит использовать при проверке гипотез?
Спасибо! Ваш голос засчитан
а теперь... Материалы
Делимся еще одним докладом с конференции Матемаркетинг. Юлия Туркина рассказывает о том, как принимать решения на основе данных:
— Ожидания бизнеса от аналитиков.
— Скорость против точности? Какие решения можно принимать, не владея полной информацией.
— Пример «Ароматного мира». Как принимали решения в условиях неопределенности и увеличили конверсию сайта.
Бонус: инструментарий и прикладные идеи для увеличения конверсии сайта.
Кейс, за который аналитики закидают меня томатами, а бизнес скажет хочу еще!
Спасибо за эфир!
Этим днем заканчиваем с темами по статистике и математике и переходим к визуализации данных и представлению результатов анализа.