Когда мы хотим найти ответ на вопрос, не имея всех (!) необходимых данных, мы формируем выводы на основе выборки данных
Генеральная совокупность — это все люди или все объекты с общим признаком, которые мы бы хотели изучить, будь у нас безграничные ресурсы
Доверительный интервал — это числовой диапазон между двумя значениями, которые представляют собой верхнюю и нижнюю доверительные границы
Широкий доверительный интервал указывает на то, что оценка неточна, узкий указывает на точную оценку.
Статистические методы можно «рассчитать» только на основе количественных данных. Однако, и в качественных переменных можно найти свою моду и медиану (только в порядковых)
Вы можете использовать эти меры как угодно, но важно запомнить, что среднее сильнее подвержена выбросам и большому разбросу значений, чем медиана.
Выбросы — это значения, которые очень сильно отличаются от имеющихся в выборке.
Размах — это разница между минимальным и максимальным значением. То есть, размах дает понимание диапазона всех значений. Как и среднее значение, размах очень чувствителен к выбросам.
На практике, нам важно знать, что чем больше стандартное отклонение, тем сильнее изменчивость ряда значений. И наоборот. Чем меньше стандартное отклонение, тем значения ближе к среднему, менее волатильны.
Графики распределения показывают количество наблюдений того или иного значения в наборе данных.
Распределения нужны нам для сопоставления реальных данных с неким «эталоном», характеристики которого уже давно известны
На практике, боксплоты полезны когда нужно сравнить распределения по нескольким наборам данных. Три гистограммы между собой сравнить будет сложно, а боксплоты отлично с этим справятся.