Асимметрия распределения

8 базовых понятий статистики для науки о данных

Асимметрия распределения

Источник: Nuances of Programming

Статистика — это разновидность математического анализа, использующая количественные модели и репрезентации для анализа экспериментальных или реальных данных. Главное преимущество статистики — простота представления информации. Недавно я пересматривала материалы по статистике и выделила 8 основных понятий, которые должен знать каждый специалист по обработке данных:

  • дескриптивная аналитика;
  • вероятность;
  • среднее значение;
  • изменчивость;
  • взаимозависимость переменных;
  • вероятностное распределение;
  • проверка гипотезы и статистическая значимость;
  • регрессия.

Дескриптивная аналитика

Дескриптивная аналитика описывает события в прошлом и помогает бизнесу оценить эффективность деятельности, предоставляя всем участникам процесса контекст, необходимый для интерпретации информации.

Вероятность

Вероятность — это мера возможности наступления события при случайном эксперименте.

Дополнение: P(A)+P(A’) =1

Пересечение: P(A∩B)=P(A)P(B)

Объединение: P(A∪B)=P(A)+P(B)−P(A∩B)

Пересечение и объединение

Условная вероятность: P(A|B) — это мера возможности наступления одного события по отношению к другому/-им событию/-ям. P(A|B)=P(A∩B)/P(B), когда P(B)>0.

Независимые события: два события считаются независимыми, если наступление одного из них не влияет на возможность наступления другого. P(A∩B)=P(A)P(B), где P(A) != 0 и P(B) != 0 , P(A|B)=P(A), P(B|A)=P(B).

Взаимоисключающие события: два события считаются взаимоисключающими, если оба они не могут произойти в одно и то же время. P(A∩B)=0 и P(A∪B)=P(A)+P(B).

Теорема Байеса описывает вероятность наступления события, исходя из ранее известной информации об условиях, которые могут иметь отношение к этому событию.

Теорема Байеса (слева — апостериорная вероятность, справа — априорная вероятность)

Среднее значение

Среднее арифметическое: среднее значение набора данных.

Медиана: срединное значение упорядоченного набора данных.

Мода: наиболее часто встречающееся значение в наборе данных. Если таких значений несколько, это называется мультимодальным распределением.

Асимметрия: мера симметричности.

Эксцесс: мера, показывающая медленное или быстрое убывание “хвоста” данных относительно нормального распределения.

Асимметрия Эксцесс

Изменчивость

Амплитуда: разница между минимальным и максимальным значениями в наборе данных.

Межквартильный размах (IQR): IQR = Q3−Q1

Межквартильный размах

Min — МинимумMax — Максимум

Median — Медиана

Дисперсия: среднеквадратичное отклонение значений от среднего арифметического, показывающее разброс данных относительно него.

Стандартное отклонение: стандартный разброс между каждым отдельным значением и средним арифметическим, квадратный корень из дисперсии.

Выборочная и генеральная дисперсии и стандартное отклонение

Sample Variance — Выборочная дисперсияPopulation Variance — Генеральная дисперсияSample Standard Deviation — Выборочное стандартное отклонение

Population Standard Deviation — Генеральное стандартное отклонение

Среднеквадратическая ошибка (SE): приблизительная величина стандартного отклонения выборочного распределения.

Взаимозависимость переменных

Причинность: такая зависимость между двумя событиями, когда одно из них влияет на другое.

Ковариантность: количественная мера совокупной изменчивости двух или более переменных.

Корреляция: мера взаимозависимости между двумя переменными с коэффициентом от -1 до 1, нормализованная версия ковариантности.

Ковариантность и корреляция

Positive Relationship — Прямая зависимостьNegative Relationship — Обратная зависимость

No Relationship — Отсутствие зависимости

Вероятностное распределение

Функции вероятностного распределения

Функция распределения масс (PMF): функция, которая указывает, что дискретная случайная переменная в точности равна какому-либо значению.

Функция плотности вероятности (PDF): функция для непрерывных данных, согласно которой значение в любой выборке может расцениваться как добавляющее относительной вероятности тому, что значение случайной переменной равно значению этой выборки.

Функция кумулятивной плотности (CDF): функция, которая указывает, что случайная переменная меньше определённого значения или равна ему.

Сравнение PMF, PDF и CDF

Cumulative — КумулятивныйNon-cumulative — НекумулятивныйDiscrete — Дискретный

Continuous — Непрерывный

Непрерывное распределение вероятностей

Равномерное распределение: распределение, при котором все исходы имеют одинаковую вероятность (также известно как прямоугольное распределение).

Нормальное/гауссово распределение: кривая распределения имеет форму колокола и симметрична. Согласно центральной предельной теореме, выборочное распределение средних арифметических приближается к нормальному при увеличении объёма выборки.

Uniform Distribution — Равномерное распределение
Normal Distribution — Нормальное распределение

Экспоненциальное распределение: вероятностное распределение времени между событиями в пуассоновском точечном процессе.

Распределение хи-квадрат: распределение суммы квадратов стандартных нормальных отклонений.

Exponential Distribution — Экспоненциальное распределениеChi-Square Distribution — Распределение хи-квадрат

Probability Density — Плотность вероятностей

Дискретное распределение вероятностей

Распределение Бернулли: распределение случайной переменной, при котором для наступления события есть одна попытка и 2 возможных исхода: 1 — успех с вероятностью p и 0 — неудача с вероятностью 1-p.

Биномиальное распределение: распределение некоторого количества успешных исходов события в количестве n независимых экспериментов. У каждого события есть только 2 возможных исхода: 1 — успех с вероятностью p и 0 — неудача с вероятностью 1-p.

Распределение Пуассона: распределение, которое отражает вероятность заданного числа событий k, происходящих в течение фиксированного промежутка времени, если эти события наступают с известной постоянной усреднённой вероятностью λ и независимо от времени.

Проверка гипотезы и статистическая значимость

Нулевая и альтернативная гипотезы

Нулевая гипотеза: общее утверждение, согласно которому между измеряемыми явлениями или их группами нет взаимозависимости.

Альтернативная гипотеза: гипотеза, обратная нулевой.

При проверке статистической гипотезы ошибка типа I — это непринятие истинной нулевой гипотезы, а ошибка типа II — принятие ложной нулевой гипотезы.

Интерпретация

P-значение: вероятность того, что данная статистика будет иметь как минимум такие же экстремальные значения, как и ранее наблюдаемая, при условии, что нулевая гипотеза верна. Когда p-значение > α, нулевую гипотезу невозможно не принять, в том время как если p-значение ≤ α, нулевая гипотеза не принимается, следовательно, мы имеем статистически значимый результат.

Критическое значение: точка на шкале статистики, выше которой нулевая гипотеза не принимается (зависит от уровня значимости проверки, α). Значение зависит от статистики (отдельная для каждого типа проверки) и уровня значимости проверки α (определяет точность проверки).

Уровень значимости и область непринятия: область непринятия зависит от уровня значимости. Уровень значимости (α) — это вероятность непринятия нулевой гипотезы при условии, что она верна.

Z-тест

Z-тест — это статистическая проверка, при которой распределение статистики при нулевой гипотезе может приближаться к нормальному, а также проверяет среднее арифметическое распределения при известной генеральной дисперсии. Следовательно, при больших объёмах выборки или известной генеральной дисперсии многие статистические проверки удобно проводить в форме Z-тестов.

One Sample Z-Test — Z-тест одной выборки
Two Proportion Z-Test — Z-тест двух долей

T-тест

T-тест — это статистическая проверка, используемая, когда генеральная дисперсия неизвестна, а объём выборки небольшой (n < 30).

Парная выборка означает, что сбор данных производится дважды с одной и той же группы, человека, образца, предмета. Независимая выборка подразумевает, что две выборки должны быть получены с двух абсолютно разных совокупностей.

ANOVA(дисперсионный анализ)

Аназиз ANOVA позволяет выяснить, являются ли результаты эксперимента статистически значимыми.

При однофакторном дисперсионном анализе сравниваются два средних арифметических двух независимых групп с помощью одной независимой переменной.

Двухфакторный дисперсионный анализ — продолжение однофакторного, здесь для вычисления главного эффекта и эффекта взаимодействия используются две независимые переменные.

Таблица ANOVA

Тест хи-квадрат

Формула теста хи-квадрат

Observed Value — Наблюдаемая величина
Expected Value — Ожидаемая величина

Тест хи-квадрат определяет, соответствует ли модель нормальному распределению при введении набора дискретных данных. Критерий согласия определяет, соответствует ли распределению выборка совокупности одной категориальной переменной. Критерий независимостихи-квадрат позволяет проверить два набора данных на предмет наличия взаимосвязи.

Регрессия

Линейная регрессия

Постулаты линейной регрессии:

  • линейная зависимость;
  • многомерная нормальность;
  • небольшая мультиколлинеарность или её отсутствие;
  • небольшая автокорреляция или её отсутствие;
  • гомоскедастичность.

Линейная регрессия — это линейный подход к моделированию взаимозависимости между зависимой и независимой переменными. Независимая переменная — это контролируемая в ходе научного эксперимента переменная, используемая для измерения влияния на зависимую переменную. Зависимая переменная — это переменная, измеряемая в ходе научного эксперимента.

Формула линейной регрессии

Dependent (Response) Variable — Зависимая переменнаяPredictor — РегрессорY Intercept — Отрезок по оси YSlope Coefficient — Коэффициент наклона

Error Term — Величина погрешности

Множественная линейная регрессия — это линейный подход к моделированию взаимозависимости между одной зависимой и двумя или более независимыми переменными.

Формула множественной линейной регрессии (перевод понятий —  под предыдущей формулой)

Этапы построения линейной регрессии

Этап 1:Проанализируйте описание модели, причинные зависимости и направленность.

Этап 2:Проверьте данные, в том числе категориальные, недостающие и выбросы.

  • Выброс — это образец данных, значительно отличающийся от других наблюдений. Можно использовать метод стандартного отклонения и межквартильного размаха (IQR).
  • Вспомогательная переменная принимает только 0 и 1 в качестве значения и отражает влияние на категориальные переменные.

Этап 3:Простой анализ — проверьте результат сравнения независимой и зависимой переменных, а также двух независимых переменных.

  • Используйте диаграмму рассеивания для проверки взаимозависимости.
  • Когда более двух независимых переменных имеют сильную взаимосвязь, это называется мультиколлинеарностью. Для количественной оценки можно использовать фактор, увеличивающий дисперсию (VIF): если VIF > 5, между переменными существует сильная взаимосвязь, если VIF > 10, между переменными возникает мультиколлинеарность.
  • Величина взаимодействия отражает изменения в наклоне кривой между значениями.

Этап 4:Множественная линейная регрессия — проверьте модель и истинные переменные.

Этап 5:Остаточный анализ.

  • Проверьте нормальное распределение, а также соответствуют ли ему остатки.
  • Гомоскедастичность описывает ситуацию, когда величина погрешности одинакова для всех значений независимых переменных, следовательно, значения остатков также одинаковы на протяжении всей кривой регрессии.

Этап 6:Интерпретация результатов регрессии.

  • R-квадрат — это статистический показатель точности подбора, который указывает, насколько отклонение зависимой переменной было отражено независимыми переменными. Более высокие значения R-квадрата указывают, что разница между данными наблюдений и подобранными значениями небольшая.
  • P-значение.
  • Уравнение регрессии.

Источник: https://zen.yandex.ru/media/nuancesprog/8-bazovyh-poniatii-statistiki-dlia-nauki-o-dannyh-5f4b6cbef20b155c2b2f5f77

Понятие параметрических тестов, ассиметрии и эксцесса

Асимметрия распределения

В данной статье представлены важные категории логически выводимых статистических тестов и обсуждаются параметры описательной статистики, относящиеся к нормальному распределению.

Добро пожаловать в нашу серию статей о статистике в электротехнике. Ранее мы рассмотрели статистический анализ и описательный анализ в электротехнике, а затем обсудили среднее отклонение, стандартное отклонение и дисперсию в обработке сигналов.

Затем мы рассмотрели компенсацию размера выборки при расчетах стандартного отклонения и то, как стандартное отклонение связано со среднеквадратичными значениями.

Теперь мы перешли к исследованию нормального распределения в электротехнике, в частности, как понимать гистограммы, вероятность и кумулятивную функцию распределения нормально распределенных данных. Данная статья расширяет это обсуждение, касаясь параметрических тестов, асимметрии и эксцесса.

Когда нормальное распределение не выглядит нормальным

В предыдущих статьях мы рассмотрели нормальное распределение (также известное как распределение Гаусса) как идеализированное математическое распределение и как гистограмму, полученную из эмпирических данных. Если измеряемое явление характеризуется нормальным распределением значений, форма гистограммы по мере увеличения размера выборки будет всё больше похожа на колоколообразную (гауссову) кривую.

Однако это приводит нас к интересному вопросу: как мы узнаем, что явление характеризуется нормальным распределением значений?

Если у нас есть большой объем данных, мы можем просто посмотреть на гистограмму и сравнить ее с гауссовой кривой. Однако с меньшими наборами данных ситуация будет сложнее. Даже если мы анализируем базовый процесс, который действительно создает нормально распределенные данные, гистограммы, созданные из небольших наборов данных, могут оставлять место для сомнений.

Рисунок 1 – Распределены ли эти данные нормально?

В данной статье мы обсудим два описательных статистических показателя (асимметрию и эксцесс), которые помогут нам определить, соответствуют ли наши данные нормальному распределению.

Однако сначала я хочу изучить связанный с этим вопрос: почему нас волнует, соответствует ли набор данных нормальному распределению?

Параметрические и непараметрические тесты

Существуют различные статистические методы, помогающие нам анализировать и интерпретировать данные, и некоторые из этих методов относятся к категории статистических выводов. Мы часто используем слово «тест», когда говорим о статистической процедуре вывода, и эти тесты могут быть параметрическими или непараметрическими.

Различие между параметрическими и непараметрическими тестами заключается в характере данных, к которым применяется тест. Когда набор данных демонстрирует распределение, которое в достаточной степени согласуется с нормальным распределением, можно использовать параметрические тесты. Когда данные не распределены нормально, мы переходим к непараметрическим тестам.

Примерами параметрических тестов являются парный t-критерий, односторонний дисперсионный анализ (ANOVA) и коэффициент корреляции Пирсона. Непараметрическими альтернативами этим критериям являются, соответственно, критерий знаковых рангов Уилкоксона, критерий Краскела–Уоллиса и ранговая корреляция Спирмена.

Почему «параметрический» и «непараметрический»?

Если вас смущает эта терминология параметрический/непараметрический, вот объяснение: параметр – это характеристика всей генеральной совокупности (совокупности значений), например, средний рост всех канадцев или стандартное отклонение выходных напряжений, генерируемых всеми микросхемами эталонного напряжения REF100 (я придумал эту модель микросхемы).

Обычно мы не можем знать параметр с уверенностью потому, что наши данные представляют собой только выборку из генеральной совокупности. Однако мы можем произвести оценку параметра, вычислив соответствующее статистическое значение на основе выборки.

Параметрические тесты основываются на предположениях, связанных с нормальностью распределения генеральной совокупности, и параметрами, которые характеризуют это распределение. Когда данные не распределены нормально, мы не можем делать такие предположения, и, следовательно, мы должны использовать непараметрические тесты.

Зачем заморачиваться с параметрическими тестами?

Если существуют непараметрические тесты и их можно применять независимо от нормальности распределения, зачем утруждать себя определением, является ли распределение нормальным? Давайте, просто применим непараметрический тест и покончим с этим!

Есть простая причина, по которой мы избегаем непараметрических тестов, когда данные достаточно нормальны: параметрические тесты, как правило, более эффективны.

«Эффективность» в статистическом смысле означает, насколько эффективно тест обнаружит взаимосвязь между переменными (если эта взаимосвязь существует).

Мы можем сделать любой тип тестов более эффективным, увеличив размер выборки, но для того, чтобы получить наилучшую информацию из имеющихся данных, мы по возможности используем параметрические тесты.

Оценка нормальности: асимметрия и эксцесс

Мы можем попытаться определить, демонстрируют ли эмпирические данные неопределенно нормальное распределение, просто взглянув на гистограмму. Однако, чтобы решить, является ли распределение достаточно нормальным, чтобы оправдать использование параметрических тестов, нам могут потребоваться дополнительные аналитические методы.

Асимметрия

Один из этих методов – вычислить асимметрию набора данных. Нормальное распределение идеально симметрично относительно среднего, и, таким образом, любое отклонение от идеальной симметрии указывает на некоторую степень ненормальности измеренного распределения.

На следующем рисунке представлены примеры асимметричных форм распределения.

Рисунок 2 – Изображение положительной асимметрии, нулевой асимметрии и отрицательной асимметрии

Асимметрия может представляться положительным или отрицательным числом (или нулем).

Распределения, симметричные относительно среднего значения, такие как нормальное распределение, имеют нулевую асимметрию.

Распределение, которое «наклоняется» вправо, имеет отрицательную асимметрию, а распределение, которое «наклоняется» влево, имеет положительную асимметрию.

Как правило, значения асимметрии, которые находятся в пределах ±1 от асимметрии нормального распределения, указывают на достаточную нормальность для использования параметрических тестов.

Эксцесс

Мы используем эксцесс, чтобы количественно оценить тенденцию явления создавать значения, далекие от среднего.

Существуют различные способы описания информации, которую эксцесс передает о наборе данных: «хвостатость» (обратите внимание, что значения, далекие от среднего, находятся в хвостах распределения), «величина хвоста» или «вес хвоста» и «островершинность» (последнее несколько проблематично, потому что эксцесс напрямую не измеряет остроту или гладкость).

Нормальное распределение имеет значение эксцесса 3. Следующая диаграмма дает общее представление о том, как эксцесс больше или меньше 3 соответствует формам ненормального распределения.

Рисунок 3 – Обратите внимание, что эксцесс больше или меньше 3 соответствует формам, отличным от нормального распределения.

Оранжевая кривая – нормальное распределение.

Обратите внимание, что синяя кривая по сравнению с оранжевой кривой имеет большую «величину хвоста», то есть большую массу вероятности в хвостах. Эксцесс синей кривой, которая называется распределением Лапласа, равен 6.

Зеленая кривая называется равномерным распределением; вы можете видеть, что хвосты отсутствуют. Эксцесс равномерного распределения равен 1,8.

Как и в случае асимметрии, общее правило состоит в том, что эксцесс в пределах ±1 от эксцесса нормального распределения указывает на достаточную нормальность.

Заключение

Конечно, о параметрических тестах, асимметрии и эксцессе можно сказать гораздо больше, но я думаю, что мы рассмотрели достаточно материала для вводной статьи. Обобщим вышесказанное:

  • когда результаты измерений показывают достаточно нормальное распределение, мы предпочитаем параметрические тесты;
  • асимметрия количественно определяет отсутствие симметрии распределения относительно среднего значения;
  • эксцесс количественно определяет «хвостатость» распределения и передает тенденцию явления к получению значений, далеких от среднего.

Оригинал статьи:

  • Robert Keim. Understanding Parametric Tests, Skewness, and Kurtosis

Теги

АсимметрияНормальное распределение / Гауссово распределениеПараметрический тестСтатистикаСтатистический анализЭксцесс

Источник: https://radioprog.ru/post/894

Все термины
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: