R-квадрат

Коэффициент определения (R-квадрат) объяснил — Данных Науки — 2020

R-квадрат

R-квадрат — это статистический показатель, который используется для оценки соответствия нашей регрессионной модели.

В R-квадрат у нас есть базовая модель, которая является худшей моделью. Эта базовая модель не использует какие-либо независимые переменные для прогнозирования значения зависимой переменной Y. Вместо этого она использует среднее значение наблюдаемых откликов зависимой переменной Y и всегда прогнозирует это среднее значение как значение Y.

Любая регрессионная модель, которая нам подходит, сравнивается с этой базовой моделью, чтобы понять, насколько она подходит.

Другими словами R-квадрат просто объясняет, насколько хороша ваша модель по сравнению с базовой моделью

Красная линия на приведенном выше рисунке — это базовая модель, которая всегда прогнозирует среднее значение наблюдаемого отклика зависимой переменной Y в качестве значения Y независимо от значения независимых переменных.

И зеленая линия — наша подогнанная модель, которая использует независимые переменные для прогнозирования значения зависимой переменной Y.

Математическое представление R-квадрата

R-квадрат дается

куда SSE — сумма квадратов ошибок нашей регрессионной модели

А также SST — это сумма квадратов ошибок нашей базовой модели.

Какой диапазон значений может принимать R-квадрат?

Нашей худшей из возможных регрессионных моделей может быть сама базовая модель.

Следовательно, SSE будет равен SST в этом случае.

Таким образом, R-квадрат будет равен

R-квадрат = 1-1 = 0

И нашей лучшей моделью будет та, которая идеально подходит для всех точек данных, поэтому SSE в этом случае будет 0.

Так, R-квадрат = 1-0 = 1 что указывает на идеальную модель.

Так R-квадрат может принимать значение от 0 до 1, где значения ближе к 0 представляют плохое соответствие, в то время как значения ближе к 1 представляют идеальное соответствие.

Как интерпретировать R-квадрат?

Если R-квадрат = 0,93, то это означает, что изменения зависимой переменной Y на 93% объясняются независимыми переменными, присутствующими в нашей модели.

Подводные камни использования R-squared

R-квадрат можно искусственно сделать высоким. То есть мы можем увеличить значение R-квадрата, просто добавив в нашу модель все больше независимых переменных.

Другими словами R-квадрат никогда не уменьшается при добавлении более независимых переменных.

И иногда некоторые из этих переменных могут быть очень незначительными и действительно бесполезными для нашей модели.

почему это происходит?

R-квадрат будет максимальным, когда SSE / SST будет минимальным.

Чтобы SSE / SST был минимальным, SSE должен быть минимальным.

Теперь SSE уменьшится, так как мы добавим больше объяснительных переменных в нашу модель.

Это связано с тем, что по мере того, как мы добавляем больше объясняющих переменных в нашу регрессионную модель, наша регрессионная модель будет лучше соответствовать точкам данных и, следовательно, уменьшать сумму квадратов ошибок. Следовательно, R-квадрат будет увеличиваться, даже если переменная не имеет значения для нашей модели.

Чтобы избежать этой проблемы, вызванной R-квадратом, мы используем Скорректированный R-квадрат

Скорректированный R-квадрат

Скорректированный R-квадрат просто штрафует модель за добавление более бесполезных переменных.

Скорректированный R-квадрат являетсядано

n = нет точек данных

p = нет независимых переменных, используемых в модели

Как работает Скорректированный R-квадрат?

Скорректированное R-квадрат уменьшается, когда мы добавляем бесполезные переменные в нашу модель, и увеличивается, когда мы добавляем значимые переменные .

Как это достигается?

Как мы увеличиваемчислонезависимых переменных в нашей модели, n-p-1 уменьшается, так что если мы разделим

на меньшее и меньшее число результирующее значение будет больше и больше, и когда это значение вычитается из 1, Скорректированный R-квадрат будет уменьшаться

Таким образом, добавляя больше бесполезных переменных, значение Скорректированный R-квадрат уменьшается.

пример

рассмотреть следующие данные

рассмотрим модель-1, которая использует x1 и x2 как независимые переменные для прогнозирования значения переменной y

Эта модель имеет R-квадрат = 0,909. Скорректированный R-квадрат для этого рассчитывается как

Теперь, если мы решим добавить другую переменную x3 к нашей предыдущей модели, то

Эта модель имеет R-квадрат = 0,912, что немного больше, чем у нашей предыдущей модели. Скорректированный R-квадрат для этого рассчитывается как

Обратите внимание, что в этом примере, когда мы добавляем переменную x3 в нашу модель, увеличение значения R-квадрата (по сравнению с предыдущей моделью) оказывается довольно незначительным (0,003), и в дополнение к этому значение знаменателя упало с 10 до 9 Следовательно, результирующее значение Скорректированного R-квадрата уменьшилось, что указывает на то, что x3 не имеет значения для нашей модели.

Это в значительной степени объясняет, что когда мы добавляем в нашу модель все больше и больше бесполезных переменных, которые не повышают значение R-квадрата, значение Скорректированного R-квадрата будет падать.

Чем R-квадрат отличается от скорректированного R-квадрата?

R-квадрат говорит вам, насколько хорошо ваша модель соответствует точкам данных, тогда как скорректированный R-квадрат говорит вам, насколько важна особенность вашей модели.

Источник: https://ru.sciencewal.com/53234-coefficient-of-determination-r-squared-explained-db32700d924e-85

Все термины
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: