Koeficient determinace

Graf dvou regresních přímek s vysokým a nižším koeficientem determinace

Koeficient determinace, běžně označovaný R 2 {\displaystyle {\mathit {R}}^{2}} („R kvadrát“), je v matematické statistice míra kvality regresního modelu, která ve své základní podobě vyjadřuje, jaký podíl variability závisle proměnné model vysvětluje. Koeficient determinace může nabývat hodnoty maximálně 1 (nebo vyjádřeno v procentech 100 %), což znamená dokonalou predikci hodnot závisle proměnné. Naopak hodnota 0 (resp. 0 %) znamená, že model nepřináší pro poznání závisle proměnné žádnou informaci, je zcela neužitečný.

Koeficient determinace lineárního regresního modelu se obvykle definuje jako jedna minus podíl rozptylu chyb (tj. rozdílů mezi predikcemi modelu a skutečnými hodnotami nezávisle proměnné) a rozptylu nezávisle proměnné. To vede na definiční rovnici

R 2 1 S S r e s S S t o t = 1 ( y i y ^ i ) 2 ( y i y ¯ ) 2 = ( y ^ i y ¯ ) 2 ( y i y ¯ ) 2 {\displaystyle {\mathit {R}}^{2}\equiv 1-{SS_{\rm {res}} \over SS_{\rm {tot}}}=1-{\frac {\displaystyle \sum \nolimits \left(y_{i}-{\hat {y}}_{i}\right)^{2}}{\displaystyle \sum \nolimits \left(y_{i}-{\overline {y}}\right)^{2}}}={\frac {\displaystyle \sum \nolimits \left({\hat {y}}_{i}-{\overline {y}}\right)^{2}}{\displaystyle \sum \nolimits \left(y_{i}-{\overline {y}}\right)^{2}}}} ,

kde S S r e s {\displaystyle SS_{\rm {res}}} je suma čtverců chyb (residuí), S S t o t {\displaystyle SS_{\rm {tot}}} suma kvadratických odchylek závisle proměnné y {\displaystyle y} od její střední hodnoty y ¯ {\displaystyle {\overline {y}}} a y ^ i {\displaystyle {\hat {y}}_{i}} je regresní odhad i {\displaystyle i} -tého pozorování. Koeficient determinace má za těchto okolností zároveň význam čtverce Pearsonova korelačního koeficientu mezi pozorovanými a modelem odhadnutými hodnotami závisle proměnné.

Koeficient determinace má tendenci růst s počtem nezávisle proměnných v regresním modelu, i když tyto přidávané proměnné nenesou žádnou novou informaci o závisle proměnné. Aby se tomuto umělému nárůstu R 2 {\displaystyle {\mathit {R}}^{2}} předešlo, navrhl Henri Theil adjustovaný koeficient determinace R ¯ 2 {\displaystyle {\bar {R}}^{2}} , který opravuje odhadovanou inflaci původního koeficientu determinace a počítá se podle vzorce

R ¯ 2 = 1 ( 1 R 2 ) n 1 n p 1 {\displaystyle {\bar {R}}^{2}={1-(1-R^{2}){n-1 \over n-p-1}}} ,

kde n {\displaystyle n} je počet pozorování v souboru a p {\displaystyle p} počet proměnných v modelu. R ¯ 2 {\displaystyle {\bar {R}}^{2}} může vyjít i menší než nula. Postupů pro adjustaci koeficientu determinace je nicméně velké množství, určených pro různé druhy zobecnění kvality predikce.[1][2]

Reference

  1. YIN, Ping; FAN, Xitao. Estimating R2 Shrinkage in Multiple Regression: A Comparison of Different Analytical Methods. S. 203–224. The Journal of Experimental Education [online]. 2001-01. Roč. 69, čís. 2, s. 203–224. DOI 10.1080/00220970109600656. 
  2. SALH, Samira Muhamad. ESTIMATING R 2 SHRINKAGE IN REGRESSION. S. 1–6. International Journal of Technical Research and Applications [online]. 2015. Roč. 3, čís. 2, s. 1–6. Dostupné online. 

Externí odkazy

  • Logo Wikimedia Commons Obrázky, zvuky či videa k tématu Koeficient determinace na Wikimedia Commons
Autoritní data Editovat na Wikidatech
  • GND: 4618882-4