Test F

In statistica il test F per il confronto di due varianze è un test di ipotesi basato sulla distribuzione F di Fisher-Snedecor e volto a verificare l'ipotesi che due popolazioni che seguono entrambe distribuzioni normali abbiano la stessa varianza.

Procedimento

Se le popolazioni X e Y seguono rispettivamente le distribuzioni normali ${\mathcal {N}}(\mu _{X},\sigma _{X}^{2})$ e ${\mathcal {N}}(\mu _{Y},\sigma _{Y}^{2})$ , allora

i campioni $X_{1},X_{2},\ldots ,X_{n}$ e $Y_{1},Y_{2},\ldots ,Y_{m}$ si suppongono indipendenti, i primi isonomi a X e i secondi isonomi a Y;

gli stimatori delle varianze osservate $S_{X}^{2}$ e $S_{Y}^{2}$ sono variabili aleatorie indipendenti;

le variabili aleatorie ${\tfrac {n-1}{\sigma _{X}^{2}}}S_{X}^{2}$ e ${\tfrac {m-1}{\sigma _{Y}^{2}}}S_{Y}^{2}$ seguono rispettivamente le distribuzioni chi quadro $\chi ^{2}(n-1)$ e $\chi ^{2}(m-1)$ ;

il rapporto $F={\tfrac {\sigma _{Y}^{2}}{\sigma _{X}^{2}}}{\frac {S_{X}^{2}}{S_{Y}^{2}}}$ segue la distribuzione di Fisher-Snedecor ${\mathcal {F}}(n-1,m-1)$ .

Variabile di decisione

Sotto l'ipotesi $H_{0}=(\sigma _{X}^{2}=\sigma _{Y}^{2})$ , ovvero se le due popolazioni hanno la stessa varianza, allora la variabile aleatoria

F={\frac {S_{X}^{2}}{S_{Y}^{2}}}

segue la distribuzione di Fisher-Snedecor

{\mathcal {F}}(n-1,m-1)

di parametri n-1 e m-1, dove n e m sono le numerosità dei due campioni.

La scelta del numeratore non influenza il test: sotto l'ipotesi nulla la variabile aleatoria $1/F$ segue la distribuzione ${\mathcal {F}}(m-1,n-1)$ .

Il test

Come regione di accettazione, al livello di significatività α, viene preso l'intervallo compreso tra i quantili di ordine ${\frac {\alpha }{2}}$ e $1-{\frac {\alpha }{2}}$ , mentre la regione di rifiuto è quella esclusa:

{\mathcal {A}}=]f_{\frac {\alpha }{2}},f_{1-{\frac {\alpha }{2}}}[;\qquad {\mathcal {R}}=]0,f_{\frac {\alpha }{2}}[\ \cup \ ]f_{1-{\frac {\alpha }{2}}},\infty [

Un valore appartenente all'intervallo $]0,f_{\frac {\alpha }{2}}[$ suggerisce che la varianza di X sia minore della varianza di Y, mentre un valore appartenente all'intervallo $]f_{1-{\frac {\alpha }{2}}},\infty [$ suggerisce l'inverso.

Econometria

In molti casi la statistica F può essere calcolata con un processo più diretto:

F={\frac {\left({\frac {{\mbox{SSR}}_{1}-{\mbox{SSR}}_{2}}{p_{2}-p_{1}}}\right)}{\left({\frac {{\mbox{SSR}}_{2}}{n-p_{2}}}\right)}}

^[1]

dove SSR_i è la somma dei quadrati residui (dall'inglese Sum of Square Residuals) del modello i.

In econometria vale anche la seguente formula di moltiplicazioni tra matrici:

F={\frac {(R{\hat {\beta }}-r)({\hat {RVar({\widehat {\beta }})R'}})^{-1}(R{\hat {\beta }}-r)}{q}}

dove:

$R$ è la matrice dei vincoli;
$r$ è il parametro d'eguagliaza;
$({\hat {RVar({\widehat {\beta }})R'}})^{-1}$ è l'inversa della matrice con le covarianze;
$q$ è il numero dei vincoli di $H_{0}$ .

Solitamente gli strumenti sono rilevanti se F ≥ 10

Una tavola dei valori critici del test F può essere trovata qui.

Applicazione alla comparazione di diverse statistiche $\chi ^{2}$

In analisi dei dati il test F viene comunemente usato per confrontare i risultati ottenuti con due diversi metodi e valutati con l'estimatore $\chi ^{2}$ .^[2] Se si hanno due variabili $\chi _{1}^{2}$ e $\chi _{2}^{2}$ che seguono la distribuzione di $\chi ^{2}$ a $\nu _{1}$ e $\nu _{2}$ gradi di libertà rispettivamente, si può costruire la variabile $f$ :

$f={\frac {\chi _{1}^{2}/\nu _{1}}{\chi _{2}^{2}/\nu _{2}}}$

che sarà distribuita secondo la Distribuzione F:

$p(f;\nu _{1},\nu _{2})={\frac {\Gamma [(\nu _{1}+\nu _{2})/2]}{\Gamma [\nu _{1}/2]\Gamma [\nu _{2}/2]}}\left({\frac {\nu _{1}}{\nu _{2}}}\right)^{\nu _{1}/2}{\frac {f^{1/2(\nu _{1}-2)}}{(1+f\nu _{1}/\nu _{2})^{1/2(\nu _{1}+\nu _{2})}}}\quad$ .

Per capire se $\chi _{1}^{2}$ e $\chi _{2}^{2}$ siano consistenti si usa, quindi, l'integrale della distribuzione di probabilità per $f$ :

$P_{f}({f^{0};\nu _{1},\nu _{2}})=\int _{f^{0}}^{\infty }p(f,\nu _{1},\nu _{2})df$

dove $f^{0}$ è il particolare valore di $f$ ottenuto.

Il valore di $P_{f}$ fornisce la probabilità di trovare un valore di $f$ pari a $f^{0}$ o più alto da dati casuali se $\chi _{1}^{2}$ e $\chi _{2}^{2}$ sono in accordo.

Tipicamente il test F usato per i $\chi ^{2}$ confronta due fit applicati agli stessi dati per capire se uno è migliore dell'altro. Se il valore di $P_{f}$ è minore del livello di confidenza scelto (ad es. 5%), si ha una significativa differenza nella bontà dei due fit.

Note

^ GraphPad Software Inc, How the F test works to compare models, su graphpad.com, GraphPad Software Inc, 2007/10/11.
^ Bevington, P.R. Robinson, D. K. - Data reduction and error analysis for physical sciences , Mc Graw Hill