Il p-value, o valore p, è la probabilità di ottenere uno specifico insieme di osservazioni nel caso in cui l’ipotesi nulla fosse vera cioè che quanto stiamo sostenendo sia corretto con un piccolo margine di errore. Per questo si cade spesso nell’errore di pensare che, se il p-value ha un valore minore a 0.05, allora siamo davanti a un’ipotesi dimostrata correttamente. Vedremo in questo articolo come, in realtà, non sia così, e come non basti un valore del p-value minore di 0.05 per affermare che la tua ipotesi è vera o, viceversa, un valore maggiore di 0.05 per affermare che è sbagliata.
Ma facciamo un passo indietro, e vediamo insieme come si ottiene il p-value: questo numero viene calcolato a partire da un test statistico basato sui risultati osservati durante l’analisi, chiamato test d’ipotesi.
Quando esegui un test d’ipotesi, il p-value ti aiuta a determinare la significatività del risultato del test in relazione all’ipotesi nulla.
In molti test condotti in settori quali biologia, psicologia e medicina, spesso si studiano gli effetti che una o più variabili (indipendenti) hanno su un’altra (dipendente). In questi tipi di test, l’ipotesi nulla afferma che non c’è relazione tra le due variabili oggetto di studio (una variabile non influenza l’altra).
In altre parole, l’ipotesi nulla, detta H0, afferma che i risultati del test sono dovuti al caso e quindi non è significativo supportarla. Ancora, l’ipotesi nulla assume che qualsiasi cosa tu stia provando a testare, non andrà a buon fine.
L’ipotesi alternativa invece, detta H1, è quella che tu accetteresti se l’ipotesi nulla fosse falsa. Essa afferma l’opposto dell’ipotesi nulla, e cioè che la variabile indipendente non influenza quella dipendente e che è significativo supportare la questione investigata.
A dir la verità, in statistica si preferisce parlare solo dell'ipotesi nulla di partenza H0, commentando nello specifico solo il rifiuto.
Se hai dei dubbi su cosa sia il test d'ipotesi e lo vuoi ripassare velocemente, guarda il mio video su questo argomento in cui te lo spiego in modo semplice e chiaro attraverso una metafora statistica.
Il calcolo del p-value dipende dal tipo di test che hai scelto per testare le tue ipotesi:
Una volta scelto e condotto il test, il valore del p-value può essere ricavato o tramite le tavole statistiche (Normale, Student, Chi-quadro, Fisher, ecc…) o più semplicemente mediante software quali R, SPSS ed Excel inserendo gli opportuni parametri, che puoi trovare riportati in fondo all'articolo.
Per interpretare il p-value devi seguire diversi passaggi. Vediamoli insieme.
Quando effettui un test statistico il p-value ti aiuta a decidere se rifiutare l’ipotesi nulla.
Esso è più piccolo tanto più i tuoi dati si allontanano dal range del test statistico previsto dall’ipotesi nulla. Prima di condurre un qualsiasi test di ipotesi, si fissa un livello di significatività (di solito α=0,05) sotto il quale il test può ritenersi statisticamente significativo e si confronta quest’ultimo con il valore di probabilità p seguendo la seguente regola pratica:
Facciamo un esempio pratico, che ti permetta di capire in fondo il significato di p-value.
Supponiamo che vuoi verificare se c’è differenza di peso tra due gruppi di persone a cui vengono somministrate due diete A e B differenti. In questo caso puoi condurre un t-test bilaterale, per ottenere risultati che possano dirti se esiste differenza significativa tra le due diete e che quindi il tipo di dieta (variabili indipendente) influenza il peso (variabile dipendente) dei due gruppi di persone.
Lo schema d’ipotesi è il seguente:
Se le persone appartenenti ai due gruppi hanno lo stesso peso, vorrà dire che non si hanno sufficienti prove per rifiutare l’ipotesi nulla e il p-value risultante sarà più vicino ad 1.
Nella realtà il valore di probabilità p non sarà esattamente 1, perché i gruppi non saranno perfettamente uguali.
Se invece il risultato osservato sarà che le medie dei pesi dei due gruppi sono differenti, allora il test statistico non cadrà più nella zona dei valori previsti dall’ipotesi nulla e il valore di p sarà più vicino a 0.
Anche in questo caso, il p non sarà perfettamente 0, perché ci sarà sempre una minima probabilità che i risultati del test siano stati ottenuti accidentalmente.
Puoi dunque dire che più piccolo è il p-value, maggiore è l’evidenza che dovresti rifiutare l’ipotesi nulla.
In base al range in cui varia il valore p, si ha un certo grado di significatività, come ti illustro di seguito:
Una bassa probabilità del p-value (quindi la significatività statistica) è, in realtà, un indicatore che ha il minor peso sui tuoi risultati.
Infatti, tale valore ti dice soltanto se c’è relazione tra variabili dipendente e indipendente e non con quale intensità questa relazione sussiste. Quest’ultima informazione ti viene invece data dall’effect size, letteralmente tradotto come grandezza dell’effetto: maggiore esso è, più forte sarà la relazione tra le due variabili.
Ci sono differenti effect size a seconda della tecnica statistica che stai utilizzando: per esempio la V di Cramer, l’eta quadrato o l’R-quadrato (o R-quadro).
Una delle più importanti misure dell’effect size è fornito dal coefficiente di correlazione di Pearson R. Tale coefficiente varia da -1 (massima correlazione negativa) a 1 (massima correlazione positiva). Qui sotto trovi un elenco che riporta la forza di correlazione in base al valore di r in valore assoluto:
Ti lascio un video su calcolare facilmente questo indice utilizzando la calcolatrice SHARP.
Inoltre, a differenza del p-value, il coefficiente di correlazione o, in generale, l’effect size, non è affetto dalla dimensione del campione e può essere usato per confrontare risultati ottenuti da studi condotti in maniera diversa (con setting diversi).
Come ti ho subito sottolineato all'inizio di questo articolo, un p-value minore di 0.05 non significa necessariamente che la tua ipotesi sia corretta.
Viceversa, però, cosa implica avere un p-value maggiore di 0.05?
L'unica risposta che posso darti è: dipende da quello che stai testando!
Un classico esempio di situazione in cui potresti desiderare un p-value maggiore di 0.05, anche perchè andrebbe in seguito a rendere più facile il tuo lavoro, è il test di normalità di Shapiro-Wilk.
Si tratta di uno dei test più potenti per la verifica della normalità, soprattutto se si ha a che fare con campioni piccoli, e si utilizza per verificare l'ipotesi nulla che un campione provenga da una popolazione che è distribuita normalmente. Proprio questo è il motivo per cui un p-value maggiore di 0.05 è positivo, in quanto andrebbe a non rifiutare l'ipotesi nulla e, di conseguenza, la variabile analizzata si presuppone sia distribuita normalmente.
Un altro esempio in cui è auspicabile avere un p-value maggiore di 0.05 è il test di Kolmogorov-Smirnov, utilizzato per stabilire il grado di somiglianza tra due diverse distribuzioni.
Se vuoi approfondire la tua conoscenza su SPSS del test di normalità di Shapiro-Wilk o del test di Kolmogorov-Smirnov, ti lascio questo breve video di presentazione del capitolo 9 del mio corso.
Pensare che un p-value ≤ 0.05 sia abbastanza per poter affermare che la tua ipotesi è corretta è solo uno di alcuni errori che spesso capitano quando si approccia questo argomento. Vediamo insieme gli altri.
Il p-value non è la probabilità:
Un concetto che voglio che ti sia molto chiaro, prima di concludere questo articolo, è che il valore del p-value, da solo, non può farti capire se la tua ipotesi nulla sia giusta o sbagliata.
Riprendiamo l'esempio che abbiamo visto precedentemente, dove avevamo due gruppi di persone A e B, con due diete differenti, e volevamo verificare se questa alimentazione influenzasse il loro peso. In questo caso, l'ipotesi nulla H0 era che non ci fosse differenza di peso tra i due gruppi.
Nel caso tu abbia un p > 0.05, quello che puoi dire è che non possiamo affermare che l'ipotesi nulla sia corretta, ma solo che non vi è evidenza statistica (significatività) che il peso dei due gruppi sia diverso.
Questo dettaglio è fondamentale: la tua interpretazione finale del test non può essere basata unicamente sul valore del p-value, devi sempre tenere conto di tutti gli elementi statistici e applicarli in modo logico.
Se hai ancora dei dubbi, guarda il mio video sul p-value all'inizio dell'articolo che è spiegato semplice con una metafora statistica.
Dipende dal comando usato
Sempre presente in qualsiasi statistica lo richieda
I feel torn between asking questions that I know will lead to statistical significance and asking questions that matter.
(Uno scienziato americano)