venerdì 19 febbraio 2010

Napoli, meglio col caldo o col freddo?

Questa volta prendiamo in considerazione due fattori di variabilità, per verificare se le medie tra i gruppi dipendono dal gruppo di classificazione (zone) o dalla seconda variabile che si va a considerare (blocco).
Ricorriamo ad una Analisi della varianza a due vie.
Organizziamo i dati in un tabella a doppia entrata.



Sono rappresentati i punteggi del Napoli negli ultimi 5 campionati disputati in serie A divisi per mese e vogliamo verificare se i punteggi dipendono dall'anno e/o dal mese oppure se sono indipendenti da questi due fattori.

Da come possiamo osservare dalla tabella il campionato 09/10 è ancora in fase di svolgimento e non tutti i campionati hanno avuto stessa durata (si è passato negli anni da un torneo a 18 squadre ad uno a 20 squadre).
Oltretutto il punteggio (colonna bianca) dipende dal numero di partite (colonna verde), quindi è opportuno pesare i punteggi in base alle partite (colonna gialla).

In queste condizioni di incertezza è impossibile quindi procedere con l'analisi per tutti gli anni, ma prendiamo in considerazione solo i campionati simili tra loro e cioè i campionati 2008/09 e 2007/08.

Con un grafico radiale oltremodo è evidente la drammatica stagione 97/98 coincisa con la retrocessione in serie B.

Verifichiamo invece l'andamento dei due campionati presi come riferimento

dove si evince una partenza migliore della squadra nel campionato 08/09 ma con un finale sicuramente a favore di quella che ha conquistato l'accesso all'intertoto nel torneo 07/08.

Come detto prima però i punteggi risentono del numero di partite disputate nei vari mesi e quindi è più utile osservare il grafico con i punteggi pesati.

Qui gli andamenti si livellano rispetto al precedente anche se le considerazioni fatte in precedenza risultano anche in questo caso.

Analizziamo quindi i dati effettuando l'Anova solo sui due campionati di riferimento ed osserviamo se una delle due variabili anno e mese, o entrambe o nessuna influenzano i punteggi della squadra.


Analysis of Variance Table
Response: punti
          Df Sum Sq Mean Sq F value Pr(>F)
mesi       9 5.4459  0.6051  1.8417 0.1882
anni       1 0.0336  0.0336  0.1023 0.7564
Residuals  9 2.9570  0.3286 

La significatività della differenza tra mesi è: F = 1.8417. Questo valore è inferiore al valore tabulato (5.11) e difatti p-value > 0.05. Quindi si accetta l'ipotesi nulla che le medie valutate in base ai mesi sono uguali; quindi la variabile "mesi" non influisce sui punteggi.

La significatività della differenza tra anni è: F = 1.1023. Questo valore è inferiore al valore tabulato (5.11) e difatti p-value > 0.05. Quindi si accetta l'ipotesi nulla che le medie valutate in base agli anni sono uguali; quindi la variabile "anni" non influisce sui punteggi.

Quindi alla domanda del titolo possiamo rispondere che non esiste una stagione che sorride di più agli azzurri rispetto ad un'altra, anche se forse avendo potuto utilizzare un numero superiore di variabili "anni" il risultato sarebbe potuto essere diverso.


venerdì 12 febbraio 2010

Ultimi vent'anni, Napoli settimo


In questo nuovo post vogliamo confrontare più gruppi di dati, quindi verifichiamo se i posizionamenti delle cinque squadre in esame (Inter, Milan, Juventus, Roma e Napoli) negli ultimi 21 campionati giocati rispettivamente in massima divisione sono tra loro uguali.

Il metodo da utilizzare per il confronto tra più gruppi si chiama ANOVA, il quale però suppone che tali gruppi seguano una distribuzione gaussiana.

Quindi innanzitutto verifichiamo l'omoschedasticità (ossia effettuiamo un test per l'omogeneità delle varianze).

 Bartlett test of homogeneity of variances
data:  dati and gruppi 
Bartlett's K-squared = 10.7245, df = 4, p-value = 0.02984
Dal risultato si evince che le varianze non sono omogenee essendo il p-value minore di 0,05 (95%) ed a riprova di questo anche il valore Bartlett's K-squared (10,7) risulta essere maggiore del chi-quadro tabulato (9,48).

Quindi non possiamo, con i nostri dati, proseguire con un metodo parametrico come l'Anova ma dobbiamo utilizzarne uno non parametrico come il test di Kruskal-Wallis.

Tale metodo viene applicato appunto quando non si può fare l'assunzione che i gruppi seguano una distribuzione normale.
 Kruskal-Wallis rank sum test
data:  dati 
Kruskal-Wallis chi-squared = 17.4556, df = 4, p-value = 0.001576
Risulta quindi che il p-value è minore di 0,05 (95%) ed il valore di Kruskal-Wallis (17,4) è maggiore del chi-quadro tabulato (7,81).

La conclusione è che rifiutiamo l'ipotesi H0 e cioè che le medie dei 5 gruppi sono statisticamente (con un errore del 5%) differenti tra loro, come facilmente intuibile.

In effetti verificando le medie di piazzamento delle squadre negli ultimi 21 tornei disputati in serie A è facile notare come le squadre tendano a piazzarsi in posizioni differenti, nel dettaglio:
  • Il Milan è risultata la migliore (3,3) avendo una media di piazzamento poco sotto il 3° posto.
  • Segue la Juventus (3,5) e l'Inter (3,8) che tende più verso il 4° posto.
  • La Roma (5,4) ha una media di piazzamento poco sotto il 5° posto.
  • Chiude il Napoli con una media (7,6) che lo porta a posizionarsi tra il 7° e l'8° posto in classifica.
Se avessimo potuto utilizzare il test Anova, cioè avessimo potuto affermare che le varianze erano omogenee ed il risultato fosse stato significativo, avremmo potuto cercare quali delle 5 coppie di medie risultavano significativamente differenti.






martedì 9 febbraio 2010

Mazzarri Vs. Donadoni 1 - 0

La Statistica è la scienza (dell’incertezza) che può aiutarci a capire se un determinato fenomeno – ad es. sconfitte di una squadra – sia effettivamente frutto del caso.

Esistono numerose tecniche statistiche, non tutte – però – applicabili in qualunque circostanza. Il nostro caso è caratterizzato essenzialmente da due variabili qualitative:

  • la presenza di Walter Mazzarri, in quanto ci interessa sapere se esso sia in grado di influenzare il rendimento della squadra del Napoli. Tale variabile può essere definita “Mazzarri allenatore”: essa può assumere soltanto due modalità, o no;
  • se il Napoli perde oppure no, in quanto si tratta di una possibile conseguenza della presenza o assenza di W. Mazzarri successiva all'esonero di Donadoni. Tale nuova variabile può essere definita “Sconfitta del Napoli” e può assumere – anch’essa – soltanto due modalità: sì o no.

  • I dati di cui disponiamo sono riepilogati in una tabella delle frequenze osservate, riferita al periodo delle prime 23 giornate del campionato in corso, fino a febbraio 2010.
    Frequenza significa semplicemente quante volte si ripete una determinata modalità di una certa variabile.

    Risolviamo il problema con il test del chi-quadro applicato alla tabella di contingenza 2x2.

    2-sample test for equality of proportions with continuity correction
    data: c(4, 1) out of c(7, 16)
    X-squared = 4.7238, df = 1, p-value = 0.02975
    alternative hypothesis: two.sided
    95 percent confidence interval:
    0.02094116 0.99691598
    sample estimates:
    prop 1 prop 2
    0.5714286 0.0625000

    Dal risultato abbiamo ottenuto un p-value di 0,02 che è minore del valore 0,05 (95%), che ci porta a rifiutare l’ipotesi di uguaglianza delle probabilità.
    Per conferma confrontiamo il valore chi-quadro-calcolato con il valore chi-quadro-tabulato, poiché chi-quadro-calcolato (4,72) è maggiore di chi-quadro-tabulato (3,84), concludiamo col rifiutare l’ipotesi H0 (come già affermato dal p-value).

    In conclusione, possiamo affermare che accettiamo quindi che esista un legame di dipendenza (statisticamente significativo) fra le due variabili. In particolare, su 100 campioni estratti 95 danno evidenza del legame di dipendenza, quindi semplicemente potremmo dire che le sconfitte subite dal Napoli, con una fiducia del 95%, sono frutto di Mr. Donadoni, purtroppo la tecnica applicata non è in grado di stabilire quale sia la direzione del legame causa – effetto e dunque non basta per accusare l'ex ct della nazionale, il cui esonero fu dovuto a prove più dirette e/o a diverse variabili in gioco.

    Questo lavoro è utile per capire quanto la statistica serva a trasformare i dati in informazioni e a fornire quindi un buon supporto a chiunque debba prendere decisioni.






    venerdì 5 febbraio 2010

    Grava è meglio di Contini, lo dice la scienza



    In questo post vogliamo confrontare le medie voto ricevute dai giornali dai due giocatori del Napoli nelle rispettive prime dieci partite giocate in questo campionato.

    I dati sono di seguito riportati:

    Grava: 6, 6.5, 6, 6.5, 6.5, 6.5, 6.5, 7, 6.5, 6.5
    Contini: 6, 5, 6, 4.5, 6, 5, 6, 6, 5, 5

    Per risolvere questo problema dobbiamo ricorrere ad un test t di student a due campioni, supponendo che i due campioni siano estratti da popolazioni che seguano una distribuzione di tipo gaussiana.
    Prima di procedere con il t-test, è necessario valutare le varianze campionarie dei due gruppi, ossia effettuare un test F di Fisher per verificare l’omoschedasticità (omogeneità delle varianze).
    F test to compare two variances data: contini and grava F = 4.4483, num df = 9, denom df = 9, p-value = 0.03661 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 1.104889 17.908733 sample estimates: ratio of variances 4.448276
    Dal risultato abbiamo ottenuto un p-value di 0,03 che è minore del valore 0,05 che rappresenta la significatività per una distribuzione F al 95%.
    Difatti il valore F ottenuto (4,44) è maggiore rispetto al valore F-tabulato per alpha 0,05 e 9 gradi di libertà al numeratore e al denominatore (3,17).

    Possiamo quindi affermare che le due varianze non sono omogenee

    Richiamiamo quindi la funzione t.test per varianze non omogenee e campioni indipendenti:
    Welch Two Sample t-test
    data: grava and contini
    t = 4.7733, df = 12.852, p-value = 0.0003755
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:
    0.5468789 1.4531211
    sample estimates:
    mean of x mean of y
    6.45 5.45
    Anche in questo caso abbiamo ottenuto un p-value (0,0003) minore di 0,05 (95%), quindi possiamo concludere che le medie dei due gruppi sono significativamente diverse.
    Anche il valore di t (4,77) ci conferma l'ipotesi, essendo maggiore del valore t-tabulato (2,16) per 12.852 gradi di libertà.

    Questo ci conferma che possiamo non accettare l'ipotesi di uguaglianza delle medie ed affermare che il giocatore casertano ha fatto meglio del collega varesino nelle partite giocate con la maglia del Napoli.


    lunedì 11 gennaio 2010

    Diffusione regionale del tifo

    Un'analisi territoriale del tifo in Italia basata sulle ricerche effettuate su internet da parte degli utenti dal 2004 ad oggi, delle 20 squadre di A che disputano il campionato 2009/10, ne consegue la mappa sottostante:

    Ovviamente le regioni che presentano una squadra in massima divisione si orientano verso il team rappresentativo, ma è interessante notare come il Milan non sia presente in quanto in Lombardia l'Inter avrebbe più tifosi dei rossoneri, così come nel lazio siano più i romanisti che i laziali, i quali però sembrano essere di più in abruzzo, oppure in liguria dove i doriani superano gli amici grifoni.
    Le regioni non rappresentate sembrano orientarsi verso le squadre più forti (vedi calabria,valle d'aosta,marche e umbria-->juventus - trentino-->inter) o quelle delle regioni confinanti (vedi basilicata-->napoli - molise-->roma).

    Questa statistica non vuole in alcun modo sentenziare in modo assoluto sulle preferenze calcistiche delle singole regioni ma solo interpretare i risultati di ricerca web negli ultimi 6 anni.