Skip to main content
correlazione lineare di Pearson: immagine di presentazione

CORRELAZIONE LINEARE- DEFINIZIONE

La correlazione è una misura che esprime la relazione lineare esistente tra due variabili quantitative.

In altre parole ci dice se i dati relativi alle variabili considerate possono essere letti in un grafico cartesiano lungo una retta.

LIMITI DELLA CORRELAZIONE LINEARE

Uno dei grossi limiti della correlazione è che non ci dice niente sulla relazione causa-effetto che esiste tra le due variabili prese in considerazione.

Questi ragionamento infatti sono spesso frutto di ipotesi in taluni casi.

Ad esempio se vogliamo capire la relazione causa effetto tra il reddito di un’impresa e la sua spesa per gli investimenti potremo fare questa considerazione.

Da un lato può essere vero che un’impresa che sta generando un reddito appena sufficiente a soddisfare le esigenze dei suoi soci potrebbe limitare gli investimenti.

In quest’ottica vedremo il reddito come variabile indipendente e gli investimenti come variabile dipendente.

Dall’altro lato è pur vero che un’impresa che tiene sempre viva la spesa per gli investimenti potrebbe generare a lungo andare un aumento del suo reddito.

In questo caso la variabile indipendente sono gli investimenti e quella dipendente è il reddito.

Ora sicuramente molti di voi mi faranno notare che c’è sempre la possibilità di indebitarsi.

Ma come sappiamo in questo mondo capitalistico sono poche le banche che decidono di sostenere progetti quando non ci sono garanzie sufficienti.

Analoga potrebbe essere la questione quando analizziamo il peso di un individuo e le calorie assunte settimanalmente.

Da un lato potremmo pensare, come lecito, che un aumento di assunzione di cibo (e quindi di calorie) possa portare ad un peso maggiore.

Dall’altro lato è ragionevole pensare che un individuo con peso maggiore sia portato all’assunzione di un quantitativo maggiore di calorie.

correlazione lineare di Pearson:: causa ed effetto?

INDICE E CALCOLO DELLA CORRELAZIONE LINEARE

L’indice statistico che viene utilizzato per misurare il grado di associazione lineare è l’indice di Pearson.

Tale indice viene denominato con la lettera greca “ro” (riportata sotto, o semplicemente con la lettera minuscola latina “r”.

Per calcolare l’indice di correlazione dividiamo la covarianza tra le due variabili, per il prodotto degli scarti quadratici medi (deviazioni standard).

correlazione lineare di Pearson:: calcolo

VALORI DELL’INDICE DI CORRELAZIONE DI PEARSON

L’indice di Pearson è compreso tra il -1 e il +1.

correlazione lineare di Pearson: compresa tra -1 e +1

Quando l’indice di correlazione assume uno dei valori estremi dell’intervallo parliamo di perfetta correlazione.

Abbiamo una perfetta correlazione negativa quando “ro” vale -1, mentre la correlazione è perfettamente positiva quando vale +1.

L’assenza di correlazione lineare si manifesta quando il “ro” è uguale a zero.

correlazione lineare di Pearson: grafico che mostra i valori assunti dall'indice

GRAFICO E CORRELAZIONE

Possiamo dare certamente un’interpretazione grafica ai numeri assunti dal coefficiente di correlazione lineare.

Ho fatto una piccola ricerca sulla relazione che può esistere tra cripto valute, azioni e l’oro.

I dati mensili, raccolti dal sito investing.com si riferiscono al periodo che va dal dicembre del 2019 al settembre del 2021.

La correlazione tra l’andamento dei prezzi dell’azione Saipem e il prezzo dell’oro mostra un coefficiente  pari a -0,81.

Questa situazione è molto prossima ad una situazione di perfetta correlazione negativa.

Osservando il grafico riportato qui sotto si può subito intuire il perché.

GRAFICO CON CORRELAZIONE FORTEMENTE NEGATIVA

correlazione lineare di Pearson: nube di dati con inclinazione negativa

La nube dei dati sembrano approssimarsi attorno ad una retta inclinata negativamente.

La forte vicinanza dei punti alla retta è sinonimo di forte correlazione lineare.

Inoltre,  fatto che la nube è inclinata negativamente è indicatore della negatività di tale correlazione.

La retta in questione si chiama retta di regressione ed è quella che minimizza la somma dei quadrati degli scarti.

L’indice di correlazione pari a -0,81 ci dice che esiste una forte relazione negativa tra il prezzo dell’oro e il prezzo della Saipem, ma non indica niente circa la relazione di causa effetto.

Non ci dice infatti se è l’andamento della Saipem a determinare o il prezzo dell’oro o viceversa.

Se osserviamo la relazione tra il prezzo dei Bitcoin e l’oro ci rendiamo conto di quanta sa scarsa la correlazione.

GRAFICO CON DEBOLE CORRELAZIONE

correlazione lineare di Pearson: nube di dati che sembra mostrare incorrelazione tra il valore dell'oro con i bitcoin

L’indice di correlazione in questione è pari a 0,15, un numero molto prossimo allo zero.

La retta è inclinata orizzontalmente.

Anche se in qualche modo si potrebbe pensare che i punti siamo fedeli alla retta, nella parte sinistra del grafico vediamo che i dati si discostano dall’andamento della retta.

Inoltre la pendenza è molto prossima allo zero, cioè la retta è quasi orizzontale.

L’ultima relazione analizzata è quella tra le due cripto-valute Bitcoin ed Ethereum.

In questo caso l’indice di correlazione ha restituito un valore pari a 0,89.

Siamo dunque in presenza di una forte correlazione positiva.

Ancora una volta proviamo ad osservare il grafico per interpretare questo valore:

GRAFICO CON CORRELAZIONE FORTEMENTE POSITIVA

correlazione lineare di Pearson:
Correlazione fortemente positiva

Anche se la nube di dati sembra espandersi sulla parte destra del grafico la correlazione positiva è evidente.

In primo luogo la retta e la nube di dati  sono inclinato positivamente.

Questo significa che all’aumentare del prezzo del Bitcoin anche l’Ethereum aumenta di valore (o viceversa).

In secondo luogo sulla parte sinistra del grafico molti punti si trovano praticamente sulla retta.

correlazione lineare di Pearson: valori assunti tra le varie coppie di variabili

INDAGINE STATISTICA:

QUALE CORRELAZIONE ESISTE TRA IL PREZZO DI BITCOIN, ETHERIUM, ORO E SAIPEM?

Entriamo più nel vivo sulle modalità di questa piccola indagine.

In primo luogo sono andato sul sito investing.com e ho raccolto i dati su due cripto-valute, il prezzo dell’oro e il prezzo di un’azione.

Per riportare i dati sul foglio elettronico di Excel la procedura è molto semplice.

Basta che selezioniamo per intero la tabella, e poi facciamo il copia incolla.

A noi interessa il prezzo e la data (mese) per cui ho cancellato da Excel.

A questo punto ho ottenuto questa tabella.

correlazione lineare di Pearson: tabella che mostra i dati mensili dei prezzi

MEDIA, VARIANZA, DEVIAZIONE STANDARD DEI BITCOIN

Le correlazioni che ci interessa individuare sono sei:

  • Bitcoin-Ethereum
  • Bitcoin-Oro
  • Bitcoin-Saipem
  • Ethereum-Oro
  • Ethereum-Saipem
  • Oro-Saipem

Per poter calcolare le correlazioni ci servono i dati riguardanti la deviazione standard e correlazione.

La formula infatti è:

correlazione lineare di Pearson: formula

Partiamo dalla deviazione standard, che è la radice quadrata della varianza:

La varianza è un indice di dispersione rispetto alla media

Per calcolarla, in modo semplice, sottraiamo dalla media dei quadrati dei dati il quadrato della media:

Per un’indagine corretta avrei dovuto calcolare la varianza campionaria corretta.

Siccome però la finalità è quella di calcolare la correlazione questa operazione non è proprio necessaria.

Quindi prego i più scettici di voi di chiudere un occhiolino per una volta ;).

Per il calcolo della varianza ci serve appunto la media, calcolata come la somma dei valori divisa per la numerosità degli stessi:

Partiamo dunque dai dati di un solo titolo in modo da calcolare media, varianza e deviazione standard.

Scegliamo come primo titolo il Bitcoin e ci calcoliamo la sua media.

Per farlo sommiamo i dati della prima colonna e lo dividiamo per il numero delle rilevazioni ovvero 23.

Se usiamo Excel inseriamo la formula =MEDIA(dati)

Ora passiamo alla varianza:

Con Excel possiamo usare semplicemente =VARIANZA.P (dati)

Se volessimo calcolare la varianza campionaria  =VARIANZA.C (dati)

Infine la deviazione standard calcolando la radice della varianza:

Per semplicità ho arrotondato tutti i dati all’unità.

correlazione lineare di Pearson: calcoli su media, varianza e deviazione standard

MEDIA, VARIANZA, DEVIAZIONE STANDARD DEI QUATTRO TITOLI

Facendo gli stessi calcoli visti per il Bitcoin e applicandoli agli altri titoli otteniamo questi risultati.

Tra i risultati ho riportato anche il coefficiente di variazione (CV) calcolato come il rapporto tra lo scarto quadratico medio e la media.

correlazione lineare di Pearson: risultati di riepilogo

COVARIANZA E CORRELAZIONE TRA BTCOIN E ETHRIUM

Ora passiamo al calcolo della covarianza.

La covarianza (sempre semplice) si calcola come la media della sommatoria delle x per le y a cui sottraiamo il prodotto delle medie.

Per calcolarla usiamo la seguente formula.

correlazione lineare di Pearson:

Se consideriamo come x il prezzo dei Bitcoin e come y il prezzo dell’Ethereum otteniamo:

correlazione lineare di Pearson: calcolo della covarianza

Ora non ci resta che calcolare la correlazione lineare:

correlazione lineare di Pearson: formula e calcolo

Il risultato trovato evidenzia una forte correlazione lineare tra le due cripto-valute.

correlazione lineare di Pearson: grafico con dati, formule e calcoli

ANALISI GRAFICA

Come possiamo notare dal grafico sottostante si evidenzia che la nube dei dati è inclinata positivamente.

Inoltre la metà dei dati presente sulla parte sinistra del grafico è molta prossima alla retta di regressione.

correlazione lineare di Pearson: analisi grafica della nube di dati con correlazione positiva

MATRICE DELLE CORRELAZIONI

Se calcoliamo tutte le covarianze tra i titoli possiamo metterle in una matrice 4×4.

In corrispondenza di ogni coppia di titoli mettiamo il valore calcolato della correlazione.

correlazione lineare di Pearson: matrice delle correlazioni

Sulla diagonale principale possiamo vedere come la correlazione di ogni titolo con se stesso è pari a 1.

Questo perché per ogni periodo il rendimento di ogni titolo è pari  a se stesso.

Se dovessimo rappresentare il grafico cartesiano dei Bitcoin con i Bitcoin, vedremo che tutti i dati si distribuiscono sulla bisettrice del primo e del terzo quadrante.

correlazione lineare di Pearson: correlazione dei bitcoin con i bitcoin.
caso di correlazione perfettamente positiva

Il prezzo dei Bitcoin è perfettamente correlato con il prezzo dei Bitcoin e la correlazione vale 1.

Mentre la covarianza dei Btcoin con i Btcoin è pari alla varianza.

Questa tabella è stata ottenuta usando excel.

In particolare basta andare nel menu DATI, selezionare ANALISI DATI, in fondo a destra, pigiare su CORRELAZIONE,  e inserire i dati.

correlazione lineare di Pearson:
Calcoli con excel per la matrice delle correlazioni
correlazione lineare di Pearson: calcoli con excel per la matrice delle correlazioni parte seconda

E dove abbiamo messo l’intervallo dell’output si ottiene la matrice delle correlazioni.

correlazione lineare di Pearson: matrice delle correlazioni lineari

Da notare che questa matrice è compilata solamente sotto la diagonale principale.

In questa tabella ci sono tutti gli indici di correlazione per ogni coppia di variabili.

Questo perché la correlazione del titolo A con il titolo B è identica alla correlazione tra il titolo B e il titolo A.

Per questo motivo non ci sarebbe bisogno di ripete i risultati due volte.

Se volessimo rappresentarla in maniera completa la matrice delle correlazioni sarebbe una matrice simmetrica.

INTERPRETAZIONE DELLA TABELLA

La tabella delle correlazione ci dice subito quali sono le relazioni più stabili e più instabili a livello lineare.

Quando il valore della correlazione si avvicina al -1 o al +1, siamo in presenza di forti correlazioni, rispettivamente positiva e negativa.

Diversamente quando tendiamo allo 0 siamo in presenza di assenza di correlazione.

Basta dunque un’occhiata veloce per capire dove può funzionare il modello della regressione lineare.

Ad esempio funziona molto bene per la coppia  Ethereum-Bitcoin (ro=0,89) e per la  coppia Saipem-Oro (ro=-0,81).

Diversamente non andremo ad applicare il modello lineare per le coppie Bitcoin-Oro (ro=0,154) e Ethereum-Oro (ro=0,181).

HAI QUALCHE DOMANDA?

Se hai qualsiasi domanda sulla correlazione lineare e l’indice di Pearson scrivi pure un commento qui sotto.

Per scoprire di più sulla correlazione e sulla regressione  ho realizzato un corso sulla statistica descrittiva che affronta in modo dettagliato questo argomento.

Se vuoi scoprire tutti i corsi riguardanti la statistica accedi da qui.

10 Comments

  • Oreste Finizio ha detto:

    Ciao Andrea, sono di fronte a questo problema di statistica sulla correlazione, se il testo mi chiede come varia la correlazione tra due variabili x e y se al posto della variabile x sostituiamo 2x – 3 ? ci sto ragionando da 5 giorni ma non riesco a capire come si risolve, grazie.

    • Andrea ha detto:

      Ciao Oreste grazie dell’interessante domanda.
      Quando si studia la correlazione lineare stiamo valutando quanto le variabili x e y siano correlate a livello lineare.
      Quindi se una delle due variabili x o y subiscono una trasformazione lineare questo non va ad intaccare la correlazione tra le due variabili.
      Nel tuo caso la x subisce una trasformazione lineare che la porta ad assumere le sembianze di 2x-3.
      Dal punto di vista grafico vedremo semplicemente che la nube dei dati si allarga e si sposta verso sinistra di tre unità.
      Ma qualitativamente resterà la stessa immagine visiva e non va ad intaccare la correlazione lineare.
      Per assurdo è come se prendiamo una figura e la allarghiamo .
      L’effetto visivo sarà il medesimo.
      Se vogliamo avere una spiegazione migliore possiamo ricordiamo che la correlazione tra x e y si calcola come segue:
      rxy=covxy/(sigmax·sigmay)
      se vogliamo fare la correlazione tra 2x-3 e y avremo che:
      r(2x-3,y)=cov(2x-3,y)/(sigma(2x-3)·sigmay)
      la covarianza tra 2x-3 e y risente solamente della costante moltiplicativa ma non di quella additiva e lo stesso vale per la deviazione standard (sigma) di 2x-3.
      Perciò avremo che:
      cov(2x-3,y)=2·covx,y
      sigma(2x-3)=2·sigmax
      A questo punto otteniamo:
      r(2x-3,y)=2·cov(x,y)/(2·sigmax·sigmay)
      semplificando il 2 al numeratore e al denominatore:
      r(2x-3,y)=cov(x,y)/(sigmax·sigmay)=rx,y
      Abbiamo ottenuto la stessa correlazione lineare 😉

  • daniel ha detto:

    Ciao Andrea,
    Complimenti per il sito internet veramente molto interessante, volevo chiederti una informazione se possibile:
    Avrei bisogno di risolvere questo quesito:
    Dovrei correlare i seguenti dati tramite foglio excell:

    USD $11.411,34 USD $11.502,38 USD $11.175,29 USD $11.271,75

    34,50 34,88 32,91 33,39

    =
    0,9937771043

    Risultato della correlazione tramite questa formula =CORRELAZIONE(B3:E3;L3:O3).

    Secondo te è corretta??
    Grazie e buona serata.
    D.I.

    • Andrea ha detto:

      Ciao Daniel,
      Ho appena verificato questi dati.
      La correlazione assume esattamente il valore da te calcolato.
      Il che significa le le due variabili sono quasi perfettamente correlate positivamente.
      Se provi a rappresentare questi dati in un grafico noterai come questi dati si dispongono quasi perfettamente su di una retta.
      Questo dato è molto significativo in quanto potresti creare un modello di regressione mediante il quale vai a prevedere il valore della variabile y (suppongo a questo punto la seconda) rispetto al valore della x (che sembrerebbe il prezzo in dollari).

  • Cristiano ha detto:

    Ciao Andrea, complimenti anche da parte mia per il sito
    Volevo chiederti se possibile un chiarimento:
    ho questi dati:
    varA 0,0597 0,0474 0,0695 0,0323 0,0401 0,0531 0,0827 0,0731
    varB 0,2288 0,2223 0,2137 0,2981 0,3755 0,2454 0,2253 0,1285
    Usando la formula di correlazione classica =CORRELAZIONE(H67:O67;H68:O68) ottengo un valore di -0.7103
    Distribuendo i dati su un grafico a dispersione e visualizzando la R^ il valore restituito invece R² = 0,5045

    Da varie letture mi era sembrato di capire che fossero la stessa cosa ma, dati alla mano, direi di no

    C’è una spiegazione a questa situazione ?

    Grazie

    Cristiano

    • Andrea ha detto:

      Ciao Cristiano.
      R è l’indice di correlazione è il suo valore oscilla tra -1 e +1.
      Esso indica quanto bene disposti sono i punti lungo la retta.
      In particolare se ci avviciniamo agli estremi (-1 o +1) maggiore sarà la correlazione.
      La retta avrà inclinazione negativa quando ci spostiamo verso il -1 e positiva quando vieni spostiamo verso +1.
      Il secondo indice R^2 altro non è che il quadrato di R.
      Esso è sempre positivo e oscilla tra 0 e 1.
      Il suo valore indica la percentuale della variabilità della y (variabile dipendendente ) che può essere spiegata dalla x(indipendente).
      Nel tuo caso specifico hai che:
      R=-0,71, quindi vi è una correlazione negativa medio-alta (buona correlazione)
      R^2=0,504, dunque circa il 50% della variabilità delle y può essere spiegata conoscendo la variabile (o le variabili) indipendenti x del modello lineare

  • daniel ha detto:

    Ciao Andrea sono qui per chiederti una conferma per quanto riguarda una correlazione di dati.
    Spero di riuscire a spiegarmi:
    Vorrei correlare l’indice Nasdaq con l’etf XLI sul time frame settimanale:
    Scaricando i dati da investing ho preso l’APERTURRA, il MASSIMO DI PREZZO, il MINIMO DI PREZZO e la CHIUSURA cosi in ordine come te li ho descritti.
    La stessa cosa lo fatta per l’indice ETF XLI
    Ho usato la seguente formula di excell per trovare la correlazione: =CORRELAZIONE(B11:E11;B4:E4) dove B11 è l apertura C11 il MASSIMO DI PREZZO D11 il MINIMO DI PREZZO e E11 LA CHIUSURA.
    Stessa procedura per B4:E4.

    E’ corretta la disposizione dei dati correlati (APERTURA, MASSIMO,MINIMO, CHIUSURA) oppure bisogna cambiarla ad esempio CHIUSURA APERTURA MINIMO MASSIMO???

    E’ possibile che per fare una correlazione tra i due indici non sia indispensabile inserire i dati MASSIMO e MINIMO dei relativi indici???

    Ho provato a togliere il MASSIMO e MINIMO degli indici e quindi correlare solo APERTURE e CHIUSURA ma ottengo delle correlazioni dirette(1) oppure inverse (-1) non ottengo vie di mezzo ad esempio 0.98545622

    Spero do essermi spiegato al meglio e grazie.

    • Andrea ha detto:

      Tu vuoi correlare dello stesso titolo
      APERTURA vs CHIUSURA
      APERTURA vs MAX
      APERTURA vs MIN
      MAX vs MIN
      ???

      • daniel ha detto:

        Io voglio correlare un titolo(es.amazon) con un altro titolo(esempio tesla) , quello che non riesco a capire se è corretto correlare APERTURA CHIUSURA MASSIMO E MINIMO del primo titolo con APETURA CHIUSURA MASSIMO E MINIMO del secondo titolo oppure basta solo correlare l’apertura e la chiusura di entrambi i titolio.
        Grazie ancora Andrea

        • Andrea ha detto:

          Ora è più chiaro.
          Se l’orizzonte temporale è abbastanza ampio non importa molto.
          Puoi correlare APERTURA con APERTURA
          oppure
          CHIUSURA con CHIUSURA
          (eviterei i massimi e i minimi perché potrebbero esservi distorsioni)
          Se lo fai in termini di correlazione cambierà un gran poco.

Leave a Reply