
CORRELAZIONE LINEARE- DEFINIZIONE
La correlazione è una misura che esprime la relazione lineare esistente tra due variabili quantitative.
In altre parole ci dice se i dati relativi alle variabili considerate possono essere letti in un grafico cartesiano lungo una retta.
LIMITI DELLA CORRELAZIONE LINEARE
Uno dei grossi limiti della correlazione è che non ci dice niente sulla relazione causa-effetto che esiste tra le due variabili prese in considerazione.
Questi ragionamento infatti sono spesso frutto di ipotesi in taluni casi.
Ad esempio se vogliamo capire la relazione causa effetto tra il reddito di un’impresa e la sua spesa per gli investimenti potremo fare questa considerazione.
Da un lato può essere vero che un’impresa che sta generando un reddito appena sufficiente a soddisfare le esigenze dei suoi soci potrebbe limitare gli investimenti.
In quest’ottica vedremo il reddito come variabile indipendente e gli investimenti come variabile dipendente.
Dall’altro lato è pur vero che un’impresa che tiene sempre viva la spesa per gli investimenti potrebbe generare a lungo andare un aumento del suo reddito.
In questo caso la variabile indipendente sono gli investimenti e quella dipendente è il reddito.
Ora sicuramente molti di voi mi faranno notare che c’è sempre la possibilità di indebitarsi.
Ma come sappiamo in questo mondo capitalistico sono poche le banche che decidono di sostenere progetti quando non ci sono garanzie sufficienti.
Analoga potrebbe essere la questione quando analizziamo il peso di un individuo e le calorie assunte settimanalmente.
Da un lato potremmo pensare, come lecito, che un aumento di assunzione di cibo (e quindi di calorie) possa portare ad un peso maggiore.
Dall’altro lato è ragionevole pensare che un individuo con peso maggiore sia portato all’assunzione di un quantitativo maggiore di calorie.

INDICE E CALCOLO DELLA CORRELAZIONE LINEARE
L’indice statistico che viene utilizzato per misurare il grado di associazione lineare è l’indice di Pearson.
Tale indice viene denominato con la lettera greca “ro” (riportata sotto, o semplicemente con la lettera minuscola latina “r”.
Per calcolare l’indice di correlazione dividiamo la covarianza tra le due variabili, per il prodotto degli scarti quadratici medi (deviazioni standard).

VALORI DELL’INDICE DI CORRELAZIONE DI PEARSON
L’indice di Pearson è compreso tra il -1 e il +1.

Quando l’indice di correlazione assume uno dei valori estremi dell’intervallo parliamo di perfetta correlazione.
Abbiamo una perfetta correlazione negativa quando “ro” vale -1, mentre la correlazione è perfettamente positiva quando vale +1.
L’assenza di correlazione lineare si manifesta quando il “ro” è uguale a zero.

GRAFICO E CORRELAZIONE
Possiamo dare certamente un’interpretazione grafica ai numeri assunti dal coefficiente di correlazione lineare.
Ho fatto una piccola ricerca sulla relazione che può esistere tra cripto valute, azioni e l’oro.
I dati mensili, raccolti dal sito investing.com si riferiscono al periodo che va dal dicembre del 2019 al settembre del 2021.
La correlazione tra l’andamento dei prezzi dell’azione Saipem e il prezzo dell’oro mostra un coefficiente pari a -0,81.
Questa situazione è molto prossima ad una situazione di perfetta correlazione negativa.
Osservando il grafico riportato qui sotto si può subito intuire il perché.
GRAFICO CON CORRELAZIONE FORTEMENTE NEGATIVA

La nube dei dati sembrano approssimarsi attorno ad una retta inclinata negativamente.
La forte vicinanza dei punti alla retta è sinonimo di forte correlazione lineare.
Inoltre, fatto che la nube è inclinata negativamente è indicatore della negatività di tale correlazione.
La retta in questione si chiama retta di regressione ed è quella che minimizza la somma dei quadrati degli scarti.
L’indice di correlazione pari a -0,81 ci dice che esiste una forte relazione negativa tra il prezzo dell’oro e il prezzo della Saipem, ma non indica niente circa la relazione di causa effetto.
Non ci dice infatti se è l’andamento della Saipem a determinare o il prezzo dell’oro o viceversa.
Se osserviamo la relazione tra il prezzo dei Bitcoin e l’oro ci rendiamo conto di quanta sa scarsa la correlazione.
GRAFICO CON DEBOLE CORRELAZIONE

L’indice di correlazione in questione è pari a 0,15, un numero molto prossimo allo zero.
La retta è inclinata orizzontalmente.
Anche se in qualche modo si potrebbe pensare che i punti siamo fedeli alla retta, nella parte sinistra del grafico vediamo che i dati si discostano dall’andamento della retta.
Inoltre la pendenza è molto prossima allo zero, cioè la retta è quasi orizzontale.
L’ultima relazione analizzata è quella tra le due cripto-valute Bitcoin ed Ethereum.
In questo caso l’indice di correlazione ha restituito un valore pari a 0,89.
Siamo dunque in presenza di una forte correlazione positiva.
Ancora una volta proviamo ad osservare il grafico per interpretare questo valore:
GRAFICO CON CORRELAZIONE FORTEMENTE POSITIVA

Anche se la nube di dati sembra espandersi sulla parte destra del grafico la correlazione positiva è evidente.
In primo luogo la retta e la nube di dati sono inclinato positivamente.
Questo significa che all’aumentare del prezzo del Bitcoin anche l’Ethereum aumenta di valore (o viceversa).
In secondo luogo sulla parte sinistra del grafico molti punti si trovano praticamente sulla retta.

INDAGINE STATISTICA:
QUALE CORRELAZIONE ESISTE TRA IL PREZZO DI BITCOIN, ETHERIUM, ORO E SAIPEM?
Entriamo più nel vivo sulle modalità di questa piccola indagine.
In primo luogo sono andato sul sito investing.com e ho raccolto i dati su due cripto-valute, il prezzo dell’oro e il prezzo di un’azione.
Per riportare i dati sul foglio elettronico di Excel la procedura è molto semplice.
Basta che selezioniamo per intero la tabella, e poi facciamo il copia incolla.
A noi interessa il prezzo e la data (mese) per cui ho cancellato da Excel.
A questo punto ho ottenuto questa tabella.

MEDIA, VARIANZA, DEVIAZIONE STANDARD DEI BITCOIN
Le correlazioni che ci interessa individuare sono sei:
- Bitcoin-Ethereum
- Bitcoin-Oro
- Bitcoin-Saipem
- Ethereum-Oro
- Ethereum-Saipem
- Oro-Saipem
Per poter calcolare le correlazioni ci servono i dati riguardanti la deviazione standard e correlazione.
La formula infatti è:

Partiamo dalla deviazione standard, che è la radice quadrata della varianza:

La varianza è un indice di dispersione rispetto alla media
Per calcolarla, in modo semplice, sottraiamo dalla media dei quadrati dei dati il quadrato della media:

Per un’indagine corretta avrei dovuto calcolare la varianza campionaria corretta.
Siccome però la finalità è quella di calcolare la correlazione questa operazione non è proprio necessaria.
Quindi prego i più scettici di voi di chiudere un occhiolino per una volta ;).
Per il calcolo della varianza ci serve appunto la media, calcolata come la somma dei valori divisa per la numerosità degli stessi:

Partiamo dunque dai dati di un solo titolo in modo da calcolare media, varianza e deviazione standard.
Scegliamo come primo titolo il Bitcoin e ci calcoliamo la sua media.
Per farlo sommiamo i dati della prima colonna e lo dividiamo per il numero delle rilevazioni ovvero 23.

Se usiamo Excel inseriamo la formula =MEDIA(dati)
Ora passiamo alla varianza:

Con Excel possiamo usare semplicemente =VARIANZA.P (dati)
Se volessimo calcolare la varianza campionaria =VARIANZA.C (dati)
Infine la deviazione standard calcolando la radice della varianza:

Per semplicità ho arrotondato tutti i dati all’unità.

MEDIA, VARIANZA, DEVIAZIONE STANDARD DEI QUATTRO TITOLI
Facendo gli stessi calcoli visti per il Bitcoin e applicandoli agli altri titoli otteniamo questi risultati.
Tra i risultati ho riportato anche il coefficiente di variazione (CV) calcolato come il rapporto tra lo scarto quadratico medio e la media.

COVARIANZA E CORRELAZIONE TRA BTCOIN E ETHRIUM
Ora passiamo al calcolo della covarianza.
La covarianza (sempre semplice) si calcola come la media della sommatoria delle x per le y a cui sottraiamo il prodotto delle medie.
Per calcolarla usiamo la seguente formula.
correlazione lineare di Pearson:
Se consideriamo come x il prezzo dei Bitcoin e come y il prezzo dell’Ethereum otteniamo:

Ora non ci resta che calcolare la correlazione lineare:

Il risultato trovato evidenzia una forte correlazione lineare tra le due cripto-valute.

ANALISI GRAFICA
Come possiamo notare dal grafico sottostante si evidenzia che la nube dei dati è inclinata positivamente.
Inoltre la metà dei dati presente sulla parte sinistra del grafico è molta prossima alla retta di regressione.

MATRICE DELLE CORRELAZIONI
Se calcoliamo tutte le covarianze tra i titoli possiamo metterle in una matrice 4×4.
In corrispondenza di ogni coppia di titoli mettiamo il valore calcolato della correlazione.

Sulla diagonale principale possiamo vedere come la correlazione di ogni titolo con se stesso è pari a 1.
Questo perché per ogni periodo il rendimento di ogni titolo è pari a se stesso.
Se dovessimo rappresentare il grafico cartesiano dei Bitcoin con i Bitcoin, vedremo che tutti i dati si distribuiscono sulla bisettrice del primo e del terzo quadrante.

Il prezzo dei Bitcoin è perfettamente correlato con il prezzo dei Bitcoin e la correlazione vale 1.
Mentre la covarianza dei Btcoin con i Btcoin è pari alla varianza.
Questa tabella è stata ottenuta usando excel.
In particolare basta andare nel menu DATI, selezionare ANALISI DATI, in fondo a destra, pigiare su CORRELAZIONE, e inserire i dati.



E dove abbiamo messo l’intervallo dell’output si ottiene la matrice delle correlazioni.

Da notare che questa matrice è compilata solamente sotto la diagonale principale.
In questa tabella ci sono tutti gli indici di correlazione per ogni coppia di variabili.
Questo perché la correlazione del titolo A con il titolo B è identica alla correlazione tra il titolo B e il titolo A.
Per questo motivo non ci sarebbe bisogno di ripete i risultati due volte.
Se volessimo rappresentarla in maniera completa la matrice delle correlazioni sarebbe una matrice simmetrica.
INTERPRETAZIONE DELLA TABELLA
La tabella delle correlazione ci dice subito quali sono le relazioni più stabili e più instabili a livello lineare.
Quando il valore della correlazione si avvicina al -1 o al +1, siamo in presenza di forti correlazioni, rispettivamente positiva e negativa.
Diversamente quando tendiamo allo 0 siamo in presenza di assenza di correlazione.
Basta dunque un’occhiata veloce per capire dove può funzionare il modello della regressione lineare.
Ad esempio funziona molto bene per la coppia Ethereum-Bitcoin (ro=0,89) e per la coppia Saipem-Oro (ro=-0,81).
Diversamente non andremo ad applicare il modello lineare per le coppie Bitcoin-Oro (ro=0,154) e Ethereum-Oro (ro=0,181).

HAI QUALCHE DOMANDA?
Se hai qualsiasi domanda sulla correlazione lineare e l’indice di Pearson scrivi pure un commento qui sotto.
Per scoprire di più sulla correlazione e sulla regressione ho realizzato un corso sulla statistica descrittiva che affronta in modo dettagliato questo argomento.
Se vuoi scoprire tutti i corsi riguardanti la statistica accedi da qui.
Ciao Andrea, sono di fronte a questo problema di statistica sulla correlazione, se il testo mi chiede come varia la correlazione tra due variabili x e y se al posto della variabile x sostituiamo 2x – 3 ? ci sto ragionando da 5 giorni ma non riesco a capire come si risolve, grazie.
Ciao Oreste grazie dell’interessante domanda.
Quando si studia la correlazione lineare stiamo valutando quanto le variabili x e y siano correlate a livello lineare.
Quindi se una delle due variabili x o y subiscono una trasformazione lineare questo non va ad intaccare la correlazione tra le due variabili.
Nel tuo caso la x subisce una trasformazione lineare che la porta ad assumere le sembianze di 2x-3.
Dal punto di vista grafico vedremo semplicemente che la nube dei dati si allarga e si sposta verso sinistra di tre unità.
Ma qualitativamente resterà la stessa immagine visiva e non va ad intaccare la correlazione lineare.
Per assurdo è come se prendiamo una figura e la allarghiamo .
L’effetto visivo sarà il medesimo.
Se vogliamo avere una spiegazione migliore possiamo ricordiamo che la correlazione tra x e y si calcola come segue:
rxy=covxy/(sigmax·sigmay)
se vogliamo fare la correlazione tra 2x-3 e y avremo che:
r(2x-3,y)=cov(2x-3,y)/(sigma(2x-3)·sigmay)
la covarianza tra 2x-3 e y risente solamente della costante moltiplicativa ma non di quella additiva e lo stesso vale per la deviazione standard (sigma) di 2x-3.
Perciò avremo che:
cov(2x-3,y)=2·covx,y
sigma(2x-3)=2·sigmax
A questo punto otteniamo:
r(2x-3,y)=2·cov(x,y)/(2·sigmax·sigmay)
semplificando il 2 al numeratore e al denominatore:
r(2x-3,y)=cov(x,y)/(sigmax·sigmay)=rx,y
Abbiamo ottenuto la stessa correlazione lineare 😉
Ciao Andrea,
Complimenti per il sito internet veramente molto interessante, volevo chiederti una informazione se possibile:
Avrei bisogno di risolvere questo quesito:
Dovrei correlare i seguenti dati tramite foglio excell:
USD $11.411,34 USD $11.502,38 USD $11.175,29 USD $11.271,75
34,50 34,88 32,91 33,39
=
0,9937771043
Risultato della correlazione tramite questa formula =CORRELAZIONE(B3:E3;L3:O3).
Secondo te è corretta??
Grazie e buona serata.
D.I.
Ciao Daniel,
Ho appena verificato questi dati.
La correlazione assume esattamente il valore da te calcolato.
Il che significa le le due variabili sono quasi perfettamente correlate positivamente.
Se provi a rappresentare questi dati in un grafico noterai come questi dati si dispongono quasi perfettamente su di una retta.
Questo dato è molto significativo in quanto potresti creare un modello di regressione mediante il quale vai a prevedere il valore della variabile y (suppongo a questo punto la seconda) rispetto al valore della x (che sembrerebbe il prezzo in dollari).
Ciao Andrea, complimenti anche da parte mia per il sito
Volevo chiederti se possibile un chiarimento:
ho questi dati:
varA 0,0597 0,0474 0,0695 0,0323 0,0401 0,0531 0,0827 0,0731
varB 0,2288 0,2223 0,2137 0,2981 0,3755 0,2454 0,2253 0,1285
Usando la formula di correlazione classica =CORRELAZIONE(H67:O67;H68:O68) ottengo un valore di -0.7103
Distribuendo i dati su un grafico a dispersione e visualizzando la R^ il valore restituito invece R² = 0,5045
Da varie letture mi era sembrato di capire che fossero la stessa cosa ma, dati alla mano, direi di no
C’è una spiegazione a questa situazione ?
Grazie
Cristiano
Ciao Cristiano.
R è l’indice di correlazione è il suo valore oscilla tra -1 e +1.
Esso indica quanto bene disposti sono i punti lungo la retta.
In particolare se ci avviciniamo agli estremi (-1 o +1) maggiore sarà la correlazione.
La retta avrà inclinazione negativa quando ci spostiamo verso il -1 e positiva quando vieni spostiamo verso +1.
Il secondo indice R^2 altro non è che il quadrato di R.
Esso è sempre positivo e oscilla tra 0 e 1.
Il suo valore indica la percentuale della variabilità della y (variabile dipendendente ) che può essere spiegata dalla x(indipendente).
Nel tuo caso specifico hai che:
R=-0,71, quindi vi è una correlazione negativa medio-alta (buona correlazione)
R^2=0,504, dunque circa il 50% della variabilità delle y può essere spiegata conoscendo la variabile (o le variabili) indipendenti x del modello lineare
Ciao Andrea sono qui per chiederti una conferma per quanto riguarda una correlazione di dati.
Spero di riuscire a spiegarmi:
Vorrei correlare l’indice Nasdaq con l’etf XLI sul time frame settimanale:
Scaricando i dati da investing ho preso l’APERTURRA, il MASSIMO DI PREZZO, il MINIMO DI PREZZO e la CHIUSURA cosi in ordine come te li ho descritti.
La stessa cosa lo fatta per l’indice ETF XLI
Ho usato la seguente formula di excell per trovare la correlazione: =CORRELAZIONE(B11:E11;B4:E4) dove B11 è l apertura C11 il MASSIMO DI PREZZO D11 il MINIMO DI PREZZO e E11 LA CHIUSURA.
Stessa procedura per B4:E4.
E’ corretta la disposizione dei dati correlati (APERTURA, MASSIMO,MINIMO, CHIUSURA) oppure bisogna cambiarla ad esempio CHIUSURA APERTURA MINIMO MASSIMO???
E’ possibile che per fare una correlazione tra i due indici non sia indispensabile inserire i dati MASSIMO e MINIMO dei relativi indici???
Ho provato a togliere il MASSIMO e MINIMO degli indici e quindi correlare solo APERTURE e CHIUSURA ma ottengo delle correlazioni dirette(1) oppure inverse (-1) non ottengo vie di mezzo ad esempio 0.98545622
Spero do essermi spiegato al meglio e grazie.
Tu vuoi correlare dello stesso titolo
APERTURA vs CHIUSURA
APERTURA vs MAX
APERTURA vs MIN
MAX vs MIN
???
Io voglio correlare un titolo(es.amazon) con un altro titolo(esempio tesla) , quello che non riesco a capire se è corretto correlare APERTURA CHIUSURA MASSIMO E MINIMO del primo titolo con APETURA CHIUSURA MASSIMO E MINIMO del secondo titolo oppure basta solo correlare l’apertura e la chiusura di entrambi i titolio.
Grazie ancora Andrea
Ora è più chiaro.
Se l’orizzonte temporale è abbastanza ampio non importa molto.
Puoi correlare APERTURA con APERTURA
oppure
CHIUSURA con CHIUSURA
(eviterei i massimi e i minimi perché potrebbero esservi distorsioni)
Se lo fai in termini di correlazione cambierà un gran poco.