Skip to main content
media e varianza campionaria: immagine

In questo articolo parliamo della media, della varianza e della deviazione standard campionaria, ovvero che sono calcolate in un campione

ESEMPIO

Consideriamo un esempio molto semplice che riguarda un campione di 5 unità a cui viene chiesto quante sigarette fumano in un giorno.

I risultati sono riportati nella seguente tabella:

MEDIA CAMPIONARIA

Per calcolare la media campionaria facciamo la somma dei dati e dividiamo per il numero degli stessi.

Notiamo che questa procedura è assolutamente identica a quella per calcolare la media di una popolazione.

La formula che utilizziamo è la seguente:

media e varianza campionaria: formula della media campionaria

Inserendo i numeri a nostra disposizione scriviamo:

media e varianza campionaria: calcolo della media campionaria

Con Excel le cose si fanno molto più semplici dal momento che basta che utilizziamo la formula:

media e varianza campionaria: calcolo con excel della media

VARIANZA CAMPIONARIA

Per ottenere la varianza campionaria possiamo citare due modi.

Il primo modo è quello di dividere la somma dei quadrati degli scarti dalla media per la numerosità del campione meno uno.

Cioè dividiamo la devianza delle x per n-1.

media e varianza campionaria: formula della varianza campionaria

Inserendo i dati che conosciamo scriviamo:

media e varianza campionaria: calcolo della varianza campionaria modo 1

Il secondo modo che possiamo utilizzare è il seguente:

media e varianza campionaria: formula della varianza campionaria: modo 2

In questo caso scriviamo:

media e varianza campionaria: calcolo della varianza campionaria, modo 2

Per calcolare la varianza campionaria con Excel risulta tutto molto semplice poiché basta inserire la formula:

VARIANZA DELLA POPOLAZIONE E VARIANZA CAMPIONARIA

Facciamo chiarezza una volte per tutte sulla differenza che intercorre tra il calcolo della varianza riferito ad una popolazione e il calcolo della varianza campionaria.

La varianza intesa in senso classico (varianza della popolazione) è la media dei quadrati degli scarti e si calcola come segue:

Oppure potrebbe anche essere vista come la media dei quadrati meno il quadrato della media:

Notiamo pure che per fare una distinzione tra questa e la varianza della popolazione abbiamo usato la lettere greca “σ” in contrapposizione alla lettera romana “s” utilizzata per la varianza campionaria.

Notiamo pure che per fare una distinzione tra questa e la varianza della popolazione abbiamo usato la lettere greca “σ” in contrapposizione alla lettera romana “s” utilizzata per la varianza campionaria.

Quest’ultima invece viene calcolata nei modi che abbiamo presentato sopra:

Per ottenere la varianza campionaria a partire dalla varianza della popolazione moltiplichiamo quest’ultima per n e la dividiamo per n–1.

Facendo questa operazione otteniamo infatti che:

Che è la nostra varianza campionaria

PERCHE’ USIAMO UN CALCOLO DIVERSO?

Se abbiamo un modo per calcolare la varianza di una popolazione di dati perché cambiare questa formula quando siamo di fronte ad un campione?

Possiamo trovare la risposta a questa domanda nella più ampia teoria dell’inferenza.

In particolare nella parte che riguarda la correttezza degli stimatori.

Per farla breve supponiamo di avere una popolazione di 10 elementi e consideriamo tutti i possibili campioni con ripetizione e ordinati con 3 elementi di questa popolazione.

(cosa non affatto facile da farsi a mano poiché il numero di campioni sarebbe abbastanza alto)

Comunque se calcoliamo la varianza di ogni singolo campione (1000 varianze) e poi andiamo a fare la media delle varianze non troviamo la varianza della popolazione.

Se invece consideriamo le varianze campionarie come intese in questo articolo, ecco che la loro media coincide magicamente con la vera varianza della popolazione.

Svelato questo arcano passiamo al calcolo della deviazione standard campionaria.

DEVIAZIONE STANDARD CAMPIONARIA

La deviazione standard campionaria è la radice quadrata della varianza campionaria:

la deviazione standard campionaria è la radice quadrata della varianza campionaria

Con i nostri dati scriviamo:

calcolo della deviazione standard campionaria come la radice quadrata della varianza campionaria

Con il foglio elettronico possiamo scrivere:

Dove per varianza intendiamo il calcolo di prima.

Oppure se vogliamo selezionare direttamente i dati andiamo a scrivere:

media e varianza campionaria: calcolo della deviazione standard campionaria con excel: radice della varianza

AVETE DOMANDE SULLA MEDIA, VARIANZA E DEVIAZIONE STANDARD CAMPIONARIA?

Se questo articolo ha stimolato in te qualche domanda scrivila nei commenti.

Con le tue domande puoi aiutare molti altri utenti con le tue stesse difficoltà.

Per approfondire i temi della statistica visita i corsi di statistica.

8 Comments

  • Elena ha detto:

    Ciao Andrea. Tra le esercitazioni in preparazione all’esame, c’è questa a cui non riesco a dare una risposta:
    “Sapendo che una distribuzione ha primo quartile pari a 15 e range interquartile pari a 0, che valori avranno la varianza e la media?”
    Grazie e buona giornata!

    • Andrea ha detto:

      Ciao Elena,
      Grazie per la domanda 😉
      Il range interquartile è la differenza tra il terzo e il primo quartile
      Conoscendo il fatto che questa vale zero e che il primo interquartile vale 15 l’unica cosa che possiamo concludere con certezza è che anche il terzo quartile vale 15.
      Ovviamente siccome la mediana è certamente compresa tra il primo e il terzo quartile la mediana vale certamente 15.
      Non possiamo concludere niente però circa la varianza e la media.
      Questi valori infatti vengono calcolati tenendo conto di tutti i dati (del campione o della popolazione.
      Diversamente se la domanda avesse dato come dato iniziale: “il range dei dati vale zero con il terzo quartile che vale 15”
      (Con il range dei dati intendiamo la differenza tra il max e il min della distribuzione).
      In questo caso potevamo certamente concludere che
      Massimo=minimo=primo quartile = mediana = terzo quartile
      Questi sono certamente uguali anche alla media.
      Essendo che tutti i dati hanno lo stesso valore la varianza vale certamente zero.

  • Salvatore Panucci ha detto:

    ciao andrea!! mi trovo di fronte un esercizio in cui sono presentate le esportazioni e le importazioni dei paesi UE calcolate in milioni di euro. l’esercizio mi dice come cambierebbe il valore della media e della varianza se esprimiamo i valori in euro. Cambierebbe il cv? la cosa che non riesco a capire è che i dati sono già espressi in euro, e quindi non so come muovermi! grazie

    • Andrea ha detto:

      Ciao Salvatore 😉
      Interessante domanda.
      Da quel che ho capito i dati di cui disponi sono in MILIONI di euro.
      Quindi se li devi esprimere in euro li devi moltiplicare per 1 milione ovvero per 10^6.
      In questo caso la media è un operatore lineare che risente della costante moltiplicativa (oltre a quella additiva).
      La media si moltiplicherebbe per 10^6.
      La varianza risente invece del quadrato della costante moltiplicativa, dunque si moltiplica per 10^12.
      Come cambia il CV?
      IL CV è definito come il rapporto tra la deviazione standard e la media.
      Nel nostro caso la deviazione standard è la radice quadrata della varianza.
      Perciò anche la deviazione. st. (come la media si moltiplica per 10^6.
      Dunque il nuovo CV è:
      CV’=(dev.st’)/(media’)=(10^6·dev.st)/(10^6·media)=dev.st/media=CV.
      Il CV dunque non cambia copia quando ci troviamo di fronte ad una trasformazione lineare in cui c’è solamente la variabile moltiplicativa.

      A questo proposito vorrei farti un esempio in cui abbiamo una completa trasformazione lineare.
      Prendi in esame questo caso.
      Sappiamo che la media e la varianza di una certa variabile X siano rispettivamente 5 e 4.
      Se la varianza vale 4 significa la dev. st. vale 2, ovvero la radice di 4.
      Il CV(x)=5/2=2,5

      se trasformiamo la variabile X in 3X-1 come cambiano media, varianza, dev.st e CV?
      La media è un’operatore certamente lineare, dunque:
      M(3X-1)=3M(X)-1=3·5-1=14
      La varianza risente del quadrato della costante moltiplicativa, dunque:
      VAR(3X-1)=3^2·VAR(X)=9·VAR(X)=9·4=36
      il CV è la radice quadrata della varianza dunque:
      CV(3X-1)=radq(36)=6
      tale valore è proprio la costante moltiplicativa per la dev.st di X.
      DEV.ST(3X-1)=3·DEV.ST(X)=3·2=6
      il CV di 3X-1 diventa:
      CV(3X-1)=DEV.ST(3X-1)/MEDIA(3X-1)=6/14=0,4285
      Quando c’è anche una costante additiva il CV cambia certamente.

  • Elena ha detto:

    Ciao Andrea, mi sto preparando per un esame e mi sono imbattuta in questa domanda a cui non riesco a trovare risposta, “In un universo statistico la varianza di una variabile statistica è 30 e la media della varianza campionaria è 29,7. Da quante unità statistiche sono costituiti i campioni?” npn sono sicura di cosa intenda per unità statistiche e non so come procedere. Ti ringrazio in anticipo!

    • Andrea ha detto:

      Ciao Elena,
      Grazie della bella domanda.

      Partiamo dal fatto che la varianza di una popolazione è la media del quadrato degli scarti su tutte le unità della popolazione:
      VARpop = ∑s²/n
      Mentre la media della popolazione è la media dei quadrati degli scarti ponderata per n-1
      VARcamp = ∑s²/(n-1)

      Facendo qualche piccola semplificazione i dati a tua disposizione sono:
      VARpop = ∑s²/n = 30
      VARcamp = ∑s²/(n-1)=29,7

      Ricavando dalle equazioni la sommatoria degli scarti otteniamo che:
      ∑s² = 30n
      ∑s²=29,7(n-1)

      Eguagliando i termini delle due equazioni otteniamo che:
      30n=29,7(n-1)
      Risolvendo l’equazione di primo grado abbiamo che:
      30n = 29,7n – 29,7
      0,3n = 29,7
      n = 29,7/0,3 = 99

      Un altro modo di risolvere il problema è il seguente:
      Sappiamo che la media della varianza campionaria è ottenuta moltiplicando la varianza della popolazione per n e dividendola per (n-1), dunque:

      Media(VARcamp) = VARpop ·n(n-1)
      Inserendo i dati abbiamo che:

      29,7 = 30·n/(n-1)
      Da cui otteniamo l’equazione di prima:
      30n=29,7(n-1)

      Ottenendo dunque che l’ampiezza del capione è pari a 99.

      • Elena ha detto:

        Ti ringrazio ho capito il procedimento, però non capisco perché nel calcolo il – 29,7 diventi positivo, non dovrebbe essere
        30n – 29,7n = – 29,7
        0,3n = -29,7
        n = – 99?
        anche se poi porterebbe appunto un numero negativo, il che non ha senso….

        • Andrea ha detto:

          Giusta osservazione Elena
          In effetti è meglio procedere con questo ragionamento.
          La media delle varianza campionarie è 29,7.
          Questa è stata ottenuta sommando le varianze dei campioni (non corrette) e dividendole per N (numero dei campioni).
          Ora sappiamo la media delle varianza dei campioni non è la vera varianza.
          Per ottenere questa è infatti necessario moltiplicarla per il numero di elementi del campione n e dividerla per (n-1)
          Da qui abbiamo che:
          Media Var(camp) * n / (n-1) = var.(pop)
          Dunque inserendo i numeri:
          29,7*n/(n-1) = 30
          Otteniamo perciò un’equazione di primo grado:
          29,7n = 30(n-1)
          29,7n = 30n-30
          0,3n = 30
          n=30/0,3 = 100

          Dunque gli elementi del campione sono 100.

Leave a Reply