L'indice di Tschuprow è un indice utilizzato nella statistica descrittiva per il campionamento stratificato della popolazione.
Definizione
[modifica | modifica wikitesto]Si consideri una tabella di contingenza di dimensione r×c, con r righe e c colonne.
Sia la proporzione della popolazione nella cella sul totale della popolazione .
Definiamo e .
Il coefficiente quadratico medio di contingenza è dato da:
A questo punto, l'indice di Tschuprow è definito come segue:
Proprietà
[modifica | modifica wikitesto]L'indice di Tschuprow assume valori compresi tra e (estremi inclusi). È pari a nel caso non vi sia alcuna connessione fra le due variabili (ad esempio, se i due fenomeni analizzati sono indipendenti). Al contrario, l'indice è pari a nel caso le due variabili siano massimamente correlate.
Nel caso di tabelle quadrate (ossia per tabelle il cui numero di righe è pari al numero di colonne ) l'indice di Tschuprow equivale all'indice V di Cramer.
Esempio
[modifica | modifica wikitesto]Consideriamo il caso che segue.
I dati esposti nella prima tabella costituiscono le frequenze effettive, cioè le frequenze rilevate. Esse vengono dette frequenze congiunte, in quanto sono state rilevate nell'indagine congiunta condotta sui due fenomeni considerati. In sostanza, l'obiettivo che cerchiamo di raggiungere è quello di scoprire se fra i due caratteri, livello del reddito e giudizio espresso, esiste una qualche relazione.
Cominciamo allora con l'osservare se i due caratteri fossero indipendenti le frequenze sarebbero diverse.
Per esempio:
Nella prima casella, al posto della frequenza effettiva 280, comparirebbe la frequenza teorica
(370*140)/1000 = 166,5
che arrotondiamo a 167;
Nella seconda casella della prima riga, al posto della frequenza effettiva 60, comparirebbe la frequenza teorica:
(320*450)/1000 = 144
Procedendo in modo analogo per le altre caselle, otteniamo le frequenze teoriche indicate nella seconda tabella: esse sono opportunamente arrotondate.
Una volta costruita la tabella delle frequenze teoriche, passiamo alla costruzione della tabella delle contingenze, intendendo come tali le differenze fra ciascuna frequenza effettiva e la corrispondente frequenza teorica.
Cioè:
Contingenza= f effettiva – f teorica (Riferite alla stessa riga e colonna di entrambe le tabelle)
Eseguendo tali differenze si realizza la terza tabella.
La determinazione del grado di connessione tra i due fenomeni considerati si basa su una sintesi delle contingenze, sintesi che può essere fatta in diversi modi cioè facendo ricorso a diversi indici.