Nell'ambito del Machine learning, la matrice di confusione, detta anche tabella di errata classificazione, restituisce una rappresentazione dell'accuratezza di classificazione statistica.
Ogni colonna della matrice rappresenta i valori predetti, mentre ogni riga rappresenta i valori reali. L'elemento sulla riga i e sulla colonna j è il numero di casi in cui il classificatore ha classificato la classe "vera" i come classe j. Attraverso questa matrice è osservabile se vi è "confusione" nella classificazione di diverse classi.
Attraverso l'uso della matrice di confusione è possibile calcolare il coefficiente kappa, anche conosciuto come coefficiente kappa di Cohen.
Esempio
[modifica | modifica wikitesto]Esaminiamo il caso di una classificazione dove si distinguono tre classi: gatto, cane e coniglio. Nelle righe si scrivono i valori veri, reali. Mentre nelle colonne quelli predetti, stimati dal sistema.
Predetti | Somma | ||||
---|---|---|---|---|---|
Gatto | Cane | Coniglio | |||
Reali | Gatto | 5 | 2 | 0 | 7 |
Cane | 3 | 3 | 2 | 8 | |
Coniglio | 0 | 1 | 11 | 12 | |
Somma | 8 | 6 | 13 | 27 |
Nell'esempio si può notare che dei 7 gatti reali, il sistema ne ha classificati 2 come cani. Allo stesso modo si può notare come dei 12 conigli veri, solamente 1 è stato classificato erroneamente. Gli oggetti che sono stati classificati correttamente sono indicati sulla diagonale della matrice, per questo è immediato osservare dalla matrice se il classificatore ha commesso o no degli errori.
Inoltre, è possibile ottenere due valori di accuratezza significativi:
- Producer Accuracy di X = (numero di valori correttamente classificati come classe X) / (numero di valori appartenenti alla classe X)
- User Accuracy di X = (numero di valori correttamente classificati come classe X) / (numero di valori classificati come classe X)
Nel caso della classe "gatto", questo ha i seguenti valori (vedi la matrice qui sopra):
Matrice di confusione
[modifica | modifica wikitesto]Nell'apprendimento automatico questa tabella può anche essere utilizzata con i valori di "veri positivi"/"falsi positivi" e "falsi negativi"/"veri negativi".
Valori predetti | ||||
---|---|---|---|---|
n' | p' | totale | ||
Valori Reali |
n | Veri negativi |
Falsi positivi |
N |
p | Falsi negativi |
Veri positivi |
P | |
totale | N' | P' |
Così facendo è possibile calcolare:
- accuratezza:
- probabilità di falso allarme:
- probabilità di mancato allarme: