Nell'apprendimento automatico[1] un training set (in italiano insieme di addestramento o insieme di stima) è un insieme di esempi (spesso rappresentati come vettori di valori di attributi discreti o continui, le variabili di input) ad ognuno dei quali è associata una risposta, il valore di un attributo-obiettivo, ossia un valore categorico, cioè una classe, o un valore numerico. Tali esempi vengono utilizzati per addestrare un modello predittivo supervisionato (tipicamente un classificatore o un regressore) capace di determinare il valore-obiettivo per nuovi esempi. Un modello addestrato può essere valutato su un nuovo insieme di esempi, il test set (in italiano insieme di verifica), non utilizzati in fase di addestramento.
È comune dividere il training set in una parte dedicata all'addestramento dell'algoritmo, detta propriamente training set e una parte dedicata alla verifica della bontà dell'addestramento, detta validation set (in italiano insieme di validazione).
Motivazione
[modifica | modifica wikitesto]L'apprendimento di un modello supervisionato (e.g. un classificatore, un regressore) viene effettuato sulla base di un insieme di addestramento. I modelli supervisionati, che mirano a cercare relazioni empiriche tra esempi dell'insieme di addestramento, possono dar vita al fenomeno del sovradattamento a tale insieme. Ciò significa che essi potrebbero identificare relazioni che valgono nell'insieme di addestramento ma non in generale, per l'intera popolazione. Pertanto, per verificare se le relazioni empiriche apprese possano avere una validità generale, il modello appreso va valutato su un test set disgiunto dall'insieme di addestramento.
Note
[modifica | modifica wikitesto]- ^ T. Mitchell, Machine Learning. McGraw-Hill, 1997.
Voci correlate
[modifica | modifica wikitesto]Altri progetti
[modifica | modifica wikitesto]- Wikimedia Commons contiene immagini o altri file su Training e test set