L'Ottimizzazione minima sequenziale (in inglese: Sequential minimal optimization, in sigla SMO) è un algoritmo per risolvere efficientemente il problema di ottimizzazione che emerge durante l'addestramento di una Macchine a vettori di supporto. Fu inventato da John Platt nel 1998 al laboratorio Microsoft Research di Redmond. L'Ottimizzazione minima sequenziale è implementata nella famosa libreria software libsvm.
Il problema
[modifica | modifica wikitesto]Consideriamo il problema della classificazione binaria con un insieme di dati (dataset) , dove è un vettore d'ingresso e è la corrispondente etichetta binaria. Una macchina a vettori di supporto si addestra risolvendo un problema di programmazione quadratica vincolato. Tale problema si può esprimere in forma duale come segue:
- vincolato a:
dove C è un iperparametro e K(xi, xj) è la funzione kernel, l'uno e l'altra stabilite dall'utente; le variabili sono moltiplicatori di Lagrange.
L'algoritmo
[modifica | modifica wikitesto]SMO è un algoritmo iterativo che risolve il problema appena descritto. La strategia di SMO consiste nel decomporre il problema in un insieme di sottoproblemi minimali, che possono poi essere risolti analiticamente. Per via della presenza dei vincoli lineari di uguaglianza che includono i moltiplicatori di Lagrange, , il problema minimo possibile contiene due moltiplicatori. Quindi per una data coppia di moltiplicatori e , i vincoli si riducono a:
Questo problema ridotto si può risolvere analiticamente: occorre trovare il minimo di una funzione quadratica monodimensionale, cioè una parabola. è l'opposto della somma su tutti i termini rimanenti nel vincolo di uguaglianza, che in ogni iterazione è fissato.
L'algoritmo procede così:
- Trovare un moltiplicatore di Lagrange che viola le condizioni di Karush–Kuhn–Tucker (KKT) per questo problema.
- Trovare un secondo moltiplicatore e ottimizzare la coppia .
- Ripetere i passi 1 e 2 fino a convergenza.
Quando tutti i moltiplicatori di Lagrange soddisfano le condizioni KKT (entro una tolleranza prestabilita), il problema è risolto.
Per questo algoritmo è garantita la convergenza; tuttavia, per accelerarla, vengono utilizzate euristiche per scegliere coppie favorevoli di moltiplicatori. Questo accorgimento è criticamente importante per insiemi di dati di grandi dimensioni , in quanto esistono scelte possibili di e .
Collegamenti esterni
[modifica | modifica wikitesto]- (EN) LIBSVM, su csie.ntu.edu.tw.