Metodo kernel

Nell'apprendimento automatico, i metodi kernel, detti anche macchine basate su kernel (o kernel machine), sono una classe di algoritmi di apprendimento supervisionato e non supervisionato ^[1]^[2]. Il rappresentante maggiormente conosciuto è costituito dalle macchine a vettori di supporto (SVM).

Descrizione

[modifica | modifica wikitesto]

Lo scopo generale dell'analisi di schemi è di trovare e studiare tipi generici di relazioni (come gruppi, posizioni, componenti principali, correlazioni, classificazioni) e in generale tipi di dati (sequenze, documenti testuali, insiemi di punti, vettori, immagini ecc.).

I metodi kernel si approcciano al problema mappando i dati in uno spazio di caratteristiche multidimensionale, dove ogni coordinata corrisponde a una caratteristica dei dati dell'elemento, trasformando i dati in un insieme di punti dello spazio euclideo.

Poiché la mappatura può essere generale (non necessariamente lineare, ad esempio), le relazioni trovate in questo modo risultano di conseguenza molto generali. I metodi kernel sono così chiamati per le funzioni kernel usate per operare nello spazio delle caratteristiche senza necessità di calcolare le coordinate dei dati nello spazio, ma soltanto il prodotto interno tra le immagini di tutte le coppie di dati nello spazio funzione. Tale operazione risulta spesso computazionalmente più conveniente rispetto al calcolo esplicito delle coordinate, e viene chiamata "stratagemma del kernel"^[3] (kernel trick). Funzioni kernel sono state proposte per diversi tipi di strutture dati quali sequenze, grafi, testi, immagini e vettori.

Gli algoritmi capaci di operare con i kernel comprendono le macchine a vettori di supporto, processi gaussiani, l'analisi discriminante lineare di Fisher, l'analisi delle componenti principali (PCA), l'analisi di correlazione canonica, la regressione della cresta, il raggruppamento spettrale, i filtri adattivi lineari e molti altri.

Motivazione e spiegazione informale

[modifica | modifica wikitesto]

I metodi basati su kernel possono essere considerati come modelli di apprendimento basati su istanze: invece di apprendere un insieme fisso di parametri corrispondenti alle caratteristiche dei loro input, "ricordano" l' $i$ -esimo esempio di training $(\mathbf {x} _{i},y_{i})$ e imparano per esso un peso corrispondente $w_{i}$ . La predizione per gli input non etichettati, ovvero quelli non presenti nell'insieme di addestramento, viene trattata mediante l'applicazione di una funzione di similarità $k$ , detta kernel, tra l'input non etichettato $\mathbf {x'}$ e ciascuno degli input di training $\mathbf {x} _{i}$ . Ad esempio, un classificatore binario kernelizzato può essere definito tipicamente come somma ponderata delle similarità

{\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} ),

dove:

${\hat {y}}\in \{-1,+1\}$ è l'etichetta predetta dal classificatore binario kernelizzato per l'esempio non etichettato $\mathbf {x'}$ di cui interessa la sua vera etichetta latente $y$ ;
$k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ è la funzione kernel che misura la similarità fra qualsiasi ogni si input $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X}}$ ;
la somma comprende gli n esempi etichettati $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ nel training set del classificatore, con $y_{i}\in \{-1,+1\}$ ;
i $w_{i}\in \mathbb {R}$ sono pesi sugli es. di training determinati dall'algoritmo di apprendimento;
la funzione segno $\operatorname {sgn}$ determina se la classificazione predetta ${\hat {y}}$ risulti positiva o negativa.

I classificatori basati su kernel furono descritti già negli anni '60, con l'invenzione del percettrone basato su kernel. ^[3] Essi raggiunsero grande importanza con la popolarità della macchina a vettori di supporto (SVM) negli anni '90, quando si scoprì che la SVM poteva competere con le reti neurali in attività come il riconoscimento della scrittura.

Voci correlate

[modifica | modifica wikitesto]

Note

[modifica | modifica wikitesto]

^ S. Y. Kung, Kernel Methods and Machine Learning, Cambridge University Press, 2014, DOI:10.1017/cbo9781139176224, ISBN 978-1-107-02496-0.
^ Ethem Alpaydin, Ch 13: Kernel Machines, in Introduction to machine learning, collana Adaptive computation and machine learning series, Fourth edition, The MIT Press, 2020, ISBN 978-0-262-04379-3.
^ ^a ^b M. A. Aizerman, E. M. Braverman and L. I. Rozonoer, Theoretical foundations of the potential function method in pattern recognition learning, in Automation and Remote Control, vol. 25, 1964, pp. 821–837.

Collegamenti esterni

[modifica | modifica wikitesto]

(EN) Kernel-Machines Org, su kernel-machines.org.
Introduzione ai metodi Kernel (PDF), su homes.di.unimi.it.

Portale Informatica

Portale Matematica

Portale Statistica

Estratto da "https://it.wikipedia.org/w/index.php?title=Metodo_kernel&oldid=147991167"

[1] S. Y. Kung, Kernel Methods and Machine Learning, Cambridge University Press, 2014, DOI:10.1017/cbo9781139176224, ISBN 978-1-107-02496-0.

[2] Ethem Alpaydin, Ch 13: Kernel Machines, in Introduction to machine learning, collana Adaptive computation and machine learning series, Fourth edition, The MIT Press, 2020, ISBN 978-0-262-04379-3.

[:0-3] M. A. Aizerman, E. M. Braverman and L. I. Rozonoer, Theoretical foundations of the potential function method in pattern recognition learning, in Automation and Remote Control, vol. 25, 1964, pp. 821–837.

[1]

[2]

[3]

V · D · M Apprendimento automatico
Problemi	Teoria dell'apprendimento statistico · Classificazione · Regressione · Classificazione a singola classe · Ranking · Regole di associazione · Apprendimento non supervisionato · Apprendimento semi-supervisionato · Apprendimento supervisionato · Apprendimento auto-supervisionato · Apprendimento per rinforzo · Apprendimento profondo · Apprendimento online · Apprendimento incrementale · Apprendimento trasduttivo
Apprendimento non supervisionato	Clustering · Clustering gerarchico · K-means · Algoritmo EM · DBSCAN · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionato	Albero di decisione · Foresta casuale · Conditional random field CRF · Modello di Markov nascosto · Algoritmo k-nearest neighbors (k-NN) · Ragionamento basato su casi (CBR) · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Modello grafico · Rete bayesiana · Macchine a vettori di supporto (SVM) · Processo gaussiano · Modello ensemble · Boosting · Bagging · Stacking · Voting · Cascading · Error correcting output code (ECOC)
Apprendimento per rinforzo	Q-learning · SARSA · TD
Riduzione della dimensionalità	Analisi fattoriale · Analisi della correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Selezione delle caratteristiche · Estrazione di caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificiali	Percettrone · Percettrone basato su kernel · Rete neurale a funzioni base radiali (RBF net) · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Rete neurale grafica · Trasformatore
Software	Keras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · PyTorch · Weka
Altro	Algoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico