Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
teknopedia

teknopedia

teknopedia

teknopedia

teknopedia

teknopedia
teknopedia
teknopedia
teknopedia
teknopedia
teknopedia
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Algoritmo EM - Teknopedia
Algoritmo EM - Teknopedia

In statistica, un algoritmo di aspettazione-massimizzazione o algoritmo EM (in inglese expectation-maximization)[1][2] è un metodo iterativo per trovare stime (locali) di massima verosimiglianza (o le stime del massimo a posteriori) dei parametri di modelli statistici che dipendono da variabili latenti (non osservate).

L'iterazione dell'algoritmo EM alterna l'esecuzione di un passo detto aspettazione (E), che crea una funzione per il valore atteso della verosimiglianza logaritmica calcolata usando la stima dei parametri corrente, e un passo detto massimizzazione (M), che calcola nuove stime dei parametri massimizzando la funzione di verosimiglianza logaritmica attesa trovata al passo E. Tali stime dei parametri possono poi essere usate per determinare la distribuzione delle variabili latenti al passo E dell'iterata successiva.

Descrizione

[modifica | modifica wikitesto]

Dato il modello statistico che genera un insieme X {\displaystyle \mathbf {X} } {\displaystyle \mathbf {X} } di dati osservati, un insieme Z {\displaystyle \mathbf {Z} } {\displaystyle \mathbf {Z} } di dati latenti non osservati o dati mancanti, e un vettore di parametri incogniti θ {\displaystyle {\boldsymbol {\theta }}} {\displaystyle {\boldsymbol {\theta }}} assieme a una funzione di verosimiglianza L ( θ ; X , Z ) = p ( X , Z ∣ θ ) {\displaystyle L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )=p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})} {\displaystyle L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )=p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})}, la stima di massima verosimiglianza dei parametri sconosciuti viene determinata massimizzando la verosimiglianza marginale dei dati osservati

L ( θ ; X ) = p ( X ∣ θ ) = ∫ p ( X , Z ∣ θ ) d Z = ∫ p ( X ∣ Z , θ ) p ( Z ∣ θ ) d Z {\displaystyle L({\boldsymbol {\theta }};\mathbf {X} )=p(\mathbf {X} \mid {\boldsymbol {\theta }})=\int p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z} =\int p(\mathbf {X} \mid \mathbf {Z} ,{\boldsymbol {\theta }})p(\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z} } {\displaystyle L({\boldsymbol {\theta }};\mathbf {X} )=p(\mathbf {X} \mid {\boldsymbol {\theta }})=\int p(\mathbf {X} ,\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z} =\int p(\mathbf {X} \mid \mathbf {Z} ,{\boldsymbol {\theta }})p(\mathbf {Z} \mid {\boldsymbol {\theta }})\,d\mathbf {Z} }

Tuttavia determinare questa quantità è spesso impossibile dato che Z {\displaystyle \mathbf {Z} } {\displaystyle \mathbf {Z} } non è osservato e la sua distribuzione è sconosciuta prima di determinare θ {\displaystyle {\boldsymbol {\theta }}} {\displaystyle {\boldsymbol {\theta }}}.

L'algoritmo EM cerca di trovare la stima della massima verosimiglianza marginale eseguendo iterativamente questi passi:

  • Aspettazione: Definire Q ( θ ∣ θ ( t ) ) {\displaystyle Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})} {\displaystyle Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})} come il valore atteso della funzione di verosimiglianza logaritmica per θ {\displaystyle {\boldsymbol {\theta }}} {\displaystyle {\boldsymbol {\theta }}}, rispetto alla distribuzione di probabilità condizionata corrente di Z {\displaystyle \mathbf {Z} } {\displaystyle \mathbf {Z} } dati X {\displaystyle \mathbf {X} } {\displaystyle \mathbf {X} } e le stime correnti dei parametri θ ( t ) {\displaystyle {\boldsymbol {\theta }}^{(t)}} {\displaystyle {\boldsymbol {\theta }}^{(t)}}:
Q ( θ ∣ θ ( t ) ) = E Z ∣ X , θ ( t ) ⁡ [ log ⁡ L ( θ ; X , Z ) ] {\displaystyle Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)}}\left[\log L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )\right]\,} {\displaystyle Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})=\operatorname {E} _{\mathbf {Z} \mid \mathbf {X} ,{\boldsymbol {\theta }}^{(t)}}\left[\log L({\boldsymbol {\theta }};\mathbf {X} ,\mathbf {Z} )\right]\,}
  • Massimizzazione: Trovare i parametri che massimizzino questa quantità:
θ ( t + 1 ) = a r g m a x θ   Q ( θ ∣ θ ( t ) ) {\displaystyle {\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\ Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})\,} {\displaystyle {\boldsymbol {\theta }}^{(t+1)}={\underset {\boldsymbol {\theta }}{\operatorname {arg\,max} }}\ Q({\boldsymbol {\theta }}\mid {\boldsymbol {\theta }}^{(t)})\,}

Tipici modelli cui si applica EM designano con Z {\displaystyle \mathbf {Z} } {\displaystyle \mathbf {Z} } la variabile latente che indica l'appartenenza a un gruppo in un insieme di gruppi:

I punti osservati X {\displaystyle \mathbf {X} } {\displaystyle \mathbf {X} } possono essere discreti o continui a seconda che assumano valori da un dominio finito (o infinito numerabile) o infinito non numerabile. Si può associare a ogni punto un vettore di osservazioni.

I valori mancanti (e quindi le variabili latenti Z {\displaystyle \mathbf {Z} } {\displaystyle \mathbf {Z} }) sono discreti, tratti da un numero prefissato di valori e con una variabile latente per ogni unità osservata.

I parametri sono continui e di due tipi: parametri associati a tutti i punti e parametri associati a uno specifico valore di una variabile latente (ossia associati a tutti i punti con quel valore per la corrispondente variabile).

Note

[modifica | modifica wikitesto]
  1. ^ A. P. Dempster, N. M. Laird e D. B. Rubin, Maximum Likelihood from Incomplete Data Via the EM Algorithm, in Journal of the Royal Statistical Society: Series B (Methodological), vol. 39, n. 1, 1977-09, pp. 1-22, DOI:10.1111/j.2517-6161.1977.tb01600.x. URL consultato il 20 marzo 2022.
  2. ^ Richard A. Redner e Homer F. Walker, Mixture Densities, Maximum Likelihood and the EM Algorithm, in SIAM Review, vol. 26, n. 2, 1984-04, pp. 195-239, DOI:10.1137/1026034. URL consultato il 21 marzo 2022.
V · D · M
Apprendimento automatico
ProblemiTeoria dell'apprendimento statistico · Classificazione · Regressione · Classificazione a singola classe · Ranking · Regole di associazione · Apprendimento non supervisionato · Apprendimento semi-supervisionato · Apprendimento supervisionato · Apprendimento auto-supervisionato · Apprendimento per rinforzo · Apprendimento profondo · Apprendimento online · Apprendimento incrementale · Apprendimento trasduttivo

Apprendimento non supervisionatoClustering · Clustering gerarchico · K-means · Algoritmo EM · DBSCAN · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionatoAlbero di decisione · Foresta casuale · Conditional random field CRF · Modello di Markov nascosto · Algoritmo k-nearest neighbors (k-NN) · Ragionamento basato su casi (CBR) · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Modello grafico · Rete bayesiana · Macchine a vettori di supporto (SVM) · Processo gaussiano · Modello ensemble · Boosting · Bagging · Stacking · Voting · Cascading · Error correcting output code (ECOC)
Apprendimento per rinforzoQ-learning · SARSA · TD
Riduzione della dimensionalitàAnalisi fattoriale · Analisi della correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Selezione delle caratteristiche · Estrazione di caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificialiPercettrone · Percettrone basato su kernel · Rete neurale a funzioni base radiali (RBF net) · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Rete neurale grafica · Trasformatore
SoftwareKeras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · PyTorch · Weka
AltroAlgoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico
  Portale Statistica: accedi alle voci di Teknopedia che trattano di statistica
Estratto da "https://it.wikipedia.org/w/index.php?title=Algoritmo_EM&oldid=144536810"

  • Indonesia
  • English
  • Français
  • 日本語
  • Deutsch
  • Italiano
  • Español
  • Русский
  • فارسی
  • Polski
  • 中文
  • Nederlands
  • Português
  • العربية
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022