Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
teknopedia

teknopedia

teknopedia

teknopedia

teknopedia

teknopedia
teknopedia
teknopedia
teknopedia
teknopedia
teknopedia
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Modello logit - Teknopedia
Modello logit - Teknopedia
Il modello logit è rappresentato in blu.

In statistica, il modello logit, noto anche come modello logistico o regressione logistica, è un modello di regressione nonlineare utilizzato quando la variabile dipendente è di tipo dicotomico. L'obiettivo del modello è di stabilire la probabilità con cui un'osservazione può generare uno o l'altro valore della variabile dipendente; può inoltre essere utilizzato per classificare le osservazioni, in base alla caratteristiche di queste, in due categorie.[1]

Il modello logit fa parte della classe dei modelli lineari generalizzati, così come il modello probit ed il modello loglineare, dai quali differisce essenzialmente per la scelta della funzione Λ {\displaystyle \Lambda } {\displaystyle \Lambda }.[1]

Scelta della funzione

[modifica | modifica wikitesto]
La funzione logit. L'inversa di questa funzione è utilizzata nella regressione logistica.

Un modello di regressione dove la variabile dipendente è dicotomica, ossia una variabile che può avere come unici valori 0 e 1 o riconducibili ad essi, calcola la probabilità che questa variabile acquisisca valore 1. Poiché le probabilità per definizione sono limitate ad un intervallo C = [ 0 , 1 ] {\displaystyle C=\left[0,1\right]} {\displaystyle C=\left[0,1\right]}, l'utilizzo di un modello di regressione lineare non sarebbe appropriato, infatti esso restituirebbe dei valori appartenenti all'intero insieme R {\displaystyle \mathbb {R} } {\displaystyle \mathbb {R} }.[2] Si supponga infatti il seguente modello lineare:

Pr ( Y = 1 ∣ X = x ) = β 0 + β 1 X . {\displaystyle \Pr(Y=1\mid X=x)=\beta _{0}+\beta _{1}X.} {\displaystyle \Pr(Y=1\mid X=x)=\beta _{0}+\beta _{1}X.}

La derivata

∂ ∂ X Pr ( Y = 1 ∣ X = x ) = β 1 {\displaystyle {\frac {\partial }{\partial X}}\Pr(Y=1\mid X=x)=\beta _{1}} {\displaystyle {\frac {\partial }{\partial X}}\Pr(Y=1\mid X=x)=\beta _{1}}

essendo costante e uguale al parametro β 1 {\displaystyle \beta _{1}} {\displaystyle \beta _{1}}, non permette alla funzione di cambiare pendenza in base al valore di X {\displaystyle X} {\displaystyle X} e quindi di poter avere come codominio C {\displaystyle C} {\displaystyle C}. Questa caratteristica è invece posseduta, ad esempio, dalle funzioni di ripartizione.[2] L'utilizzo infatti di una funzione non lineare permette di avere una derivata prima dipendente da X {\displaystyle X} {\displaystyle X} e quindi in grado di cambiare al variare di questa variabile. Se si considera infatti il seguente modello:

Pr ( Y = 1 ∣ X = x ) = F ( α 0 + α 1 X ) , {\displaystyle \Pr(Y=1\mid X=x)=F(\alpha _{0}+\alpha _{1}X),} {\displaystyle \Pr(Y=1\mid X=x)=F(\alpha _{0}+\alpha _{1}X),}

dove la derivata è la seguente

∂ ∂ X Pr ( Y = 1 ∣ X = x ) = f ( α 0 + α 1 X ) α 1 . {\displaystyle {\frac {\partial }{\partial X}}\Pr(Y=1\mid X=x)=f(\alpha _{0}+\alpha _{1}X)\alpha _{1}.} {\displaystyle {\frac {\partial }{\partial X}}\Pr(Y=1\mid X=x)=f(\alpha _{0}+\alpha _{1}X)\alpha _{1}.}

Si nota come la pendenza della curva ora possa variare al variare di X {\displaystyle X} {\displaystyle X}, potendo quindi possedere un codominio C {\displaystyle C} {\displaystyle C}. Per il modello logit si utilizza come funzione F {\displaystyle F} {\displaystyle F} la funzione di ripartizione della distribuzione logistica standard.[1]

Definizione

[modifica | modifica wikitesto]

Il modello di regressione logit per la popolazione è:[1][3]

E [ Y ∣ X ] = Pr ( Y = 1 ∣ X 1 , … , X k ) = Λ ( X T β ) = e β 0 + β 1 X 1 + … + β k X k 1 + e β 0 + β 1 X 1 + … + β k X k = p , {\displaystyle \mathbb {E} [Y\mid \mathbf {X} ]=\Pr(Y=1\mid X_{1},\ldots ,X_{k})=\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})={\frac {e^{\beta _{0}+\beta _{1}X_{1}+\ldots +\beta _{k}X_{k}}}{1+e^{\beta _{0}+\beta _{1}X_{1}+\ldots +\beta _{k}X_{k}}}}=p,} {\displaystyle \mathbb {E} [Y\mid \mathbf {X} ]=\Pr(Y=1\mid X_{1},\ldots ,X_{k})=\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})={\frac {e^{\beta _{0}+\beta _{1}X_{1}+\ldots +\beta _{k}X_{k}}}{1+e^{\beta _{0}+\beta _{1}X_{1}+\ldots +\beta _{k}X_{k}}}}=p,}

dove:

  • Pr {\displaystyle \Pr } {\displaystyle \Pr } indica la probabilità;
  • Y {\displaystyle Y} {\displaystyle Y} è la variabile dipendente dicotomica con una distribuzione bernoulliana Y ∼ B ( p ) {\displaystyle Y\sim {\mathcal {B}}(p)} {\displaystyle Y\sim {\mathcal {B}}(p)};
  • X {\displaystyle \mathbf {X} } {\displaystyle \mathbf {X} } è il vettore di variabili indipendenti o regressori X 1 , … , X k {\displaystyle X_{1},\ldots ,X_{k}} {\displaystyle X_{1},\ldots ,X_{k}};
  • β {\displaystyle {\boldsymbol {\beta }}} {\displaystyle {\boldsymbol {\beta }}} è il vettore di parametri β 0 , … , β k {\displaystyle \beta _{0},\ldots ,\beta _{k}} {\displaystyle \beta _{0},\ldots ,\beta _{k}};
  • Λ {\displaystyle \Lambda } {\displaystyle \Lambda } è la funzione di ripartizione della distribuzione logistica standard;
  • e {\displaystyle e} {\displaystyle e} è il numero di Eulero, circa uguale a 2 , 71828 {\displaystyle 2,71828} {\displaystyle 2,71828}.

Varianza

[modifica | modifica wikitesto]

La varianza della variabile dipendente risulta dipendere dal vettore dei regressori X {\displaystyle \mathbf {X} } {\displaystyle \mathbf {X} }. Infatti

V a r ( Y ∣ X ) = E [ Y 2 ∣ X ] − E [ Y ∣ X ] 2 = Λ ( X T β ) ⋅ ( 1 − Λ ( X T β ) ) . {\displaystyle \mathrm {Var} (Y\mid \mathbf {X} )=\mathbb {E} \left[Y^{2}\mid \mathbf {X} \right]-\mathbb {E} \left[Y\mid \mathbf {X} \right]^{2}=\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})\cdot (1-\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})).} {\displaystyle \mathrm {Var} (Y\mid \mathbf {X} )=\mathbb {E} \left[Y^{2}\mid \mathbf {X} \right]-\mathbb {E} \left[Y\mid \mathbf {X} \right]^{2}=\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})\cdot (1-\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})).}

Effetto marginale

[modifica | modifica wikitesto]

L'effetto marginale sulla variabile dipendente Y {\displaystyle Y} {\displaystyle Y} dato da un cambiamento in un regressore continuo X j {\displaystyle X_{j}} {\displaystyle X_{j}} è calcolato come la derivata rispetto a X j {\displaystyle X_{j}} {\displaystyle X_{j}} del valore atteso p = E [ Y ∣ X ] {\displaystyle p=\mathbb {E} [Y\mid \mathbf {X} ]} {\displaystyle p=\mathbb {E} [Y\mid \mathbf {X} ]}:[1]

∂ p ∂ X j = ∂ ∂ X j E [ Y ∣ X ] = ∂ ∂ X j Λ ( X T β ) = ∂ ∂ X j e X T β 1 + e X T β = e X T β 1 + e X T β ⋅ 1 1 + e X T β ⋅ β j = p ( 1 − p ) β j {\displaystyle {\frac {\partial p}{\partial X_{j}}}={\frac {\partial }{\partial X_{j}}}\mathbb {E} [Y\mid \mathbf {X} ]={\frac {\partial }{\partial X_{j}}}\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})={\frac {\partial }{\partial X_{j}}}{\frac {e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}={\frac {e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}\cdot {\frac {1}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}\cdot \beta _{j}=p(1-p)\beta _{j}} {\displaystyle {\frac {\partial p}{\partial X_{j}}}={\frac {\partial }{\partial X_{j}}}\mathbb {E} [Y\mid \mathbf {X} ]={\frac {\partial }{\partial X_{j}}}\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})={\frac {\partial }{\partial X_{j}}}{\frac {e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}={\frac {e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}\cdot {\frac {1}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}\cdot \beta _{j}=p(1-p)\beta _{j}}

Poiché p {\displaystyle p} {\displaystyle p} è una probabilità e quindi un numero compreso fra 0 e 1, il fattore p ( 1 − p ) {\displaystyle p(1-p)} {\displaystyle p(1-p)}, e quindi l'effetto marginale, è massimo per p = 0 , 5 {\displaystyle p=0,5} {\displaystyle p=0,5} e va a zero per p {\displaystyle p} {\displaystyle p} che tende a 1 o 0. Quindi in un modello logistico l'effetto marginale tende a zero per probabilità attese molto alte o molto basse.

Illustrazione del metodo

[modifica | modifica wikitesto]

Per ogni osservazione campionaria i = 1 , … , n {\displaystyle i=1,\ldots ,n} {\displaystyle i=1,\ldots ,n} si dispone di una determinazione Y {\displaystyle Y} {\displaystyle Y} e di k {\displaystyle k} {\displaystyle k} determinazioni X 1 , … , X k {\displaystyle X_{1},\ldots ,X_{k}} {\displaystyle X_{1},\ldots ,X_{k}}. Il modello cerca una relazione non lineare, utilizzando la funzione di ripartizione della distribuzione logistica standard, tra la variabile dipendente e k {\displaystyle k} {\displaystyle k} variabili indipendenti, stimando il valore dei coefficienti β 0 , … , β k {\displaystyle \beta _{0},\ldots ,\beta _{k}} {\displaystyle \beta _{0},\ldots ,\beta _{k}} tramite il metodo della massima verosimiglianza.[1]

Stima del modello

[modifica | modifica wikitesto]

Il vettore di parametri β {\displaystyle {\boldsymbol {\beta }}} {\displaystyle {\boldsymbol {\beta }}} è di norma stimato con il metodo della massima verosimiglianza, con il quale si ottengono stimatori efficienti, consistenti e distribuiti normalmente nel caso in cui il campione statistico sia abbastanza grande.[4] Queste proprietà permettono di calcolare il test t su un parametro, il test F nel caso di restrizioni multiple e gli intervalli di confidenza.[4] Alla stima dei parametri segue la stima della probabilità p {\displaystyle p} {\displaystyle p}.

Funzione di verosimiglianza

[modifica | modifica wikitesto]

Nel modello logit la variabile dipendente Y {\displaystyle Y} {\displaystyle Y} è dicotomica e con distribuzione Y ∼ B ( p ) {\displaystyle Y\sim {\mathcal {B}}(p)} {\displaystyle Y\sim {\mathcal {B}}(p)}. Si consideri un campione di n {\displaystyle n} {\displaystyle n} osservazioni dove ciascuna di esse è identificata con i = 1 , … , n {\displaystyle i=1,\ldots ,n} {\displaystyle i=1,\ldots ,n}. Per la definizione del modello, la probabilità che questa variabile sia 1 per una data osservazione i {\displaystyle i} {\displaystyle i} è

Pr ( Y i = 1 ∣ X 1 i , … , X k i ) = Λ ( β 0 + β 1 X 1 i + … + β k X k i ) = p i , {\displaystyle \Pr(Y_{i}=1\mid X_{1i},\ldots ,X_{ki})=\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})=p_{i},} {\displaystyle \Pr(Y_{i}=1\mid X_{1i},\ldots ,X_{ki})=\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})=p_{i},}

mentre la probabilità che sia 0 è

Pr ( Y i = 0 ∣ X 1 i , … , X k i ) = 1 − Λ ( β 0 + β 1 X 1 i + … + β k X k i ) = 1 − p i . {\displaystyle \Pr(Y_{i}=0\mid X_{1i},\ldots ,X_{ki})=1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})=1-p_{i}.} {\displaystyle \Pr(Y_{i}=0\mid X_{1i},\ldots ,X_{ki})=1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})=1-p_{i}.}

La distribuzione di probabilità condizionata per ogni elemento i {\displaystyle i} {\displaystyle i} può essere scritta come

Pr ( Y i = y i ∣ X 1 i , … , X k i ) = p i y i ( 1 − p i ) 1 − y i . {\displaystyle \Pr(Y_{i}=y_{i}\mid X_{1i},\ldots ,X_{ki})=p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}.} {\displaystyle \Pr(Y_{i}=y_{i}\mid X_{1i},\ldots ,X_{ki})=p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}.}

Si considera ora l'intero campione e sia assume che X 1 i , X 2 i , … , X k i , Y i {\displaystyle X_{1i},X_{2i},\ldots ,X_{ki},Y_{i}} {\displaystyle X_{1i},X_{2i},\ldots ,X_{ki},Y_{i}} siano indipendenti e identicamente distribuite per ogni osservazione i {\displaystyle i} {\displaystyle i}. Risulta quindi che la distribuzione di probabilità congiunta di ( Y 1 , … , Y n ) {\displaystyle (Y_{1},\ldots ,Y_{n})} {\displaystyle (Y_{1},\ldots ,Y_{n})} è il prodotto delle probabilità condizionate di ogni osservazione:

Pr ( Y 1 = y 1 , … , Y n = y n ∣ X 1 i , … , X k i ) = Pr ( Y 1 = y 1 ∣ X 11 , … , X k 1 ) ⋅ … ⋅ Pr ( Y n = y n ∣ X 1 n , … , X k n ) = = p 1 y 1 ( 1 − p 1 ) 1 − y 1 ⋅ … ⋅ p n y n ( 1 − p n ) 1 − y n = ∏ i = 1 n p i y i ( 1 − p i ) 1 − y i . {\displaystyle {\begin{aligned}\Pr(Y_{1}=y_{1},\ldots ,Y_{n}=y_{n}\mid X_{1i},\ldots ,X_{ki})&=\Pr(Y_{1}=y_{1}\mid X_{11},\ldots ,X_{k1})\cdot \ldots \cdot \Pr(Y_{n}=y_{n}\mid X_{1n},\ldots ,X_{kn})=\\&=p_{1}^{y_{1}}(1-p_{1})^{1-y_{1}}\cdot \ldots \cdot p_{n}^{y_{n}}(1-p_{n})^{1-y_{n}}=\prod _{i=1}^{n}p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}.\end{aligned}}} {\displaystyle {\begin{aligned}\Pr(Y_{1}=y_{1},\ldots ,Y_{n}=y_{n}\mid X_{1i},\ldots ,X_{ki})&=\Pr(Y_{1}=y_{1}\mid X_{11},\ldots ,X_{k1})\cdot \ldots \cdot \Pr(Y_{n}=y_{n}\mid X_{1n},\ldots ,X_{kn})=\\&=p_{1}^{y_{1}}(1-p_{1})^{1-y_{1}}\cdot \ldots \cdot p_{n}^{y_{n}}(1-p_{n})^{1-y_{n}}=\prod _{i=1}^{n}p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}.\end{aligned}}}

Si riprende ora la definizione del modello logit e la si sostituisce al posto di p i {\displaystyle p_{i}} {\displaystyle p_{i}}, ottenendo quindi la funzione di verosimiglianza[5]

L logit ( β 0 , … , β k ; Y 1 , … , Y n ∣ X 1 i , … , X k i ) = ∏ i = 1 n [ Λ ( β 0 + β 1 X 1 i + … + β k X k i ) ] Y i [ 1 − Λ ( β 0 + β 1 X 1 i + … + β k X k i ) ] 1 − Y i . {\displaystyle {\begin{array}{l}{\mathcal {L}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})=\\\qquad \displaystyle \prod _{i=1}^{n}\left[\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]^{Y_{i}}\left[1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]^{1-Y_{i}}.\end{array}}} {\displaystyle {\begin{array}{l}{\mathcal {L}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})=\\\qquad \displaystyle \prod _{i=1}^{n}\left[\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]^{Y_{i}}\left[1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]^{1-Y_{i}}.\end{array}}}

Stima dei parametri

[modifica | modifica wikitesto]

Per calcolare gli stimatori β ^ 0 , β ^ 1 , … , β ^ k {\displaystyle {\hat {\beta }}_{0},{\hat {\beta }}_{1},\ldots ,{\hat {\beta }}_{k}} {\displaystyle {\hat {\beta }}_{0},{\hat {\beta }}_{1},\ldots ,{\hat {\beta }}_{k}} dei parametri β 0 , β 1 , … , β k {\displaystyle \beta _{0},\beta _{1},\ldots ,\beta _{k}} {\displaystyle \beta _{0},\beta _{1},\ldots ,\beta _{k}} risulta conveniente calcolare la funzione di log-verosimiglianza poiché in questo modo si riesce a eliminare la produttoria. Si applica quindi il logaritmo alla funzione di verosimiglianza:

l logit ( β 0 , … , β k ; Y 1 , … , Y n ∣ X 1 i , … , X k i ) = ln ⁡ L logit ( β 0 , … , β k ; Y 1 , … , Y n ∣ X 1 i , … , X k i ) = ∑ i = 1 n Y i ln ⁡ [ Λ ( β 0 + β 1 X 1 i + … + β k X k i ) ] + ∑ i = 1 n ( 1 − Y i ) ln ⁡ [ 1 − Λ ( β 0 + β 1 X 1 i + … + β k X k i ) ] {\displaystyle {\begin{array}{l}{\mathcal {l}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})=\ln {\mathcal {L}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})\\\qquad \displaystyle =\sum _{i=1}^{n}Y_{i}\ln \left[\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]+\sum _{i=1}^{n}(1-Y_{i})\ln \left[1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]\end{array}}} {\displaystyle {\begin{array}{l}{\mathcal {l}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})=\ln {\mathcal {L}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})\\\qquad \displaystyle =\sum _{i=1}^{n}Y_{i}\ln \left[\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]+\sum _{i=1}^{n}(1-Y_{i})\ln \left[1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]\end{array}}}

Gli stimatori calcolati con il metodo della massima verosimiglianza massimizzano la funzione precedente risolvendo il seguente problema:

{ β ^ 0 , β ^ 1 , … , β ^ k } M V = arg ⁡ max β 0 , … , β k l logit ( β 0 , … , β k ; Y 1 , … , Y n ∣ X 1 i , … , X k i ) . {\displaystyle \left\{{\hat {\beta }}_{0},{\hat {\beta }}_{1},\ldots ,{\hat {\beta }}_{k}\right\}_{MV}=\arg \max _{\beta _{0},\ldots ,\beta _{k}}{\mathcal {l}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki}).} {\displaystyle \left\{{\hat {\beta }}_{0},{\hat {\beta }}_{1},\ldots ,{\hat {\beta }}_{k}\right\}_{MV}=\arg \max _{\beta _{0},\ldots ,\beta _{k}}{\mathcal {l}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki}).}[6]

Per semplificare la scrittura consideriamo β {\displaystyle {\boldsymbol {\beta }}} {\displaystyle {\boldsymbol {\beta }}} un vettore dei parametri β 0 , β 1 , … , β k {\displaystyle \beta _{0},\beta _{1},\ldots ,\beta _{k}} {\displaystyle \beta _{0},\beta _{1},\ldots ,\beta _{k}}, λ {\displaystyle \lambda } {\displaystyle \lambda } la derivata di Λ {\displaystyle \Lambda } {\displaystyle \Lambda }, ossia la funzione di densità di probabilità della distribuzione logistica, e n {\displaystyle n} {\displaystyle n} il numero di osservazioni nel campione. Le condizioni per la massimizzazione sono due: quella di primo ordine dove la derivata prima rispetto ai parametri deve essere posta uguale a zero per trovare i punti estremanti, la seconda invece pone la derivata seconda, sempre rispetto ai parametri, minore di zero per determinare le concavità della funzione e quindi garantire che quelli trovati siano solo punti di massimo:

  • ∂ ∂ β l logit ( β ; y ) = 0 ⟺ ∑ i = 1 n { y i − Λ ( x i ′ β ) Λ ( x i ′ β ) [ 1 − Λ ( x i ′ β ) ] ⋅ λ ( x i ′ β ) } = 0 ; {\displaystyle {\frac {\partial }{\partial {\boldsymbol {\beta }}}}{\mathcal {l}}_{\textrm {logit}}({\boldsymbol {\beta }};\mathbf {y} )=0\Longleftrightarrow \sum _{i=1}^{n}\left\{{\frac {y_{i}-\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})}{\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\left[1-\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\right]}}\cdot \lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\right\}=0;} {\displaystyle {\frac {\partial }{\partial {\boldsymbol {\beta }}}}{\mathcal {l}}_{\textrm {logit}}({\boldsymbol {\beta }};\mathbf {y} )=0\Longleftrightarrow \sum _{i=1}^{n}\left\{{\frac {y_{i}-\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})}{\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\left[1-\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\right]}}\cdot \lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\right\}=0;}
  • ∂ 2 ∂ β ∂ β ′ l logit ( β ; y ) < 0. {\displaystyle {\frac {\partial ^{2}}{\partial {\boldsymbol {\beta }}\partial {\boldsymbol {\beta '}}}}{\mathcal {l}}_{\textrm {logit}}({\boldsymbol {\beta }};\mathbf {y} )<0.} {\displaystyle {\frac {\partial ^{2}}{\partial {\boldsymbol {\beta }}\partial {\boldsymbol {\beta '}}}}{\mathcal {l}}_{\textrm {logit}}({\boldsymbol {\beta }};\mathbf {y} )<0.}

Solitamente le soluzioni di queste condizioni non sono semplici da determinare oppure non possono essere trovate affatto, ma per ovviare a questo problema si possono utilizzare dei programmi statistici per computer che, attraverso alcuni algoritmi, trovano delle loro approssimazioni.[6]

Stima della probabilità

[modifica | modifica wikitesto]

Quando è stato calcolato il vettore β ^ {\displaystyle {\boldsymbol {\hat {\beta }}}} {\displaystyle {\boldsymbol {\hat {\beta }}}}, ossia la stima del vettore dei parametri β {\displaystyle {\boldsymbol {\beta }}} {\displaystyle {\boldsymbol {\beta }}}, è possibile procedere alla stima della probabilità p {\displaystyle p} {\displaystyle p}. Per definizione del modello, questa probabilità è anche il valore atteso di Y {\displaystyle Y} {\displaystyle Y}.

p ^ = E ^ [ Y ∣ X ] = Λ ( X T β ^ ) = e X T β ^ 1 + e X T β ^ . {\displaystyle {\hat {p}}={\hat {\mathbb {E} }}\left[Y\mid \mathbf {X} \right]=\Lambda (\mathbf {X} ^{T}{\hat {\boldsymbol {\beta }}})={\frac {e^{\mathbf {X} ^{T}{\hat {\boldsymbol {\beta }}}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\hat {\beta }}}}}}.} {\displaystyle {\hat {p}}={\hat {\mathbb {E} }}\left[Y\mid \mathbf {X} \right]=\Lambda (\mathbf {X} ^{T}{\hat {\boldsymbol {\beta }}})={\frac {e^{\mathbf {X} ^{T}{\hat {\boldsymbol {\beta }}}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\hat {\beta }}}}}}.}

Esempio in python

[modifica | modifica wikitesto]

Utilizzando la regressione logistica nel linguaggio di programmazione python si vuole predire se una persona è malata di cuore oppure no, mediante parametri tra cui la pressione arteriosa e il livello di colesterolo nel sangue ecc. contenuti in un dataset liberamente scaricabile da GitHub. La variabile da predire è target che assume 1 se la persona è malata, 0 altrimenti. Si divide il dataset in un Training Set pari all'80% delle osservazioni su cui si addestra il modello logistico, ed il restante 20% delle osservazioni rappresenta il Testing Set su cui si calcola l'Accuracy per valutare se il modello predice bene la malattia:

import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Caricamento del dataset
url = "https://raw.githubusercontent.com/g-shreekant/Heart-Disease-Prediction-using-Machine-Learning/refs/heads/master/heart.csv"
df = pd.read_csv(url)

# Definizione delle feature e della variabile target
X = df.drop(columns=['target'])  # Feature
y = df['target']  # Variabile target (0 = no malattia, 1 = malattia)

# Suddivisione in Training e Testing Set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Normalizzazione delle feature
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Creazione e addestramento del modello di Regressione Logistica
model = LogisticRegression()
model.fit(X_train, y_train)

# Predizioni sul testing set
y_pred = model.predict(X_test)

# Valutazione del modello
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')
Accuracy: 0.8033

Essendo l'accuracy pari all'80,33% il modello logistico predice bene la malattia.

Note

[modifica | modifica wikitesto]
  1. ^ a b c d e f (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 442-443, ISBN 978-1-292-07131-2.
  2. ^ a b (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, p. 437, ISBN 978-1-292-07131-2.
  3. ^ Il valore attes
  4. ^ a b (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 441-442, ISBN 978-1-292-07131-2.
  5. ^ L'intera derivazione della funzione di verosimiglianza è consultabile alle pagine qui riportate. (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 465-466, ISBN 978-1-292-07131-2.
  6. ^ a b (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, pp. 465-466, ISBN 978-1-292-07131-2.

Bibliografia

[modifica | modifica wikitesto]
  • (EN) Alan Agresti, Categorical Data Analysis, Wiley, 2003, ISBN 978-0-471-36093-3.
  • (EN) William H. Greene, Econometric Analysis, 4ª ed., Prentice Hall, 1999 [1993], ISBN 978-0-130-13297-0.
  • (EN) James H. Stock e Mark W. Watson, Regression with a Binary Dependent Variable, in Introduction to Econometrics, 3ª ed., Pearson, 2015, ISBN 978-1-292-07131-2.
  • (EN) P. McCullagh e John A. Nelder, Generalized Linear Models, 2ª ed., Chapman and Hall/CRC, 1989, ISBN 978-0-412-31760-6.

Voci correlate

[modifica | modifica wikitesto]
  • Logit
  • Regressione logistica multinomiale (mlogit)
  • Modello probit

Altri progetti

[modifica | modifica wikitesto]

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file sul regressione logistica
V · D · M
Statistica
Teoria statistica
Statistica descrittivaMedia (aritmetica · geometrica · armonica · di potenza · aritmetico-geometrica · integrale) · Mediana · Moda · Intervallo di variazione · Varianza · Deviazione standard · Scarto medio assoluto · Simmetria · Differenza media (assoluta · logaritmica) · Curtosi
Inferenza statisticaTest di verifica d'ipotesi · Significatività · Ipotesi nulla/alternativa · Errore del I e del II tipo · Test Q · Test U · Test t · Test Z · Massima verosimiglianza · Standardizzazione · Valore p · Analisi della varianza
Analisi di sopravvivenzaTasso di guasto · Stimatore di Kaplan-Meier · Test dei ranghi logaritmici
Analisi della regressioneRegressione lineare · Regressione nonlineare · Variabili strumentali · Metodo generalizzato dei momenti · Regressione logistica · Modello probit · Modello logit
Statistica economica
Istituti statisticiISTAT · EuroSTAT · Royal Statistical Society · U.S. Census Bureau · ISI · INSEE
Siti web statisticiOur World in Data · Statista · Bloomberg Terminal · Google Public Data Explorer · World Inequality Database · TradingEconomics · ACLED
Software econometricigretl · EViews
Controllo di autoritàLCCN (EN) sh85078131 · GND (DE) 4230396-5 · BNF (FR) cb13737339z (data) · J9U (EN, HE) 987007536257205171
  Portale Economia
  Portale Statistica
Estratto da "https://it.wikipedia.org/w/index.php?title=Modello_logit&oldid=148496784"

  • Indonesia
  • English
  • Français
  • 日本語
  • Deutsch
  • Italiano
  • Español
  • Русский
  • فارسی
  • Polski
  • 中文
  • Nederlands
  • Português
  • العربية
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022