Trovare i Parametri
La regressione logistica richiede solo che il computer apprenda i parametri ottimali β. Per questo, è necessario definire cosa si intende per "parametri ottimali". Ricordiamo come funziona il modello: esso predice la probabilità p di appartenere alla classe 1:
p=σ(z)=σ(β0+β1x1+...)Dove
σ(z)=1+e−z1Ovviamente, il modello con parametri adeguati è quello che predice valori elevati (vicini a 1) di p per le istanze che appartengono effettivamente alla classe 1 e valori bassi (vicini a 0) di p per le istanze con classe effettiva 0.
Per misurare quanto il modello sia efficace o meno, si utilizza una funzione di costo. Nella regressione lineare, si utilizzava la MSE (errore quadratico medio) come funzione di costo. In questo caso, viene utilizzata una funzione diversa:
Qui p rappresenta la probabilità di appartenere alla classe 1, come previsto dal modello, mentre y indica il valore target effettivo.
Questa funzione non solo penalizza le previsioni errate, ma considera anche la sicurezza del modello nelle sue previsioni. Come illustrato nell'immagine sopra, quando il valore di p si avvicina molto a y (il target effettivo), la funzione di costo rimane relativamente bassa, indicando che il modello ha selezionato con sicurezza la classe corretta. Al contrario, se la previsione è errata, la funzione di costo aumenta esponenzialmente man mano che cresce la sicurezza del modello nella classe errata.
Nel contesto della classificazione binaria con una funzione sigmoide, la funzione di costo utilizzata è specificamente chiamata perdita di entropia incrociata binaria (binary cross-entropy loss), come mostrato sopra. È importante notare che esiste anche una forma generale nota come perdita di entropia incrociata (o entropia incrociata categoriale) utilizzata per problemi di classificazione multi-classe.
La perdita di entropia incrociata categoriale per una singola istanza di addestramento si calcola come segue:
Categorical Cross-Entropy Loss=−i=1∑Cyilog(pi)Dove
- C è il numero di classi;
- yi è il valore target effettivo (1 se la classe è quella corretta, 0 altrimenti);
- pi è la probabilità prevista che l'istanza appartenga alla classe i.
Si calcola la funzione di perdita per ogni istanza di addestramento e si prende la media. Questa media è chiamata funzione di costo. La Regressione Logistica trova i parametri β che minimizzano la funzione di costo.
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione
Can you explain why binary cross-entropy is preferred over MSE for logistic regression?
What does the sigmoid function do in logistic regression?
How does the cost function help improve the model's predictions?
Awesome!
Completion rate improved to 4.17
Trovare i Parametri
Scorri per mostrare il menu
La regressione logistica richiede solo che il computer apprenda i parametri ottimali β. Per questo, è necessario definire cosa si intende per "parametri ottimali". Ricordiamo come funziona il modello: esso predice la probabilità p di appartenere alla classe 1:
p=σ(z)=σ(β0+β1x1+...)Dove
σ(z)=1+e−z1Ovviamente, il modello con parametri adeguati è quello che predice valori elevati (vicini a 1) di p per le istanze che appartengono effettivamente alla classe 1 e valori bassi (vicini a 0) di p per le istanze con classe effettiva 0.
Per misurare quanto il modello sia efficace o meno, si utilizza una funzione di costo. Nella regressione lineare, si utilizzava la MSE (errore quadratico medio) come funzione di costo. In questo caso, viene utilizzata una funzione diversa:
Qui p rappresenta la probabilità di appartenere alla classe 1, come previsto dal modello, mentre y indica il valore target effettivo.
Questa funzione non solo penalizza le previsioni errate, ma considera anche la sicurezza del modello nelle sue previsioni. Come illustrato nell'immagine sopra, quando il valore di p si avvicina molto a y (il target effettivo), la funzione di costo rimane relativamente bassa, indicando che il modello ha selezionato con sicurezza la classe corretta. Al contrario, se la previsione è errata, la funzione di costo aumenta esponenzialmente man mano che cresce la sicurezza del modello nella classe errata.
Nel contesto della classificazione binaria con una funzione sigmoide, la funzione di costo utilizzata è specificamente chiamata perdita di entropia incrociata binaria (binary cross-entropy loss), come mostrato sopra. È importante notare che esiste anche una forma generale nota come perdita di entropia incrociata (o entropia incrociata categoriale) utilizzata per problemi di classificazione multi-classe.
La perdita di entropia incrociata categoriale per una singola istanza di addestramento si calcola come segue:
Categorical Cross-Entropy Loss=−i=1∑Cyilog(pi)Dove
- C è il numero di classi;
- yi è il valore target effettivo (1 se la classe è quella corretta, 0 altrimenti);
- pi è la probabilità prevista che l'istanza appartenga alla classe i.
Si calcola la funzione di perdita per ogni istanza di addestramento e si prende la media. Questa media è chiamata funzione di costo. La Regressione Logistica trova i parametri β che minimizzano la funzione di costo.
Grazie per i tuoi commenti!