Lära Hitta Parametrarna

Svep för att visa menyn

Logistisk regression kräver endast att datorn lär sig de bästa parametrarna $β$ . För detta behöver vi definiera vad "bästa parametrar" innebär. Låt oss repetera hur modellen fungerar; den förutspår $p$ – sannolikheten att tillhöra klass 1:

p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

Där

\sigma (z) = \frac{1}{1 + e^{-z}}

Det är uppenbart att en modell med bra parametrar är den som förutspår höga (nära 1) $p$ för observationer som faktiskt tillhör klass 1 och låga (nära 0) $p$ för observationer med faktisk klass 0.

För att mäta hur dålig eller bra modellen är använder vi en kostnadsfunktion. Vid linjär regression använde vi MSE (medelkvadratiskt fel) som kostnadsfunktion. Denna gång används en annan funktion:

Här representerar $p$ sannolikheten att tillhöra klass 1, som förutsägs av modellen, medan $y$ betecknar det faktiska mål-värdet.

Denna funktion straffar inte bara felaktiga förutsägelser utan tar även hänsyn till modellens säkerhet i sina förutsägelser. Som illustrerat i bilden ovan, när värdet på $p$ ligger nära $y$ (det faktiska målet), förblir kostnadsfunktionen relativt liten, vilket indikerar att modellen med säkerhet valde rätt klass. Omvänt, om förutsägelsen är felaktig, ökar kostnadsfunktionen exponentiellt i takt med att modellens säkerhet i den felaktiga klassen växer.

I samband med binär klassificering med en sigmoidfunktion används en kostnadsfunktion som specifikt kallas binär korsentropiförlust, vilket visades ovan. Det är viktigt att notera att det även finns en generell form som kallas korsentropiförlust (eller kategorisk korsentropi) som används för flerklass-klassificeringsproblem.

Den kategoriska korsentropiförlusten för ett enskilt träningsfall beräknas enligt följande:

\text{Categorical Cross-Entropy Loss} = -\sum_{i=1}^{C} y_i \log(p_i)

Där

$C$ är antalet klasser;
$y_i$ är det faktiska mål-värdet (1 om klassen är korrekt, 0 annars);
$p_i$ är den förutsagda sannolikheten att instansen tillhör klass $i$ .

Vi beräknar förlustfunktionen för varje träningsfall och tar medelvärdet. Detta medelvärde kallas kostnadsfunktionen. Logistisk regression hittar parametrarna $\beta$ som minimerar kostnadsfunktionen.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 22

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 1. Kapitel 22