Lära Hitta Parametrarna | Logistisk Regression

Logistisk regression kräver endast att datorn lär sig de bästa parametrarna $β$ . För detta behöver vi definiera vad "bästa parametrar" innebär. Låt oss repetera hur modellen fungerar; den förutspår $p$ – sannolikheten att tillhöra klass 1:

p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

Där

\sigma (z) = \frac{1}{1 + e^{-z}}

Uppenbarligen är modellen med bra parametrar den som förutspår höga (nära 1) $p$ för instanser som faktiskt tillhör klass 1 och låga (nära 0) $p$ för instanser med faktisk klass 0.

För att mäta hur dålig eller bra modellen är använder vi en kostnadsfunktion. Vid linjär regression använde vi MSE (medelkvadratiskt fel) som kostnadsfunktion. Den här gången används en annan funktion:

Här representerar $p$ sannolikheten att tillhöra klass 1, som förutsägs av modellen, medan $y$ betecknar det faktiska målvariabelvärdet.

Denna funktion straffar inte bara felaktiga förutsägelser utan tar även hänsyn till modellens säkerhet i sina förutsägelser. Som illustrerat i bilden ovan, när värdet på $p$ ligger nära $y$ (det faktiska målet), förblir kostnadsfunktionen relativt liten, vilket indikerar att modellen med säkerhet valde rätt klass. Omvänt, om förutsägelsen är felaktig, ökar kostnadsfunktionen exponentiellt i takt med att modellens säkerhet i den felaktiga klassen ökar.

I samband med binär klassificering med en sigmoidfunktion används en kostnadsfunktion som specifikt kallas binär korsentropiförlust, vilket visades ovan. Det är viktigt att notera att det även finns en allmän form, känd som korsentropiförlust (eller kategorisk korsentropi), som används för flerklass-klassificeringsproblem.

Den kategoriska korsentropiförlusten för ett enskilt träningsfall beräknas enligt följande:

\text{Categorical Cross-Entropy Loss} = -\sum_{i=1}^{C} y_i \log(p_i)

Där

$C$ är antalet klasser;
$y_i$ är det faktiska målvariabelvärdet (1 om klassen är korrekt, 0 annars);
$p_i$ är den förutsagda sannolikheten att instansen tillhör klass $i$ .

Vi beräknar förlustfunktionen för varje träningsinstans och tar medelvärdet. Detta medelvärde kallas kostnadsfunktionen. Logistisk regression hittar parametrarna $\beta$ som minimerar kostnadsfunktionen.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 2

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain why binary cross-entropy is preferred over MSE for logistic regression?

What does the sigmoid function do in logistic regression?

How does the cost function help improve the model's predictions?

Awesome!

Completion rate improved to 4.17

Svep för att visa menyn

p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

Där

\sigma (z) = \frac{1}{1 + e^{-z}}