Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Bestimmung der Parameter | Logistische Regression
Klassifikation mit Python

bookBestimmung der Parameter

Die logistische Regression erfordert vom Computer lediglich das Erlernen der optimalen Parameter ββ. Dazu muss definiert werden, was unter „optimalen Parametern“ zu verstehen ist. Erinnern wir uns daran, wie das Modell funktioniert: Es sagt die Wahrscheinlichkeit pp für die Zugehörigkeit zur Klasse 1 voraus:

p=σ(z)=σ(β0+β1x1+...)p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

wobei

σ(z)=11+ez\sigma (z) = \frac{1}{1 + e^{-z}}

Offensichtlich ist das Modell mit guten Parametern jenes, das für Instanzen, die tatsächlich zur Klasse 1 gehören, einen hohen (nahe 1) Wert für pp vorhersagt und für Instanzen mit der tatsächlichen Klasse 0 einen niedrigen (nahe 0) Wert für pp.

Um zu messen, wie gut oder schlecht das Modell ist, wird eine Kostenfunktion verwendet. In der linearen Regression wurde als Kostenfunktion der MSE (mittlere quadratische Abweichung) verwendet. Dieses Mal wird eine andere Funktion eingesetzt:

Hierbei steht pp für die vom Modell vorhergesagte Wahrscheinlichkeit, zur Klasse 1 zu gehören, während yy den tatsächlichen Zielwert bezeichnet.

Diese Funktion bestraft nicht nur falsche Vorhersagen, sondern berücksichtigt auch die Sicherheit des Modells in seinen Vorhersagen. Wie in der obigen Abbildung dargestellt, bleibt die Kostenfunktion relativ klein, wenn der Wert von pp nahe bei yy (dem tatsächlichen Zielwert) liegt, was darauf hinweist, dass das Modell die richtige Klasse mit hoher Sicherheit ausgewählt hat. Im Gegensatz dazu steigt die Kostenfunktion exponentiell an, wenn die Vorhersage falsch ist und das Modell zunehmend von der falschen Klasse überzeugt ist.

Im Kontext der binären Klassifikation mit einer Sigmoid-Funktion wird speziell die binäre Kreuzentropie-Verlustfunktion verwendet, wie oben gezeigt. Es ist wichtig zu beachten, dass es auch eine allgemeinere Form gibt, die als Kreuzentropie-Verlust (oder kategorische Kreuzentropie) für Mehrklassen-Klassifikationsprobleme verwendet wird.

Die kategorische Kreuzentropie für eine einzelne Trainingsinstanz wird wie folgt berechnet:

Categorical Cross-Entropy Loss=i=1Cyilog(pi)\text{Categorical Cross-Entropy Loss} = -\sum_{i=1}^{C} y_i \log(p_i)

Dabei gilt:

  • CC ist die Anzahl der Klassen;
  • yiy_i ist der tatsächliche Zielwert (1, wenn die Klasse die korrekte Klasse ist, sonst 0);
  • pip_i ist die vorhergesagte Wahrscheinlichkeit, dass die Instanz zur Klasse ii gehört.

Wir berechnen die Verlustfunktion für jede Trainingsinstanz und nehmen den Durchschnitt. Dieser Durchschnitt wird als Kostenfunktion bezeichnet. Die logistische Regression sucht die Parameter β\beta, die die Kostenfunktion minimieren.

question mark

Welche dieser Funktionen wird als Verlustfunktion bei Klassifikationsaufgaben verwendet?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4.17

bookBestimmung der Parameter

Swipe um das Menü anzuzeigen

Die logistische Regression erfordert vom Computer lediglich das Erlernen der optimalen Parameter ββ. Dazu muss definiert werden, was unter „optimalen Parametern“ zu verstehen ist. Erinnern wir uns daran, wie das Modell funktioniert: Es sagt die Wahrscheinlichkeit pp für die Zugehörigkeit zur Klasse 1 voraus:

p=σ(z)=σ(β0+β1x1+...)p = \sigma (z) = \sigma (\beta_0 + \beta_1x_1 + ...)

wobei

σ(z)=11+ez\sigma (z) = \frac{1}{1 + e^{-z}}

Offensichtlich ist das Modell mit guten Parametern jenes, das für Instanzen, die tatsächlich zur Klasse 1 gehören, einen hohen (nahe 1) Wert für pp vorhersagt und für Instanzen mit der tatsächlichen Klasse 0 einen niedrigen (nahe 0) Wert für pp.

Um zu messen, wie gut oder schlecht das Modell ist, wird eine Kostenfunktion verwendet. In der linearen Regression wurde als Kostenfunktion der MSE (mittlere quadratische Abweichung) verwendet. Dieses Mal wird eine andere Funktion eingesetzt:

Hierbei steht pp für die vom Modell vorhergesagte Wahrscheinlichkeit, zur Klasse 1 zu gehören, während yy den tatsächlichen Zielwert bezeichnet.

Diese Funktion bestraft nicht nur falsche Vorhersagen, sondern berücksichtigt auch die Sicherheit des Modells in seinen Vorhersagen. Wie in der obigen Abbildung dargestellt, bleibt die Kostenfunktion relativ klein, wenn der Wert von pp nahe bei yy (dem tatsächlichen Zielwert) liegt, was darauf hinweist, dass das Modell die richtige Klasse mit hoher Sicherheit ausgewählt hat. Im Gegensatz dazu steigt die Kostenfunktion exponentiell an, wenn die Vorhersage falsch ist und das Modell zunehmend von der falschen Klasse überzeugt ist.

Im Kontext der binären Klassifikation mit einer Sigmoid-Funktion wird speziell die binäre Kreuzentropie-Verlustfunktion verwendet, wie oben gezeigt. Es ist wichtig zu beachten, dass es auch eine allgemeinere Form gibt, die als Kreuzentropie-Verlust (oder kategorische Kreuzentropie) für Mehrklassen-Klassifikationsprobleme verwendet wird.

Die kategorische Kreuzentropie für eine einzelne Trainingsinstanz wird wie folgt berechnet:

Categorical Cross-Entropy Loss=i=1Cyilog(pi)\text{Categorical Cross-Entropy Loss} = -\sum_{i=1}^{C} y_i \log(p_i)

Dabei gilt:

  • CC ist die Anzahl der Klassen;
  • yiy_i ist der tatsächliche Zielwert (1, wenn die Klasse die korrekte Klasse ist, sonst 0);
  • pip_i ist die vorhergesagte Wahrscheinlichkeit, dass die Instanz zur Klasse ii gehört.

Wir berechnen die Verlustfunktion für jede Trainingsinstanz und nehmen den Durchschnitt. Dieser Durchschnitt wird als Kostenfunktion bezeichnet. Die logistische Regression sucht die Parameter β\beta, die die Kostenfunktion minimieren.

question mark

Welche dieser Funktionen wird als Verlustfunktion bei Klassifikationsaufgaben verwendet?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 2
some-alt