Bestimmung der Parameter
Bei der logistischen Regression muss der Computer lediglich die optimalen Parameter β erlernen. Dafür muss zunächst definiert werden, was unter „optimalen Parametern“ zu verstehen ist. Erinnern wir uns an die Funktionsweise des Modells: Es sagt die Wahrscheinlichkeit p für die Zugehörigkeit zur Klasse 1 voraus:
p=σ(z)=σ(β0+β1x1+...)Dabei gilt:
σ(z)=1+e−z1Offensichtlich ist ein Modell mit guten Parametern eines, das für Instanzen der tatsächlichen Klasse 1 eine hohe (nahe 1) Wahrscheinlichkeit p vorhersagt und für Instanzen der tatsächlichen Klasse 0 eine niedrige (nahe 0) Wahrscheinlichkeit p.
Um zu messen, wie gut oder schlecht das Modell ist, wird eine Kostenfunktion verwendet. In der linearen Regression wurde als Kostenfunktion der MSE (mittlere quadratische Abweichung) genutzt. In diesem Fall wird jedoch eine andere Funktion verwendet:
Hier steht p für die vom Modell vorhergesagte Wahrscheinlichkeit, zur Klasse 1 zu gehören, während y den tatsächlichen Zielwert bezeichnet.
Diese Funktion bestraft nicht nur falsche Vorhersagen, sondern berücksichtigt auch die Sicherheit des Modells in seinen Vorhersagen. Wie in der obigen Abbildung dargestellt, bleibt die Kostenfunktion relativ klein, wenn der Wert von p nahe bei y (dem tatsächlichen Ziel) liegt, was darauf hinweist, dass das Modell die richtige Klasse mit hoher Sicherheit ausgewählt hat. Im Gegensatz dazu steigt die Kostenfunktion exponentiell an, wenn die Vorhersage falsch ist und das Modell mit hoher Sicherheit die falsche Klasse auswählt.
Im Kontext der binären Klassifikation mit einer Sigmoid-Funktion wird speziell die binäre Kreuzentropie-Verlustfunktion verwendet, wie oben gezeigt. Es ist wichtig zu beachten, dass es auch eine allgemeine Form gibt, die als Kreuzentropie-Verlust (oder kategorische Kreuzentropie) für Mehrklassenklassifikationsprobleme verwendet wird.
Die kategorische Kreuzentropie für eine einzelne Trainingsinstanz wird wie folgt berechnet:
Categorical Cross-Entropy Loss=−i=1∑Cyilog(pi)Dabei gilt:
- C ist die Anzahl der Klassen;
- yi ist der tatsächliche Zielwert (1, wenn die Klasse die korrekte Klasse ist, sonst 0);
- pi ist die vorhergesagte Wahrscheinlichkeit, dass die Instanz zur Klasse i gehört.
Die Verlustfunktion wird für jede Trainingsinstanz berechnet und der Durchschnitt genommen. Dieser Durchschnitt wird als Kostenfunktion bezeichnet. Die logistische Regression findet die Parameter β, die die Kostenfunktion minimieren.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Großartig!
Completion Rate verbessert auf 3.33
Bestimmung der Parameter
Swipe um das Menü anzuzeigen
Bei der logistischen Regression muss der Computer lediglich die optimalen Parameter β erlernen. Dafür muss zunächst definiert werden, was unter „optimalen Parametern“ zu verstehen ist. Erinnern wir uns an die Funktionsweise des Modells: Es sagt die Wahrscheinlichkeit p für die Zugehörigkeit zur Klasse 1 voraus:
p=σ(z)=σ(β0+β1x1+...)Dabei gilt:
σ(z)=1+e−z1Offensichtlich ist ein Modell mit guten Parametern eines, das für Instanzen der tatsächlichen Klasse 1 eine hohe (nahe 1) Wahrscheinlichkeit p vorhersagt und für Instanzen der tatsächlichen Klasse 0 eine niedrige (nahe 0) Wahrscheinlichkeit p.
Um zu messen, wie gut oder schlecht das Modell ist, wird eine Kostenfunktion verwendet. In der linearen Regression wurde als Kostenfunktion der MSE (mittlere quadratische Abweichung) genutzt. In diesem Fall wird jedoch eine andere Funktion verwendet:
Hier steht p für die vom Modell vorhergesagte Wahrscheinlichkeit, zur Klasse 1 zu gehören, während y den tatsächlichen Zielwert bezeichnet.
Diese Funktion bestraft nicht nur falsche Vorhersagen, sondern berücksichtigt auch die Sicherheit des Modells in seinen Vorhersagen. Wie in der obigen Abbildung dargestellt, bleibt die Kostenfunktion relativ klein, wenn der Wert von p nahe bei y (dem tatsächlichen Ziel) liegt, was darauf hinweist, dass das Modell die richtige Klasse mit hoher Sicherheit ausgewählt hat. Im Gegensatz dazu steigt die Kostenfunktion exponentiell an, wenn die Vorhersage falsch ist und das Modell mit hoher Sicherheit die falsche Klasse auswählt.
Im Kontext der binären Klassifikation mit einer Sigmoid-Funktion wird speziell die binäre Kreuzentropie-Verlustfunktion verwendet, wie oben gezeigt. Es ist wichtig zu beachten, dass es auch eine allgemeine Form gibt, die als Kreuzentropie-Verlust (oder kategorische Kreuzentropie) für Mehrklassenklassifikationsprobleme verwendet wird.
Die kategorische Kreuzentropie für eine einzelne Trainingsinstanz wird wie folgt berechnet:
Categorical Cross-Entropy Loss=−i=1∑Cyilog(pi)Dabei gilt:
- C ist die Anzahl der Klassen;
- yi ist der tatsächliche Zielwert (1, wenn die Klasse die korrekte Klasse ist, sonst 0);
- pi ist die vorhergesagte Wahrscheinlichkeit, dass die Instanz zur Klasse i gehört.
Die Verlustfunktion wird für jede Trainingsinstanz berechnet und der Durchschnitt genommen. Dieser Durchschnitt wird als Kostenfunktion bezeichnet. Die logistische Regression findet die Parameter β, die die Kostenfunktion minimieren.
Danke für Ihr Feedback!