Training und Optimierung

Das Training generativer Modelle umfasst die Optimierung oft instabiler und komplexer Verlustlandschaften. Dieser Abschnitt stellt Verlustfunktionen vor, die auf jeden Modelltyp zugeschnitten sind, Optimierungsstrategien zur Stabilisierung des Trainings sowie Methoden zur Feinabstimmung vortrainierter Modelle für individuelle Anwendungsfälle.

Zentrale Verlustfunktionen

Verschiedene Familien generativer Modelle verwenden je nach Modellierung der Datenverteilung unterschiedliche Verlustformulierungen.

GAN-Verluste

Minimax-Verlust (ursprüngliches GAN)

Adversariales Setup zwischen Generator $G$ und Diskriminator $D$ (Beispiel mit pythorch-Bibliothek):

Least Squares GAN (LSGAN)

Verwendet L2-Verlust anstelle von Log-Verlust, um Stabilität und Gradientenfluss zu verbessern:

Wasserstein GAN (WGAN)

Minimiert die Earth Mover (EM) Distanz; ersetzt den Diskriminator durch einen "Kritiker" und verwendet Gewichtsbeschränkung oder Gradientenstrafe für Lipschitz-Kontinuität:

VAE-Verlust

Evidence Lower Bound (ELBO)

Kombiniert Rekonstruktion und Regularisierung. Der KL-Divergenz-Term sorgt dafür, dass der latente Posterior nahe an der Prior bleibt (in der Regel Standardnormalverteilung):

Diffusionsmodell-Verluste

Rauschvorhersage-Verlust

Modelle lernen, hinzugefügtes Gaußsches Rauschen über einen Diffusionszeitplan zu entfernen. Varianten verwenden Geschwindigkeitsvorhersage (z. B. v-prediction in Stable Diffusion v2) oder hybride Zielsetzungen:

Optimierungstechniken

Das Training generativer Modelle ist oft instabil und empfindlich gegenüber Hyperparametern. Verschiedene Techniken werden eingesetzt, um Konvergenz und Qualität sicherzustellen.

Optimierer und Scheduler

Adam / AdamW: Adaptive Gradientenoptimierer sind der De-facto-Standard. Verwenden Sie $\beta_1=0.5,\ \beta_2=0.999$ für GANs;
RMSprop: Wird manchmal in WGAN-Varianten verwendet;
Lernraten-Scheduling:
- Aufwärmphasen für Transformer und Diffusionsmodelle;
- Kosinus-Abfall oder ReduceLROnPlateau für stabile Konvergenz.

Stabilisierungsverfahren

Gradient Clipping: Vermeidung explodierender Gradienten in RNNs oder tiefen UNets;

Spektrale Normalisierung: auf die Diskriminatorschichten in GANs angewendet, um Lipschitz-Bedingungen durchzusetzen;

Label Smoothing: Abschwächung harter Labels (z. B. echt = 0,9 statt 1,0), um Überkonfidenz zu reduzieren;
Two-Time-Scale Update Rule (TTUR): Verwendung unterschiedlicher Lernraten für Generator und Diskriminator zur Verbesserung der Konvergenz;
Mixed-Precision Training: Nutzung von FP16 (über NVIDIA Apex oder PyTorch AMP) für schnelleres Training auf modernen GPUs.

Hinweis

Generator- und Diskriminatorverluste getrennt überwachen. Periodische Verwendung von Metriken wie FID oder IS zur Bewertung der tatsächlichen Ausgabequalität anstelle einer ausschließlichen Orientierung an den Verlustwerten.

Feinabstimmung vortrainierter generativer Modelle

Vortrainierte generative Modelle (z. B. Stable Diffusion, LLaMA, StyleGAN2) können für domänenspezifische Aufgaben mit leichteren Trainingsstrategien feinabgestimmt werden.

Transfer-Learning-Techniken

Vollständige Feinabstimmung: Alle Modellgewichte werden erneut trainiert. Hoher Rechenaufwand, aber maximale Flexibilität;

Schichtweises Einfrieren / schrittweises Auftauen: Zunächst werden die meisten Schichten eingefroren, anschließend werden ausgewählte Schichten schrittweise freigegeben, um eine bessere Feinabstimmung zu ermöglichen. Dies verhindert katastrophales Vergessen. Das Einfrieren früher Schichten bewahrt allgemeine Merkmale aus dem Pretraining (wie Kanten oder Wortmuster), während das Auftauen späterer Schichten dem Modell erlaubt, aufgabenspezifische Merkmale zu erlernen;

LoRA / Adapter-Schichten: Einfügen von niedrig-rangigen, trainierbaren Schichten ohne Aktualisierung der Basismodell-Parameter;

DreamBooth / Textuelle Inversion (Diffusionsmodelle):
- Feinabstimmung mit einer kleinen Anzahl von objektspezifischen Bildern.
- Verwendung der diffusers-Pipeline:

Prompt Tuning / P-Tuning:

Häufige Anwendungsfälle

Stilanpassung: Feinabstimmung auf Anime-, Comic- oder künstlerischen Datensätzen;
Branchenspezifische Anpassung: Anpassung von LLMs an juristische, medizinische oder unternehmensspezifische Bereiche;
Personalisierung: Individuelle Identitäts- oder Stimmkonditionierung mit kleinen Referenzdatensätzen.

Hinweis

Hugging Face PEFT für LoRA-/Adapter-basierte Methoden verwenden sowie die Diffusers-Bibliothek für schlanke Fine-Tuning-Pipelines mit integrierter Unterstützung für DreamBooth und classifier-free guidance.

Zusammenfassung

Modellspezifische Verlustfunktionen verwenden, die zu Trainingszielen und Modellstruktur passen;
Optimierung mit adaptiven Methoden, Stabilisierungsverfahren und effizientem Scheduling;
Vorgefertigte Modelle mit modernen Low-Rank- oder Prompt-basierten Transferstrategien feinabstimmen, um Kosten zu senken und die Domänenanpassungsfähigkeit zu erhöhen.

1. Was ist ein Hauptzweck der Verwendung von Regularisierungstechniken während des Trainings?

2. Welcher der folgenden Optimierer wird häufig zum Training von Deep-Learning-Modellen verwendet und passt die Lernrate während des Trainings an?

3. Was ist die Hauptschwierigkeit beim Training generativer Modelle, insbesondere im Kontext von GANs (Generative Adversarial Networks)?

Was ist ein Hauptzweck der Verwendung von Regularisierungstechniken während des Trainings?

Select the correct answer

Zur Vergrößerung des Trainingsdatensatzes.

Zur Verhinderung von Überanpassung durch Bestrafung zu komplexer Modelle.

Zur Beschleunigung des Lernprozesses.

Zur Reduzierung der Rechenkosten während des Trainings.

Welcher der folgenden Optimierer wird häufig zum Training von Deep-Learning-Modellen verwendet und passt die Lernrate während des Trainings an?

Select the correct answer

Stochastic Gradient Descent (SGD)

Adam

Adagrad

Momentum

Was ist die Hauptschwierigkeit beim Training generativer Modelle, insbesondere im Kontext von GANs (Generative Adversarial Networks)?

Select the correct answer

Schwierigkeit beim Ausbalancieren des Trainings von Generator und Diskriminator

Langsame Konvergenz aufgrund kleiner Gradienten

Unfähigkeit, die Modellleistung quantitativ zu bewerten

Überanpassung des Diskriminatormodells

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4.76

Training und Optimierung

Swipe um das Menü anzuzeigen

Zentrale Verlustfunktionen

Verschiedene Familien generativer Modelle verwenden je nach Modellierung der Datenverteilung unterschiedliche Verlustformulierungen.

GAN-Verluste

Minimax-Verlust (ursprüngliches GAN)

Adversariales Setup zwischen Generator $G$ und Diskriminator $D$ (Beispiel mit pythorch-Bibliothek):

Least Squares GAN (LSGAN)

Verwendet L2-Verlust anstelle von Log-Verlust, um Stabilität und Gradientenfluss zu verbessern:

Wasserstein GAN (WGAN)

Minimiert die Earth Mover (EM) Distanz; ersetzt den Diskriminator durch einen "Kritiker" und verwendet Gewichtsbeschränkung oder Gradientenstrafe für Lipschitz-Kontinuität:

VAE-Verlust

Evidence Lower Bound (ELBO)

Kombiniert Rekonstruktion und Regularisierung. Der KL-Divergenz-Term sorgt dafür, dass der latente Posterior nahe an der Prior bleibt (in der Regel Standardnormalverteilung):

Diffusionsmodell-Verluste

Rauschvorhersage-Verlust

Optimierungstechniken

Das Training generativer Modelle ist oft instabil und empfindlich gegenüber Hyperparametern. Verschiedene Techniken werden eingesetzt, um Konvergenz und Qualität sicherzustellen.

Optimierer und Scheduler

Adam / AdamW: Adaptive Gradientenoptimierer sind der De-facto-Standard. Verwenden Sie $\beta_1=0.5,\ \beta_2=0.999$ für GANs;
RMSprop: Wird manchmal in WGAN-Varianten verwendet;
Lernraten-Scheduling:
- Aufwärmphasen für Transformer und Diffusionsmodelle;
- Kosinus-Abfall oder ReduceLROnPlateau für stabile Konvergenz.

Stabilisierungsverfahren

Gradient Clipping: Vermeidung explodierender Gradienten in RNNs oder tiefen UNets;

Spektrale Normalisierung: auf die Diskriminatorschichten in GANs angewendet, um Lipschitz-Bedingungen durchzusetzen;

Label Smoothing: Abschwächung harter Labels (z. B. echt = 0,9 statt 1,0), um Überkonfidenz zu reduzieren;
Two-Time-Scale Update Rule (TTUR): Verwendung unterschiedlicher Lernraten für Generator und Diskriminator zur Verbesserung der Konvergenz;
Mixed-Precision Training: Nutzung von FP16 (über NVIDIA Apex oder PyTorch AMP) für schnelleres Training auf modernen GPUs.

Hinweis

Feinabstimmung vortrainierter generativer Modelle

Vortrainierte generative Modelle (z. B. Stable Diffusion, LLaMA, StyleGAN2) können für domänenspezifische Aufgaben mit leichteren Trainingsstrategien feinabgestimmt werden.

Transfer-Learning-Techniken

Vollständige Feinabstimmung: Alle Modellgewichte werden erneut trainiert. Hoher Rechenaufwand, aber maximale Flexibilität;

Schichtweises Einfrieren / schrittweises Auftauen: Zunächst werden die meisten Schichten eingefroren, anschließend werden ausgewählte Schichten schrittweise freigegeben, um eine bessere Feinabstimmung zu ermöglichen. Dies verhindert katastrophales Vergessen. Das Einfrieren früher Schichten bewahrt allgemeine Merkmale aus dem Pretraining (wie Kanten oder Wortmuster), während das Auftauen späterer Schichten dem Modell erlaubt, aufgabenspezifische Merkmale zu erlernen;

LoRA / Adapter-Schichten: Einfügen von niedrig-rangigen, trainierbaren Schichten ohne Aktualisierung der Basismodell-Parameter;

DreamBooth / Textuelle Inversion (Diffusionsmodelle):
- Feinabstimmung mit einer kleinen Anzahl von objektspezifischen Bildern.
- Verwendung der diffusers-Pipeline:

Prompt Tuning / P-Tuning:

Häufige Anwendungsfälle

Stilanpassung: Feinabstimmung auf Anime-, Comic- oder künstlerischen Datensätzen;
Branchenspezifische Anpassung: Anpassung von LLMs an juristische, medizinische oder unternehmensspezifische Bereiche;
Personalisierung: Individuelle Identitäts- oder Stimmkonditionierung mit kleinen Referenzdatensätzen.

Hinweis

Zusammenfassung

Modellspezifische Verlustfunktionen verwenden, die zu Trainingszielen und Modellstruktur passen;
Optimierung mit adaptiven Methoden, Stabilisierungsverfahren und effizientem Scheduling;
Vorgefertigte Modelle mit modernen Low-Rank- oder Prompt-basierten Transferstrategien feinabstimmen, um Kosten zu senken und die Domänenanpassungsfähigkeit zu erhöhen.

1. Was ist ein Hauptzweck der Verwendung von Regularisierungstechniken während des Trainings?

2. Welcher der folgenden Optimierer wird häufig zum Training von Deep-Learning-Modellen verwendet und passt die Lernrate während des Trainings an?

3. Was ist die Hauptschwierigkeit beim Training generativer Modelle, insbesondere im Kontext von GANs (Generative Adversarial Networks)?

Was ist ein Hauptzweck der Verwendung von Regularisierungstechniken während des Trainings?

Select the correct answer

Zur Vergrößerung des Trainingsdatensatzes.

Zur Verhinderung von Überanpassung durch Bestrafung zu komplexer Modelle.

Zur Beschleunigung des Lernprozesses.

Zur Reduzierung der Rechenkosten während des Trainings.

Welcher der folgenden Optimierer wird häufig zum Training von Deep-Learning-Modellen verwendet und passt die Lernrate während des Trainings an?

Select the correct answer

Stochastic Gradient Descent (SGD)

Adam

Adagrad

Momentum

Was ist die Hauptschwierigkeit beim Training generativer Modelle, insbesondere im Kontext von GANs (Generative Adversarial Networks)?

Select the correct answer

Schwierigkeit beim Ausbalancieren des Trainings von Generator und Diskriminator

Langsame Konvergenz aufgrund kleiner Gradienten

Unfähigkeit, die Modellleistung quantitativ zu bewerten

Überanpassung des Diskriminatormodells

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 2