Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Bewertungsmetriken für Generative KI | Erstellung und Training Generativer Modelle
Generative KI

bookBewertungsmetriken für Generative KI

Die Bewertung generativer Modelle unterscheidet sich von der Bewertung diskiminativer Modelle, die auf Genauigkeitsmetriken basieren. Da generative Modelle viele gültige Ausgaben erzeugen, müssen sie hinsichtlich Qualität, Vielfalt und Relevanz beurteilt werden. Dieser Abschnitt stellt zentrale Metriken vor, die sowohl in der Forschung als auch in der Industrie zur Bewertung generativer Modelle entlang perzeptiver, statistischer und menschzentrierter Dimensionen verwendet werden.

Bewertung für bildbasierte Modelle (GANs, VAEs, Diffusion)

Perzeptive und statistische Bewertungsmethoden werden häufig bei bildbasierten generativen Modellen angewendet. Diese helfen dabei, zu messen, wie realistisch, vielfältig und gut verteilt die generierten Ausgaben im Vergleich zu echten Bildern sind.

Inception Score (IS)

Quantifiziert sowohl die Klarheit als auch die Vielfalt der generierten Bilder anhand der Klassifikationssicherheit eines vortrainierten Inception-Modells.

IS=exp(Ex[DKL(p(yx)p(y))])\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

wobei:

  • p(yx)p(y|x) die bedingte Labelverteilung für Bild xx ist
  • p(y)p(y) die marginale Klassenverteilung ist.

Fréchet Inception Distance (FID)

Misst die Ähnlichkeit zwischen Verteilungen realer und generierter Bilder anhand von Feature-Embeddings.

FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

wobei:

  • μ\mu und Σ\Sigma Mittelwert und Kovarianz der Feature-Repräsentationen sind.
  • Tr()\text{Tr}() steht für die Spur einer Matrix — dies ist die Summe der Diagonalelemente. Die Spur hilft dabei, zu quantifizieren, wie unterschiedlich die Feature-Verteilungen hinsichtlich ihrer Streuung oder Form sind.

LPIPS

Vergleicht die visuelle Ähnlichkeit zwischen Bildern anhand von Merkmalen tiefer neuronaler Netze.

Bewertung für textbasierte Modelle (Transformers, GPT, BERT)

Sprachgenerierungsmodelle werden hinsichtlich Qualität, Kohärenz und Relevanz anhand statistischer, semantischer und subjektiver Metriken bewertet.

BLEU / ROUGE / METEOR

Vergleich des n-Gramm-Überlapps zwischen generiertem und Referenztext.

BLEU=BPexp(n=1Nwnlogpn)\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

wobei:

  • pnp_n die Präzision für n-Gramme ist
  • BP\text{BP} die Kürzungsstrafe ist.

BERTScore

Misst die semantische Ähnlichkeit mithilfe kontextueller Einbettungen. Verwendet Kosinusähnlichkeit zwischen kontextuellen Einbettungen mit Präzisions-, Recall- und F1-Aggregaten.

Prompt-Treue

Misst die Übereinstimmung der Ausgabe mit den Eingabeaufforderungen, insbesondere bei instruktionstunierten Modellen.

Note
Hinweis

Manueller Vergleich von Prompts und Ausgaben oder Verwendung von Ähnlichkeitsbewertungsmodellen wie CLIP oder BERT.

Bewertung für multimodale Modelle (z. B. DALL·E, Stable Diffusion)

Multimodale Modelle müssen hinsichtlich der Übereinstimmung zwischen Modalitäten wie Bild und Text bewertet werden.

CLIPScore

Berechnet die Ähnlichkeit zwischen Bild- und Textprompt-Embeddings.

CLIPScores=cos(fimage, ftext)\text{CLIPScores}=cos(f_{image},\ f_{text})

wobei ff modalitätsspezifische Embeddings sind.

Übereinstimmung zwischen Prompt und Bild

Misst, wie gut generierte Bilder zu ihren zugehörigen Prompts passen.

Note
Hinweis

Verwendung von CLIP oder manueller Annotation zur Bewertung der visuellen-textuellen Übereinstimmung.

Menschliche Bewertung

Trotz Fortschritten bei automatisierten Metriken bleibt die menschliche Bewertung für subjektive oder kreative Aufgaben unerlässlich. Viele generative Ergebnisse, insbesondere in Kunst, Erzählung oder Design, erfordern menschliches Urteilsvermögen, um deren Sinnhaftigkeit, Originalität und Attraktivität zu beurteilen. Diese Methoden liefern differenzierte Einblicke, die automatisierte Metriken oft nicht erfassen.

A/B-Tests und Turing-ähnliche Setups

Nutzer dazu auffordern, bevorzugte oder realistisch wirkende Ausgaben aus zwei Optionen auszuwählen.

  • Praxisbeispiel: Im RLHF-Prozess von OpenAI's GPT-3 wurden Crowdworker mehrere Modellvorschläge gezeigt und gebeten, die hilfreichste oder realistischste Variante auszuwählen oder zu bewerten. Dieses Feedback floss direkt in die Belohnungsmodelle für das weitere Feintuning ein.

Übereinstimmung zwischen Prompt und Ausgabe

Subjektive Bewertung, wie gut die Ausgabe den gegebenen Prompt widerspiegelt.

  • Praxisbeispiel: Während des RLHF-Trainings für InstructGPT bewerteten Annotatoren Ausgaben zu Prompts wie "Schreibe eine höfliche E-Mail zur Ablehnung eines Jobangebots." Menschliche Bewertungen bestimmten, welche Ausgaben mit der Intention und dem Stil des Nutzers übereinstimmten.

Bewertungsskalen

Sammeln von Bewertungen auf Skalen (z. B. 1–5) für Realismus, Kohärenz oder Kreativität.

  • Praxisbeispiel: In den Claude-Evaluierungen von Anthropic sammelten Forschende 1–5-Sterne-Bewertungen für Hilfsbereitschaft, Ehrlichkeit und Unschädlichkeit von generierten Dialogen, um die Modellanpassung zu unterstützen.

Crowdsourcing-basierte Bewertung

Plattformen wie MTurk zur Erfassung vielfältiger Meinungen nutzen. Übereinstimmung der Bewerter sicherstellen.

  • Praxisbeispiel: Google setzte groß angelegte Crowdsourcing-Methoden ein, um die Qualität des LaMDA-Chatbots hinsichtlich Kriterien wie Plausibilität und Spezifität zu bewerten, indem Tausende von Nutzerurteilen aggregiert wurden.
Note
Mehr erfahren

Eine Kombination aus automatischen und menschzentrierten Bewertungen verwenden, um ein umfassenderes Verständnis der Leistungsfähigkeit generativer Modelle zu erhalten. Menschliche Einschätzungen helfen, die Zuverlässigkeit von Metriken zu validieren und subtile Fehlerfälle zu identifizieren, die durch Kennzahlen nicht erfasst werden. Für kritische Anwendungen kann die Kombination mehrerer menschlicher Bewerter und die Berechnung der Interrater-Reliabilität (z. B. Cohen’s Kappa) die Robustheit erhöhen.

Zusammenfassung

Diese Bewertungsstrategien sind unverzichtbar für die Weiterentwicklung von Modellen und die Steuerung von Entscheidungen zur Bereitstellung. Die Kombination objektiver Metriken mit menschlichem Feedback unterstützt Entwickler dabei, Realismus, Kreativität, Vielfalt und die Ausrichtung an Benutzerabsichten oder Aufgabenanforderungen auszubalancieren. Eine effektive Bewertung stellt sicher, dass generative KI-Modelle nicht nur technisch leistungsfähig sind, sondern auch mit realen Anwendungsfällen und menschlichen Erwartungen übereinstimmen.

1. Welche der folgenden Bewertungsmetriken wird hauptsächlich verwendet, um die Vielfalt generierter Bilder in Generative Adversarial Networks (GANs) zu messen?

2. Wofür wird der Fréchet Inception Distance (FID) hauptsächlich bei der Bewertung generativer Modelle verwendet?

3. Welcher Metrik wird häufig verwendet, um die semantische Ähnlichkeit zwischen generiertem Text und Referenztext zu bewerten?

question mark

Welche der folgenden Bewertungsmetriken wird hauptsächlich verwendet, um die Vielfalt generierter Bilder in Generative Adversarial Networks (GANs) zu messen?

Select the correct answer

question mark

Wofür wird der Fréchet Inception Distance (FID) hauptsächlich bei der Bewertung generativer Modelle verwendet?

Select the correct answer

question mark

Welcher Metrik wird häufig verwendet, um die semantische Ähnlichkeit zwischen generiertem Text und Referenztext zu bewerten?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 3

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4.76

bookBewertungsmetriken für Generative KI

Swipe um das Menü anzuzeigen

Die Bewertung generativer Modelle unterscheidet sich von der Bewertung diskiminativer Modelle, die auf Genauigkeitsmetriken basieren. Da generative Modelle viele gültige Ausgaben erzeugen, müssen sie hinsichtlich Qualität, Vielfalt und Relevanz beurteilt werden. Dieser Abschnitt stellt zentrale Metriken vor, die sowohl in der Forschung als auch in der Industrie zur Bewertung generativer Modelle entlang perzeptiver, statistischer und menschzentrierter Dimensionen verwendet werden.

Bewertung für bildbasierte Modelle (GANs, VAEs, Diffusion)

Perzeptive und statistische Bewertungsmethoden werden häufig bei bildbasierten generativen Modellen angewendet. Diese helfen dabei, zu messen, wie realistisch, vielfältig und gut verteilt die generierten Ausgaben im Vergleich zu echten Bildern sind.

Inception Score (IS)

Quantifiziert sowohl die Klarheit als auch die Vielfalt der generierten Bilder anhand der Klassifikationssicherheit eines vortrainierten Inception-Modells.

IS=exp(Ex[DKL(p(yx)p(y))])\text{IS}=\exp(\mathbb{E}_x[D_{KL}(p(y|x)||p(y))])

wobei:

  • p(yx)p(y|x) die bedingte Labelverteilung für Bild xx ist
  • p(y)p(y) die marginale Klassenverteilung ist.

Fréchet Inception Distance (FID)

Misst die Ähnlichkeit zwischen Verteilungen realer und generierter Bilder anhand von Feature-Embeddings.

FID=μrμg2+Tr(Σr+Σg2(ΣrΣg)1/2)\text{FID}=||\mu_r-\mu_g||^2+\text{Tr}(\Sigma_r + \Sigma_g - 2(\Sigma_r\Sigma_g)^{1/2})

wobei:

  • μ\mu und Σ\Sigma Mittelwert und Kovarianz der Feature-Repräsentationen sind.
  • Tr()\text{Tr}() steht für die Spur einer Matrix — dies ist die Summe der Diagonalelemente. Die Spur hilft dabei, zu quantifizieren, wie unterschiedlich die Feature-Verteilungen hinsichtlich ihrer Streuung oder Form sind.

LPIPS

Vergleicht die visuelle Ähnlichkeit zwischen Bildern anhand von Merkmalen tiefer neuronaler Netze.

Bewertung für textbasierte Modelle (Transformers, GPT, BERT)

Sprachgenerierungsmodelle werden hinsichtlich Qualität, Kohärenz und Relevanz anhand statistischer, semantischer und subjektiver Metriken bewertet.

BLEU / ROUGE / METEOR

Vergleich des n-Gramm-Überlapps zwischen generiertem und Referenztext.

BLEU=BPexp(n=1Nwnlogpn)\text{BLEU}=\text{BP} \cdot \exp\left(\sum^N_{n=1}w_n\log p_n\right)

wobei:

  • pnp_n die Präzision für n-Gramme ist
  • BP\text{BP} die Kürzungsstrafe ist.

BERTScore

Misst die semantische Ähnlichkeit mithilfe kontextueller Einbettungen. Verwendet Kosinusähnlichkeit zwischen kontextuellen Einbettungen mit Präzisions-, Recall- und F1-Aggregaten.

Prompt-Treue

Misst die Übereinstimmung der Ausgabe mit den Eingabeaufforderungen, insbesondere bei instruktionstunierten Modellen.

Note
Hinweis

Manueller Vergleich von Prompts und Ausgaben oder Verwendung von Ähnlichkeitsbewertungsmodellen wie CLIP oder BERT.

Bewertung für multimodale Modelle (z. B. DALL·E, Stable Diffusion)

Multimodale Modelle müssen hinsichtlich der Übereinstimmung zwischen Modalitäten wie Bild und Text bewertet werden.

CLIPScore

Berechnet die Ähnlichkeit zwischen Bild- und Textprompt-Embeddings.

CLIPScores=cos(fimage, ftext)\text{CLIPScores}=cos(f_{image},\ f_{text})

wobei ff modalitätsspezifische Embeddings sind.

Übereinstimmung zwischen Prompt und Bild

Misst, wie gut generierte Bilder zu ihren zugehörigen Prompts passen.

Note
Hinweis

Verwendung von CLIP oder manueller Annotation zur Bewertung der visuellen-textuellen Übereinstimmung.

Menschliche Bewertung

Trotz Fortschritten bei automatisierten Metriken bleibt die menschliche Bewertung für subjektive oder kreative Aufgaben unerlässlich. Viele generative Ergebnisse, insbesondere in Kunst, Erzählung oder Design, erfordern menschliches Urteilsvermögen, um deren Sinnhaftigkeit, Originalität und Attraktivität zu beurteilen. Diese Methoden liefern differenzierte Einblicke, die automatisierte Metriken oft nicht erfassen.

A/B-Tests und Turing-ähnliche Setups

Nutzer dazu auffordern, bevorzugte oder realistisch wirkende Ausgaben aus zwei Optionen auszuwählen.

  • Praxisbeispiel: Im RLHF-Prozess von OpenAI's GPT-3 wurden Crowdworker mehrere Modellvorschläge gezeigt und gebeten, die hilfreichste oder realistischste Variante auszuwählen oder zu bewerten. Dieses Feedback floss direkt in die Belohnungsmodelle für das weitere Feintuning ein.

Übereinstimmung zwischen Prompt und Ausgabe

Subjektive Bewertung, wie gut die Ausgabe den gegebenen Prompt widerspiegelt.

  • Praxisbeispiel: Während des RLHF-Trainings für InstructGPT bewerteten Annotatoren Ausgaben zu Prompts wie "Schreibe eine höfliche E-Mail zur Ablehnung eines Jobangebots." Menschliche Bewertungen bestimmten, welche Ausgaben mit der Intention und dem Stil des Nutzers übereinstimmten.

Bewertungsskalen

Sammeln von Bewertungen auf Skalen (z. B. 1–5) für Realismus, Kohärenz oder Kreativität.

  • Praxisbeispiel: In den Claude-Evaluierungen von Anthropic sammelten Forschende 1–5-Sterne-Bewertungen für Hilfsbereitschaft, Ehrlichkeit und Unschädlichkeit von generierten Dialogen, um die Modellanpassung zu unterstützen.

Crowdsourcing-basierte Bewertung

Plattformen wie MTurk zur Erfassung vielfältiger Meinungen nutzen. Übereinstimmung der Bewerter sicherstellen.

  • Praxisbeispiel: Google setzte groß angelegte Crowdsourcing-Methoden ein, um die Qualität des LaMDA-Chatbots hinsichtlich Kriterien wie Plausibilität und Spezifität zu bewerten, indem Tausende von Nutzerurteilen aggregiert wurden.
Note
Mehr erfahren

Eine Kombination aus automatischen und menschzentrierten Bewertungen verwenden, um ein umfassenderes Verständnis der Leistungsfähigkeit generativer Modelle zu erhalten. Menschliche Einschätzungen helfen, die Zuverlässigkeit von Metriken zu validieren und subtile Fehlerfälle zu identifizieren, die durch Kennzahlen nicht erfasst werden. Für kritische Anwendungen kann die Kombination mehrerer menschlicher Bewerter und die Berechnung der Interrater-Reliabilität (z. B. Cohen’s Kappa) die Robustheit erhöhen.

Zusammenfassung

Diese Bewertungsstrategien sind unverzichtbar für die Weiterentwicklung von Modellen und die Steuerung von Entscheidungen zur Bereitstellung. Die Kombination objektiver Metriken mit menschlichem Feedback unterstützt Entwickler dabei, Realismus, Kreativität, Vielfalt und die Ausrichtung an Benutzerabsichten oder Aufgabenanforderungen auszubalancieren. Eine effektive Bewertung stellt sicher, dass generative KI-Modelle nicht nur technisch leistungsfähig sind, sondern auch mit realen Anwendungsfällen und menschlichen Erwartungen übereinstimmen.

1. Welche der folgenden Bewertungsmetriken wird hauptsächlich verwendet, um die Vielfalt generierter Bilder in Generative Adversarial Networks (GANs) zu messen?

2. Wofür wird der Fréchet Inception Distance (FID) hauptsächlich bei der Bewertung generativer Modelle verwendet?

3. Welcher Metrik wird häufig verwendet, um die semantische Ähnlichkeit zwischen generiertem Text und Referenztext zu bewerten?

question mark

Welche der folgenden Bewertungsmetriken wird hauptsächlich verwendet, um die Vielfalt generierter Bilder in Generative Adversarial Networks (GANs) zu messen?

Select the correct answer

question mark

Wofür wird der Fréchet Inception Distance (FID) hauptsächlich bei der Bewertung generativer Modelle verwendet?

Select the correct answer

question mark

Welcher Metrik wird häufig verwendet, um die semantische Ähnlichkeit zwischen generiertem Text und Referenztext zu bewerten?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 3
some-alt