Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Verwaltung Kategorialer Variablen | Datenvorverarbeitung
Fortgeschrittene Techniken in Pandas

bookVerwaltung Kategorialer Variablen

Nun arbeiten Sie mit einem Datensatz, der keine fehlenden Werte enthält. Die NaN-Werte in der Spalte 'Age' wurden durch den Mittelwert der Spalte ersetzt, und der NaN-Wert in der Spalte 'Fare' wurde entfernt. Jetzt ist es an der Zeit zu lernen, wie kategoriale Variablen verwaltet werden. Kategorial bedeutet, dass sie bestimmte Kategorien besitzen. Zum Beispiel gibt es in der Spalte 'Sex' die Werte 'male' und 'female'; oder in der Spalte 'Embarked' die Werte 'Q', 'S' und 'C'.

Wie kann man die Anzahl der Werte in jeder Kategorie berechnen oder Informationen darüber erhalten?

Sie kennen bereits .loc[], .isin(), .between() und viele weitere Funktionen, aber in pandas gibt es eine elegantere und bequemere Methode dafür. Verwenden Sie die Funktion .get_dummies(). Als Beispiel wenden wir sie auf die Spalte 'Embarked' an. Sehen Sie sich die Implementierung und das Ergebnis an (wir geben die Namen von 5 zufällig ausgewählten Passagieren und die neu erstellten Spalten aus).

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
copy

Untersuchen wir eine der möglichen Ausgaben, insbesondere eine der möglichen Kombinationen von fünf zufällig ausgewählten Zeilen. Sie können horizontal durch die Tabelle scrollen, um alle Spalten zu sehen:

Erläuterung:

Als Ergebnis hat unsere Funktion die Spalte 'Embarked' in drei Spalten aufgeteilt: 'Embarked_C', 'Embarked_Q' und 'Embarked_S'. Insgesamt gibt es drei Kategorien. Jeder Passagier hat seine Kategorie in der Spalte 'Embarked'. Unsere Funktion erstellt somit drei Spalten, die jeweils einer Kategorie entsprechen, und trägt für jede Person in der entsprechenden Zeile eine 1 ein, wenn sie ursprünglich dieser Geografie zugeordnet war; andernfalls steht dort eine 0. Somit steht die 1 immer nur in einer Spalte.

pd.get_dummies(data, columns = ['Embarked'])
  • pd.get_dummies() – diese Funktion wandelt kategorische Variablen in Dummy-Variablen (1 oder 0) um;
  • data – das DataFrame, das verwendet werden soll;
  • columns = ['Embarked'] – Spalten mit kategorischen Variablen, die in Dummy-Variablen umgewandelt werden sollen. Beachten Sie, dass die Spaltennamen zwingend in einer Liste angegeben werden müssen.
Aufgabe

Swipe to start coding

Ihre Aufgabe besteht darin, die Spalte 'Sex' in eine Spalte mit Dummy-Variablen anstelle von kategorialen Variablen umzuwandeln. Geben Sie anschließend die Summe der Werte in jeder Kategorie aus.

Lösung

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 6
single

single

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

close

Awesome!

Completion rate improved to 3.03

bookVerwaltung Kategorialer Variablen

Swipe um das Menü anzuzeigen

Nun arbeiten Sie mit einem Datensatz, der keine fehlenden Werte enthält. Die NaN-Werte in der Spalte 'Age' wurden durch den Mittelwert der Spalte ersetzt, und der NaN-Wert in der Spalte 'Fare' wurde entfernt. Jetzt ist es an der Zeit zu lernen, wie kategoriale Variablen verwaltet werden. Kategorial bedeutet, dass sie bestimmte Kategorien besitzen. Zum Beispiel gibt es in der Spalte 'Sex' die Werte 'male' und 'female'; oder in der Spalte 'Embarked' die Werte 'Q', 'S' und 'C'.

Wie kann man die Anzahl der Werte in jeder Kategorie berechnen oder Informationen darüber erhalten?

Sie kennen bereits .loc[], .isin(), .between() und viele weitere Funktionen, aber in pandas gibt es eine elegantere und bequemere Methode dafür. Verwenden Sie die Funktion .get_dummies(). Als Beispiel wenden wir sie auf die Spalte 'Embarked' an. Sehen Sie sich die Implementierung und das Ergebnis an (wir geben die Namen von 5 zufällig ausgewählten Passagieren und die neu erstellten Spalten aus).

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
copy

Untersuchen wir eine der möglichen Ausgaben, insbesondere eine der möglichen Kombinationen von fünf zufällig ausgewählten Zeilen. Sie können horizontal durch die Tabelle scrollen, um alle Spalten zu sehen:

Erläuterung:

Als Ergebnis hat unsere Funktion die Spalte 'Embarked' in drei Spalten aufgeteilt: 'Embarked_C', 'Embarked_Q' und 'Embarked_S'. Insgesamt gibt es drei Kategorien. Jeder Passagier hat seine Kategorie in der Spalte 'Embarked'. Unsere Funktion erstellt somit drei Spalten, die jeweils einer Kategorie entsprechen, und trägt für jede Person in der entsprechenden Zeile eine 1 ein, wenn sie ursprünglich dieser Geografie zugeordnet war; andernfalls steht dort eine 0. Somit steht die 1 immer nur in einer Spalte.

pd.get_dummies(data, columns = ['Embarked'])
  • pd.get_dummies() – diese Funktion wandelt kategorische Variablen in Dummy-Variablen (1 oder 0) um;
  • data – das DataFrame, das verwendet werden soll;
  • columns = ['Embarked'] – Spalten mit kategorischen Variablen, die in Dummy-Variablen umgewandelt werden sollen. Beachten Sie, dass die Spaltennamen zwingend in einer Liste angegeben werden müssen.
Aufgabe

Swipe to start coding

Ihre Aufgabe besteht darin, die Spalte 'Sex' in eine Spalte mit Dummy-Variablen anstelle von kategorialen Variablen umzuwandeln. Geben Sie anschließend die Summe der Werte in jeder Kategorie aus.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 6
single

single

some-alt