Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Verwaltung Kategorialer Variablen | Datenvorverarbeitung
Fortgeschrittene Techniken in Pandas
course content

Kursinhalt

Fortgeschrittene Techniken in Pandas

Fortgeschrittene Techniken in Pandas

1. Vertraut Werden mit Indizierung und Datenauswahl
2. Umgang mit Bedingungen
3. Daten Extrahieren
4. Daten Aggregieren
5. Datenvorverarbeitung

book
Verwaltung Kategorialer Variablen

Jetzt arbeiten Sie mit dem Datensatz, der keine fehlenden Werte enthält. Die NaN-Werte aus der Spalte 'Age' wurden durch den Mittelwert der Spalte ersetzt, und der NaN-Wert aus der Spalte 'Fare' wurde gelöscht. Nun ist es an der Zeit zu lernen, wie man kategoriale Variablen verwaltet. Kategorial bedeutet, dass sie einige Kategorien haben. Zum Beispiel gibt es in der Spalte 'Sex' 'male' und 'female'; oder in der Spalte 'Embarked' gibt es 'Q', 'S' und 'C'.

Was sollten wir tun, um die Anzahl der Werte in jeder Kategorie zu berechnen oder Informationen über sie zu erhalten?

Sie kennen bereits .loc[], .isin(), .between() und viele Funktionen, aber in pandas gibt es eine schönere und bequemere Möglichkeit, dies zu tun. Verwenden Sie die Funktion .get_dummies(). Als Beispiel werden wir sie auf die Spalte 'Embarked' anwenden. Schauen Sie sich die Implementierung und das Ergebnis an (wir geben die Namen von 5 zufälligen Passagieren und die neuen Spalten aus, die wir erstellt haben).

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
copy

Lassen Sie uns eines der möglichen Ausgaben untersuchen, insbesondere eine der möglichen Kombinationen von fünf zufällig ausgewählten Zeilen. Sie können horizontal durch die Tabelle scrollen, um alle Spalten zu sehen:

Erklärung:

Als Ergebnis hat unsere Funktion die Spalte 'Embarked' in drei Spalten aufgeteilt: 'Embarked_C', 'Embarked_Q', 'Embarked_S'. Insgesamt haben wir drei Kategorien. Jeder Passagier hat seine Kategorie in der Spalte 'Embarked'. Somit erstellt unsere Funktion drei Spalten, die jeder Kategorie entsprechen, und füllt in Übereinstimmung mit jedem Passagier die Zeile der Spalte mit 1, wenn die Person ursprünglich mit der Geographie in Verbindung stand; andernfalls steht dort 0. So erhalten wir 1 in nur einer Spalte.

  • pd.get_dummies() - diese Funktion konvertiert kategorische Variablen in Dummy-Variablen (1 oder 0);
  • data - der Datenrahmen, den Sie verwenden möchten;
  • columns = ['Embarked'] - Spalten haben kategorische Variablen, die Sie in Dummy-Variablen umwandeln möchten. Achten Sie darauf, dass es obligatorisch ist, die Spaltennamen in die Liste zu setzen.
Aufgabe

Swipe to start coding

Ihre Aufgabe besteht darin, die Spalte 'Sex' in eine mit Dummy-Variablen anstelle von kategorischen Variablen umzuwandeln. Geben Sie dann die Summe der Werte in jeder Kategorie aus.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 6
toggle bottom row

book
Verwaltung Kategorialer Variablen

Jetzt arbeiten Sie mit dem Datensatz, der keine fehlenden Werte enthält. Die NaN-Werte aus der Spalte 'Age' wurden durch den Mittelwert der Spalte ersetzt, und der NaN-Wert aus der Spalte 'Fare' wurde gelöscht. Nun ist es an der Zeit zu lernen, wie man kategoriale Variablen verwaltet. Kategorial bedeutet, dass sie einige Kategorien haben. Zum Beispiel gibt es in der Spalte 'Sex' 'male' und 'female'; oder in der Spalte 'Embarked' gibt es 'Q', 'S' und 'C'.

Was sollten wir tun, um die Anzahl der Werte in jeder Kategorie zu berechnen oder Informationen über sie zu erhalten?

Sie kennen bereits .loc[], .isin(), .between() und viele Funktionen, aber in pandas gibt es eine schönere und bequemere Möglichkeit, dies zu tun. Verwenden Sie die Funktion .get_dummies(). Als Beispiel werden wir sie auf die Spalte 'Embarked' anwenden. Schauen Sie sich die Implementierung und das Ergebnis an (wir geben die Namen von 5 zufälligen Passagieren und die neuen Spalten aus, die wir erstellt haben).

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
copy

Lassen Sie uns eines der möglichen Ausgaben untersuchen, insbesondere eine der möglichen Kombinationen von fünf zufällig ausgewählten Zeilen. Sie können horizontal durch die Tabelle scrollen, um alle Spalten zu sehen:

Erklärung:

Als Ergebnis hat unsere Funktion die Spalte 'Embarked' in drei Spalten aufgeteilt: 'Embarked_C', 'Embarked_Q', 'Embarked_S'. Insgesamt haben wir drei Kategorien. Jeder Passagier hat seine Kategorie in der Spalte 'Embarked'. Somit erstellt unsere Funktion drei Spalten, die jeder Kategorie entsprechen, und füllt in Übereinstimmung mit jedem Passagier die Zeile der Spalte mit 1, wenn die Person ursprünglich mit der Geographie in Verbindung stand; andernfalls steht dort 0. So erhalten wir 1 in nur einer Spalte.

  • pd.get_dummies() - diese Funktion konvertiert kategorische Variablen in Dummy-Variablen (1 oder 0);
  • data - der Datenrahmen, den Sie verwenden möchten;
  • columns = ['Embarked'] - Spalten haben kategorische Variablen, die Sie in Dummy-Variablen umwandeln möchten. Achten Sie darauf, dass es obligatorisch ist, die Spaltennamen in die Liste zu setzen.
Aufgabe

Swipe to start coding

Ihre Aufgabe besteht darin, die Spalte 'Sex' in eine mit Dummy-Variablen anstelle von kategorischen Variablen umzuwandeln. Geben Sie dann die Summe der Werte in jeder Kategorie aus.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 6
Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
We're sorry to hear that something went wrong. What happened?
some-alt