Verwaltung Kategorialer Variablen
Nun arbeiten Sie mit einem Datensatz, der keine fehlenden Werte enthält. Die NaN
-Werte in der Spalte 'Age'
wurden durch den Mittelwert der Spalte ersetzt, und der NaN
-Wert in der Spalte 'Fare'
wurde entfernt.
Jetzt ist es an der Zeit zu lernen, wie kategoriale Variablen verwaltet werden. Kategorial bedeutet, dass sie bestimmte Kategorien besitzen. Zum Beispiel gibt es in der Spalte 'Sex'
die Werte 'male'
und 'female'
; oder in der Spalte 'Embarked'
die Werte 'Q'
, 'S'
und 'C'
.
Wie kann man die Anzahl der Werte in jeder Kategorie berechnen oder Informationen darüber erhalten?
Sie kennen bereits .loc[]
, .isin()
, .between()
und viele weitere Funktionen, aber in pandas gibt es eine elegantere und bequemere Methode dafür. Verwenden Sie die Funktion .get_dummies()
. Als Beispiel wenden wir sie auf die Spalte 'Embarked'
an. Sehen Sie sich die Implementierung und das Ergebnis an (wir geben die Namen von 5 zufällig ausgewählten Passagieren und die neu erstellten Spalten aus).
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Untersuchen wir eine der möglichen Ausgaben, insbesondere eine der möglichen Kombinationen von fünf zufällig ausgewählten Zeilen. Sie können horizontal durch die Tabelle scrollen, um alle Spalten zu sehen:
Erläuterung:
Als Ergebnis hat unsere Funktion die Spalte 'Embarked'
in drei Spalten aufgeteilt: 'Embarked_C'
, 'Embarked_Q'
und 'Embarked_S'
. Insgesamt gibt es drei Kategorien. Jeder Passagier hat seine Kategorie in der Spalte 'Embarked'
. Unsere Funktion erstellt somit drei Spalten, die jeweils einer Kategorie entsprechen, und trägt für jede Person in der entsprechenden Zeile eine 1
ein, wenn sie ursprünglich dieser Geografie zugeordnet war; andernfalls steht dort eine 0
. Somit steht die 1
immer nur in einer Spalte.
pd.get_dummies(data, columns = ['Embarked'])
pd.get_dummies()
– diese Funktion wandelt kategorische Variablen in Dummy-Variablen (1 oder 0) um;data
– das DataFrame, das verwendet werden soll;columns = ['Embarked']
– Spalten mit kategorischen Variablen, die in Dummy-Variablen umgewandelt werden sollen. Beachten Sie, dass die Spaltennamen zwingend in einer Liste angegeben werden müssen.
Swipe to start coding
Ihre Aufgabe besteht darin, die Spalte 'Sex'
in eine Spalte mit Dummy-Variablen anstelle von kategorialen Variablen umzuwandeln. Geben Sie anschließend die Summe der Werte in jeder Kategorie aus.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 3.03
Verwaltung Kategorialer Variablen
Swipe um das Menü anzuzeigen
Nun arbeiten Sie mit einem Datensatz, der keine fehlenden Werte enthält. Die NaN
-Werte in der Spalte 'Age'
wurden durch den Mittelwert der Spalte ersetzt, und der NaN
-Wert in der Spalte 'Fare'
wurde entfernt.
Jetzt ist es an der Zeit zu lernen, wie kategoriale Variablen verwaltet werden. Kategorial bedeutet, dass sie bestimmte Kategorien besitzen. Zum Beispiel gibt es in der Spalte 'Sex'
die Werte 'male'
und 'female'
; oder in der Spalte 'Embarked'
die Werte 'Q'
, 'S'
und 'C'
.
Wie kann man die Anzahl der Werte in jeder Kategorie berechnen oder Informationen darüber erhalten?
Sie kennen bereits .loc[]
, .isin()
, .between()
und viele weitere Funktionen, aber in pandas gibt es eine elegantere und bequemere Methode dafür. Verwenden Sie die Funktion .get_dummies()
. Als Beispiel wenden wir sie auf die Spalte 'Embarked'
an. Sehen Sie sich die Implementierung und das Ergebnis an (wir geben die Namen von 5 zufällig ausgewählten Passagieren und die neu erstellten Spalten aus).
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Untersuchen wir eine der möglichen Ausgaben, insbesondere eine der möglichen Kombinationen von fünf zufällig ausgewählten Zeilen. Sie können horizontal durch die Tabelle scrollen, um alle Spalten zu sehen:
Erläuterung:
Als Ergebnis hat unsere Funktion die Spalte 'Embarked'
in drei Spalten aufgeteilt: 'Embarked_C'
, 'Embarked_Q'
und 'Embarked_S'
. Insgesamt gibt es drei Kategorien. Jeder Passagier hat seine Kategorie in der Spalte 'Embarked'
. Unsere Funktion erstellt somit drei Spalten, die jeweils einer Kategorie entsprechen, und trägt für jede Person in der entsprechenden Zeile eine 1
ein, wenn sie ursprünglich dieser Geografie zugeordnet war; andernfalls steht dort eine 0
. Somit steht die 1
immer nur in einer Spalte.
pd.get_dummies(data, columns = ['Embarked'])
pd.get_dummies()
– diese Funktion wandelt kategorische Variablen in Dummy-Variablen (1 oder 0) um;data
– das DataFrame, das verwendet werden soll;columns = ['Embarked']
– Spalten mit kategorischen Variablen, die in Dummy-Variablen umgewandelt werden sollen. Beachten Sie, dass die Spaltennamen zwingend in einer Liste angegeben werden müssen.
Swipe to start coding
Ihre Aufgabe besteht darin, die Spalte 'Sex'
in eine Spalte mit Dummy-Variablen anstelle von kategorialen Variablen umzuwandeln. Geben Sie anschließend die Summe der Werte in jeder Kategorie aus.
Lösung
Danke für Ihr Feedback!
single