Lernen Effiziente Datenvorverarbeitung mit Pipelines

Swipe um das Menü anzuzeigen

Mit der Möglichkeit, Spalten separat mit der Funktion make_column_transformer zu transformieren, besteht der nächste Schritt darin, Pipelines zu erstellen. Eine Pipeline ist ein Container, der Vorverarbeitungsschritte organisiert und diese nacheinander anwendet.

Eine Pipeline in Scikit-learn kann entweder mit dem Konstruktor der Pipeline-Klasse oder mit der Funktion make_pipeline aus dem Modul sklearn.pipeline erstellt werden. In diesem Kurs liegt der Fokus auf make_pipeline, da diese Methode einfacher anzuwenden ist.

Es ist lediglich erforderlich, alle Transformer als Argumente an eine Funktion zu übergeben. Das Erstellen von Pipelines ist so einfach.

Wenn jedoch die Methode .fit_transform(X) am Pipeline-Objekt aufgerufen wird, wird .fit_transform(X) auf jeden Transformer innerhalb der Pipeline angewendet. Falls bestimmte Spalten unterschiedlich behandelt werden sollen, sollte ein ColumnTransformer verwendet und an make_pipeline() übergeben werden.

Erstellung einer Pipeline unter Verwendung derselben Datei wie im vorherigen Kapitel. Die Pipeline sollte Encoder für kategoriale Merkmale zusammen mit SimpleImputer enthalten. Da der Datensatz sowohl nominale als auch ordinale Merkmale enthält, wird ein ColumnTransformer verwendet, um diese separat zu verarbeiten.


              1234567891011121314151617
            
import pandas as pd
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder
from sklearn.impute import SimpleImputer
from sklearn.pipeline import make_pipeline

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/exams.csv')
# Making a column transformer
edu_categories = ['high school', 'some high school', 'some college', "associate's degree", "bachelor's degree", "master's degree"]
ct = make_column_transformer(
  (OrdinalEncoder(categories=[edu_categories]), ['parental level of education']),
  (OneHotEncoder(), ['gender', 'race/ethnicity', 'lunch', 'test preparation course']), 
  remainder='passthrough'
)
# Making a Pipeline
pipe = make_pipeline(ct, SimpleImputer(strategy='most_frequent'))
print(pipe.fit_transform(df))

War alles klar?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 3

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 3. Kapitel 3