Aprenda Construindo Pipelines com scikit-learn

Deslize para mostrar o menu

Ao construir soluções de aprendizado de máquina, frequentemente se repetem as mesmas etapas: pré-processamento de dados, engenharia de atributos, treinamento do modelo e avaliação. Escrever essas etapas separadamente pode levar à duplicação de código e dificultar a reprodução dos resultados. O scikit-learn fornece a classe Pipeline, que permite encadear etapas de pré-processamento e modelagem em um único fluxo de trabalho simplificado. Essa abordagem torna o código mais limpo, fácil de manter e mais simples de reproduzir.

Definição

Um pipeline padroniza o fluxo de trabalho de ML e reduz a duplicação de código.


              12345678910111213141516171819202122232425262728
            
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

# Load sample data
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# Create a pipeline with preprocessing and modeling steps
pipeline = Pipeline([
    ("scaler", StandardScaler()),          # Step 1: Standardize features
    ("classifier", LogisticRegression())   # Step 2: Train classifier
])

# Fit the pipeline on training data
pipeline.fit(X_train, y_train)

# Predict on test data
predictions = pipeline.predict(X_test)

print("Pipeline accuracy:", pipeline.score(X_test, y_test))

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 10

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 1. Capítulo 10