Construindo Pipelines com scikit-learn
Ao construir soluções de aprendizado de máquina, frequentemente se repetem as mesmas etapas: pré-processamento de dados, engenharia de atributos, treinamento do modelo e avaliação. Escrever essas etapas separadamente pode levar à duplicação de código e dificultar a reprodução dos resultados. O scikit-learn fornece a classe Pipeline, que permite encadear etapas de pré-processamento e modelagem em um único fluxo de trabalho simplificado. Essa abordagem torna o código mais limpo, fácil de manter e mais simples de reproduzir.
Um pipeline padroniza o fluxo de trabalho de ML e reduz a duplicação de código.
12345678910111213141516171819202122232425262728import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.pipeline import Pipeline # Load sample data iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = iris.target # Split data X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) # Create a pipeline with preprocessing and modeling steps pipeline = Pipeline([ ("scaler", StandardScaler()), # Step 1: Standardize features ("classifier", LogisticRegression()) # Step 2: Train classifier ]) # Fit the pipeline on training data pipeline.fit(X_train, y_train) # Predict on test data predictions = pipeline.predict(X_test) print("Pipeline accuracy:", pipeline.score(X_test, y_test))
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Incrível!
Completion taxa melhorada para 6.67
Construindo Pipelines com scikit-learn
Deslize para mostrar o menu
Ao construir soluções de aprendizado de máquina, frequentemente se repetem as mesmas etapas: pré-processamento de dados, engenharia de atributos, treinamento do modelo e avaliação. Escrever essas etapas separadamente pode levar à duplicação de código e dificultar a reprodução dos resultados. O scikit-learn fornece a classe Pipeline, que permite encadear etapas de pré-processamento e modelagem em um único fluxo de trabalho simplificado. Essa abordagem torna o código mais limpo, fácil de manter e mais simples de reproduzir.
Um pipeline padroniza o fluxo de trabalho de ML e reduz a duplicação de código.
12345678910111213141516171819202122232425262728import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn.pipeline import Pipeline # Load sample data iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = iris.target # Split data X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42) # Create a pipeline with preprocessing and modeling steps pipeline = Pipeline([ ("scaler", StandardScaler()), # Step 1: Standardize features ("classifier", LogisticRegression()) # Step 2: Train classifier ]) # Fit the pipeline on training data pipeline.fit(X_train, y_train) # Predict on test data predictions = pipeline.predict(X_test) print("Pipeline accuracy:", pipeline.score(X_test, y_test))
Obrigado pelo seu feedback!