Utilizar el archivo original `penguins.csv`: primero eliminar las dos filas con datos insuficientes. Construir un **pipeline de preprocesamiento** que realice codificación, imputación y escalado.

Solo se deben codificar `'sex'` e `'island'`, por lo que se debe utilizar un `ColumnTransformer`. Después de eso, aplicar `SimpleImputer` y `StandardScaler` a todas las características.

Aquí tienes un recordatorio de las funciones `make_column_transformer()` y `make_pipeline()` que utilizarás.

import unittest
import pandas as pd
import numpy as np

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestPipelineWithColumnTransformer(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]
        import user_code
        cls.user_code = user_code

    def test_import_pipeline(self):
        from sklearn.pipeline import Pipeline, make_pipeline
        uc = self.user_code
        cond = isinstance(getattr(uc, 'pipe', None), (Pipeline,))
        _dynamic_test(
            self,
            cond,
            "Pipeline was created using make_pipeline",
            "Pipeline was created using make_pipeline"
        )

    def test_columntransformer_used(self):
        from sklearn.compose import ColumnTransformer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'ct', None), ColumnTransformer)
        _dynamic_test(
            self,
            cond,
            "ColumnTransformer was used for 'sex' and 'island' with remainder passthrough",
            "ColumnTransformer was used for 'sex' and 'island' with remainder passthrough"
        )

    def test_pipeline_steps(self):
        uc = self.user_code
        step_names = [name for name, _ in uc.pipe.steps]
        cond = ("columntransformer" in step_names
                and any("simpleimputer" in n for n in step_names)
                and any("standardscaler" in n for n in step_names))
        _dynamic_test(
            self,
            cond,
            "Pipeline contains ColumnTransformer, SimpleImputer, and StandardScaler",
            "Pipeline contains ColumnTransformer, SimpleImputer, and StandardScaler"
        )

    def test_X_transformed_shape(self):
        uc = self.user_code
        X_arr = np.asarray(uc.X_transformed)
        cond = X_arr.shape[0] == self.df_raw.shape[0] and X_arr.ndim == 2
        _dynamic_test(
            self,
            cond,
            "X_transformed has correct number of rows and is 2D",
            "X_transformed has correct number of rows and is 2D"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

El aprendizaje automático se utiliza actualmente en todas partes. ¿Quieres aprenderlo por ti mismo? Este curso es una introducción al mundo del aprendizaje automático para que puedas aprender los conceptos básicos, trabajar con Scikit-learn – la biblioteca más popular para ML – y construir tu primer proyecto de aprendizaje automático.
Este curso está dirigido a estudiantes con conocimientos básicos de Python, Pandas y Numpy.

Aprenda los conceptos de Machine Learning y el flujo de trabajo de un proyecto de ML.

El preprocesamiento es probablemente la etapa más importante de un proyecto de ML. Este capítulo abarca los pasos de preprocesamiento necesarios para casi cualquier conjunto de datos.

Una tubería es una forma ordenada de combinar todos los pasos de preprocesamiento junto con un modelo. Las tuberías facilitan considerablemente el entrenamiento y uso de un modelo.

El modelado es la etapa más divertida de un proyecto de ML. Aprendamos a construir, ajustar y evaluar el modelo.

Desafío: Creación de un Pipeline

Desafío: Creación de un Pipeline

Solución