Utilize o arquivo original `penguins.csv`: primeiro remova as duas linhas com dados insuficientes. Construa um **pipeline de pré-processamento** que realize codificação, imputação e padronização.

Apenas `'sex'` e `'island'` devem ser codificados, portanto utilize um `ColumnTransformer`. Em seguida, aplique `SimpleImputer` e `StandardScaler` a todas as variáveis.

Aqui está um lembrete das funções `make_column_transformer()` e `make_pipeline()` que você irá utilizar.

import unittest
import pandas as pd
import numpy as np

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestPipelineWithColumnTransformer(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]
        import user_code
        cls.user_code = user_code

    def test_import_pipeline(self):
        from sklearn.pipeline import Pipeline, make_pipeline
        uc = self.user_code
        cond = isinstance(getattr(uc, 'pipe', None), (Pipeline,))
        _dynamic_test(
            self,
            cond,
            "Pipeline was created using make_pipeline",
            "Pipeline was created using make_pipeline"
        )

    def test_columntransformer_used(self):
        from sklearn.compose import ColumnTransformer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'ct', None), ColumnTransformer)
        _dynamic_test(
            self,
            cond,
            "ColumnTransformer was used for 'sex' and 'island' with remainder passthrough",
            "ColumnTransformer was used for 'sex' and 'island' with remainder passthrough"
        )

    def test_pipeline_steps(self):
        uc = self.user_code
        step_names = [name for name, _ in uc.pipe.steps]
        cond = ("columntransformer" in step_names
                and any("simpleimputer" in n for n in step_names)
                and any("standardscaler" in n for n in step_names))
        _dynamic_test(
            self,
            cond,
            "Pipeline contains ColumnTransformer, SimpleImputer, and StandardScaler",
            "Pipeline contains ColumnTransformer, SimpleImputer, and StandardScaler"
        )

    def test_X_transformed_shape(self):
        uc = self.user_code
        X_arr = np.asarray(uc.X_transformed)
        cond = X_arr.shape[0] == self.df_raw.shape[0] and X_arr.ndim == 2
        _dynamic_test(
            self,
            cond,
            "X_transformed has correct number of rows and is 2D",
            "X_transformed has correct number of rows and is 2D"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

O aprendizado de máquina está presente em todos os lugares atualmente. Quer aprender por conta própria? Este curso é uma introdução ao mundo do aprendizado de máquina para que você compreenda os conceitos básicos, trabalhe com o Scikit-learn – a biblioteca mais popular para ML – e desenvolva seu primeiro projeto de aprendizado de máquina.
Este curso é destinado a estudantes com conhecimentos básicos em Python, Pandas e Numpy.

Aprenda os conceitos de Machine Learning e o fluxo de trabalho de projetos de ML.

O pré-processamento é provavelmente a etapa mais importante de um projeto de ML. Este capítulo aborda as etapas de pré-processamento necessárias para praticamente qualquer conjunto de dados.

Um pipeline é uma maneira organizada de combinar todas as etapas de pré-processamento, bem como um modelo. Pipelines facilitam muito o treinamento e a utilização de um modelo.

A modelagem é a etapa mais divertida de um projeto de ML. Vamos aprender a construir, ajustar e avaliar o modelo!

Desafio: Criando um Pipeline

Desafio: Criando um Pipeline

Solução