Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Floresta Aleatória | Commonly Used Bagging Models
course content

Conteúdo do Curso

Ensemble Learning

Floresta AleatóriaFloresta Aleatória

Floresta Aleatória é um algoritmo de conjunto de ensacamento usado tanto para tarefas de classificação quanto de regressão. A ideia básica por trás da Floresta Aleatória é criar uma "floresta" de árvores de decisão, onde cada árvore é treinada em um subconjunto diferente dos dados e fornece sua própria previsão.

Como funciona a Floresta Aleatória?

  1. Amostragem Bootstrap e Subconjunto de Dados: Cada árvore na floresta é treinada usando um subconjunto aleatório retirado do conjunto de dados original por meio de bootstrap. Esse processo envolve a seleção de pontos de dados com reposição, criando subconjuntos diversos para cada árvore.
  2. Construção de Árvore de Decisão: Esses subconjuntos constroem árvores de decisão individuais. Os dados são divididos recursivamente usando características e limiares, formando divisões binárias que levam a nós folha contendo previsões.
  3. Seleção de Características Aleatórias: Dentro de cada árvore, apenas um subconjunto aleatório de características é considerado para criar divisões. Essa aleatoriedade impede que características únicas dominem as previsões e aumenta a diversidade da árvore.
  4. Agregação de Previsão: Após o treinamento, cada árvore faz previsões para pontos de dados. Para classificação, usamos votação direta ou ponderada para criar uma previsão; para regressão, as previsões são médias para fornecer o resultado final.

Podemos notar uma característica interessante de uma árvore aleatória: cada modelo base é treinado não apenas em um subconjunto aleatório do conjunto de treinamento, mas também em um subconjunto aleatório de características. Como resultado, obtemos modelos base mais independentes e, consequentemente, previsões finais mais precisas.

Exemplo

Vamos resolver uma tarefa de classificação usando Floresta Aleatória no conjunto de dados Iris:

Code Description
  • Import Libraries:
  • Import necessary libraries and modules from scikit-learn:
    - load_iris: Used to load the Iris dataset.
    - train_test_split: Used to split the dataset into training and testing sets.
    - RandomForestClassifier: The classifier we'll be using, which is part of the ensemble module.
    - f1_score: The function to calculate the F1 score for model evaluation.
  • Load and Prepare Data:
  • - Load the Iris dataset using load_iris.
    - Extract the features into X and the target variable into y.
  • Train-Test Split:
  • -split the data into training and testing sets using train_test_split.
    test_size=0.2 specifies that 20% of the data will be used for testing.
  • Create and Train the Random Forest Classifier:
  • - Create an instance of RandomForestClassifier with n_estimators=100 (number of trees in the forest) and n_jobs=-1 (to train the model using all processors in parallel).
    - Train the classifier using the training data (features and target) with the .fit() method.
  • Make Predictions:
  • - Use the trained classifier to make predictions on the test data (X_test).
    - Store the predicted labels in y_pred.
  • Calculate F1 Score:
  • - Calculate the F1 score using the f1_score() function.
    - The average='weighted' parameter indicates that the F1 score sho
    You can find the official documentation with all the necessary information about implementing this model in Python on the official website. Go here if needed.

    Qual modelo é usado como modelo base no Random Forest?

    Selecione a resposta correta

    Tudo estava claro?

    Seção 2. Capítulo 5
    course content

    Conteúdo do Curso

    Ensemble Learning

    Floresta AleatóriaFloresta Aleatória

    Floresta Aleatória é um algoritmo de conjunto de ensacamento usado tanto para tarefas de classificação quanto de regressão. A ideia básica por trás da Floresta Aleatória é criar uma "floresta" de árvores de decisão, onde cada árvore é treinada em um subconjunto diferente dos dados e fornece sua própria previsão.

    Como funciona a Floresta Aleatória?

    1. Amostragem Bootstrap e Subconjunto de Dados: Cada árvore na floresta é treinada usando um subconjunto aleatório retirado do conjunto de dados original por meio de bootstrap. Esse processo envolve a seleção de pontos de dados com reposição, criando subconjuntos diversos para cada árvore.
    2. Construção de Árvore de Decisão: Esses subconjuntos constroem árvores de decisão individuais. Os dados são divididos recursivamente usando características e limiares, formando divisões binárias que levam a nós folha contendo previsões.
    3. Seleção de Características Aleatórias: Dentro de cada árvore, apenas um subconjunto aleatório de características é considerado para criar divisões. Essa aleatoriedade impede que características únicas dominem as previsões e aumenta a diversidade da árvore.
    4. Agregação de Previsão: Após o treinamento, cada árvore faz previsões para pontos de dados. Para classificação, usamos votação direta ou ponderada para criar uma previsão; para regressão, as previsões são médias para fornecer o resultado final.

    Podemos notar uma característica interessante de uma árvore aleatória: cada modelo base é treinado não apenas em um subconjunto aleatório do conjunto de treinamento, mas também em um subconjunto aleatório de características. Como resultado, obtemos modelos base mais independentes e, consequentemente, previsões finais mais precisas.

    Exemplo

    Vamos resolver uma tarefa de classificação usando Floresta Aleatória no conjunto de dados Iris:

    Code Description
  • Import Libraries:
  • Import necessary libraries and modules from scikit-learn:
    - load_iris: Used to load the Iris dataset.
    - train_test_split: Used to split the dataset into training and testing sets.
    - RandomForestClassifier: The classifier we'll be using, which is part of the ensemble module.
    - f1_score: The function to calculate the F1 score for model evaluation.
  • Load and Prepare Data:
  • - Load the Iris dataset using load_iris.
    - Extract the features into X and the target variable into y.
  • Train-Test Split:
  • -split the data into training and testing sets using train_test_split.
    test_size=0.2 specifies that 20% of the data will be used for testing.
  • Create and Train the Random Forest Classifier:
  • - Create an instance of RandomForestClassifier with n_estimators=100 (number of trees in the forest) and n_jobs=-1 (to train the model using all processors in parallel).
    - Train the classifier using the training data (features and target) with the .fit() method.
  • Make Predictions:
  • - Use the trained classifier to make predictions on the test data (X_test).
    - Store the predicted labels in y_pred.
  • Calculate F1 Score:
  • - Calculate the F1 score using the f1_score() function.
    - The average='weighted' parameter indicates that the F1 score sho
    You can find the official documentation with all the necessary information about implementing this model in Python on the official website. Go here if needed.

    Qual modelo é usado como modelo base no Random Forest?

    Selecione a resposta correta

    Tudo estava claro?

    Seção 2. Capítulo 5
    some-alt