O que é Floresta Aleatória
Random Forest é um algoritmo amplamente utilizado em problemas de Classificação e Regressão. Ele constrói várias Árvores de Decisão diferentes e utiliza a maioria dos votos para classificação e a média em caso de regressão.
![](https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/Forest_fish.png)
Ao invés de usar a melhor árvore, Random Forest constrói muitas árvores de qualidade inferior. Por que faríamos árvores que sabemos serem piores? Bem, suponha que você tem uma tarefa complexa e a entrega para um professor - um especialista nesse campo. Você pode confiar na resposta dele, mas ele ainda é humano e pode cometer erros. Talvez se você desse a tarefa para 100 bons alunos e escolhesse a resposta mais frequente, o resultado seria mais confiável.
Na prática, combinar muitas Árvores de Decisão mais fracas em uma única e forte Floresta Aleatória funciona muito bem, superando significativamente uma Árvore de Decisão única e ajustada em grandes conjuntos de dados. O limite de decisão de uma Floresta Aleatória é mais suave e generaliza melhor para novos dados do que a Árvore de Decisão, então a Floresta Aleatória não sofre tanto de sobreajuste.
![](https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/dt_vs_rf_boundaries.gif)
No entanto, a precisão não melhorará se combinarmos muitos modelos que cometem os mesmos erros. Para que todo esse processo funcione, devemos escolher modelos que sejam o mais diferentes possíveis uns dos outros, de forma que produzam erros distintos.
![](https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/different.gif)
O próximo capítulo irá esclarecer o motivo pelo qual a Floresta é Aleatória e como produzimos vários modelos distintos utilizando apenas o algoritmo de Árvore de Decisão.
Tudo estava claro?
Conteúdo do Curso
Classification with Python
5. Comparando Modelos
Classification with Python
O que é Floresta Aleatória
Random Forest é um algoritmo amplamente utilizado em problemas de Classificação e Regressão. Ele constrói várias Árvores de Decisão diferentes e utiliza a maioria dos votos para classificação e a média em caso de regressão.
![](https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/Forest_fish.png)
Ao invés de usar a melhor árvore, Random Forest constrói muitas árvores de qualidade inferior. Por que faríamos árvores que sabemos serem piores? Bem, suponha que você tem uma tarefa complexa e a entrega para um professor - um especialista nesse campo. Você pode confiar na resposta dele, mas ele ainda é humano e pode cometer erros. Talvez se você desse a tarefa para 100 bons alunos e escolhesse a resposta mais frequente, o resultado seria mais confiável.
Na prática, combinar muitas Árvores de Decisão mais fracas em uma única e forte Floresta Aleatória funciona muito bem, superando significativamente uma Árvore de Decisão única e ajustada em grandes conjuntos de dados. O limite de decisão de uma Floresta Aleatória é mais suave e generaliza melhor para novos dados do que a Árvore de Decisão, então a Floresta Aleatória não sofre tanto de sobreajuste.
![](https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/dt_vs_rf_boundaries.gif)
No entanto, a precisão não melhorará se combinarmos muitos modelos que cometem os mesmos erros. Para que todo esse processo funcione, devemos escolher modelos que sejam o mais diferentes possíveis uns dos outros, de forma que produzam erros distintos.
![](https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/different.gif)
O próximo capítulo irá esclarecer o motivo pelo qual a Floresta é Aleatória e como produzimos vários modelos distintos utilizando apenas o algoritmo de Árvore de Decisão.
Tudo estava claro?