Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Qu'est-ce que la Forêt Aléatoire | Forêt Aléatoire
Classification avec Python

Qu'est-ce que la Forêt Aléatoire

Glissez pour afficher le menu

Random Forest est un algorithme largement utilisé pour les problèmes de classification et de régression. Il construit de nombreux arbres de décision différents et prend leur vote majoritaire pour la classification et la moyenne dans le cas de la régression.

Poisson de la forêt

Au lieu d'utiliser un seul meilleur arbre, Random Forest construit de nombreux arbres "plus faibles". Cela peut sembler contre-intuitif : pourquoi utiliser des modèles moins performants ?

Considérez-le ainsi : un arbre de décision unique agit comme un généraliste – il tente de prendre en compte chaque caractéristique et de fournir une vue d'ensemble complète. Cependant, il peut devenir trop confiant et commettre des erreurs en surajustant le bruit des données.

Un Random Forest, en revanche, fonctionne comme une équipe de spécialistes. Chaque arbre est entraîné sur différentes parties des données et se concentre sur différents aspects du problème. Pris individuellement, chaque arbre peut ne pas être très performant – il peut même manquer la vue d'ensemble. Mais ensemble, lorsque vous combinez leurs "votes", ils compensent les faiblesses des uns et des autres et fournissent une prédiction plus équilibrée et précise.

On peut aussi comparer cela au fait de demander à 100 étudiants compétents au lieu de s'appuyer sur un seul professeur. Bien que le professeur puisse être plus expérimenté, même les experts peuvent être biaisés ou induits en erreur. Mais si la majorité des étudiants arrivent indépendamment à la même réponse, ce consensus est souvent plus robuste.

En pratique, combiner de nombreux arbres de décision plus faibles en un Random Forest solide fonctionne très bien et surpasse souvent de manière significative un arbre de décision individuel optimisé sur de grands ensembles de données. La frontière de décision d'un Random Forest est plus lisse et généralise mieux sur de nouvelles données que celle d'un arbre de décision unique, ce qui rend les Random Forests moins sujets au surapprentissage.

frontières dt vs rf

Cependant, la précision ne s'améliorera pas si l'on combine plusieurs modèles qui commettent les mêmes erreurs. Pour que cette approche soit efficace, les modèles doivent être aussi différents que possible afin qu'ils fassent des erreurs différentes.

différent
question mark

L'algorithme Random Forest combine plusieurs arbres de décision plus faibles en un seul modèle, qui surpasse généralement le meilleur arbre de décision individuel. Cette affirmation est-elle correcte ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 4. Chapitre 1

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 4. Chapitre 1
some-alt