Modèle random forest
Cette section donne un bref aperçu des forêts aléatoires et quelques commentaires sur les caractéristiques de la méthode. qui est égal à la moyenne de Y i {displaystyle y_ {i}} tombe dans les cellules contenant x {displaystyle mathbf {x}} dans la forêt. Si nous définissons la fonction de connexion de la forêt finie M {displaystyle M} comme K M, n (x, z) = 1 M ∑ j = 1 M 1 z Θ j) {displaystyle K_ {M, n} (mathbf {x}, mathbf {z}) = {frac {1} {M}} sum _ {j = 1} ^ {M} mathbf {1} _ {mathbf {z} in a_ {n} ( mathbf {x}, Theta _ {j})}}, c`est-à-dire la proportion de cellules partagées entre x {displaystyle mathbf {x}} et z {displaystyle mathbf {z}}, alors presque sûrement nous avons m ~ M, n (x, Θ 1,…, Θ M) = ∑ i = 1 n Y i K M, n (x, x i) ∑ l = 1 n K M , n (x, x l) {displaystyle {tilde {m}} _ {M, n} (mathbf {x}, Theta _ {1}, ldots, Theta _ {M}) = {frac {sum _ {i = 1} ^ {n} y_ {i} K_ {M, n} (mathbf {x}, mathbf {x} _ {i})} {sum _ {ell = 1} ^ {n} K_ {M, n} (mathbf {x}, mathbf {x} _ {ell})}}}, qui définit le KeRF. Nous utiliserons simplement deux variables pour commencer. Une fois que nous sommes confiants que le modèle fonctionne bien avec ces variables sélectionnées, nous pouvons utiliser l`ensemble complet de fonctionnalités. Les arborescences de décision sont une méthode populaire pour diverses tâches d`apprentissage automatique. L`apprentissage des arbres «vient [s] le plus près de répondre aux exigences pour servir de procédure d`extraction de données», dit Hastie et coll., «parce qu`il est invariant sous l`échelle et diverses autres transformations des valeurs de caractéristique, est robuste à l`inclusion de caractéristiques non pertinentes et produit des modèles inspectables. Cependant, ils sont rarement exacts “. [3]: 352 une autre grande qualité de l`algorithme de forêt aléatoire est qu`il est très facile de mesurer l`importance relative de chaque caractéristique sur la prédiction. Sklearn fournit un excellent outil pour cela, qui mesure une importance des fonctionnalités en regardant combien les nœuds d`arbre, qui utilisent cette fonctionnalité, réduisent l`impureté sur tous les arbres de la forêt. Il calcule ce score automatiquement pour chaque entité après l`entraînement et met à l`échelle les résultats, de sorte que la somme de toute l`importance est égale à 1. Maintenant que vous nous espérons avoir le cadre conceptuel d`une forêt aléatoire, je vous recommande de jeter un oeil à la deuxième partie de ce post, où nous marchons à travers l`ensemble du processus de mise en œuvre d`une forêt aléatoire pour le problème de température max dans la programmation python Langue.