Connecté sur le blog : | Déconnexion
Description. Dans une analyse, les coûts de mauvais classement sont rarement unitaires et symétriques. Dans un problème à 2 classes (malade vs. non-malade par exemple), diagnostiquer l'absence de...
Description. C'est une généralisation de C4.5 où, plutôt que d'utiliser l'entropie de Shannon pour le calcul du gain ratio, nous introduisons les entropies généralisées de type beta. L'algorithme...
Description. La méthode de référence au sein de la communauté « apprentissage automatique ». Vers la fin des années 1980, Quinlan a publié d'innombrables variantes de son algorithme de base, Id3...
Description. Ma méthode préférée, celle que je présente en priorité dans mes enseignements. Elle est directement dérivée de Chaid. Elle apporte quelques améliorations : le critère t de Tschuprow...
Description. Chaid est la variante supervisée (variable à prédire catégorielle) des techniques issues de Aid (morgan et Sonquist, 1963), considérée comme l'ancêtre de toutes les méthodes de...
Description. Assistant 86 fait partie des méthodes dérivées de Id3 (quinlan, 1979). Elle introduit un certain nombre d'améliorations destinées à mieux guider l'induction. L'arbre construit est...
Description. Gid3 est une " généralisation " de Id3 dans le sens où, lors d'une segmentation, les modalités non informatives de la variable de partitionnement sont fusionnées. L'objectif est de ne...
Description. Id3-iv (1986) est la (une des) dernière version de Id3, avant que Quinlan ne se tourne vers le post-élagage avec C4 puis C4.5 (et les autres versions commerciales, non publiées qui...
Description. Catlett (1991) est certainement un des premiers data miner de l’histoire. Son seul tort est d’avoir eu raison trop tôt. En effet, plusieurs années avant la grande vague du data mining...
Stratégie d'échantillonnage pour les arbres de décision. Dans tous les algorithmes d'induction d'arbres, Sipina introduit une option d'échantillonnage. L'idée est la suivante : plutôt que de...