Détection par boosting de données aberrantes en régression
Résumé
Nous proposons une méthode basée sur le boosting, pour la détec-tion des données aberrantes en régression. Le boosting privilégie naturellement les observations difficiles à prévoir, en les surpondérant de nombreuses fois au cours des itérations. La procédure utilise la réitération du boosting pour sélec-tionner parmi elles les données effectivement aberrantes. L'idée de base consiste à sélectionner l'observation la plus fréquemment rééchantillonnée lors des itéra-tions du boosting puis de recommencer après l'avoir retirée. Le critère de sélec-tion est basé sur l'inégalité de Tchebychev appliquée au maximum du nombre moyen d'apparitions dans les échantillons bootstrap. Ainsi, la procédure ne fait pas d'hypothèses sur la loi du bruit. Des exemples tests bien connus sont consi-dérés et une étude comparative avec deux méthodes classiques illustrent le com-portement de la méthode.
Domaines
Statistiques [math.ST]
Origine : Fichiers produits par l'(les) auteur(s)
Loading...