Sélection de variables : quelle(s) méthode(s) ?

Sélection de variables : quelle(s) méthode(s) ? Anne Viallefont

Pourquoi la sélection de variables pose-t-elle problème en écologie ? • Sur certains jeux de données, l’utilisation de méthodes différentes donne des résultats différents • Si les variables explicatives sont complètement indépendantes, alors toutes les méthodes donnent le même résultat. • La « nouvelle statistique » permet de décrire les phénomènes complexes de l’écologie (Hobbs & Hilborn, Ecol. Applic., 2006)

De très nombreux articles récents… • Méthode de l’étude bibliographique : • Thèmes retenus : sélection de modèles, de variables, model averaging, tests multiples d’hypothèses nulles • tous les articles de l’ESA + JASA & Biometrics sur le sujet depuis 2003 • toutes les références dans les articles disponibles (ESA + Biometrics +…) • Thèmes non retenus : modèles de mélange

Fréquence des articles consacrés à la sélection de modèles

Notions de base • Maximum de vraisemblance C’est la valeur des paramètres qui maximise la probabilité d’apparition du jeu de données effectivement observé • Distance de Kullback - Leibler C’est une mesure de la quantité d’information perdue lorsqu’on représente la « vérité » par le modèle Problème : pour la connaître il faut connaître explicitement la « vérité » (p) Pour une distribution discrète :

Notions de base • Principe de parcimonie Optimisation du trade-off entre variance et biais (ou entre ajustement et complexité) • « rasoir d’Occam » L’explication la plus simple est la plus probable…

Différentes méthodes possibles… • Tests d’hypothèses par comparaison de modèles emboîtés : tests F partiels / LRT • « cross-validation » • AIC • Autres critères avec terme de pénalité • Approche « bayésienne »

La sélection de variables « à l’ancienne » - tests successifs entre modèles emboîtés • Références : • Voir par exemple Stephens et al. 2005 – JAE 42:4-12. • Avantages : • Pertinence des questions / contrôle de ce qu’on fait • Inconvénients : • Encouragerait (?) les questions « triviales », et les hypothèses nulles « silly » • test de nombreux facteurs    • Le modèle final choisi dépend du « chemin » pris • Précautions d’emploi • Contrôle de  • Choix d’une procédure « step-down » après VALIDATION du modèle initial (test d’ajustement)

Le Critère d’Information d’Akaike (AIC) - 1973 • Estime la valeur attendue de la distance de Kullback – Leibler • Avantages : • Simplicité d’utilisation • Interprétation : Sélectionne le modèle le plus proche possible de la « vérité » • Inconvénients : • A tendance à favoriser un modèle d’autant plus compliqué qu’il y a plus de données • Précautions d’emploi : • S’assurer que le modèle le plus complexe est ajusté aux données, sinon utiliser un « facteur d’inflation » et QAIC (Lebreton et al. 1992)

De quoi se perdre… • AIC 1973 • TIC 1976 • BIC Schwarz 1978 • AICCHurvich et Tsai 1989 • NIC Murata et al. 1994 • QAIC, QAICC Burnham et Anderson 1998 • RIC Basu et al. 1998 • DIC Spiegelhalter et al. 2002 • FIC et FRIC (!) Claeskens et Hjort 2003 + Cp, CVL, FPE, PredSS…

AICC – QAIC - QAICC • Hurvich et Tsai ont montré que AIC était biaisé pour les petits échantillons. • QAIC et QAICC Modification de AIC à utiliser si le modèle le plus complexe n’est pas ajusté aux données

L’approche bayésienne • On fixe une « probabilité a priori » à chacun des modèles que l’on veut tester (1, 2, 3…). Exemples : « Rasoir d’Ockham » : pondération plus forte des modèles les plus simples ; équiprobabilité entre les modèles • On ajuste ces modèles (par des méthodes bayésiennes si possible…), et on en déduit une « probabilité a posteriori » selon la formule :

L’approche bayésienne • On utilise le critère BIC : • Si l’a priori est « plat », alors • On peut trouver des estimateurs « intermédiaires » par « model averaging » avec comme poids les proba a posteriori des modèles.

L’approche bayésienne • Remarque intéressante (Burnham and Anderson 2004, Link and Barker 2006) : Si on utilise comme « a priori » : alors AIC = BIC • Ce qui signifie que AIC est un cas particulier de BIC, avec des a priori dépendant directement du nombre de paramètres

L’approche bayésienne • Avantages : • On peut intégrer de l’information provenant d’autres sources ou d’études antérieures • Si le « vrai modèle » se trouve parmi les modèles testés, c’est celui-ci qui est choisi par BIC • Le modèle choisi a peu de paramètres facilement interprétables, et leur nombre n’augmente pas lorsqu’on ajoute des données • Inconvénients : • Manque de « puissance statistique » • Comportement imprévisible si le « vrai modèle » n’est pas parmi ceux testés

Le débat en écologie… Où en sommes-nous ? • Nous sommes loin d’une procédure sur laquelle tout le monde s’accorde… • « In some cases, model-selection verbiage occupies numerous pages, whereas the only useful biological information might be a model-averaged estimate of some demographic variable. We suspect, therefore, that IT-AIC has increased the ratio of statistics to biology in the pages of ecological journals, which we view as unfortunate » Guthery et al. JWM 2005

Le débat en écologie… 1.arguments pro-AIC • « all statements in science are approximations of a complex truth (…) » (Burnham & Anderson 2002)  AIC • ce qui n’interdit pas le « model averaging » AIC weights : Burnham et Anderson préconise de moyenner sur les modèles avec i «  some value that is roughly 4 to 7 »

Le débat en écologie… 2.arguments pro-BIC • Le « model averaging » n’a pas de sens hors du contexte bayésien • Attention ! L’utilisation d’AIC favorise les modèles complexes… (Link & Barker)  choisir les proba a priori adéquates et utiliser BIC Link et Barker proposent 4 calculs de proba a priori : Equiproba, AIC, proportionnel à Exp(k) et « Occam » (proportionnel à Exp(-k))

Le débat en écologie… 3.Autres arguments • Guthery et al (2005) voient l’utilisation des critères de sélection de modèle comme • une forme d’induction scientifique, à condition d’avoir BIEN CHOISI en amont les modèles à tester • une analyse de sensibilité sur les variables du modèle le plus complexe • La sélection parmi de mauvais modèles ne peut donner un bon modèle • Il peut y avoir des « silly » modèles, comme des « silly hypotheses »

Eléments de conclusion… • Avoir de bonnes données ! (« garbage in, garbage out ») • Choisir à l’avance les modèles intéressants/plausibles est PRIMORDIAL (on a vu un « meilleur modèle » prédire la présence de castors en l’absence d’eau…) • Utiliser le bon outil • L’utilisation de multiples tests successifs sur modèles emboîtés est à éviter • L’utilisation d’outils t.q. AICc est inutile pour comparer 2 ou 3 modèles • Voir les cas où TIC/DIC sont préférables dans Burnham et Anderson 2002 : 268-351

Eléments de conclusion… « Finally, we urge wildlife scientists to keep ecology, not statistics, in the forefront of wildlife science. Statistics are messy tools we use because time and money constraints force insufficient sampling » Guthery et al. 2005

Sélection de variables : quelle(s) méthode(s) ?