1 / 22

Imputeren en beoordelen meetreeksen RIWA-base

Aart Smits ( eauQstat ) , Eit C.J. van der Meulen (AMO ) Gerrit van de Haar (RIWA) , Paul K. Baggelaar (Icastat). Imputeren en beoordelen meetreeksen RIWA-base. Waar gaat het om?. RIWA Meetnet Rijn en Maas RIWA-base Jaarrapportages (al circa 45 jaar) Kengetallen toestand en trend

omana
Download Presentation

Imputeren en beoordelen meetreeksen RIWA-base

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Aart Smits (eauQstat), Eit C.J. van der Meulen (AMO)Gerrit van de Haar (RIWA), Paul K. Baggelaar(Icastat) Imputeren en beoordelen meetreeksen RIWA-base

  2. Waar gaat het om? • RIWA • Meetnet Rijn en Maas • RIWA-base • Jaarrapportages (al circa 45 jaar) • Kengetallen toestand en trend • Belemmeringen door ontbrekende waarden • Vraag: kan imputeren oplossing bieden?

  3. Bevindingen voorstudies • Gebruik statistische relaties met andere parameters en/of zelfde parameter op andere locaties • Beoordeel deze met Spearman-rangcorrelatie-coëfficiënt • Gebruik statistische relaties over korte, recente periode

  4. Imputeermethoden • Meervoudig (MICE, Amelia) • Enkelvoudig • Lineaire regressie • Neuraal Netwerk • Random Forest Machinaal Leren

  5. Per knooppunt: Vind welke waarde van welke predictor de set in de twee meest homogene delen splitst

  6. Van zwakke naar sterke voorspeller Leo Breiman [1993 en 2001] • combineer veel beslisbomen • voeg stochastiek toe • =>Random Forest

  7. Toegevoegde stochastiek • Stel elke beslisboom af met trainingsset die even groot is als dataset, maar getrokken mét teruglegging -> ongeveer 63% unieke records • Selecteer per knooppunt aselect p/3 predictoren (p is totaal aantal predictoren)

  8. Nauwkeurigheid • Per beslisboom wordt 37% van dataset niet gebruikt om boom af te stellen • Dit is de Out-of-Box-set (OOB-set) • Wordt gebruikt om nauwkeurigheid Random Forest-voorspellingen te schatten • Geeft redelijk zuivere schatting van die nauwkeurigheid

  9. Selectie van predictoren Uit simulatie bleek dat predictorenselectie op basis van de VI tot betere imputaties leidt

  10. Vergelijken imputeermethoden • Monte Carlosimulaties • Kunstmatige reeksen en praktijkreeksen, elk vijf jaar lang, maandwaarden (n = 60) • 25 predictoren per reeks • Verwijder waarde en imputeer deze, met elk van drie imputeermethoden • Bepaal imputeerfout per imputeermethode • Bepaal kenmerken kansverdeling imputeerfout • Verleen scores aan imputeerprestaties per reeks

  11. Scoringssysteem Beschouwde kenmerken imputeerfout • mediaan • gemiddelde • RMSE • onnauwkeurigheid: max[|P2,5| ; |P97,5|]

  12. Vergelijking imputeerprestatiesop kunstmatige processen RF: Random Forest LR: Lineaire regressie NN: Neuraal netwerk

  13. Vergelijking imputeerprestatiesop 460 praktijkreeksen (RIWA-base)

  14. Imputeerprestaties Random Forestop 460 meetreeksen RIWA-base

  15. Conclusies • Random Forest imputeert doorgaans beter dan lineaire regressie (en is numeriek stabieler) • Klassieke parameters zijn beter te imputeren (o.a. minder extreme waarden / meetfouten) • Een andere geschikte toepassing is het beoordelen van reekswaarden Rapport beschikbaar februari 2014 (riwa.org)

  16. Gebruikte software • R • Package missForest • Package party • Matlab • Treebagger

  17. Vragen?

More Related