1 / 140

Zpracov ání dat v ekologii společenstev

Zpracov ání dat v ekologii společenstev. David Zelený. Osnova přednášky. Typy sbíraných dat kategoriální vs kvantitativní, pokryvnosti, frekvence Příprava dat pro numerické analýzy čištění dat, odlehlé body, transformace, standardizace, EDA Ekologick á podobnost

hila
Download Presentation

Zpracov ání dat v ekologii společenstev

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Zpracování datv ekologii společenstev David Zelený

  2. Osnova přednášky • Typy sbíraných dat • kategoriální vs kvantitativní, pokryvnosti, frekvence • Příprava dat pro numerické analýzy • čištění dat, odlehlé body, transformace, standardizace, EDA • Ekologická podobnost • indexy podobnosti a vzdálenosti mezi vzorky • Ordinace • lineární vsunimodální, přímá vs nepřímá • Klasifikace • hierarchická vsnehierarchická, aglomerativnívsdivisivní • Regrese • zobecněné lineární modely, regresní a klasifikační stromy • Ellenbergovy indikační hodnoty • kalibrace • Indexy druhové bohatosti • alfa, beta a gammadiverzita, akumulační druhová křivka, rarefaction • Design ekologických experimentů • manipulativní experimenty vs přírodní experimenty (pozorování) • Případové studie na použití jednotlivých metod Zpracování dat v ekologii společenstev

  3. Literatura Doporučená(najdetena bit.ly/zpradat v sekciStudijní materiály) • LepšJ. & Šmilauer P. (2001) Mnohorozměrná analýza ekologických dat • v anglické verzi vyšlo v nakladatelství Cambridge v roce 2003 jako MultivariateAnalysisofEcological Data using CANOCO • HerbenT. & Münzbergová Z. (2003) Zpracování geobotanických dat v příkladech. Část 1. Data o druhovém složení Pro fajnšmekry • WildiO. (2010) Data Analysis in VegetationEcology. Wiley-Blackwell. • GotelliN.J. & Ellison A.M. (2004) A Primer of Ecological Statistics. Sinauer Associates. • OksanenJ. (2004) MultivariateAnalysis in Ecology, Lecture Notes. • http://cc.oulu.fi/~jarioksa/opetus/metodi/notes.pdf • PalmerM. – Ordinationmethodsforecologists, website • http://ordination.okstate.edu/ • LegendreP. &Legendre L. (2012) NumericalEcology(ThirdEnglishEdition). Elsevier. Zpracování dat v ekologii společenstev

  4. Software • CANOCO for Windows 4.5 – ordinační analýzy • CanoDrawfor Windows 4.0 – kreslení ordinačních diagramů a odpovědních křivek druhů • PC-ORD 5 – numerické klasifikace, ordinační analýzy, analýza odlehlých bodů • STATISTICA 9.0 – regrese, regresní a klasifikační stromy Kde co sehnat: • CANOCO, CanoDraw a PC-ORD – instalace z AVRUMELu nebo webových stránek předmětu (záložka Software) • STATISTICA – licenci je třeba získat po přihlášení na http://inet.sci.muni.cz v sekci Nabídka software Zpracování dat v ekologii společenstev

  5. Další informace • Webové stránky předmětu: www.bit.ly/zpradat • přednášky, software, příklady ke cvičení, studijní materiály • některé sekce vyžadují přihlášení • Cvičení • probíhat bude v Bohunicích v druhé půlce semestru a zaměřené bude na analýzu dat v programu CANOCO a jejich vizualizaci v programu CanoDraw • tři čtyřhodinové bloky • v případě zájmu o program R je možné zapsat si souběžně předmět Analýza dat v ekologii společenstev v programu R (Bi7550) • Zkouška • vypracování závěrečné práce (pokyny viz webové stránky předmětu, sekce Závěrečná práce) • půlhodinová diskuze nad závěrečnou prací, doplněná o rozšiřující otázky týkající se probírané látky • možné dělat zároveň se zkouškou z předmětu Bi7550 Zpracování dat v ekologii společenstev

  6. Typysbíraných datPříprava dat pro analýzy Zpracování dat v ekologii společenstev

  7. Společenstvo je skupina druhů, které se vyskytují společně v prostoru a v čase. (Begon 2007) Data v ekologii společenstev • popisují společenstvo, případně i jeho prostředí • ekologická data obsahují více proměnných (multivariatedata) a dají se vyjádřit maticí dat (data matrix) • společenstvo je typicky sledováno na určité ploše (v případě rostlin a některých málo mobilních živočichů) nebo např. inventarizací jedinců (např. ulovených v pastech v případě mobilních živočichů) • složení živého společenstva je popsáno přítomností jednotlivých druhů daného typu organismů, na jedné ploše (v jedné pasti) se většinou vyskytuje více než jeden druh • prostředí je popisováno jednou nebo více proměnnými, o kterých se předpokládá, že ovlivňují studovaný typ organismů Zpracování dat v ekologii společenstev

  8. Typy proměnných • Kategoriální (kvalitativní, nominální, prezenčně-absenční) • např. geologický substrát, půdní typy, binární proměnné (přítomnost-absence druhu) • kategorie jsou unikátní (každý jedinec/pozorování spadá právě do jedné z nich) a nelze je smysluplně seřadit • Ordinální (semikvantitativní) • např. Braun-Blanquetova stupnice pro odhad pokryvnosti druhů • jednotlivé stupně (kategorie) lze seřadit, rozdíly mezi stupni jsou různě velké • Kvantitativní • diskrétní (počty jedinců, měření s malou přesností) x kontinuální (přesná měření) • relativnístupnice (relative-scale) xintervalovástupnice(interval-scale) Zpracování dat v ekologii společenstev 0 0 30 intervalová stupnice – nula je stanovena arbitrárně relativní stupnice – nula znamená, že charakteristika chybí

  9. Typy proměnnýchalternativní třídění Zpracování dat v ekologii společenstev Legendre& Legendre 1998

  10. Primární data Zpracování dat v ekologii společenstev

  11. Primární data Zpracování dat v ekologii společenstev

  12. Primární data http://www.cggveritas.com/data//1/rec_imgs/5152_Tapes-small.jpg • Zadávání primárních dat • spreadsheet, metadata • Uchování a zpřístupnění primárních dat • problematika dlouhodobé archivace a nosičů dat (nejlepší je stále papír) • zpřístupnění primárních dat (některé časopisy to mají jako podmínku zveřejnění článku) • Kontrola a čištění dat • sloučení taxonomické nomenklatury • chyby a chybějící data (možnosti nahrazení chybějících dat) • analýza odlehlých bodů (outlieranalysis) • někdy i vyloučení vzácných druhů (odstranění šumu v datech) • EDA – exploratory data analysis Zpracování dat v ekologii společenstev

  13. EDA – Exploratory Data Analysis • obecně: metoda pro odhalení různých vlastností dat (descriptionofpattern in data) • slouží také k tzv. „vytěžování“ dat (data mining, data dredging) – moderní, ale problematické metodě zpracování dat • věda založená na testování hypotéz vs. věda založená na vytěžování dat (hypothesis-drivenvs data-driven science) • grafická EDA slouží k • odhalení odlehlých bodů (outlieranalysis) • distribuce dat (normalita) a nutnost transformace • box-plot(krabicový graf) a histogram pro jednorozměrná data • scatterplot (bodový graf) pro dvou a vícerozměrná data John Tukey (1915-2000) Zpracování dat v ekologii společenstev

  14. EDA – Exploratory Data Analysisanalýza odlehlých bodů – box-plot & histogram Zpracování dat v ekologii společenstev

  15. EDA – Exploratory Data Analysisanalýza odlehlých bodů - scatterplot Zpracování dat v ekologii společenstev

  16. Detaily ke krabicovým grafům (boxplot) Klasický boxplot (střední hodnota = medián) Definice odlehlých bodů a extrémů (STATISTICA) maximální hodnota Q3 – horní kvartil Q2 - medián Zpracování dat v ekologii společenstev Q1 – spodní kvartil minimální hodnota outlier

  17. Příprava dat pro numerické analýzytransformace Transformace dat • mění relativní vzdálenosti mezi jednotlivými hodnotami a tím i tvar jejich distribuce Proč data transformovat? • protože škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné • deset prstů => používání desítkové soustavy • protože (některé) statistické testy vyžadují, aby data • byla normálně rozložená (normaldistribution) • měla homogenní varianci (homoskedasticita, mezi průměrem a směrodatnou odchylkou není žádný vztah) • protože lineární vztahy se interpretují lépe než vztahy nelineární Zpracování dat v ekologii společenstev

  18. Příprava dat pro numerické analýzytransformace Na co si dát při transformaci pozor? • aby transformace rozložení dat ještě nezhoršila a nevytvořila nové odlehlé body • abychom při komentování výsledků používali netransformované hodnoty proměnných Typy transformace • lineární • přičtení konstanty nebo vynásobení konstantou • nemění výsledky statistického testování nulových hypotéz • např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita • nelineární • log transformace, odmocninová transformace atd. • může změnit výsledky statistického testování Zpracování dat v ekologii společenstev

  19. Rozdělení dat (data distribution) pozitivně (doprava) zešikmené* (rightskewed) symetrické (symetrical) Zpracování dat v ekologii společenstev negativně (doleva) zešikmené (leftskewed) * ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená nulou na začátku

  20. Příprava dat pro numerické analýzytransformace • Logaritmická transformace (log transformation) • pro data s výrazně pozitivně (doprava) šikmou distribucí (rightskewed), u kterých existuje vztah mezi směrodatnou odchylkou a průměrem (lognormální rozložení) Y* = log (Y), případně Y* = log (a*Y + c) • na základě logaritmu nezáleží (10, 2, e) • konstanta a = 1; pokud je Y z intervalu <0;1>, potoma > 1 • konstantac se přidává, pokud proměnná Y obsahuje nuly • c může být např. 1, nebo arbitrárně zvolené malé číslo (0,001) • na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická Zpracování dat v ekologii společenstev zdroj: wikipedia.org

  21. Příprava dat pro numerické analýzytransformace Odmocninová transformace (square-roottransformation) • vhodná pro mírně doprava zešikmená data (rightskewed), např. počty druhů (Poissondistribution) Y* = √ Y, případněY* = √ (Y+ c) • konstantac se přičítá, pokud soubor obsahuje nuly • c může být např. 0,5, nebo 3/8 (0,325) • třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) Mocninná transformace (powertransformation) • vhodná pro data negativně (doleva) sešikmená (leftskewed) Y* = Yp • pokud p< 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá odmocnina atd.) Zpracování dat v ekologii společenstev

  22. Příprava dat pro numerické analýzytransformace odmocninová Zpracování dat v ekologii společenstev logaritmická Legendre& Legendre(1998)

  23. Příprava dat pro numerické analýzytransformace Zpracování dat v ekologii společenstev Münch. Med. Wschr. 124, 1982

  24. Příprava dat pro numerické analýzytransformace Transformace pomocí arcsin (angulartransformation) • vhodná pro procentické hodnoty (a obecně podíly) Y* = arcsin Y nebo Y* = arcsin√ Y • použitelná pro hodnoty v intervalu <-1; 1> • transformované hodnoty jsou v radiánech Reciproká transformace (reciprocaltransformation) • vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) Y* = 1/Y Zpracování dat v ekologii společenstev

  25. Příprava dat pro numerické analýzytransformace Box-Cox transformace (zobecněná mocniná transformace) • zobecněná parametrická transformace • iterativní hledání parametru λ (lambda), pro které je rozdělení transformované proměnné nejblíže normálnímu rozdělení • používá se v případě, že nemáme a priori představu, jakou transformaci použít Neparametrické metody transformace • např. metoda Omnibus pro ordinální data Zpracování dat v ekologii společenstev Legendre& Legendre 1998

  26. Mají data normální rozdělení?grafická analýza Histogram s křivkou normálního rozdělení Q-Q diagram (Quantile-Quantile plot) • vizuální zhodnocení normality dat • Kolmogorovův-Smirnovův test • porovnání rozdělení dvou proměnných, vynáší proti sobě kvantily jednotlivých proměnných • jedna proměnná může být teoretická distribuce (v tomto případě normální rozdělení – rankitový diagram) • na stejném principu pracuje Shapiro-Wilk test Zpracování dat v ekologii společenstev

  27. Mají data normální rozdělení?grafická analýza pozitivně zešikmené normální rozdělení negativně zešikmené Zpracování dat v ekologii společenstev

  28. Bimodální data • transformace nepomůže, možnost rozdělit na dva podsoubory Zpracování dat v ekologii společenstev

  29. Příprava dat pro numerické analýzystandardizace proměnných Centrování • výsledná proměnná má průměr roven nule Yi* = Yi – průměr (Y) Standardizace v úzkém slova smyslu • výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné • „synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích Yi* = (Yi – průměr (Y)) / směrodatná odchylka (Y) Změna rozsahu hodnot (ranging) • výsledná proměnná je v rozsahu 0 až 1 Yi* = Yi / Ymax nebo Yi* = (Yi – Ymin) / (Ymax – Ymin) Zpracování dat v ekologii společenstev

  30. Příprava dat pro numerické analýzystandardizace matice společenstva Standardizace v případě matice společenstva (vzorky x druhy) • standardizace podruzích (by species) • dává velkou váhu vzácným druhům • ne vždy smysluplná (pokud se druh vyskytuje vzácně v jednom snímku, standardizace po druzích dá tomuto snímku velkou váhu) • standardizace po vzorcích (by samples) • pokud je analýza zaměřená na relativní proporce mezi druhy, ne jejich absolutní abundance • vhodné v případě, že výsledné abundance závisí na důkladnosti, s jakou sbíráme data (např. při odchytu živočichů doba strávená na ploše nebo počet pastí) Zpracování dat v ekologii společenstev

  31. Příprava dat pro numerické analýzystandardizace matice společenstva původní matice Zpracování dat v ekologii společenstev standardizace po druzích standardizace po vzorcích

  32. Příprava dat pro numerické analýzy TRANSFORMACE STANDARDIZACE • matematická funkce, jejíž argumenty nejsou odvozené z dat, na která je transformace aplikovaná (data independent) • nejčastější důvod je změnit tvar rozložení proměnné, případně zajistit homoskedasticitu • mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent) • nejčastější důvod použití je vyrovnat rozdíly v relativním významu (váze) jednotlivých ekologických proměnných, druhů nebo vzorků • ve své podstatě je to další typ transformace Zpracování dat v ekologii společenstev

  33. Příprava dat pro numerické analýzykódování dat (data coding) • Dummy variables • metoda, jak převéstkvalitativní (kategoriální) proměnnou na kvantitativní (binární) proměnné použitelné v analýzách • pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1 dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních) Zpracování dat v ekologii společenstev

  34. Příprava dat pro numerické analýzykódování dat (data coding) • např. nahrazení kódů u alfa-numerických stupnic, např. Braun-Blanquetovy stupnice dominance-abundance • Br.-Bl.: r + 1 2 3 4 5 • ordinální hodnoty: 1 2 3 4 5 6 7 • střední hodnoty procent: 1 2 3 15 38 63 88 Zpracování dat v ekologii společenstev

  35. Soubory s velkým počtem nul(aneb význam nuly v ekologii) • dva možné významy nuly: • hodnota může být ve skutečnosti nenulová, ale díky našim možnostem měření jsme ji naměřili jako nulovou (například koncentrace látky v roztoku) • hodnota je skutečná nula – například absence druhu • data obsahující „pravé nuly“ obsahují dva typy informace: • druh chybí nebo je přítomen? • pokud je druh přítomen, jaká je jeho abundance? • v datech obsahujících velké množství „pravých nul“ je většina informace prvního typu • problém „pravých“ nul při logaritmické transformaci – soubor s velkým počtem „pravých“ nul není vhodné logaritmicky transformovat (přičítat k nim konstantu c), ale lépe ji nahradit binární proměnnou (prezence-absence) Zpracování dat v ekologii společenstev

  36. Matice„vzorky × druhy“v ekologiispolečenstev(sparse matrix, řídká matice) více než 90% hodnottvoří nuly, u velkých souborů až 99% Zpracování dat v ekologii společenstev vzorky druhy

  37. Ekologická podobnost(EcologicalResemblance) Zpracování dat v ekologii společenstev

  38. Ekologická podobnost Zpracování dat v ekologii společenstev

  39. Ekologická podobnost Zpracování dat v ekologii společenstev

  40. Ekologická podobnost Q vs R analýza vztahy mezi vzorky Q analýza Zpracování dat v ekologii společenstev vztahy mezi druhy (nebo obecně mezideskriptory) R analýza

  41. Podobnosti x vzdálenosti(Q analýza) Indexy podobnosti • slouží k vyjádření podobnosti mezi vzorky, ne k jejich umístění do mnohorozměrného prostoru (například ordinace) • nejnižší hodnota 0 – vzorky nesdílejí žádný druh • nejvyšší hodnota (1 nebo jiná) – vzorky jsou identické Vzdálenosti mezi vzorky • slouží k umístění vzorků v mnohorozměrném prostoru • nejnižší hodnota 0 – vzorky jsou identické (ve stejné lokaci) • hodnota se zvyšuje se zvyšující se nepodobností mezi vzorky Zpracování dat v ekologii společenstev

  42. Indexy podobnosti kvalitativní vs kvantitativní • kvalitativní – pro presenčně-absenční data • kvantitativní – pro data vyjadřující abundance, počty aj. symetrické vs asymetrické • dvojité nepřítomnosti („double-zero“) – počet druhů, které chybí zároveň v obou vzorcích, v kontrastu s počtem druhů které se vyskytují zároveň v obou vzorcích • symetrické – dvojité nepřítomnosti hodnotí stejně jako dvojité přítomnosti (totiž že vyjadřují podobnost mezi vzorky); v ekologii se prakticky nepoužívají • asymetrické – dvojité nepřítomnosti ignorují; nejčastější typ indexů podobnosti v ekologii Zpracování dat v ekologii společenstev

  43. Problém dvojitých nepřítomností (double-zeros) Skutečnost, že druh chybí zároveň v obou snímcích, může znamenat, že: • vzorky leží mimo ekologickou niku druhu • nemůžeme ale říci, zda oba vzorky leží na stejné straně ekologického gradientu mimo niku druhu (a jsou sitedy docela podobné) nebo na stranách opačných (a jsou pak úplně odlišné) • vzorky leží uvnitř ekologické niky druhy, ale druh se ve vzorku nevyskytuje, protože • se tam nedostal (dispersallimitation) • jsme ho přehlédli a nezaznamenali (samplingbias) • nachází se právě v dormantním stadiu a není proto vidět (jednoletky, geofyty) Zpracování dat v ekologii společenstev

  44. Problém dvojitých nepřítomností (double-zeros) • vzorky 1 až 3 jsou seřazeny podle vlhkosti stanoviště – vzorek 1 je nejvlhčí, vzorek 3 nejsušší • vzorek 1 a 3 neobsahují ani jeden mezický druh – vzorek 1 je pro tyto druhy příliš vlhký, vzorek 3 příliš suchý • symetrické indexy podobnosti: dvojitá nepřítomnost mezických druhů bude zvyšovat podobnost vzorků 1 a 3 • asymetrické indexy: dvojité nepřítomnosti budou ignorovány Zpracování dat v ekologii společenstev

  45. Indexy podobnosti pro kvalitativní data a – počet druhů přítomných v obou vzorcích b, c – počet druhů přítomných jen v jednomvzorku d – počet druhů, které chybí v obou vzorcích („double zeros“) Zpracování dat v ekologii společenstev Pokud nebereme v úvahu druhy nepřítomné v obou vzorcích (d), lze zobrazit i pomocí Vennova diagramu  c a b vzorek č. 1 vzorek č. 2

  46. Indexy podobnosti pro kvalitativní data • Jaccardův koeficient J = a / (a + b + c) • Sørensenův koeficient S = 2a / (2a + b + c) • přítomnosti druhu v obou vzorcích (a) přisuzuje dvojnásobnou váhu • Simpsonův koeficient Si = a / [a + min (b,c)] • vhodný pro vzorky velmi odlišné počtem druhů Zpracování dat v ekologii společenstev c a b vzorek č. 1 vzorek č. 2

  47. Indexy podobnosti pro kvantitativní data • např. zobecněný Sørensenův koeficient (procentická podobnost, percentagesimilarity) PS = [2 Σ min (xi, yi)] / Σ (xi + yi) • xi, yi ... kvantitai-tého druhu ve srovnávaných vzorcích • má rozsah od 0 do 1 • pro presenčně absenční data přechází v 2a / (2a + b + c) • velmi vhodný pro ekologická data • percentagedissimilarity (PD, Bray-Curtis index) = 1 – PS Zpracování dat v ekologii společenstev

  48. Vzdálenosti mezi vzorky (distance measures) • všechny indexy podobnosti (kvalitativní i kvantitativní) lze převést na distance D = 1 – S, nebo D = √ (1 – S) • kde D je vzdálenost (distance) a S je podobnost (similarity) • odmocninový převod se používá například pro Sørensenův koeficient • neplatí obráceně (ne všechny vzdálenosti se dají převést na podobnosti – např. Euklidovská vzdálenost) Zpracování dat v ekologii společenstev

  49. Vzdálenosti mezi vzorky (distance measures) • Euklidovská vzdálenost (Euclidean distance) ED = √ Σ (xi – yi)2 • rozsah: od 0 (identické vzorky), horní mez není dána • rozsah hodnot výrazně záleží na použitých jednotkách • míra citlivá na odlehlé body - nevhodná pro ekologická data • tětivová vzdálenost (chord distance, relativizedEuclidean distance) • Euklidovská vzdálenost použitá na datech standardizovaných přes vzorky (by sample norm) • rozsah: od 0 (identické vzorky) do √2 (vzorky nesdílí žádný druh) • Chi-kvadrát vzdálenost (chi-square distance) • málokdy se používá přímo na výpočet vzdálenosti mezi vzorky • vyjadřuje vzdálenost mezi vzorky v unimodálních ordinačních metodách (např. v korespondenční analýze, CA) Zpracování dat v ekologii společenstev

  50. Euklidovská vzdálenostparadox • může se stát, že dva vzorky, které sdílejí některé druhy (vzorky 1 a 3), budou mít větší vzdálenost než dva vzorky, které nesdílí ani jeden druh (vzorky 1 a 2) Eucl (vzorek1, vzorek 2) = √ (0-1)2 + (1-0)2 + (1-0)2 = 1,732 Eucl (vzorek 1, vzorek 3) = √ (0-0)2 + (1-4)2 + (1-4)2 = 4,243 Zpracování dat v ekologii společenstev 1,732 4,243

More Related