1 / 109

Základné pojmy a štatistická terminológia

Základné pojmy a štatistická terminológia. Deskriptívna štatistika. Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK. Sebahodnotenie.

brian-russo
Download Presentation

Základné pojmy a štatistická terminológia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Základné pojmy a štatistická terminológia Deskriptívna štatistika Iveta Waczulíková Peter Slezák Fakulta matematiky, fyziky a informatiky UK Ústav simulačného a virtuálneho medicínskeho vzdelávania LF UK

  2. Sebahodnotenie Kedy použijete štandardnú (smerodajnú) odchýlku SD (standarddeviation) a kedy strednú chybu priemeru SEM (standarderrorofmean)? Aký je rozdiel medzi hladinou významnosti alfa a pravdepodobnosťou p (p – value)? Ako je formulovaná nulová (výskumná) hypotéza a (komplementárne) ako alternatívna? Aké sú predpoklady použitia studentovho t – testu a čo sa tu testuje? Aký je rozdiel medzi koreláciou a lineárnou regresiou? Aký je rozdiel medzi senzitivitou a špecificitou diagnostického testu? Aký je rozdiel medzi pomerom šancí OR (oddsratio) a pomerom rizík RR (risk ratio)?

  3. Namiesto úvodu  Sidney Harris http://www.sciencecartoonsplus.com/index.htm http://www.hsl.unc.edu/Services/Tutorials/EBM/

  4. Úvod do metodológie medicínskeho výskumuVýskumný zámer aexperimentálny / klinický dizajn Pátrame po efekte (o ktorom máme východiskovú predstavu)

  5. Efekt • Ak je zmena v jednej premennej (charakteristike / znaku / faktore) spojená so zmenou v druhej premennej, hovoríme o efekte. • Tieto zmeny môžu byť kvantitatívne alebokvalitatívne. • Typ zmeny a hypotéza o zmene podmieňuje výberštatistickej procedúry • Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie efektov a porozumenie ich podstaty.

  6. V biológii, medicíne (a iných vedách) výsledok náhodného pokusu je vyjadrený reálnym číslom • Tieto čísla vytvárajú reálnenáhodné veličiny(premenné) • Ako často konkrétne hodnoty náhodnej veličiny nastávajú, je matematicky exaktne popísané – rozdelenie pravdepodobnosti • Rozdelenie pravdepodobností môžeme popísať pomocou– distribučnej funkcie; funkcie hustoty rozdelenia pravdepodobnosti(u spojitej veličiny)

  7. Vzťah pravdepodobnosti ku skutočnosti, rozdelenia pravdepodobností Náhodný pokus je pokus konaný za presne definovaných podmienok, výsledok pokusu je dopredu neistý, ale opakovaním pokusu zisťujeme stabilitu frekvencie výskytu možných výsledkov. Teoretický idealizovaný opis – model skutočnosti. Náhodný jav je ľubovoľné tvrdenie o výsledku náhodného pokusu (jav nemožný, jav pravdepodobný, jav istý). Pravdepodobnosť môžeme formálne zaviesť tak, že každému z elementárnych javov j priradíme nezáporné číslo pj tak, že ich súčet je rovný jednej. Náhodná veličina je všeobecne funkcia, ktorá každému elementárnemu javu  priradí hodnotu X() z nejakej množiny možných číselných hodnôt. Pre náhodnú veličinu X tvorí zoznam „dvojíc“ hodnôt x*j a pj (j=1...m) rozdelenie pravdepodobností náhodnej veličiny X (diskrétne alebo spojité).

  8. Užitočné vedieť „Likelihoodis the hypothetical probability that an event that has already occurred would yield a specific outcome. The concept differs from that of a probability in that a probability refers to the occurrence of future events, while a likelihood refers to past events with known outcomes.“ (Fisher)

  9. Otázka na niečo, čo vieme ZMERAŤ a vyjadriť číslom (skórami) Rešerš, predbežné experimenty Výskumná hypotéza– kvalifikovaný odhad o tom, ako fungujú veci. Schéma experimentu, „logistika“. Plánujeme potrebný počet nezávislých pokusov, ktoré môžeme spresniť opakovaním („paralelky“). V experimente testujeme, či dáta podporujú hypotézu. Najlepšie tzv. „fér testom“ – meníme len jeden faktor (NZ premenná) za konšt. podmienok (kontrolné faktory sú konštantné). Vyhodnotenie dátového súboru: deskripcia, testovanie štatistických hypotéz, Formulovanie záverov, nových hypotéz Záverečná správa, prezentácie, publikácie = nezávislé kritické posúdenie výsledkov

  10. Výskumné otázky vedú k testovaniu štatistických hypotéz

  11. Hypothesis tests are procedures for making rational decisions about the reality of effects. Väčšina rozhodnutí v živote vyžaduje výber jednej z viacerých možných alternatív. Takéto rozhodnutie je urobenébez znalosti toho, či je korektné alebo nie; teda je založené na nekompletnej informácii. Racionálnerozhodovanie (decízia) je charakterizované použitím procedúry, ktorá do rozhodovacieho procesu včlení šancu/pravdepodobnosť(likelihood/probability)nastatia daného javu (napr. úspechu liečby). Procedúra musí byť zostavená takým spôsobom, aby každý, kto použije rovnakú informáciu, dospel k tomu istému rozhodnutiu.

  12. Predpoklady úspešného výskumu: komunikujem so školiteľom/vedúcim tímu, mám(e) zmysluplný vedecký zámer a z neho vyplývajúce otázky a hypotézy, viem, čo hľadáme (efekt, koncový bod) a prečo (čo sa má stať, až to potvrdíme) • Mám kvalitný dizajn experimentálnej (klinickej) štúdie: - viem, ako efekt zmeriam (priame, nepriame, náhradné ukazovatele), - viem, aké faktory by mali/mohli pôsobiť na výsledok koncový bod (efekt, koncový bod), viem, ktoré musím zmerať a zaznamenať pre môj model, viem, aké typy analýz dát potrebujem vykonať - mám podľa uvedeného premyslený typ štúdie, štruktúru, včleňovacie a vylučovacie kritériá, spôsob priradenia do skupín, - mám odhadnutú potrebnú veľkosť súboru z hlavného ukazovateľa efektu alebo podľa „najhoršieho scenára“ • Mám súhlas etickej komisie (štúdia na ľuďoch) alebo Štátnej veterinárnej správy (štúdia na zvieratách) • Mám svedomito zmerané (zozbierané) dáta a pripravenú databázu (zakódované subjekty, označené skupiny, formát a kontrola dát (filtrovanie dát), usporiadanie...

  13. Základné štatistické pojmy – vysvetlenie Štatistický súbor je neprázdna konečná množina objektov, ktoré majú spoločné vlastnosti. Rozsah súboru n je počet všetkých prvkov množiny. Štatistické jednotky alebo prvky štatistického súboru sú prvky zvolenej množiny. Štatistické údaje (dáta) sú kvantitatívne údaje zistené skúmaním hromadných javov. Štatistický znak je spoločná vlastnosť štatistických jednotiek (značí sa obvykle x). Hodnoty znaku - jednotlivé údaje znaku - označíme x1, x2 ... x3 Delenie znakov - kvantitatívne a kvalitatívne Zisťovanie hodnôt volených znakov v určitom štatistickom súbore sa nazýva štatistické šetrenie.

  14. Praktické použitieštatistikyv dvoch rovinách • Deskriptívna(popisná) štatistika - umožňuje pozorované dáta redukovať na „uchopiteľné“ štatistické parametre – reprezentatívnu hodnotu a rozptyl. Grafická prezentácia rozdelenie dát rozdelenie pravdepodobností (štatistické rozdelenie) a • Induktívna (inferenčná) štatistika - umožňuje z pozorovaných dát vytvárať všeobecne platné závery, s uvedením stupňa ich spoľahlivosti.

  15. Populácia (základný súbor) - konečný rozsah - nekonečný rozsah Parameter (populačná charakteristika) – je číselná charakteristika populácie (napr. priemerná výška mužov na Slovensku). Jej presná hodnota je obvykle neznáma.

  16. základný súbor-populácia parameter pravdepodobnosť populačný priemer (reprezentatívna hodnota parametra) populačná smerodajná odchýlka (premenlivosť parametra v populácii) výber zo základného súboru (náhodný výber) odhad parametra (štatistika) relatívna početnosť (ni/N) výberový priemer výberová smerodajná odchýlka Populácia a výber – vysvetlenie pojmov

  17. Pohľad na svet prostredníctvom dát J. R. Statist. Soc. A (2011), 174, Part 2, pp. 247–295

  18. Populačný parameter sa snažíme odhadnúť na základe deskripcie výberu z populácie.Presnosť odhadu závisí od kvality experimentálneho dizajnu(metóda výberu, jeho veľkosť (početnosť), merané alebo zaznamenávané charakteristiky apod. Výber(z populácie) • Reprezentatívny výber – výber, kt. dobre odráža štruktúru skúmanej populácie • Selektívny výber (nereprezentatívny) – dáva skreslený výber o študovanej populácii • Zámerný výber - presnosť zovšeobecňujúcich záverov sa opiera o expertné hľadisko (skôr ako o štatistickú metodológiu)

  19. Náhodný výber • Prostý • Mechanický (systematický) • Oblastný(stratifikovaný) • Skupinový • Viacstupňový • Následný experiment/štúdia – zber dát, tvorba a analýza dátového súboru

  20. Premenné/znaky (variables) • Aby sme mohli matematické uvažovanie aplikovať na klinický obraz pacienta, • MRI, CT, EKG, bezpečnosť(safety profile), terapeutický účinok (efficacy trend), účinnosť terapeutického postupu (effectiveness)...musia byť redukované na premenné: • Merania:teplota, TK … • Počty: WBC, ... • Skóre: Papanicolaou, Karnofsky, EDSS, Kurtzke... • Binárne:úspech success / neúspech failure (čoho) ... • Pojem NÁHODNÁ PREMENNÁ

  21. Premenné – základné definície • Premenná • všeobecnejšie ju možno definovať ako veličinu, ktorá môže nadobúdať rôzne hodnoty. V štatistike sa vzťahuje na MERATEĽNÚ vlastnosť, ktorá sa v čase alebo medzi objektami/subjektami typicky mení. • Typy premenných: • Číselné premenné – (možno zmerať) • spojité (koncentrácia onkomarkera) a intervalové (vek) • Vyznačujú sa reprezentatívnou (strednou) hodnotou (najčastejšie vyjadrenou ako priemer alebo medián) a mierou premenlivosti (smerodajná odchýlka k priemeru alebo dolný a horný kvartil k mediánu) • Kategorické premenné (možno zaradiť) • Nominálne – klasifikujú nejakú vlastnosť (genotyp) • Ordinálne – určujú stupeň vlastnosti (cancerstaging). Charakterizujú sa početnosťami (%) v jednotlivých kategóriách

  22. závislé premenné– ich hodnoty môžeme len zmerať alebo registrovať (experimentátor nemá vplyv na to, akú hodnotu prijmú, napr. registrujeme, ako sa objekt zachová na zmenu zadanú experimentátorom). Časté v observačných štúdiách. • nezávislé premenné – ich hodnoty môžeme počas experimentu nastaviť, alebo meniť (sú manipulované experimentátorom, alebo môže ísť o grupovanie-zaradenie do skupín podľa veku, pohlavia (stratifikácia) ap). Sú nezávislé od počiatočných podmienok, vlastností, „sklonov” skúmaných objektov. Časté v randomizovaných kontrolovaných štúdiách. • (regresia)

  23. 100 75 Senzitivita / % 50 25 0 0 25 50 75 100 1-špecificita Závislá vs. nezávislá premennápríklad predikčného modelu Chi2test dobrej zhody medzi experimentálnym a modelovým výsledkom pre df=48: nesignifikantný (P >0,999) Chi2test maximálnej vierohodnosti modelu pre df=6: vysoko signifikantný (P < 0,0001) logit y = - 0,38 - 0,24 x (vek) + 1,25 x (TD) - 7,30 x (SM grade) + 4,28 x (AVM skóre) - 7,04 x (embolizácia) + 1,42 x (iniciálna rýchlosť obliterácie) Hraničný (cut-off) bod = 0,5 Senzitivita 92% Špecificita 94% Pomer pravdepodobností pravdivého odhadu 16,5 Pozitívna predikčná hodnota testu je 97,14%.

  24. Premenné-klasifikácia • Premenné (znaky) primárneho záujmu – nezávislé premenné, ktoré nazývame faktory a ktoré meriame a/alebo nimi istým spôsobom manipulujeme počas experimentu (kontrolujeme). V observačných štúdiách zaznamenávame a triedime. Očakávame, že sú zdrojom variability v sledovanej odpovedi (v závislej premennej). • Pozadie (background, baseline, skresľujúce (confounders), modifikujúce faktory, covariates..) – ich hodnoty (úrovne) môžeme merať (identifikovať), ale nemôžeme ich kontrolovať. Ich zahrnutím do modelu však odstránime variabilitu, ktorú vnášajú do odpovede (hodnoty závislej premennej). • Konštantné premenné môžeme merať aj kontrolovať, ale z rôznych dôvodov ich držíme konštatntné počas trvania štúdie. • Nekontrolovateľné (hard-to-change) premenné, premenné, o ktorých existencii sa vie, ale ktorými sa kvôli podmienkam nedá manipulovať, alebo je ťažké ich merať. Ich vplyv sa čiastočne eliminuje vhodných dizajnom (rozloženie vplyvu v podskupinách, resp. Experimentálnej a kontrolnej skupine randomizovaným výberom a zaslepením - blinding).

  25. Efekt - pripomenutie • Ak je zmena v jednej premennej (charakteristike / znaku / faktore) spojená so zmenou v druhej premennej, hovoríme o efekte. • Tieto zmeny môžu byť kvantitatívne alebokvalitatívne. • Typ zmeny a hypotéza o zmene podmieňuje výberštatistickejprocedúry • Väčšina biomedicínskeho výskumu je zacielená na rozpoznávanie efektov a porozumenie ich podstaty.

  26. Vzťahy medzi závislou a nezávislou premennou A simple statistical mediation model

  27. Nosenie zápaliek Rakovina pľúc fajčenie Confounding • „confounder“ = zavádzajúci faktor, je premenná, ktorá je asociovaná s rizikovým faktorom a je nezávislým rizikovým faktorom pre meraný výsledný efekt (koncový ukazovateľ - outcome)

  28. Faktor potlačujúci efekt (suppressor) Faktor v príčinnej postupnosti (interveningfactor) Zástupný faktor (surrogate factor) Faktor modifikujúci účinok (mediatingvariable, modifier)

  29. Vzájomne korelované faktory(problém multikolinearity) Rizikový faktor Efekt Faktor(y) korelujúce s vybraným rizikovým f. Neznižujú predikčnú schopnosť a spoľahlivosť modelu ako celku, ale zväčšujú štandardné chyby prediktorov. Pr: lipoproteíny: LDL s HDL resp. s celkovým cholesterolom; morfometrické údaje, vek/výška u detí apod. Časovo-závislé faktory ich odlíšenie od fixných faktorov je dôležité pri analýzach prežívania

  30. Typ funkčnej závislosti premenných • diskrétne premennésa menia skokoma môžu prijímať len definované hodnoty celých/racionálnych čísel (typické pre nominálne a ordinálne veličiny, viď ďalej) • spojité premennémôžu prijať ľubovoľné hodnoty obvykle z definovaného intervalu reálnych čísel

  31. Mierka(úrovne merania/pozorovania) • nominálna, ordinálna,intervalová, pomerová • diskrétna, spojitá (continuous)

  32. nominálna – zavedenie disjunktných kategórií (napr. binárna škála), ktoré vyčerpávajú všetky možnosti. Neporovnávame, len rozlišujeme (kódovanie slovných úrovní faktoru = hodnôt premennej) • ordinálna – podobné požiadavky ako u nominálnej škály, ale naviac je usporiadaná (usporiadaný faktor). • intervalová – ešte naviac predpokladá, že medzi susednými usporiadanými hodnotami škály sú v nejakom zmysle rovnaké vzdialenosti. Ide o rozdiel hodnôt. Nula nemusí znamenať neexistenciu vlastnosti/znaku. • podielová (pomerná) – najkomplexnejší údaj, ktorý vyjadruje aj násobok predom definovaného jednotkového množstva. Nula znamená neexistenciu vlastnosti/znaku.

  33. Vyjadrovacie prostriedky štatistiky Následný experiment/štúdia – zber dát, tvorba a analýza dátového súboru Grafy a tabuľky

  34. Formát dát (simulovaná databáza)Dáta časov a možných prognostických faktorov vybraných 11 pacientov s malígnym nálezomvstup: chirurgická intervenciavýstup: úmrtie Kódovanie v programe StatsDirect: Cenzurovanie = 0pre nekompletné dátaoznačenie * alebo + Cenzurovanie = 1pre kompletné dáta (udalosť)

  35. (Bio)medicínske dátové súbory Štandardne: na tvorbu databázy za účelom výskumu je potrebný súhlas etickej komisie. Analytikovi sa databáza odosiela BEZ identifikačných údajov pacienta. Prípady treba očíslovať a lekár musí pre seba zachovať zoznam s jednoznačným priradením. Kódy prípadov sú obvykle v prvom stĺpci. Prvý riadok sú popisky meraných/pozorovaných alebo zaznamenaných charakteristík tak, aby boli JEDNOZNAČNE definované pre danú sadu údajov v stĺpci. Jeden znak / jedna charakteristika = jeden stĺpec. Prvý riadok obvykle „berú “ štat. programy automaticky ako hlavičku - pri zdvojených riadkoch a bunkách hlásia chybu) Každý ďalší riadok sú údaje pre konkrétny prípad / subjekt. Ak nebolo meranie realizované, bunka sa označí * alebo ostane prázdna. Medzi používané skratky patrí n.a. (not applicable, N/A, značí sa aj „x“) Kódy a dáta pacientov nasledujú za sebou BEZ PRERUŠENIA, ČI ZLUČOVANIA BUNIEK. Ak je viac skupín, napr. Patológia vs. Kontrola, v druhom stĺpci, hneď za číslom subjektu, je kód skupiny (môže byť aj text). Napr. 1 (aktívne liečený subjekt), 2 (placebo), prípadne ešte 3 (zdravá kontrola). Alebo E (experimentálna skupina) vs. K (kontrolná skupina) Alebo O (operovaní), F (farmakologicky liečení) N (bez liečby) a podobne. Databázu pred odoslaním analytikovi skontrolujeme – využívame exc. funkcie (filter)

  36. Formát dát (simulovaná databáza)Dáta časov a možných prognostických faktorov vybraných 11 pacientov s malígnym nálezomvstup: chirurgická intervenciavýstup: úmrtie Kódovanie v programe StatsDirect: Cenzurovanie = 0pre nekompletné dátaoznačenie * alebo + Cenzurovanie = 1pre kompletné dáta (udalosť)

  37. Grafické prezentovanie dát - Praktické príklady

  38. A) kategorické dáta grafické alebo tabuľkové zobrazenie vybranej charakteristiky (znaku, premennej) Prezentácia: stĺpcový graf, kumulatívny stĺpcový graf, koláčový graf

  39. Stĺpcové grafy

  40. Kumulatívne stĺpcové grafy

  41. Koláčové grafy

  42. B) Intervalové a spojité dáta • Prezentácia: • pre popisnú štatistiku: ak máme malý počet dát (obvykle „n“ do 30): krabicový graf a „spread plot“ ak máme vyššie počty: krabicový graf a histogram (obálka histogramu nám hovorí o pravdepodobnostnom rozdelení dát) • Pre identifikáciu odľahlých (extrémnych) hodnôt: prednostne „spread plot“, vhodný aj krabicový graf (ďalej nasleduje test) • Pre prezentovanie rozdielov medzi 2 a viac skupinami: stĺpcový graf, krabicový graf (pre vlastným testovaním rozdielov) • Pre prezentovanie vzťahov medzi 2 premennými: XY graf = scatter, (pre vlastným testovaním vzťahov) • Pre prezentovanie vzťahov medzi viac ako 2 premennými: tabuľka (matica) korelačných koeficientov

  43. Histogram Priemer erytrocytov Frequency 10 5 0 6,2 6,4 6,6 6,8 7,0 7,2 7,4 7,6 7,8 8,0 8,2 8,4 8,6 Mid-points for E

  44. Populačná pyramída

  45. Krabicové grafy

  46. po pred 20 25 30 35 40 skóre testu Spread plot

  47. Bodové grafy 95% Prediction Interval Volume LV [cm3] 60 40 20 0 -20 0 5 10 15 LFH [mm]

  48. Spojnicové grafy

  49. 40 35 30 25 20 pred po Ladder plot

More Related