1 / 32

Bioinformatika Predikce genů, Fylogenetická analýza

Bioinformatika Predikce genů, Fylogenetická analýza. http://bio.img.cas.cz/P r fUK200 2. Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz. Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz. Predikce genů.

elvis
Download Presentation

Bioinformatika Predikce genů, Fylogenetická analýza

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. BioinformatikaPredikce genů, Fylogenetická analýza http://bio.img.cas.cz/PrfUK2002 Jiří Vondrášek Ústav organické chemie a biochemie vondrasek@uochb.cas.cz Jan Pačes Ústav molekulární genetiky hpaces@img.cas.cz

  2. Predikce genů Založena na nestejném informačním obsahu v kódujících a nekódujících oblastech (kódující potenciál). Rozdílné metody pro prokaryotní a eukaryotní geny. Potřebujeme již existující data. • Principy metod • homologie (exofish, ..) • statistické metody (codonuse, genscan, ..) • neuronové sítě (genemark, ..)

  3. Výběr kodónů Leucin Rhodobacter capsulatus antikodón počet % CUA 3 <1 CUC 119 16 CUG 458 60 CUU 157 20 UUA 0 0 UUG 27 3 Escherichia coli % 4 9 52 10 11 13

  4. Predikce genů - statistický výpočet Pravděpodobnost výskytu znaku (řetězce) na pozici i: Pi= fi / Sf Pravděpodobnost výskytu určitého úseku (okna): Pw= P1 . P2 .. Pwkde w je délka úseku = SlogPikdei =1..w Pro daný úsek získáme šest hodnot, kterénormujeme, např: CPf= CPi / S CPkde i = 1..6

  5. codonuse • grafické rozhraní ke statistickému výpočtu • používá dicodon preferences • variabilní okno při prohledávání

  6. CRITICA • prokaryotické geny • hledání RBS (ribosomal binding site, • Shine-Dalgarnova sekvence) • Princip: • TBLASTP proti proteinové databázi a vytypování "jistě" kódujících sekvencí (většinou nekompletních genů). • Vytvoření statistického modelu. • Predikce genů. • Vytvoření dalšího statistického modelu a predikce genů.

  7. Genscan • eukaryotické geny • počítá různě první, prostřední a poslední exon • promotory, terminátory, polyA • různé statistické parametry pro různé GC • www: http://genes.mit.edu/GENSCAN.html

  8. Genscan - příklad GENSCAN 1.0 Date run: 31-Oct-100 Time: 15:54:20 Sequence HERV17_004640 : 40714 bp : 37.79% C+G : Isochore 1 ( 0.00 - 43.00 C+G%) Parameter matrix: HumanIso.smat Predicted genes/exons: Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr.. ----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ 1.01 Init + 1825 1853 29 0 2 86 71 45 0.579 1.72 1.02 Term + 3886 4075 190 1 1 85 44 198 0.941 11.04 1.03 PlyA + 4961 4966 6 1.05 2.00 Prom + 6668 6707 40 -4.65 2.01 Init + 17251 17375 125 0 2 45 72 80 0.590 1.81 2.02 Term + 20137 20329 193 1 1 85 43 196 0.990 10.71 2.03 PlyA + 20809 20814 6 1.05 3.08 PlyA - 21608 21603 6 -3.24 3.07 Term - 22315 21651 665 2 2 -17 55 522 0.952 31.44 3.06 Intr - 24268 22592 1677 2 0 81 94 2124 0.885 198.67 3.05 Intr - 24877 24728 150 2 0 34 91 101 0.783 4.21 3.04 Intr - 29976 29878 99 1 0 48 111 82 0.473 5.66 3.03 Intr - 31296 31170 127 0 1 89 82 101 0.997 8.93 3.02 Intr - 32563 32418 146 2 2 46 70 132 0.303 6.28 3.01 Init - 33114 33006 109 0 1 79 12 93 0.406 1.25 3.00 Prom - 35592 35553 40 -5.85 4.00 Prom + 36433 36472 40 -4.25 4.01 Init + 37863 37909 47 2 2 71 58 16 0.307 -2.89 4.02 Intr + 38032 38102 71 1 2 33 67 79 0.531 -1.79 4.03 Term + 38614 39059 446 2 2 66 49 276 0.577 15.91 4.04 PlyA + 39744 39749 6 1.05 Suboptimal exons with probability > 0.100 Exnum Type S .Begin ...End .Len Fr Ph B/Ac Do/T CodRg P.... Tscr.. ----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------ S.001 Init + 2937 3136 200 2 2 67 -22 154 0.301 0.72 S.002 Intr + 3239 3325 87 2 0 43 23 121 0.358 -0.73 S.003 Intr + 17250 17375 126 0 0 66 72 94 0.141 4.47 S.004 Init + 17311 17375 65 0 2 55 72 45 0.204 0.27 S.005 Intr - 24927 24728 200 2 2 12 91 115 0.146 2.27 S.006 Intr - 25129 25003 127 2 1 51 92 37 0.117 -0.78 S.007 Intr - 29973 29878 96 1 0 44 111 87 0.473 5.66 S.008 Intr - 32589 32418 172 2 1 19 70 151 0.336 5.42 S.009 Intr - 32563 32427 137 2 2 46 70 116 0.122 4.97 S.010 Intr - 32589 32427 163 2 1 19 70 135 0.114 3.86 S.011 Intr - 32857 32804 54 0 0 104 103 2 0.262 0.48 S.012 Init - 33114 33008 107 0 2 79 17 87 0.296 0.46 S.013 Init + 37062 37067 6 2 0 53 68 1 0.115 -4.38 S.014 Intr + 38237 38315 79 1 1 35 38 94 0.175 -2.69 S.015 Intr + 38270 38315 46 1 1 81 38 59 0.170 -2.74 S.016 Term + 38623 39059 437 2 2 55 49 266 0.139 13.86 S.017 Term + 38872 39059 188 2 2 62 49 243 0.212 14.47 Predicted peptide sequence(s):

  9. Programy a www servery • Rozcestník: • http://www.hgc.ims.utokyo.ac.jp/ • /~katsu/genefinding/programs.html • Obecné a multi: • http://dot.imgen.bcm.tmc.edu:9331/seq-search/gene-search.html • http://bioweb.pasteur.fr/seqanal • Jednotlivé programy: • http://genes.mit.edu/GENSCAN.html • http://www.tigr.org/tdb/glimmerm/glmr_form.html • http://www.tigr.org/~salzberg/veil.html • http://www.tigr.org/~salzberg/morgan.html • http://kicy.genoscope.cns.fr/cgi-bin/exofish_kicy.cgi • http://www.fruitfly.org/~martinr/doc/genie.html • http://www.resp-sci.arizona.edu/genlab/genehunter.htm

  10. Fylogenetická analýza Odhaduje evoluční souvislosti mezi daty Výchozí předpoklady: kumulace jednotlivých změn změny jsou náhodné přibližně stejná evoluční rychlost (molekulární čas)

  11. Multile alignment

  12. Evoluční stromy - terminologie • nody (uzly) • vnitřní • vnější • větve • topologie stromu • bifurkační strom • aditivní strom • ultrametrický strom • kořen (root) stromu • pravdivý (korektní) • odvozený

  13. Evoluční stromy - příklad ( ( ( ( polyA_26:0.042779, HERV17_27:0.049179 ):0.008643, polyA_410:0.045034 ):0.001912, ( ( polyA_20:0.039953, HERV17_15:0.034230 ):0.003074, HERV17_76:0.041414 ):0.002812 ):0.001440, polyA_30:0.042838, ( polyA_99:0.052972, HERV17_19:0.041888 ):0.003257 )

  14. Evoluční stromy - příklad Evoluční strom pTR5 rodiny lidských endogenních retrovirů

  15. Evoluční stromy - tvorba • Algoritmické metody - rychlé, dávají jednoznačný výsledek, ale ne vždy nejlepší (lokální optimum). • Optimalizační metody - pomalejší, ale naleznou globální optimum. • Požadavky na vstupní sekvenční data: • Alignment pouze homologních částí • Vynechat gaps • (Stromy založené na binárních datech, jako je restrikční analýza nebo unikatní inzerce a delece.)

  16. Algoritmické (distanční) metody Metoda: shluková analýza Vstup: matice distancí (substituční model) • UGPMA (Unweighted pair group method with • arithmetic averages) • WGPMA • Neighbour-joining

  17. Neighbour-joining Star decomposition method

  18. Substituční modely • Pro DNA: • Jednoparametrická: Jukes-Cantor • Dvouparametrická: Kimura • Transice: purin - purin • Transverze: pyrimidin - purin • Pro proteiny: • Substituční matice (Blosum etc)

  19. Matice distancí 9polyA_26 polyA_30 0.1102polyA_20 0.1144 0.1027polyA_99 0.1326 0.1100 0.1237polyA_410 0.1089 0.1009 0.1067 0.1150HERV17_27 0.1070 0.1263 0.1285 0.1504 0.1198HERV17_76 0.0960 0.1024 0.0953 0.1221 0.1036 0.1188HERV17_19 0.1045 0.0994 0.1019 0.1097 0.1059 0.1304 0.0975HERV17_15 0.0980 0.0975 0.0841 0.1170 0.0977 0.1127 0.0860 0.0927

  20. Optimalizační metody Metoda: hledání optimálního stromu Vstup: multiple alignment ·parsimonie (parsimony) ·maximální věrohodnost (maximumlikehood - ML) ·párové distanční metody (pairwise distance methods).

  21. Parsimonie A C B D A B C D A C D B A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA

  22. Parsimonie 1 A C 1 1 1 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B

  23. Parsimonie 2 A C 1 + 1 1 + 2 1 + 2 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B

  24. Parsimonie 3 A C 2 + 2 3 + 1 3 + 2 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B

  25. Parsimonie 4 A C 4 + 1 4 + 2 5 + 2 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B

  26. Parsimonie 5 A C 6 7 8 B D A: TATGTTC B: TATTTTC C: TACGTAC D: GACTTAA A B C D A C D B

  27. Optimalizační metody Parsimonie nebere v úvahu délky větví a pravděpodobnosti jednotlivých přechodů Maximální věrohodnost vybírá stromy, kde nepravděpodobné události jsou na delších větvích

  28. Testování topologie Bootstrap: výběr s opakováním Jack Knife: výběr bez opakování, ale menší počet sekvencí

  29. Kořen stromu

  30. Kořen stromu

  31. Programy http://geta.life.uiuc.edu/~nikos/LINKS/biocomputing_servers.html http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html http://evolution.genetics.washington.edu/phylip/software.html

  32. Dodatky Pseudogeny: poměr synonymních a nesynonymních mutací

More Related