410 likes | 544 Views
Bevezetés a bioinformatikába. Medzihradszky-F ölkl Katalin SzBK & UCSF folkl@cgl.ucsf.edu. Zajlik az eredeti adatfelhalmozás. Megszekvenáltunk egy csomó fehérjét Megszekvenáltunk (úgy, ahogy) néhány genomot És most már a proteomikai laborok/centrumok is adatot adatra halmoznak.
E N D
Bevezetés a bioinformatikába Medzihradszky-Fölkl Katalin SzBK & UCSF folkl@cgl.ucsf.edu
Zajlik az eredeti adatfelhalmozás • Megszekvenáltunk egy csomó fehérjét • Megszekvenáltunk (úgy, ahogy) néhány genomot • És most már a proteomikai laborok/centrumok is adatot adatra halmoznak
Zajlik az eredeti adatfelhalmozás • vannak 2D-gél adatbázisok • Röntgen-krisztallográfián és NMR-en alapuló térszerkezetek • fehérje-komplex és fehérje-hálózat leírások • mindenfélét megjósoló (de hogy?!) szoftverek Iránytűt, nyomolvasót, varázslót, szoftvert, komputert ide !!!
Proteomikához komputer kell • Lehet (csináltam) ismeretlen fehérjét alaposan kiismerni MS-alapon és adatértelmező szoftver nélkül – csak minta-, munka- és időigényes • A korszerű analízishez lekereső program és adatbázis szükségeltetik Összevetjük a mért adatokat a már katalogizált tudásanyaggal
Lekereső programok elé • „peak picking” programok • Kezdetben vala, hogy az analitikus maga mazsolázta végig a spektrumokat • Mostanság ezt az MS-cég által biztosított szoftver teszi • Az eredeti jel többszörös átalakításon esik keresztül • Felbontás? küszöb? Kalibráció?
Lekereső programok • Olyan ez, mint az operációs rendszerek – egységes és tökéletes kellene • Helyette több van • A leggyakrabban használatosakat NEM a készülékgyártó cégek produkálták
SEQUEST I • J. Yates, LCQ ioncsapdára írta • nyilván tökéletes, mert nem fejlesztik • nagyon lassú, drága, és túl sok mindent talál meg • Jellemző módon a féltriptikus peptid az alapbeállítása • Csak házon belül
SEQUEST II • Viszont a Systems biology atyjai és meg sokan ioncsapdákat használnak, és esküsznek rá • Eredményeinek finomítására, rendszerezésére született meg a Peptide és Protein Prophet Keller, A.; Nesvizhskii, A. I.; Kolker, E.; Aebersold, R. Anal. Chem. 2002, 74, 5383-5392. Nesvizhskii AI, Keller A, Kolker E, Aebersold R. Anal. Chem. 2003, 75, 4646-4658.
Mascot (www.matrixscience.com) • John Cottrell, kicsi, de lelkes csapat • állandó megújulás • Ingyen a neten is elérhető – limitációkkal • Saját verzióért CPUnként kell fizetni ABI, Agilent – script a Mascothoz Mascot Destiller – mindent „megemészt”
ProteinProspector • Almost my baby • Nincs ipari háttere • Ingyen hozzáférhető ősverzió, csak egyedi spektrumokra, PMF-re http://prospector.ucsf.edu • Új LC-MS/MS verzió, b-site –meghívásos • megvásárolható az új verzió • belső verzió egyedi, kvantira - tesztelt
Futottak még • Spektrum-Mill – Prospector „ága” (Agilent Technologies) • készülék-gyártók bágyatag próbálkozásai • SwissProt és egyebek kísérletei Lehetnek előnyeik, különleges opcióik, nem használják őket elegen... Mint PC vs MAC?
Fehérje „lerakat” vs adatbázis • Szimpla szekvencia lista vs. • Kimerítő információ raktár
Fehérje „lerakat” vs adatbázis • MS-alapú „azonosításra” az első is megteszi • De ez így elég agytalan: • „hypothetical” protein • „predicted” protein Kiindulási alapnak azért jó
Milyen az ideális adatbázis? • Minden fehérje benne van • Hibátlanul • Olyan formában, ahogy előfordul • Csak egyszer
Milyen az ideális adatbázis? • Benne van, minden, amit már tudunk a fehérjéről (referenciákkal!) Poszt-transzlációs módosítások Térszerkezet Protein-komplexek/hálózatok, aminek a fehérjénk része Funkció
Milyen az ideális adatbázis? • Benne van az is, amit még csak sejtünk • Predikciós programok • Szintén referenciákkal És mindez, könnyen, gyorsan hasznosítható/lekereshető
Valóságos „lerakatok” (repositories) • GenPept • NCBI’s Entrez Protein • NCBI’s RefSeq
GenPept (NCBI ez is) • GenBank Gene Products Data Bank • CSAK lefordított nukleotid szekvenciák • Forrás: kombinált nukleotid adatbázisok DNA Data Bank of Japan (DDBJ) European Molecular Biology Laboratory (EMBL) Nucleotide Sequence Databas GenBank
GenPept • Egy fehérje több „kópiája” • Csupán nukleotid-szekvenciákon alapuló információk • Semmi egyéb rendszerezés A lekereső programok nem használják (így magában)
NCBI’s Entrez Protein • Ebbe aztán beletettek apait, anyait GenPept SwissProt PIR RefSeq Protein Data Bank
NCBI káoszra példa: idézet egy jelentésből 16. A spektrumban 15 csúcsot detektáltunk 13/15 matches (86%). Acc. #: 24664391 Species: UNREADABLE Name: gi|24664391|ref|NP_524076.2| Proteasome beta2 subunit CG3329-PA [Drosophila melanogaster] Acc. #: 7294336 Species: DROSOPHILA MELANOGASTER Name: CG3329-PA Acc. #: 15292263 Species: DROSOPHILA MELANOGASTER Name: LD44234p MW: 29827 Da pI: 8,9 Cov: 42% 12/15 matches (80%). Acc. #: 2582506 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit MW: 29883 Da pI: 8.7 Cov: 33% 12/15 matches (80%). Acc. #: 2582504 Species: DROSOPHILA MELANOGASTER Name: 20S proteasome beta2 subunit MW: 29895 Da pI: 8.7 Cov: 33% A fenti szekvenciák néhány (4-5) aminosavban különböznek egymástól.
NCBI káoszra példa: Mascot találat Mindenféle mesterséges konstrukciót is listáznak
Van azért igazi változatosság is Példa fehérje-variánsok azonosításra (S. mansoni)
NCBI’s Entrez Protein • Ez redundáns csak igazán • De néha az egyedüli forrás • Valami plusz információt már tartalmaz A lekereső programok opciói között többnyire szerepel http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=protein
Reference Sequence collection • „Each RefSeq represents a single, naturally occurring molecule from a particular organism.” • „RefSeq is a synthesis of information, is an interpretation by a particular group at a particular time. http://www.ncbi.nlm.nih.gov/RefSeq/
Adatbázisok • Swiss-Prot • TrEMBL • PIR • UniProt
Swiss-Prot • a legalaposabb (nem hiába, svájci!) • egy fehérjéhez egy azonosító • Részletes bibliográfia – szekvencia-variációk, funkció, térszerkezet, poszt-transzlációs módosítások, asszociáció betegségekkel, fejlődéssel, hálózatokkal stb. Ami nincs benne, még létezhet, fehérje, variáció, poszt-transzlációs módosítás
SwissProt → Sokan abszolút megbízható forrásnak tekintik. Igaz ez?
SWISSPROT Marha fetuin √ Foszforilációról semmi! √ 296 is O-glikozilált, de innen hiányzik Valós variánsok vagy hibák?!
TrEMBL • Translation from EMBL (DDBJ/GenBank) • hogy az új szekvenciák mielőbb elérhetőek legyenek • csak azok a nukleotid szekvenciák, amik még nincsenek a Swiss-Protban
PIR-PSD • Protein Information Resource Protein Sequence Database http://pir.georgetown.edu/ Ha ezt beütöd, a UniProt-hoz jutsz • Egy fehérje „ID – „családokba” szervezve, mindenféle információval ellátva, a genetikai és bibliográfiai adatbázisokhoz keresztreferenciákkal
UniProt (http://www.expasy.uniprot.org/index.shtml) • Swiss-Prot és PIR-PSD és TrEMBL Naponta változik, viszonylag komplett, gondosan gyomlált Talán ezt a legpraktikusabb használni
UniProt (http://www.expasy.uniprot.org/index.shtml) • UniProt Archive (UniParc), a comprehensive non-redundant collection of the protein sequences • UniProt Knowledgebase (UniProtKB), database with rich annotation and extensive cross-referencing • UniProt Reference Clusters databases (UniRef), clustered sets of UniProt proteins based on 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) sequence identity.
Addig jó, míg lúdfűvel meg egérrel dolgozunk... • Sok minden hiányzik a nagy adatbázisokból... Pl. a rizs (felteszem, a Monsanto ül rajta)
Addig jó, míg lúdfűvel meg egérrel dolgozunk... • segíthet „the Institute of Genomic Research” - http://www.tigr.org/ • meg a kismillió maszek genomiális adatbázis, feltéve, hogy akarnak együttműködni • ha van saját lekeresőd, és az adatbázis letölthető – finom • ha tudsz de novo szekvenálni - BLAST
Áradat • Nőnek az adathalmazok • Rengeteg különböző adatlerakat, adatbázis keletkezett mostanában • Próbáljuk gátak közé szorítani őket • egységesítés • Egyszerűsítés Ez utóbbi néha csak szőnyeg alásöpri a szemetet (problémát)
Nagy adathalmazok • MudPIT kísérlet, SCX, LCMS – 55 ezer CID • ezt már csak a gép „nézi végig” • automatizált adat-analízis – pontozás, hol a hihetőségi határ • STATISZTIKA! - nagyobb adatbázis jobb • Random adatbázisok ellenőrzésre
Nagy adathalmazok • Nemcsak az analízis, a jelentés/dokumentáció is komplikált • Peptideket azonosítunk • De azonosítjuk-e a fehérjéket?
Rank D Acc # Shared Species 1 Q8N175 23 HUMAN 1-1 0 P13645 23 HUMAN 1-2 0 Q14664 17 HUMAN 1-3 14 P35527 15 HUMAN 1-13 0 Q7Z3Y7 3 HUMAN 1-14 0 Q7Z3Y8 3 HUMAN 1-15 0 Q7Z3Z0 3 HUMAN 1-18 0 Q6ZP84 3 HUMAN 1-21 0 P08779 3 HUMAN 1-22 0 P02533 3 HUMAN 1-29 0 Q7Z3Y9 2 HUMAN 1-38 0 Q6ZPD6 2 HUMAN 1-46 0 Q2M2I5 1 HUMAN 1-47 0 P13646 1 HUMAN 1-48 0 Q9NXG7 1 HUMAN 1-52 1 Q04695 2 HUMAN 1-56 1 Q8N1P6 2 HUMAN 1-71 0 Q99456 1 HUMAN 1-73 0 Q2TAZ7 1 HUMAN 1-75 0 P08727 1 HUMAN 1-76 0 P19012 1 HUMAN Rank Acc # Num Unique Species 1 Q8N175 23 HUMAN Azonosítjuk-e a fehérjéket? Csak a nyertest Mindent felsorolunk
Mit adjunk meg? • Nem egyértelmű • Viták és egyeztetés tárgya Egyáltalán, mi is az a humán/egér, agyi/máj/plazma proteom?!
HUPO • Vannak/lesznek nemzetközi standard követelmények az adatok dokumentálására • Remélhetőleg az eszközöket is biztosítják majd hozzá