420 likes | 654 Views
Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri. Lekciju saraksts. WoK. Komerciāla datu bāze atšķirībā no PubMed Relatīvi selektīva – indeksē tikai augstas kvalitātes izdevumus Labas meklēšanas iespējas un papildus bonusi
E N D
Bioloģiskās informācijas datubāzes. Informācijas meklēšanas un iegūšanas sistēmas Piemēri
Lekciju saraksts Mikrobioloģijas un biotehnoloģijas katedra
WoK • Komerciāla datu bāze atšķirībā no PubMed • Relatīvi selektīva – indeksē tikai augstas kvalitātes izdevumus • Labas meklēšanas iespējas un papildus bonusi • Saistīta ar JournalCitationReports datu bāzi (JournalImpactFactors) un autoru citējamību Mikrobioloģijas un biotehnoloģijas katedra
JournalImpactFactor • Žurnāla IF ir vidējais reižu skaits noteiktā gadā, ko šī žurnāla raksti ir tikuši citēti iepriekšējos divos gados • Žurnāla IF aprēķina izdalot citātu skaitu noteiktā gadā ar šajā žurnālā publicēto rakstu skaitu iepriekšējos divos gados Piemēram, žurnālā XYZ 2008. - 2009. gadā ir publicēti 200 raksti, uz kuriem 2010. gadā vidēji ir 400 atsauces (citāti). Žurnāla XYZ IF 2010. gadā ir 2 • IF mainās pa gadiem atkarībā no atsauču skaita • IF ņem vērā gan atsauces no citiem žurnāliem, gan arī pašcitēšanos • IF raksturo žurnālu, nevis konkrētu šajā žurnālā publicētu rakstu Mikrobioloģijas un biotehnoloģijas katedra
Autoru citējamību raksturojoši rādītāji • H – indekss (Hirša indekss) • H – indekss ir noteikta autora publikāciju skaits h, uz kurām katrai ir vismaz h atsauces • Piemēram, autoram A.B.C. kopā ir 30 publikācijas. Tās ranžējot pēc atsauču skaita nosaka, ka uz 12 publikācijām ir vairāk nekā 12 atsauces, t.i., h-indekss ir 12 Hirsch (2005) Anindex to quantifyanindividual’sscientificresearchoutput. PNAS, 102:16569 Mikrobioloģijas un biotehnoloģijas katedra
Harzing’sPublishorPerish • PoP izmanto GoogleScholar datus (http://scholar.google.com) • PoP ir datorprogramma, kas izmantojot GoogleScholar datus par autoru vai žurnālu rakstiem izrēķina citējamības rādītājus Kopējais publikāciju skaits, atsauču skaits uz šīm publikācijām, dažādi indeksi http://www.harzing.com/pop.htm Mikrobioloģijas un biotehnoloģijas katedra
Latvijas zinātnieku publikācijas 2000 – 2011 (oktobris) Mikrobioloģijas un biotehnoloģijas katedra
NCBI Bookshelf Mikrobioloģijas un biotehnoloģijas katedra
NCBI OMIM (OnlineMendelianInheritancein Man) • Literatūras datu bāze par cilvēka iedzimtajām slimībām • Ar iedzimtajām slimībām saistīto gēnu katalogs ar literatūras atsaucēm un saitēm uz sekvencēm un citiem resursiem Mikrobioloģijas un biotehnoloģijas katedra
OMIM statistika Mikrobioloģijas un biotehnoloģijas katedra
Fenilketornūrija • Slimības apraksts, klīniskās īpašības, defektīvais gēns, ģenētiskās izmaiņas, >200 literatūras atsauču Mikrobioloģijas un biotehnoloģijas katedra
Nukleotīdu datu bāze Mikrobioloģijas un biotehnoloģijas katedra
Nukleotīdu datu bāze • Nukleotīdu datu bāze ir galvenā (un lielākā) GenBank sastāvdaļa • Lai to padarītu puslīdz izmantojamu, nukleotīdu sekvenču dati ir sadalīti kategorijās Corenucleotide – augstas kvalitātes sekvences EST – ExpressedSequence Tags – zema kvalitāte GSS – GenomeSurveySequences – zema kvalitāte RefSeq – visaugstākās kvalitātes pārbaudītas un zināmas funkcijas gēnu sekvences Unigene – no EST datiem rekonstruēto gēnu transkriptu sekvences Mikrobioloģijas un biotehnoloģijas katedra
EST iegūšanas shēma Mikrobioloģijas un biotehnoloģijas katedra
EST kvalitāte, unigēni Mikrobioloģijas un biotehnoloģijas katedra
Statistika par EST datu bāzi Mikrobioloģijas un biotehnoloģijas katedra
Teksta meklēšana nukleotīdu datu bāzē • Meklēt var gan pēc sekvenču iesniedzēja vārda, gan organisma, gan gēna nosaukuma. To visu var un vajag apvienot, lai veiktu specifisku meklēšanu • Piemēram, “homo sapiens[organism] AND interferon-alpha 13” • Ja zināms GenBank identifikators, vislabāk meklēt pēc tā (piemēram, X75934) Mikrobioloģijas un biotehnoloģijas katedra
GenBank ieraksts Locus – ietver lokusa nosaukumu, sekvences tipu un tmldz. Lokusa nosaukums visbiežāk ir tas pats Accessionnumber, dažreiz ar info par organisma sugu . Ir unikāls, var mainīties Accession – uzskaites numurs. To piešķir sekvencei, kad to iesniedz GenBank. Tas ir numurs, ko norāda publikācijās. Accesionir unikāls un stabils numurs. References sekvencēm ir specifiski numuri: NT_123456 constructed genomic contigs NM_123456 mRNAs NP_123456 proteins NC_123456 chromosomes Versija un GI – Versija sastāv no Accessionnumber ar numuru, kas uzskaita, cik reizes sekvence mainīta. GI ir paralēla numerācija Accession numuram, bet katru reizi, kad sekvence tiek izmainīta, tai tiek piešķirts jauns GI Mikrobioloģijas un biotehnoloģijas katedra
GenBank ieraksts - īpašības Mikrobioloģijas un biotehnoloģijas katedra
GenBank ieraksts - sekvence Mikrobioloģijas un biotehnoloģijas katedra
Ko tālāk darīt ar atrasto sekvenci? • GenBank formāts ir informatīvs un cilvēkam viegli lasāms, bet tas nav viegli izmantojams dažādās DNS analīzes programmās, tāpēc DNS secību iespējams eksportēt FASTA formātā • Apskatīt DNS secības kodēto aminoskābju sekvenci un ar to saistīto informāciju • Iegūt tālāku informāciju par sekvenci iepazīstoties ar saistītajiem literatūras avotiem • Identificēt radniecīgas sekvences izmantojot homoloģijas meklēšanas programmas BLAST Mikrobioloģijas un biotehnoloģijas katedra
GenBank proteīnu datu bāzes • http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein • cyclic nucleotide receptor protein AND Escherichia coli[ORGN] • CRP ir universāls transkripcijas faktors, kas regulē ogļhidrātu metabolismu baktēriju šūnās, tā aktivitāti regulē cAMP • Gēns klonēts un sekvenēts jau 1982. gadā, zināma proteīna struktūra • Apskatīsim P0ACJ8 Mikrobioloģijas un biotehnoloģijas katedra
CRP Mikrobioloģijas un biotehnoloģijas katedra
CRP – konservatīvie domēni Mikrobioloģijas un biotehnoloģijas katedra
CRP – proteīna struktūra Mikrobioloģijas un biotehnoloģijas katedra
CRP – proteīna struktūra Mikrobioloģijas un biotehnoloģijas katedra
Vēl viens piemērs... • hypotheticalprotein AND homosapiens[ORGN] • 17533 ieraksti proteīnu datu bāzē 2009 • 10975 ieraksti proteīnu datu bāzē 2011 Mikrobioloģijas un biotehnoloģijas katedra
Taksonomijas datu bāze Mikrobioloģijas un biotehnoloģijas katedra
Taksonomijas datu bāze – Eukaryota Mikrobioloģijas un biotehnoloģijas katedra
SNP datu bāze • SNP – visbiežāk sastopamais ģenētiskā polimorfisma veids Mikrobioloģijas un biotehnoloģijas katedra
SNP datu bāze • http://www.ncbi.nlm.nih.gov/SNP/ • ss – submitted SNP, rs – reference SNP Mikrobioloģijas un biotehnoloģijas katedra
Informācijas meklēšana SNP datu bāzē • Lai atrastu SNP, noteiktā gēnā, vislabāk sākt ar Entrez meklēšanu, atrast gēnu, tad izmantot “Link” uz SNP datu bāzi • Var arī izmantot BLASTN programmu, lai SNP datu bāzē atrastu sekvences (ar SNP), kas homologas interesējošam gēnam • Var meklēt SNP izmantojot GenBankAccession vai arī SNP identifikatorus Mikrobioloģijas un biotehnoloģijas katedra
CDD (ConservedproteinDomainDatabase) • http://www.ncbi.nlm.nih.gov/sites/entrez?db=cdd • Proteīni bieži sastāv no dažādiem domēniem, kuru sekvence un struktūra var būt saglabāta evolucionāri attālos organismos • CDD satur proteīnu domēnu sekvenču daudzkārtējus salīdzinājumus, kas ļauj raksturot proteīnus ar nezināmu struktūru Mikrobioloģijas un biotehnoloģijas katedra
CDD (ConservedproteinDomainDatabase) Mikrobioloģijas un biotehnoloģijas katedra
CDD • CDD datubāze – labi anotētu proteīnu sekvenču salīdzinājumu datubāze gan domēniem, gan pilna garuma proteīniem • CDTree – līdzeklis proteīnu sekvenču un to evolucionārās radniecības raksturošanai • CD-Search – proteīnu domēnu meklēšana izmantojot BLAST homoloģijas analīzi • CDART – proteīnu domēnu arhitektūras raksturošana Mikrobioloģijas un biotehnoloģijas katedra
CD meklētājs Mikrobioloģijas un biotehnoloģijas katedra
CD meklētājs Mikrobioloģijas un biotehnoloģijas katedra
CDART (MLA13) Mikrobioloģijas un biotehnoloģijas katedra
Clustersoforthologousgroups COG • COG datubāze satur proteīnu sekvenču salīdzinājumu, kas atbilst galvenajām filoģenētiskajām grupām • Katrs COG satur individuālus proteīnus vai paralogu grupas vismaz no 3 attālām filoģenētiskām grupām un tādējādi atbilst senam konservatīvam domēnam Mikrobioloģijas un biotehnoloģijas katedra
PopSet (Populationstudydata Sets) • http://www.ncbi.nlm.nih.gov/sites/entrez?db=popset • PopSet ir homologu DNS sekvenču grupa, kas iegūta no vienas sugas dažādiem indivīdiem, vai arī dažādu sugu pārstāvjiem, lai pētītu to evolucionārās attiecības • PopSet dati bieži tiek iesniegti GenBank kā daudzkārtējs sekvenču salīdzinājums Mikrobioloģijas un biotehnoloģijas katedra
PopSet piemērs Mikrobioloģijas un biotehnoloģijas katedra