1 / 51

PREDIZIONE DELLA STRUTTURA TERZIARIA

PREDIZIONE DELLA STRUTTURA TERZIARIA. Conoscere la struttura tridimensionale delle proteine e’ essenziale per capire la loro funzione molecolare. PREDIRE LA STRUTTURA DI UNA PROTEINA DALLA SEQUENZA E’ UN PROBLEMA NON RISOLTO NELLA BIOLOGIA STRUTTURALE.

Download Presentation

PREDIZIONE DELLA STRUTTURA TERZIARIA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. PREDIZIONE DELLA STRUTTURA TERZIARIA

  2. Conoscere la struttura tridimensionale delle proteine e’ essenziale per capire la loro funzione molecolare

  3. PREDIRE LA STRUTTURA DI UNA PROTEINA DALLA SEQUENZA E’ UN PROBLEMA NON RISOLTO NELLA BIOLOGIA STRUTTURALE

  4. La determinazione sperimentale delle strutture terziarie e’ troppo lenta rispetto alla velocità di accumulo delle sequenze amminoacidiche. C’è una forte discrepanza tra il numero di sequenze ed il numero di strutture note

  5. In assenza di strutture sperimentali, • i metodi computazionali si propongono • di assegnare modelli 3D contribuendo • alla caratterizzazione delle proteine • genomiche. • Un modello fornisce molte informazioni sulla funzione della proteina in termini di proprietà dei residui. • Le informazioni possono essere utilizzate per studi mutazionali o di drug-design.

  6. Attualmente non esiste un programma al computer che può simulare i processi che avvengono durante il ripiegamento di una catena polipeptidica nella sua struttura 3D.

  7. Statistica e regole empiriche sono utilizzati nel predire le strutture proteiche.

  8. METODI DI PREDIZIONE I metodi per la predizione della struttura tridimensionale delle proteine possono essere suddivisi in tre categorie principali: 1. modelling per omologia 2. riconoscimento del fold Evoluzione proteica 3. predizione ab initio

  9. Evoluzione delle proteine Proteine omologhe: Si sono evolute da un ancestore comune Simili in funzione e struttura. Identità di sequenza > 20%. Il “core” (formato da elementi alfa e beta impaccati) è più conservato dei loops Proteine analoghe Simile fold 3D (è mantenuta un’architettura favorevole ma non la funzione). Identità di sequenza <20% (10% tipico).

  10. Similarita’ e omologia Due sequenze sono simili se possono essere allineate in modo che molti ammino acidi corrispondenti siano identici o simili. Tecnicamente due o piu’ sequenze possono essere definite omologhe se derivano da un progenitore comune. L’omologia tra due sequenze si deduce dalla loro similarità in sequenza o funzione.

  11. Esiste una relazione (non biunivoca) fra similarita’ in sequenza e similarita’ in struttura. [Chothia & Lesk, EMBO J. (1986) 5: 823-826] 2,5 2,0 1,5 r.m.s.d.tra atomi della catena principale del core 1,0 0,5 0,0 100 75 50 25 0 % di residui identici nel core proteico

  12. Si applica quando è possibile identificare una proteina di struttura nota (un templato, cioè uno stampo) la cui sequenza sia simile a quella della sequenza della proteina data. In questo caso si puo’ utilizzare la struttura del templato come riferimento per costruire il modello della proteina data. In generale il modello che si ottiene è piuttosto affidabile. MODELLING PER OMOLGIA

  13. RICONOSCIMENTO DEL FOLD Nel caso in cui non si trovino proteine di struttura nota, ci si puo’ affidare a tecniche dette di threading, in cui si cerca di identificare il fold (la generica forma della struttuta terziaria) tridimensionale più compatibile (anche in assenza di buona similarità di sequenza) con la sequenza aminoacidica della proteina di cui si voglia modellare la struttura. Metodi di riconoscimento di un fold sono attualmente meno affidabili dei modelli per omologia

  14. PREDIZIONE ab initio Nei metodi ab initio, il ripiegamento di una proteina viene simulato in silicio, con metodi computazionali basati su potenziali che simulano le vere forze di interazione tra gli atomi della proteina e con il solvente.

  15. MODELLING PER OMOLOGIA Si applica quando è possibile identificare una proteina di struttura nota (stampo o ‘template’) la cui sequenza sia simile a quella della proteina data. In questo caso si puo’utilizzare la struttura del template come riferimento per costruire il modello della proteina data.

  16. STADI DELLA PROCEDURA DI MODELLING PER OMOLOGIA • Analizzare la sequenza da modellare • Identificare il migliore template. • Allineare accuratamente le sequenze. • Modellare i segmenti della catena principale che siano strutturalmente conservati tra le due proteine. • Modellare le regioni strutturalmente variabili (per lo • più i loops) che connettono le regioni di struttura secondaria. • Modellare le catene laterali della proteina a struttura • non nota. • Rifinire il modello.

  17. ANALISI DELLA SEQUENZA La sequenza della proteina di interesse deve essere analizzata con attenzione in modo da identificare eventuali regioni coiled-coil o transmembrana che dovranno essere trattate separatamente ed evidenziare, se possibile, domini discreti da modellare separatamente Motivo strutturale trovato in proteine fibrose, in alcune proteine che legano DNA and in molte proteine di fusione della membrana virale. Consiste di due o più eliche che formano un “twist”.

  18. STADI DELLA PROCEDURA DI MODELLING PER OMOLOGIA • Analizzare la sequenza da modellare • Identificare il migliore template. • Allineare accuratamente le sequenze. • Modellare i segmenti della catena principale che siano strutturalmente conservati tra le due proteine. • Modellare le regioni strutturalmente variabili (per lo • più i loops) che connettono le regioni di struttura secondaria. • Modellare le catene laterali della proteina a struttura • non nota. • Rifinire il modello.

  19. SELEZIONE DELLA PROTEINA TEMPLATO Nella maggioranza dei casi, due proteine con un’ identità di sequenza superiore al 30% conservano una similarità di struttura che consente di utilizzarne una per costruire il modello per omologia dell’altra . Tanto maggiore è l’identità di sequenza tra due proteine, tanto maggiore risulta la similarità delle loro strutture tridimensionali.

  20. SELEZIONE DELLA PROTEINA TEMPLATO • Sebbene le strutture proteiche attualmente conosciute sono 23261, molte di queste sono simili. • Le strutture proteiche sono più conservate delle loro sequenze. • Durante l’evoluzione inserzioni e delezioni avvengono nelle regioni dei loops senza modificare il fold della proteina

  21. SELEZIONE DELLA PROTEINA TEMPLATO Ricerca di similarità Apparentemente facile Facile per l’uomo, difficile per il computer

  22. Similarità di sequenza MGPRARPALLLLMLLQTAVLQGRLLRSHSLHYLFMGASEQDLGLSLFEALGYVDDQLFVFYDHESRRVEPRTPWVSSRISSQMWLQLSQSLKGWDHMFTVDFWTIMENHNHSKESHTLQVILGCEMQEDNSTEGYWKYGYDGQDHLEFCPDTLDWRAAEPRAWPTKLEWERHKIRARQNRAYLERDCPAQLQQLLELGRGVLDQQVPPLVKVTHHVTSSVTTLRCRALNYYPQNITMWLKDKQPMDAKEFEPKDVLPNGDGTYQGWITLAVPPGEEQRYTCQVEHPGLDQPLIVIWEPSPSGTLVIGVISGIAVFVVILFIGILFIILRKRQGSRGAMGHYVLAERE MRVTAPRTLLLLLWGAVALTETWAGSHS MRYFHTSVSRPGRGEPRFITVGYVDDTLF VRFDSDAASPREEPRAPWIEQEGPEYWDR ETQICKAKAQTDREDLRTLLRYYNQSEAG SHTLQNMYGCDVGPDGRLLRGYHQDAYD GKDYIALNEDLSSWTAADTAAQITQRKWE AARVAEQLRAYLEGECVEWLRRYLENGKE TLQRADPPKTHVTHHPISDHEATLRCWALG FYPAEITLTWQRDGEDQTQDTELVETRPAG DRTFQKWAAVVVPSGEEQRYTCHVQHEGL PKPLTLRWEPSSQSTVPIVGIVAGLAVLAVV VIGAVVAAVMCRRKSSGGKGGSYSQAASA TVPRALMCLSQ Facile per il computer, difficile per l’uomo Omologia di sequenza è un carattere qualitativo: fa riferimento a una relazione evolutiva. La similarità è espressa in termini quantitativi: fa riferimento al grado di similitudine che viene misurato tra due sequenze previamente allineate.

  23. Quantificazione di similarità di sequenza Programma come BLAST compara la sequenza CFTR (425-635) con le sequenze nel database per identificareproteine omologhe. HIGH SCORE: identifica la similarità SUM PROBABILITY: misura la probabilità di un accoppiamento casuale o meglio la somma di queste probabilità, più le molecole sono simili più questo valore è piccolo.

  24. SELEZIONE DELLA PROTEINA TEMPLATO Risultato di BLASTP Lipid A export ATP-binding/permease protein msbA Belongs to the ABC transporter family. MsbA subfamily. PDB1JSQ; 12-SEP-01.

  25. SELEZIONE DELLA PROTEINA TEMPLATO Risultato di BLASTP PER LA PROTEINA TEMPLATO

  26. SELEZIONE DELLA PROTEINA TEMPLATO • Le sequenze selezionate devono presentare una similarità (% positives) almeno del 40%. • In questo caso si possono considerare omologhe. • La similarità deve essere distribuita lungo tutta la sequenza proteica. • Se la proteina è multidominio la similarità deve essere riferita all’interno del dominio.

  27. STADI DELLA PROCEDURA DI MODELLING PER OMOLOGIA • Analizzare la sequenza da modellare • Identificare il migliore template. • Allineare accuratamente le sequenze. • Modellare i segmenti della catena principale che siano strutturalmente conservati tra le due proteine. • Modellare le regioni strutturalmente variabili (per lo • più i loops) che connettono le regioni di struttura secondaria. • Modellare le catene laterali della proteina a struttura • non nota. • Rifinire il modello.

  28. Si allineano le due sequenze in modo da massimizzare la loro identità in sequenza (cioè il numero di amminoacidi identici in posizioni corrispondenti) o la loro similarità (assegnando un punteggio che descriva in qualche modo la similarità di ciascuna possibile coppia di aminoacidi). Allineamento di sequenze Si utilizzano algoritmi che permettono di misurare l’identità o la similarità fra due sequenze in modo sufficientemente accurato per valutare se una proteina è adatta a fare da templato per la costruzione di un modello per omologia.

  29. Allineamento di sequenze • Le inserzioni e le delezioni sono più frequenti sulla superficie della proteina • dove determinano solo variazioni strutturali locali, che non nel core in quanto • in queste regioni è molto più probabile che disturbino la struttura e/o • la funzione della proteina. • La struttura secondaria del templato puo’ essere usata per verificare che le • inserzioni o delezioni non capitino in elementi di struttura secondaria o in regioni • non esposte

  30. Allineamento di sequenze E’ utile anche allineare più sequenze (allineamento multiplo) appartenenti alla famiglia della proteina target perché si possono ricavare informazioni sulla conservazione e variabilità di ogni posizione: questo serve a definire la posizione di inserzioni e delezioni.

  31. CLUSTALW PROGRAMMA DI ALLINEAMENTO MULTIPLO File di input: sequenze amminoacidiche omologhe in formato FASTA

  32. Allineamento di sequenze CLUSTALW PROGRAMMA DI ALLINEAMENTO Il file di OUTPUT restituisce le sequenze allineate Il punteggio alla sequenza allineata ( somma tutti gli amminoacidi identici e conservati e sottrae i gaps).

  33. Allineamento di sequenze Nel gruppo di sequenze selezionate devono esserci sequenze simili, mediamente simili e non molto simili in modo tale da poter rivelare adeguatamente variazioni e conservazioni concorrenti. Le informazioni ricavate dall’allineamento multiplo possono essere utilizzate per migliorare l’allineamento tra la sequenza da modellare ed il template.

  34. STADI DELLA PROCEDURA DI MODELLING PER OMOLOGIA • Analizzare la sequenza da modellare • Identificare il migliore template. • Allineare accuratamente le sequenze. • Modellare i segmenti della catena principale che siano strutturalmente conservati tra le due proteine. • Modellare le regioni strutturalmente variabili (per lo • più i loops) che connettono le regioni di struttura secondaria. • Modellare le catene laterali della proteina a struttura • non nota. • Rifinire il modello.

  35. Identificazione dei segmenti della catena principale che sono strutturalmente conservati tra le due proteine.

  36. Trasferimento delle coordinate atomiche dalla proteina di riferimento alla proteina modello.

  37. STADI DELLA PROCEDURA DI MODELLING PER OMOLOGIA • Analizzare la sequenza da modellare • Identificare il migliore template. • Allineare accuratamente le sequenze. • Modellare i segmenti della catena principale che siano strutturalmente conservati tra le due proteine. • Modellare le regioni strutturalmente variabili (per lo • più i loops) che connettono le regioni di struttura secondaria. • Modellare le catene laterali • Rifinire il modello.

  38. LOOPS I loops possono essere anche molto diversi dal template, in quanto ospitano la maggior parte delle inserzioni, delezioni e sostituzioni del modello in costruzione Se il template non da’ informazioni strutturali sui loops, occorre costruirli. Il metodo più usato consiste nel cercare in banca dati PDB frammenti (loops) che possono essere accomodati nel modello in costruzione

  39. Modellare i loops Ciascun loop è definito dalla sua lunghezza (numero di residui) e dai suoi “stems”, cioè le coordinate dei carboni alfa dei quattro residui che precedono e seguono il loop I frammenti che corrispondono alle caratteristiche cercate vengono estratti dal PDB e valutati per la RMSD rispetto agli stems: se questa è maggiore di un valore soglia fissato vengono accettati.

  40. Modellare i loops La selezione del loop migliore dipende dal RMSD nella regione ancora e dalla similarità di sequenza tra il segmento identificato e quello da modellare.

  41. STADI DELLA PROCEDURA DI MODELLING PER OMOLOGIA • Analizzare la sequenza da modellare • Identificare il migliore template. • Allineare accuratamente le sequenze. • Modellare i segmenti della catena principale che siano strutturalmente conservati tra le due proteine. • Modellare le regioni strutturalmente variabili (per lo • più i loops) che connettono le regioni di struttura secondaria. • Modellare le catene laterali • Rifinire il modello.

  42. Modellare le catene laterali Per i residui nonmutati si copiano gli angoli della catena dell’amminoacido del templato;

  43. Modellare le catene laterali dei residui non conservati Si usano le librerie di “rotameri” che contengono le conformazioni più probabili per ciascun amminoacido in funzione della conformazione del backbone. Tutti i rotameri consentiti vengono analizzati nel contesto della struttura che si sta modellando Il più favorevole viene aggiunto al modello

  44. STADI DELLA PROCEDURA DI MODELLING PER OMOLOGIA • Analizzare la sequenza da modellare • Identificare il migliore template. • Allineare accuratamente le sequenze. • Modellare i segmenti della catena principale che siano strutturalmente conservati tra le due proteine. • Modellare le regioni strutturalmente variabili (per lo • più i loops) che connettono le regioni di struttura secondaria. • Modellare le catene laterali • Rifinire il modello.

  45. Rifinitura del modello Risolvere, se possibile, eventuali problemi strutturali (per esempio le collisioni di catene laterali) manualmente o effettuando calcoli di minimizzazione dell’energia. Ci sono diversi programmi disponibili (CHARMm, GROMOS, DISCOVER o AMBER):nessuno di essi è in grado di modificare significativamente le strutture dei modelli, ma possono comunque essere utilizzati per ridurre eventuali collisioni molecolari.

  46. Ad ogni conformazione molecolare è associata un’energia

  47. Calcoli energetici • Funzioni energia: • somma di termini energetici scelti sulla base delle forze che • ci si aspetta agiscano su strutture proteiche • Etotal = Estretching + Ebending + Etorsion + Evan der Waals + Eelectrostatic + Ehbond • il contributo di ciascun termine si calcola in funzione della • deviazione dei valori osservati da un set di valori ‘ideali’

  48. La minimizzazione di energia Minimizzare l'energia potenziale di una molecola significa trovare un percorso (costituito dalle variazioni dei gradi di libertà intramolecolari) che conduca da una conformazione iniziale alla conformazione a minima energia più vicina (MINIMO LOCALE), usando il minor numero di calcoli possibile.

  49. Per costruire modelli per omologia di proteine che abbiano una alta identità di sequenza con una proteina a struttura nota, si può utilizzare il server automatico SwissModel SwissModel è disponibile all’indirizzo: http://www.expasy.org/swissmod/SWISS-MODEL.html prende in input una sequenza proteica e l’indirizzo di posta elettronica della persona che sottomette la sequenza cerca nel PDB possibili strutture che possano fare da templato (che abbiano cioè una buona identità di sequenza con la proteina query) spedisce con la posta elettronica le coordinate del modello o le motivazioni della propria incapacità a produrne uno di buona affidabilità

More Related