Metodologie di analisi dei dati

Metodologie di analisi dei dati • Descrizione della variabilità attuale(Metodi descrittivi) • Descrivono la variabilità presente all’interno di una popolazione • Permettono di confrontare popolazioni o loci differenti • Inferenze ottenute dalla variabilità attuale (Metodi inferenziali) • Permettono di ricostruire la storia genetica delle popolazioni passate (origini, movimenti, cambiamenti demografici) • Richiedono la costruzione di modelli dei processi evolutivi

Analisi intra-popolazionistica • numero di aplotipi (k) • È un parametro descrittivo. È il numero dei diversi aplotipi osservati nella popolazione (diverso dal numero di individui!) • numero di siti polimorfici (S)= Numero dei siti segreganti • Rappresenta il numero di siti in cui si osserva un polimorfismo. • Gene Diversity (Haplotype Diversity) • È l’eterozigosità. È una delle misure più efficaci per misurare il grado di polimorfismo ad un locus. • mismatch distribution • Modo per rappresentare la diversità mediante confronti a coppie (sequenze o aplotipi). Si usa per dati molecolari discreti (SNPs, siti RFLPs, STRs) • mean number of pairwise differences (MNPD) • È la media della mismatch distribution

Gene Diversity (Haplotype Diversity) Sistemi diploidi Corrisponde concettualmente alla proporzione attesa di individui eterozigoti per il locus considerato (si assume l’equilibrio di Hardy-Weinberg) Sistemi aploidi È una misura della variabilità genetica, è la probabilità che due aplotipi presi a caso nella popolazione siano diversi.

MISURE DI IDENTITA’ Modo più semplice per descrivere la quantità di diversità è contare il numero di alleli presenti. Tale misura non considera la distanza molecolare tra alleli e dipende molto dalla dimensione del campione Nei’s gene diversity (software ARLEQUIN) misura la probabilità che due alleli presi a caso da una popolazione siano differenti. MISURE DI DIVERSITA’ NUCLEOTIDICA Considerano anche la distanza tra alleli Diversità nucleotidica Analogo a Nei’s (software ARLEQUIN) Diversità genetica per sequenze =probabilità che due nucleotidi presi a caso da un insieme di sequenze siano differenti π =n(Σxixj πij)/(n-1) Sotto selezione neutrale π = θ

θ “theta” population mutation parameter (software ARLEQUIN): definisce il livello di diversità atteso in una popolazione in termini di tasso di mutazione (μ) e deriva genetica (Ne=dimensioni effettive della popolazione) θ = 2nNe μ n*= 2 per loci diploidi n= 0.5 per Chr Y e mt n= 1.5 per Chr X *n= numero di copie ereditate per individuo.

ESEMPIO BABINGA 44 individui Analisi di sequenza della regione HVR-1 del mtDNA K=11 S=19 HD=0,693 ± 0,074 BATEKE 50 individui Analisi di sequenza della regione HVR-1 del mtDNA K=23 S=43 HD=0,944 ± 0,017 HD= Tiene in considerazione N

Mismatch distribution (software ARLEQUIN) Partendo da una matrice di distanze a coppie viene costruito un istogramma ottenuto contando le coppie che condividono lo stesso numero di mutazioni tra le sequenze

Es. mismatch distribution BATEKE 50 individui Analisi di sequenza della regione HVR-1 del mtDNA BABINGA 44 individui Analisi di sequenza della regione HVR-1 del mtDNA Oltre a descrivere la diversità interna, può essere messa in relazione alla storia della popolazione, essendo influenzata da fenomeni demografici Sovrapposizione tra statistica descrittiva ed inferenziale

Indice che permette di distinguere tra i due tipi di distribuzione Robustezza (raggedness) r, somma dei quadrati delle differenze tra due picchi vicini. r più basso per le distribuzioni a campana r <0,03 per i dati di sequenza, indica un’espansione della popolazione nel passato.

L’età dell’espansione può essere stimata in diversi modi, molti dei quali sono correlati con la distanza della media della distribuzione dall’asse Y, con il passare del tempo la media si allontana dall’asse.

MISURE DI DISTRIBUZIONE DI DIVERSITA’ Una metapopolazione è una popolazione suddivisa in sottopopolazioni parzialmente isolate; ciò determina un deficit di eterozigoti (no equilibrio Hardy Weinberg). Il processo di suddivisione genera una struttura gerarchica della popolazione. Ogni volta che i dati non rispecchiano il random mating possiamo pensare ad una struttura nella popolazione e quindi possiamo misurare la distribuzione di variabilità. Fst, (software ARLEQUIN) usato per i marcatori classici, misura il grado di variabilità di una metapopolazione suddivisa in subpopolazioni. Fst = Vp/ p (1-p) dove p e Vp sono la media e la varianza delle frequenze geniche tra le due subpopolazioni; Misura la porzione di varianza totale nelle frequenze alleliche tra le subpopolazioni 0<Fst<1 Fst medio tra continenti = 9-13% (valori più alti dipendono da selezione o basso Ne) Questo metodo può essere applicato all’analisi sia delle frequenze alleliche che dei dati di sequenza o di microsatelliti.

TEST DI SIGNIFICATIVITA’ • Per dimostrare che la suddivisione della popolazione è maggiore di quella attesa per caso. • Bisogna escludere che: • La popolazione non sia differenziata • Le differenze tra le frequenze alleliche siano dovute al campionamento • L’accoppiamento sia casuale • Il test è realizzato mediantepermutazioni o Monte-Carlo method (si usano numeri casuali).

TEST di PERMUTAZIONE (metodo Monte Carlo) I dati sono presi a caso più volte, ogni allele è assegnato casualmente a una subpopolazione, in modo che la freq di ogni allele resti costante nella metapopolazione. La misura di interesse (Fst) viene calcolata per i 1000 datasets simulati. Perché il valore osservato di Fst sia significativamente diverso da 0, deve essere più grande di una certa porzione (X) dei valori simulati, dove 1-X è il limite di significatività. Per es. se il valore di Fst è più grande in più di 950 simulazioni su 1000, il livello di significatività sarà del 5%.

AMOVA Analysis of Molecular VarianceΦ(phi)(software ARLEQUIN) • Tiene conto della relazione molecolare tra gli alleli piuttosto che la loro frequenza quando . • Si usa per tutti i dati per i quali si può calcolare la distanza genetica tra gli alleli • Si definisce una particolare struttura genetica attraverso la costruzione di gruppi particolari; il metodo di analisi permette di saggiare la validità della struttura scelta. Mediante un’analisi gerarchica la varianza totale viene divisa nelle componenti dovute alle differenze intra-popolazione, tra popolazione e fra gruppi di popolazioni. • Attraverso un test di randomizzazione, viene testata la significatività della diversità genetica ai diversi livelli.

GRUPPI LINGUISTICI Esempio ROTTE MIGRATORIE BANTU NELL’AFRICA SUB-SAHARIANA Le popolazioni Shona sono linguisticamente imparentate con i Bantu centro-orientali e probabilmente si stabilirono nell’attuale Zimbabwe durante la grande espansione Bantu.

Variabilità a livello del DNA mitocondriale • Variabilità a livello del cromosoma Y SCOPO DELLA RICERCA • Storia del popolamento dello Zimbabwe e stima del contributo delle due rotte migratorie Bantu • Flusso genico e del tasso di mescolamento con le popolazioni preesistenti sul territorio • Individuazione di eventuali differenti comportamenti delle linee materne e paterne

Marcatori analizzati • Cromosoma Y • Analisi mediante multiplex PCR di 6 loci microsatellite : DYS393,DYS19, DYS389II, DYS390, DYS391, DYS385 • Analisi mediante enzimi di restrizione di 2 loci SNPs • mtDNA • Analisi della regione di controllo HVR I (16000 - 16400 bp) • Analisi mediante enzimi di restrizione dei siti diagnostici della regione codificante

Comparazione mtDNA e cromosoma Y Diversità aplotipica mtDNA D= 0.9782 +/- 0.0076 Y chromosome D= 0.5249 +/- 0.3187 Alta frequenza dell’aplotipo ancestrale Bantu Presenza di numerose linee Diffusa pratica della poliginia Maggiore mobilità matrimoniale delle donne

AMOVA Differenziazione genetica tra Bantu orientali e occidentali

Selection in the human genome time Negative (Purifying, Background) Positive (Directional) Neutral Balancing Bamshad & Wooding (2003) Nature Rev. Genet.4, 99-111

TESTING FOR SELECTION • Bassa diversità genetica= limitato flusso genico, forte deriva, pressione selettiva contro un set di alleli • Alta diversità genetica= elevato flusso genico, bassa deriva, selezione che favorisce l’incremento della diversità genetica • Spesso la diversità genetica è data dalla combinazione di tutti i fattori. • Diversi tipi di selezione portano a effetti diversi sulla diversità genetica. • Selezione agisce su un solo locus o su i linked loci • NEUTRALITY TEST confronto tra la diversità osservata e quella attesa sotto evoluzione neutrale. I test considerano anche i fattori demografici (es: pop umana non ha dimensioni costanti) • Il potere dei diversi tests di determinare effetti di selezione dipende: • dal tipo di selezione • dalla forza della selezione • dalla lunghezza del periodo in cui la selezione ha agito o agisce

1.CODON-BASED SELECTION TESTS SITI SINONIMI, si assume siano sotto neutralità dS o KS SITI NON SINONIMI dNo KN dN / dS =ωdN =dS ω=0 neutralità dN >dS ω>1 diversifying selection (aumenta la probabilità che una nuova variante si fissi) dN <dS ω<1 selezione purificatrice (software PAML)

Metodologie di analisi dei dati

Metodologie di analisi dei dati

Presentation Transcript

Analisi dei dati di Microarray

Disegno del modello di analisi dei dati sperimentali

Il modello di analisi dei dati nei disegni within

“Analisi di dati categoriali”

Laboratorio di analisi di dati linguistici

L Analisi Procastica Generalizzata GPA nell analisi dei dati sensoriali . Caso applicativo: analisi dei dati prodotti a

LABORATORIO DI ANALISI AVANZATA DEI DATI

Analisi Statistica dei Dati per HEP (Laboratorio)

Analisi Statistica dei Dati per HEP (Laboratorio)

Analisi Statistica dei Dati per HEP (Laboratorio)

Laboratorio di analisi di dati linguistici

Web Usage Mining (Analisi dei dati di log)

ANALISI STATISTICA DI DATI CAMPIONARI

Analisi Statistica dei Dati

LABORATORIO DI ANALISI AVANZATA DEI DATI

Strumenti e metodologie per la qualità dei dati

Laboratorio di analisi di dati linguistici

Analisi statistica dei dati sperimentali

ANALISI DEI DATI REGIONALI PER PROVINCIA 2004

Analisi preliminari dei dati

“Analisi di dati categoriali”

Analisi di Immagini e Dati Biologici