1 / 21

Métodos estatísticos

Métodos estatísticos. Almir R. Pepato. O velho problema. Máxima Verossimilhança. O conceito de verossimilhança refere-se a situações em que dado um conjunto de dados D , uma decisão deve ser tomada a respeito da explicação adequada dos dados.

riona
Download Presentation

Métodos estatísticos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Métodos estatísticos Almir R. Pepato

  2. O velho problema...

  3. Máxima Verossimilhança • O conceito de verossimilhança refere-se a situações em que dado um conjunto de dados D, uma decisão deve ser tomada a respeito da explicação adequada dos dados. • No caso das inferências filogenéticas temos um modelo composto pela topologia, comprimento de ramos e parâmetros do modelo de substituição. • Assinalando valores a esses elementos do modelo podemos computar a probabilidade dos dados sob cada um desses valores eescolher os valores mais plausíveis. • REPARE QUE EM NENHUM MOMENTO A VALIDADE DO MODELO É QUESTIONADA. Ronald Fisher

  4. Máxima Verossimilhança Isso incomodava Fisher! Se os dados forem robustos isso... Para eliminar esse incômodo: É muito maior que isso!

  5. Máxima Verossimilhança Exemplo simples: N=100; Caras=21 ; Coroas= 79. O modelo estabelece apenas que com alguma probabilidade , caras aparecem quando a moeda é lançada e que cada resultado é independente dos demais. A probabilidade de obtermos exatamente H =h caras a partir de n lançamentos é de: Isso pode ser lido de duas maneiras: A- Se é conhecido, então podemos computar a probabilidade de que h= 0, 1, 2, ...n. B- Caso contrário uma distribuição, a PROBABILIDADE em questão pode ser tratada como uma função de n e h!

  6. Máxima Verossimilhança Obviamente o valor é 21/100. Mas podemos calcular isso analiticamente! Só para mostrar que sabemos cálculo! Os computadores agradecem também. Para facilitar vamos transformar tudo em logaritmos, assim ao invés multiplicações teremos somas. Como sabemos, temos que calcular a derivada da função acima:

  7. Máxima Verossimilhança Mas o que nos interessa mesmo é poder comparar duas hipóteses. Por exemplo: segundo a nossa função, a verossimilhança de que a moeda seja não-viciada é de: Comparado à nosso valor máximo (0,21) temos que é 6 x 107 mais verossímil que a probabilidade que produziu os dados seja θ= 0,21 que θ= 0,5. X

  8. Recordando: Modelos de substituição Suponha que um sítio tenha em alguma posição uma adenina. Qual é a probabilidade desse sítio ter uma adenina depois de um tempo δt, dada uma taxa de substituição α idêntica para todos os tipos de substituição e frequência idêntica de 25% para as quatro bases? E depois de mais um tempinho δt? Dois cenários: AndreyKolmogorov- Sydney Chapman T=0 A A Podemos generalizar essa equação para: Não A T= δt A T= 2δt A A

  9. Recordando: Modelos de substituição Até agora, racionamos a respeito de um processo que corre em tempos discretos, mas podemos imaginar que δt tende a zero, de forma que temos o valor instantâneo de PA(t) através do cálculo diferencial: AndreyKolmogorov- Sydney Chapman Que se resolve em:

  10. Recordando: Modelos de substituição Para os dois cenários delineados acima, temos: AndreyKolmogorov- Sydney Chapman Que se aplica, já que as taxas são as mesmas, para todos os nucleotídeos. São essas as probabilidades que devemos contabilizar para cada sítio de um alinhamento ao longo dos ramos de uma árvore.

  11. Recordando: Modelos de substituição Podemos estimar a grandeza µt partir dos dados empíricos, na verdade, a partir da distância observada p. Considere I(t) a identidade entre duas sequências: K= número de substituições por sítio desde o tempo de divergência de duas sequências.

  12. Caso mais simples Vamos imaginar agora uma árvore com dois terminais, um ramo, sequências evoluindo de acordo com o JC69. Temos apenas p: distância observada Seq. 2 Para encontrar o valor de k que maximize a verossimilhança devemos maximizar a seguinte função: k = transições ao longo do ramo Isso daqui é a frequência de nts Isso daqui é o nosso -8µt, lembram? Seq. 1

  13. Caso mais simples Para cada posição devemos considerar: Lembrando sempre que sabemos k, já que sabemos p: O raciocínio apresentado aqui é circular. Voltamos ao ponto em que havíamos parado na aula sobre métodos de distância e modelos, já que o valor que maximiza a função da verossimilhança é a equação que já conhecíamos para k. Mas serviu para mostrar como podemos derivar a probabilidade de cada sítio ao longo das extremidades dos ramos. Vamos agora para algo mais complexo.

  14. Máxima Verossimilhança Muita conta! 22n-2 cenários

  15. Máxima Verossimilhança Se o modelo é reversível podemos enraizar em qualquer lugar.

  16. Máxima Verossimilhança Essa expressão terá 256 termos (22(5)-2 ) O que pode ser rearranjado como: HÁ! ISSO É O MESMO QUE SEGUIR A ÁRVORE DAS FOLHAS PARA A RAIZ!

  17. Máxima Verossimilhança

  18. Inferência Bayesiana Exemplo Simples, comparando dois modelos. Há dois sapos de origami, Joe e Herman. Por experiências anteriores sabe-se que Joe cai 60% das vezes em pé, enquanto Herman cai apenas 20% das vezes. O nome dos sapos foi apagado. Como podemos inferir qual é Joe apenas fazendo-os saltar? Primeiro lançamento, caiu em pé:

  19. Inferência Bayesiana Segundo lançamento, caiu em pé: Terceiro lançamento, caiu de costas:

  20. Inferência Bayesiana Então: Sendo: Probabilidade da topologia dado as observações Prior, possibilidade dada a priori a topologia em questão Verossimilhança, probabilidade das observações dada a topologia Soma do produto da verossimilhança e do prior sobre todas as outras topologias

More Related