1 / 78

Análisis estadístico básico: t-test, anova, pruebas no paramétricas, regresión...

Análisis estadístico básico: t-test, anova, pruebas no paramétricas, regresión. José Ríos. ¿Es cierto el bostezo inducido?. Hoy toca estadística. Por que claro… conociendo toda la información somos capaces de saber como se llega a los resultados. Pero antes hablemos de variables….

hali
Download Presentation

Análisis estadístico básico: t-test, anova, pruebas no paramétricas, regresión...

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análisis estadístico básico: t-test, anova, pruebas no paramétricas, regresión... José Ríos

  2. ¿Es cierto el bostezo inducido? IUSC - 2009

  3. Hoy toca estadística IUSC - 2009

  4. Por que claro… conociendo toda la información somos capaces de saber como se llega a los resultados IUSC - 2009

  5. Pero antes hablemos de variables… IUSC - 2009

  6. … y de la importancia metodológica del tamaño de la muestra IUSC - 2009

  7. Resumen de datos • Tres tipos básicos • Posición: también llamadas medidas de tendencia central. • Dispersión: conocidas también como medidas de escala • Forma: sirven para el estudio de la asimetría y apuntamiento comparado con la curva gaussiana IUSC - 2009

  8. Resumen de datosMedidas de Posición • Media aritmética • En el caso de datos agrupados en intervalos, la media se calculará con el valor medio de intervalo • Únicamente tiene sentido para variables cuantitativas IUSC - 2009

  9. 1,3,3,4,6,13,14,14,18 6 1,3,3,4,6,13,14,14,17,18 6 y 13 Mediana=(6+13)/2=9.5 Resumen de datosMedidas de Posición • Mediana • Deja a ambos ‘lados’ la misma población. • El valor de la mediana no tiene por que existir en la muestra • Para su cálculo sólo se requiere que las clases sean ordenables, podemos, por tanto, calcularla tanto para variables cuantitativas como cualitativas ordinales IUSC - 2009

  10. Resumen de datosMedidas de Posición • Moda • Es el valor más frecuente en nuestros datos • En el caso de variables que tomen muchos valores, el cálculo de la moda es preferible con los datos agrupados, obtendremos el intervalo modal • Su cálculo tiene sentido para cualquier tipo de variable. Sólo usa el valor de las frecuencias IUSC - 2009

  11. Resumen de datosMedidas de Posición • Cuantiles. • Son de orden (a). Dejan el a 100% de la población por debajo. • Los percentiles dividen la población en porcentajes, los terciles, cuartiles y quintiles fracciones. El segundo cuartil coincide con la Mediana IUSC - 2009

  12. Media 2 Mediana 2 Resumen de datosMedidas de Posición • Propiedades. • La Media es sensible a los valores extremos, la Mediana no lo es. • Especial atención en estudios de análisis de supervivencia Media 1 Nuevo valor en la muestra Mediana 1 IUSC - 2009

  13. Media Moda Mediana ¿Pero entonces? IUSC - 2009

  14. Resumen de datosMedidas de Posición • Atención, siempre es mejor ‘visualizar’ los datos antes de trabajar con ellos. • Es posible que ni la Media ni la Mediana representen bien el comportamiento ‘central’ de la variable • En este caso, Media y Mediana tienen el mismo valor, ¿algún comentario? IUSC - 2009

  15. Resumen de datosMedidas Escala (dispersión) • Dos Grandes Familias • Recorridos • Varianzas IUSC - 2009

  16. Resumen de datosMedidas Escala (dispersión) • Rangos y amplitudes: valores pequeños en recorridos o rangos dan idea de poco dispersión, valores grandes indican mucha dispersión o presencia de valores extremos. • El Rango (Mín – Máx) se ve extremadamente afectado por valores extremos, no es, por tanto, una buena medida. • El recorrido intercualtílico (1er Cuartil – 3er Cuartil) también indica dispersión. • Ambos valores combinados pueden dar buena idea de cómo son los datos IUSC - 2009

  17. Resumen de datosMedidas Escala (dispersión) • Veamos un ejemplo de cálculo IUSC - 2009

  18. Resumen de datosMedidas Escala (dispersión) • ¿Qué ocurre si sumamos todas las distancias? • Las distancias negativas son compensadas con las positivas. La suma es siempre cero • Def.: la media es el centro de gravedad de la distribución muestral IUSC - 2009

  19. Resumen de datosMedidas Escala (dispersión) • La varianza es la media de la suma de las desviaciones respecto a la media elevadas al cuadrado. • La Desviación estandar es la raíz del anterior • El Coeficiente de variación usa las medidas de posición y escala IUSC - 2009

  20. Resumen de datosMedidas Escala (dispersión) • Pregunta: • ¿Por qué si tenemos la varianza acabamos utilizando la DE? ¿Complicamos los estadísticos inútilmente los cálculos? • El problema de la varianza es que no se mide en las mismas unidades que los datos de la muestra, es por eso que se define la DE IUSC - 2009

  21. Resumen de datosMedidas Escala (dispersión) • Bien.... Pero ¿qué medida es la buena? • Por si sola ninguna. Siempre es preferible ver todas ellas, visualizar los datos siempre ayuda mucho a detectar posibles problemas en los datos • Nos podemos ayudar de Histogramas y Diagramas de cajas (Box-Plot) IUSC - 2009

  22. Resumen de datosMedidas Escala (dispersión) • El diagrama de caja (Box-Plot), interpretación: • Nos presenta el Rango y el recorrido intercuartílico (ojo con el programa utilizado) • Valores fuera de límites son representados con círculos se consideran ‘normales’ • Valores presentados como asterísticos se podrían estudiar como atípicos • OJO CON DESCARTAR ‘ALEGREMENTE’ VALORES ATÍPICOS IUSC - 2009

  23. Resumen de datosMedidas Escala (dispersión) • El diagrama de caja (Box-Plot) Máximo Aquí se espera encontrar la mayoría de la muestra 50% de la muestra Mediana Mínimo IUSC - 2009

  24. Resumen de datosMedidas de forma • Medida de asimetría • Medida de apuntamiento o kurtosis IUSC - 2009

  25. Resumen de datosMedidas de forma • Medida de asimetría Asimétrica negativa Coef. < 0 Asimétrica positiva Coef. > 0 Simétrica Coef.=0 IUSC - 2009

  26. Descripción gráfica • Se comparan el largo del sepalo de tres variedades de lirios: setosa, versicola y virginica IUSC - 2009

  27. Descripción gráfica • Gráfico de dispersión (Scatter Plot) IUSC - 2009

  28. Pudiendo resultar útil setosa versicolor virginica IUSC - 2009

  29. Descripción gráfica • Una posible evaluación gráfica de los Odds Ratio (OR) IUSC - 2009

  30. Estadísitica inferencial P-valor Intervalo de confianza Paramétricas vs. No paramétricas

  31. Génesis de las ideas • 1934:La lógica de la investigación científica. ¿Cómo fundamentar el conocimiento científico, por definición universal y necesario, en la experiencia empírica, por definición particular? • Hasta entonces • Descartes confía en las leyes eternas de la razón • Hume en las leyes que se extraen de la experiencia • En contra del positivismo: ¿Cómo realizar una ley universal a partir de un número particular de experimentos? • A favor delfalibilismo(o falsación): el conocimiento científico no puede avanzar confirmando nuevas leyes, sino descartando leyes que contradicen la experiencia. Karl Raimund Popper (1902-1994) POR TANTO: La labor del científico consiste en criticar leyes para ir reduciendo el número de teorías compatibles con observaciones experimentales. CONSECUENCIA: Una proposición científica lo será si es posible crear un experimento que la pudiese contradecir. IUSC - 2009

  32. Pruebas de hipótesis Unilateral (una cola) Ho: E - C  0 H1: E - C > 0 Bilateral (dos colas) Ho: E - C = 0 H1: E - C > 0 ó E - C < 0 IUSC - 2009

  33. ¿p? • Probabilidad de observar, por azar, una diferencia como la de la muestra o mayor, cuando H0 es cierta • Es una medida de la evidencia en contra de la H0 • Es el azar una explicación posible de las diferencias observadas? • Supongamos que así es (H0). • ¿Con qué probabilidad observaríamos unas diferencias de esa magnitud, o incluso mayor? P-valor • Si P-valor pequeño, rechazamos H0. • ¿Difícil?... No, es como un juicio! IUSC - 2009

  34. ¿p? • Se acepta un valor máximo de 5% (0,05). • Si p0,05  diferencias estadísticamente significativas. • Si p>0,05  diferencias estadísticamente NO significativas. • NO implica importancia clínica. • NO implica magnitud de efecto!! • Influenciada por el tamaño de la muestra. Si  n   p IUSC - 2009

  35. Mayor tamaño de muestra Menor valor de p (habitualmente) Misma magnitud de efecto ¿? Mayor relevancia clínica Misma relevancia clínica Pero el mío es mejor. Para un mismo resultado cuantitativo el ‘investigador avispado’ puede hacer SU interpretación cualitativa simplemente inundando el artículo de valores de p Mayor tamaño de muestra Menor valor de p (habitualmente) Menor valor de p (habitualmente) ¿? ¿? Mayor relevancia clínica Mayor relevancia clínica Mayor relevancia clínica IUSC - 2009

  36. Y Arguiñano nos dice: IUSC - 2009

  37. Y Arguiñano nos dice: IUSC - 2009

  38. Y Arguiñano nos dice: IUSC - 2009

  39. Intervalos de confianza • Si repetimos el intervalo de confianza a lo largo del tiempo sobre la misma población, los intervalos de confianza al 95% calculados para cada muestra deberían incluir el verdadero valor de la población en el 95% de las veces. • Una persona ‘normal’ es aquella que no ha sido lo suficientemente investigada. IUSC - 2009

  40. Amplitud del IC • También depende de la información que la muestra proporciona sobre el verdadero valor poblacional • Mayor tamaño de muestra -> mayor precisión -> IC más estrecho • Mayor dispersión de la medida -> IC más amplio IUSC - 2009

  41. Por ejemplo… Fuente: Viñes, R. Larumbe, M.T. Artázcoz, I. Gaminde, D. Guerrero, J.V. Ferrer Estudio epidemiológico de la enfermedad de Parkinson en Navarra. Revista ANALES del Sistema Sanitario de Navarra, Vol. 22, Suplemento 3, 1999 OR entre casos y controles de consumo de tabaco y EP. Intervalos de confianza del 90%. IUSC - 2009

  42. Pero hemos de tener en cuenta que todo intervalo de confianza conlleva dos noticias, la buena y la mala La buena: hemos usado una técnica que en % alto de casos acierta. La mala: no sabemos si ha acertado en nuestro caso. Estimación IUSC - 2009

  43. Pruebas paramétricas y no-paramétricas • Una prueba paramétrica requiere la estimación de uno o más parámetros (estadísticos) de la población • Ej.: Una estimación de la diferencia entre la media antes y después de una intervención • Las pruebas no-paramétricas no involucran ningún tipo de estimación de parámetros • Ej.: Facilitarnos la una estimación de la P[X>Y], probabilidad de que, selecionando un paciente después del tratamiento, su valor sea mayor que antes del tratamiento IUSC - 2009

  44. Pruebas paramétricas y no-paramétricas • Ventajas de las pruebas no-paramétricas • No se asume nada sobre la distribución de nuestros datos. • Se pueden usar en multitud de tipos de variables • Inconvenientes • Las pruebas no-paramétricas acostumbran a tener un poder estadístico menor que su equivalente paramétrico. • A propósito de los datos • Utiliza rangos (ordenaciones), no da resultados en las unidades de las variables originales. • El efecto de los valores extremos se diluye (buena noticia o mala) • Se deberían utilizar cuando los requerimientos para las pruebas paramétricas no se cumplan. IUSC - 2009

  45. Estadísitica inferencial Regresión y Supervivencia

  46. Regresión lineal • Describe como un variable respuesta ‘y’ cambia en función de otra (típicamente ‘diseñada’) factor ‘x’ de forma estrictamente lineal • Formalmente se asume que: • X no es una variable aleatoria (no tiene por qué cumplirse siempre) • Para cada valor xi de X existe una v.a. Y|xi cuya media me predice el modelo lineal • Todas las variables Y|xi son Normales, independientes y de igual varianza IUSC - 2009

  47. Ejemplos macabros • Los llamaré macabros ya que son ilustrativos de que el abuso debido a su simplicidad de ejecución e interpretación puede tener resultados nefastos IUSC - 2009

  48. Ejemplos macabros IUSC - 2009

  49. Ejemplos macabros Y mucho cuidado con la ‘correlación’ La proporción de variabilidad explicada por la regresión es el r2 * 100 IUSC - 2009

  50. Ejemplos macabros Por que los abusos no son nada buenos IUSC - 2009

More Related