1 / 38

CORRELACION Y REGRESION LINEAL: Introducción

CORRELACION Y REGRESION LINEAL: Introducción. Mario Briones L. MV, MSc. Correlación lineal de Pearson. Medida de la estrechez de la asociación entre dos variables cuantitativas. Asociación: fluctuación en conjunto de dos variables. Correlación lineal de Pearson:.

gage-hall
Download Presentation

CORRELACION Y REGRESION LINEAL: Introducción

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CORRELACION Y REGRESION LINEAL: Introducción Mario Briones L. MV, MSc

  2. Correlación lineal de Pearson. • Medida de la estrechez de la asociación entre dos variables cuantitativas. • Asociación: fluctuación en conjunto de dos variables

  3. Correlación lineal de Pearson: • Muchas veces en que se dispone de datos en pares, se desea conocer si ambas variables está relacionadas o son independientes

  4. Considere los siguientes datos: • Valores de pluviometría para once localidades a diferente altura sobre el nivel del mar:

  5. Gráfico de la asociación Promedio de Y= 530 mts Promedio de X= 959.2 mts

  6. COVARIANZA: Medida de la variación en conjunto de dos variables: CONCEPTO: FORMULA DE CALCULO: Donde n es el número de pares de valores X Y

  7. En el ejemplo: Atención! La función COVAR de Excel divide por n...

  8. Covarianza en el ejemplo: • Cov(XY)= 13.079,41 • El signo positivo indica que valores por sobre el promedio de X tienden a estar asociados con valores por sobre el promedio de Y • Valores negativos indican que valores por sobre el promedio de X tienden a estar asociados con valores por debajo del promedio de Y

  9. Estandarización de la medición • Pearson, matemático Inglés, desarrolló un índice, que divide la covarianza por el producto de las desviaciones estándares de X y de Y En la población En la muestra

  10. Correlación lineal de Pearson: • El índice r, fluctúa entre –1 y +1 • Si la fluctuación en conjunto es estrecha, el valor de r se acerca a –1 o +1. • Si la fluctuación en conjunto es baja, el valor de r se acerca a cero.

  11. Coeficiente de correlación de Pearson en el ejemplo:

  12. Es la correlación observada diferente de cero? (H0??) N< 30 N> 30 N es la cantidad de pares XY

  13. Es la correlación observada diferente de cero, en el ejemplo? En la tabla de t, con alfa= 0.05 (dos colas) y 10 grados de libertad (n-1), el valor crítico es 2.22 Por lo tanto se puede rechazar H0 respecto del valor poblacional de rho: Hay una asociación significativa entre la altura sobre el nivel del mar y la cantidad de precipitación (P<0.05) (en la población)

  14. Otra opción es comparar el valor de r calculado con el valor de r de la tabla adjunta. Si el valor de r calculado es mayor que el r del número de grados de libertad de la correlación (n-1)=10 valor crítico= 0.632

  15. Transformación de Fisher del coeficiente de correlación Z tiene distribución aproximadamente normal, con media r y error estándar:

  16. Transformación de Fisher en el ejemplo:

  17. Intervalo de confianza del coeficiente de correlación Para obtener el intervalo de confianza en “unidades de correlación” se transforman de modo inverso usando el mismo método de r a z En INTERNET: http://faculty.vassar.edu/lowry/rho.html?

  18. Intervalo de confianza en el ejemplo: Según la página de Internet, el intervalo de confianza de 95% para r=0.856 límite inferior=0.527 límite superior=0.961

  19. Comparación de coeficientes de correlación Se utilizan los coeficientes transformados

  20. Correlación entre las líneas eléctricas y el cáncer • Epidemiólogos del Instituto Karolinska de Suecia investigaron durante 25 años a 500.000 personas que vivían a menos de 300 metros de una línea eléctrica de alto voltaje. • Observaron que los niños tenían mayor incidencia de leucemia.

  21. Correlación entre las líneas eléctricas y el cáncer • Los hallazgos descritos obligaron al gobierno sueco a considerar reglamentos que reducirían la construcción de casas cercanas a las líneas eléctricas de alto voltaje.

  22. Correlación entre las líneas eléctricas y el cáncer • En un artículo acerca del estudio, la revista Time informó que “aunque las investigaciones no demuestran una relación de causa y efecto, sí indican una inequívoca correlación entre el grado de exposición y el riesgo de leucemia infantil”.

  23. Errores comunes respecto a la correlación • Se debe tener cuidado de evitar concluir que la correlación implica causalidad • Variables ocultas • No utilizar tasas o promedios • Pérdida de variación entre individuos • Supuesto de linearidad de la relación

  24. Correlación y regresión lineal: • Si existe una conexión biológica (o de otro tipo) entre las variables X e Y, entonces puede formularse un modelo lineal que represente esta asociación. • El modelo se basa en la covarianza y en su forma más sencilla es una línea recta (Y= a + bX)

  25. Ejemplo: Rendimiento promedio de plantas de soya (gr/planta) obtenidos en respuesta a los niveles indicados de exposición al ozono en la la fase de crecimiento. X Y ozono (ppm) rendimiento (gr/pl) 0.02 242 0.07 237 0.11 231 0.15 201 SXi= 0.35 SYi= 911 X= 0.0875 Y= 227.75 SX2i= 0.0399 SY2i= 208495 SXiYi= 76.99

  26. MODELO • Asumiendo una relación lineal entre el rendimiento y el niveldel ozono, el modelo establece que la media verdadera de lavariable dependiente cambia a una tasa constante en la medidaque la variable dependiente aumenta o disminuye. • La relación funcional entre la media verdadera de Yi, E(Yi) yXi es la ecuación de la línea recta:

  27. MODELO • Donde • a= intercepto (valor de E(Y)cuando X es igual a cero • b= pendiente de la línea (tasa de cambio de E(Y) ante un cambio unitario en X.

  28. SUPUESTOS • Las observaciones de la variable dependiente Yi se asumencomo observaciones aleatorias tomadas de poblaciones de variables aleatorias donde la media de cada población está dadapor E(Yi). • La desviación de una observación Yi desde la mediade su población, E(Yi) se considera añadiendo un términode error aleatorio ei para dar el siguiente modelo:

  29. SUPUESTOS • El subíndice indica cada unidad de observación en particular, i= 1, 2, …n. Los Xi son las n ésimas observaciones de la variable dependiente, que se supone son tomadas sin error. • Es decir, son constantes conocidas; los Yi y los Xi sonobservaciones pareadas, tomadas en cada unidad observacional.

  30. ESTIMACION DE MINIMOS CUADRADOS • Los parámetros en el modelo son b y a, a ser estimados desdelos datos (muestra). Si no existiese error aleatorio en Yi, cualquier par de puntos podría ser utilizado para resolver los valoresde los parámetros. • La variación aleatoria de Y, sin embargo,hace que cada par de valores de resultados diferentes (Todoslos estimadores serían idénticos sólo si los datos observadoscayeran exactamente sobre una línea recta.)

  31. ESTIMACION DE MINIMOS CUADRADOS • Por lo tanto,el método de resolución debe combinar toda la informaciónpara dar una sola solución que sea la “mejor” en base aalgún criterio. • El procedimiento de estimación de mínimos cuadrados utilizael criterio de que la solución debe dar la suma más pequeñaposible para las desviaciones al cuadrado desde los valoresobservados de Yi hasta sus medias verdaderas dadas por lasolución.

  32. ESTIMACION DE MINIMOS CUADRADOS • Sean b y a los estimadores numéricos de los parámetros b y a, respectivamente, y sea • el promedio estimado de Y para cada Xi, i= 1, 2,…, n. • Se debe observar que Yi es obtenida sustituyendo los parámetros en la forma funcional del modelo que relacionaE(Yi) con Xi, dado por la ecuación de la recta.

  33. El principio de los mínimos cuadrados escoge valores de a y b que minimizan la suma de cuadrados de los residuales, SC(Res): Donde es el valor residual observado para la iésima observación. La suma indicada por S es sobre todos los valores del conjunto como lo indican los índices i= 1 hasta n Los estimadores de b y a se obtienen usando cálculo para encontrar los valores que minimizan SC(Res). Las derivadas de SC(Res) con respecto a b y a son definidas iguales a cero.

  34. Las ecuaciones normales son: n(a) + (SXi)b= SYi (SXi)a + (SX2i)b= SXiYi Resolviendo las ecuaciones simultáneamente para a y b, da los estimadores para a y b: S(Xi-X)(Yi-Y) Sxiyi b= = S(Xi-X)2Sx2i a= Y - bX

  35. Para facilidad de cálculo: (SXi)2 Sx2i= SX2i - n (SXi)(SYi) Sxiyi= SXiYi - n Lo que da la siguiente fórmula de cálculo para la pendiente:

  36. Cálculo de la pendiente (b) X Y ozono (ppm) rendimiento (gr/pl) 0.02 242 0.07 237 0.11 231 0.15 201

  37. Cálculo de la constante (a)y ecuación: a= 227.75 - (-293.531)(0.08875)= 253.434 La ecuación de mínimo cuadrado que caracteriza el efecto del ozono sobre el rendimiento promedio de la soya en este estudio, asumiendo que el modelo lineal es correcto es:

More Related