1 / 47

Двумерная статистическая модель

Двумерная статистическая модель. свойство x. свойство y. объект. объект. Двумерная статистическая модель – это система из n однородных геологических объектов , у каждого из которых измерены характеристики двух свойств ( {x 1 , x 2 , x 3 … x n } {y 1 , y 2 , y 3 … y n } ).

Download Presentation

Двумерная статистическая модель

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Двумерная статистическая модель

  2. свойство x свойство y объект объект Двумерная статистическая модель – это система из n однородных геологических объектов, у каждого из которых измерены характеристики двух свойств ( {x1, x2,x3 … xn} {y1, y2,y3 … yn}) Значения х1, х2, …, хn, и у1, у2, …, уn носят случайный характер. Значения первого свойства х1, х2, …, хnне зависят между собой, значения второго свойства у1, у2, …, уn также не зависят между собой (но могут существовать зависимости между свойствами х и у).

  3. Результаты измерений двумерной случайной величины принято изображать на графике, где по оси абсцисс откладывают характеристику одного свойства, а по оси ординат – другого Hg Sb

  4. Y X Между двумя случайными величинами проявляются вероятностные (стохастические) связи, когда заданному значению величины X = x соответствует не определённое значение величины Y, а некоторый набор значений y1, y2, y3, … yn, каждое из которых характеризуется своей вероятностью. Функция распределения набора значений y1, y2, y3, … yn , соответствующая значению Х = х , характеризуется математическим ожиданием и дисперсией, которые называются условным математическим ожиданием и условной дисперсией.

  5. Y X Аналогично, каждому заданному значению величины Y = y соответствует некоторый набор значений x1, x2, x3, … xnсо своим условным математическим ожиданием и своей условной дисперсией.

  6. Y X линия регрессии X на Y Геометрическое место точек, соответствующих условным математическим ожиданиям Y (линия, соединяющая эти точки) называется линией регрессииY на X. Соответственно геометрическое место точек, соответствующих условным математическим ожиданиям Х называется линией регрессииX на Y Если линии регрессии прямые, то регрессия двух величин называется линейной регрессией, если кривые – нелинейнойрегрессией.

  7. - угловой коэффициент (тангенс - угла наклона линии регрессии к оси Х) - угловой коэффициент (тангенс - угла наклона линии регрессии к оси Y) для линейной регрессии X на Y: - начальное значение (при y=0) В прямоугольной системе координат линии регрессии могут быть заданы аналитически. Для линейной регрессии: Y для линейной регрессии Y на Х: - начальное значение (при х=0) X

  8. Угол изменяется от 0 до 90º. Чем меньше величина , тем сильнее связь между величинами X и Y. Если =0, связь между X и Y становится функциональной. Y Прямые регрессии пересекаются в точке, координаты которой равны μxи μy– математическим ожиданиям случайных величин X и Y. X

  9. Уравнения нелинейной регрессии зависят от вида кривой. Например, для кубического полинома : Y=11.21-0.67X+0.026X2-0.0004X3 Y X

  10. Основными числовыми характеристиками двумерного распределения случайных величин являются показатели их связи: ковариация (корреляционный момент), коэффициент корреляции и корреляционное отношение. Ковариацияcov(x;y) = M[(x-Mx)(y-My)] представляет собой математическое ожидание произведения отклонений двух случайных величин (x и y) от их математических ожиданий (Mx,My). Чем больше ковариация, тем сильнее линейная связь между переменными. Оценка ковариации по выборке:

  11. - стандартные отклонения генеральных совокупностей - выборочные стандартные отклонения Если оба уравнения регрессии линейные (вида y = a1 + b1x и x = a2 + b2y), то коэффициент корреляции Коэффициент корреляции - ковариация Оценка по выборке: . Коэффициент корреляции (полное название – коэффициент линейной корреляции Пирсона) характеризует силу линейной связи между двумя признаками.

  12. r = -0.79 P=0.000003 r = -0.52 P=0.0079 r = -1 r = -0.25 P=0.022 r = 0.09 P=0.67 r = 0.25 P=0.0199 r = 0.76 P=0.000004 r = 0.54 P=0.0052 r = 1 Коэффициент корреляции изменяется от -1 до +1

  13. Значимость выборочного коэффициента корреляции оценивается t-статистикой: где r– выборочный коэффициент корреляции; n– объём выборки. или критерием, предложенным Фишером где Когда математическое ожидание выборочного коэффициента корреляции = 0 (т.е. линейная связь между переменными полностью отсутствует), величина tраспределена по закону Стьюдента с n-2 степенями свободы (нулевая гипотеза H0: r = 0) При большом объёме выборки (>40) значимый коэффициент корреляции можно рассчитать по формуле , приняв t=3

  14. Пример оценки значимости коэффициента корреляции r = 0,5: при n = 10 при n = 20

  15. На величину коэффициента корреляции сильное влияние оказывают выбросы и неоднородность выборки ВЫБРОСЫ r = 0.62 p=0.0000 r = 0.19 p=0.19

  16. Обнаружить выбросы можно построением матричного графика после удаления выбросов

  17. Неоднородность выборки R = 0.77 P= 0.0000 R = -0.123 P= 0.081 R = -0.0003 P= 0.996

  18. Условия применения коэффициента корреляции Пирсона. Рассматриваемые переменные должны быть обязательно получены в шкале отношений или интервальной шкале Распределения переменных X и Y должны быть близки к нормальному Исходная совокупность значений должна быть качественно однородной. количество варьирующих признаков переменной X должно совпадать с количеством варьирующих признаков переменной Y

  19. Ранговый коэффициент корреляции. Если распределение случайных величин существенно отличается от нормального и его не удаётся преобразовать к нормальному или объём выборки слишком мал, следует использовать непараметрический аналог – ранговый коэффициент корреляции. Наиболее известный из них ранговый коэффициент корреляции Спирмена. где di– разность рангов сопряжённых значений изучаемых величин xiи yi ; n – количество пар в выборке. Для проверки значимости рангового коэффициента корреляции Спирмена используется критическое значение rk, которое рассчитывается по формуле - значение обратной функции нормального распределения при заданной вероятности p, n – количество пар в выборке или таблицы критических значений.

  20. Критические значения рангового коэффициента корреляции Спирмена

  21. Ранговый коэффициент корреляции уступает по мощности параметрическому, но позволяет анализировать выборки малого размера, нечувствителен к выбросам и форме распределения. Коэффициенты корреляции Пирсона Коэффициенты корреляции Спирмена с выбросами с выбросами без выбросов без выбросов

  22. Ограничения коэффициента ранговой корреляции: 1) по каждой переменной должно быть представлено не менее 5 наблюдений; 2) коэффициент ранговой корреляции Спирмена при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений.

  23. Коэффициент корреляции (в том числе и ранговый) оценивает степень связи двух случайных величин только в том случае, если эта связь линейная. Если подозревается нелинейность связи (характер связи можно оценить по графику рассеяния), вместо коэффициента корреляции следует использовать корреляционное отношение. - корреляционное отношение - измеренное значение переменной y для объекта с номером i; - предсказанное значение переменной yдля объекта с номером i Корреляционное отношение изменяется в интервале [0; +1] и интерпретируется как доля дисперсии зависимой переменной (y), объясненная различиями в значениях независимой переменной (x). Коэффициент корреляции фиксирует только формальную связь между признаками, но не причинно-следственную.

  24. Коэффициент корреляции (в том числе и ранговый) оценивает степень связи двух случайных величин только в том случае, если эта связь линейная. Если подозревается нелинейность связи (характер связи можно оценить по графику рассеяния), вместо коэффициента корреляции следует использовать корреляционное отношение. - корреляционное отношение - измеренное значение переменной y для объекта с номером i из группы j; - среднее значениегруппы j - общее среднее значение k – количество нрупп Корреляционное отношение изменяется в интервале [0; +1] и интерпретируется как доля дисперсии зависимой переменной (y), объясненная различиями в значениях независимой переменной (x).

  25. Коэффициент корреляции фиксирует только формальную связь между признаками, но непричинно-следственную.

  26. Регрессионный анализ. Если для двух величин на основании представительной выборки доказано наличие корреляционной связи, определён её вид и подобрано описывающее его уравнение, то создаётся возможность прогноза одной из случайных величин по значениям другой. Одна переменная (X) рассматривается, как независимая, а вторая (Y) – как зависимая от первой и имеющая нормальное распределение с математическим ожиданием и дисперсией, не зависящими от X. Регрессионная модель имеет следующий вид: Линейная регрессионная модель В линейной регрессионной модели а сама модель имеет следующий вид

  27. Уравнение линейной регрессии Y на X можно рассчитать по формулам: - cтандартные отклонения x и y - коэффициент корреляции Пирсона - средние значения x и y Аналогично для линейной регрессии X на Y:

  28. ? Коэффициенты уравнения регрессии рассчитываются методом наименьших квадратов (МНК) Для уравнения Y на Х минимизируются отклонения по У: Y Для уравнения X на Y минимизируются отклонения по X: X

  29. для каждого наблюдения рассчитывается значение по уравнению вычисляется ошибка по формуле ошибки общая регрессии Значимость линейной регрессии проверяется с помощью F-критерия Фишера отношением дисперсии, «объяснённой» регрессией к дисперсии ошибки. Вычисления: Y рассчитываются суммы квадратов: X определяются степени свободы рассчитываются дисперсии регрессии и ошибки Схема дисперсионного анализа для оценки значимости линейной регрессии.

  30. Значимость линейной регрессии 0,05 Пример таблицы критических значений F-критерия для уровня значимости 0.05 График плотности вероятности F-распределения H0: линейная регрессия незначима (регрессия нелинейна) (дисперсия регрессии не выходит за пределы ошибки) H0отвергается, если рассчитанное отношение дисперсии регрессии к дисперсии ошибки превысит критическое при данных степенях свободы и выбранном уровне значимости.

  31. Значимость коэффициентов линейной регрессии Помимо значимости регрессии проверяется значимость (отличие от 0) коэффициентов регрессии: Н0: a=0 Н0: b=0 количество степеней свободы t-критерия n-2

  32. Пример применения регрессионного анализа. Исходные данные Задача: определить возможность оценки содержания Cd по содержанию Zn или Pd Рассчитываем матрицу парных корреляций Выбираем наибольший Проверяем выборку на однородность и отсутствие выбросов.

  33. запускаем процедуру множественной регрессии получаем сводку результатов анализа: коэффициент корреляции коэффициент детерминации характеризует долю дисперссии, «объяснённую» регрессией для линейной связи 2-х переменных равен коэффициенту корреляции Пирсона

  34. скорректированный коэффициент корреляции: стандартная ошибка оценки (стандартное отклонение остатков): рассчитанное значение F-критерия: степени свободы числителя и знаменателя F-критерия: предельный уровень значимости (вероятность того, что линейной регрессии нет)

  35. стандартная ошибка свободного члена свободный член – коэффициент aв уравнении y = a + bx t-статистика (степени свободы) и соответствующая ей вероятность для проверки гипотезы о равенстве нулю свободного члена aв уравнении регрессии Бета коэффициент Бета-коэффициенты являются коэффициентами, которые были бы получены, если бы мы заранее стандартизовали все переменные, т.е. сделали их среднее равным 0, а стандартное отклонение равным 1. Одно из преимуществ бета-коэффициентов (по сравнению с в-коэффициентами) заключается в том, что бета-коэффициенты позволяют сравнить относительные вклады каждой независимой переменной в предсказание зависимой переменной. Т.к. у нас одна зависимая переменная, Бета-коэффициент равен коэффициенту корреляции.

  36. стандартные ошибки коэффициентов (позволяют дать интервальную оценку) t-статистика (степени свободы) и соответствующая ей вероятность для проверки гипотезы о равенстве нулю коэффициентов уравнения регрессии Коэффициенты уравнения линейной регрессии:

  37. +

  38. Оценка качества модели. О качестве модели судят по средней относительной ошибке аппроксимации Считается, что ошибка в 4 – 9 % на контрольной выборке свидетельствует о хорошем качестве построенной модели. - наблюдаемое значение - предсказанное значение Для рассматриваего примера средняя относительная ошибка аппроксимации = 7,54% следовательно, данное уравнение можно использовать в качестве регрессии.

  39. Доверительные интервалы для зависимой переменной. Доверительный интервал для зависимой переменной при заданном значении независимой переменной

  40. Коэффициенты вероятности t распределения Стьюдента при заданной вероятности  и степени свободы k

  41. Доверительный интервал для зависимой переменной при заданном значении независимой переменной Доверительные интервалы для зависимой переменной.

  42. Предположения и ограничения линейного регрессионного анализа. Однородность выборки Отсутствие выбросов Линейность связи между переменными На практике это предположение никогда не может быть подтверждено. Всегда имеет смысл посмотреть на двумерные диаграммы рассеяния переменных, представляющих интерес. Если нелинейность связи очевидна, то можно попробовать преобразование переменных Зависимая переменная должна быть количественной Независимая переменная должна быть количественной Наблюдения (и остатки) должны быть независимы друг от друга (проверяется с помощью критерия Durbin-Watson) Зависимость между переменными должна быть линейной (проверяется графически путем построения скаттерограммы) Остатки должны иметь нормальное распределение (проверяется графически с помощью гистограмм, квантильных диаграмм, а также с помощью критериев Kolmogorov-Smirnov или Shapiro-Wilk) Остатки должны иметь одинаковый разброс на всем протяжении предсказанных значений (или независимой переменной). Выборка должна быть репрезентативной

  43. Нелинейное оценивание:

  44. Оценка параметров модели Дисперсионный анализ

More Related