510 likes | 947 Views
Zagadnienia regresji i korelacji. Regresja i korelacja dwóch zmiennych, regresja wielokrotna i krzywoliniowa. Regresja liniowa. Powiedzmy, że w pewnej populacji generalnej rozważamy dwie zmienne: zmienną losową oraz zmienną rzeczywistą (lub losową) X .
E N D
Zagadnienia regresji i korelacji Regresja i korelacja dwóch zmiennych, regresja wielokrotna i krzywoliniowa
Regresja liniowa Powiedzmy, że w pewnej populacji generalnej rozważamy dwie zmienne: zmienną losową oraz zmienną rzeczywistą (lub losową) X. O wartości oczekiwanej zmiennej losowej Y zakładamy, że jest funkcją liniową zmiennej X postaci: Wariancja oznacza, że zmienność cechy (zmiennej) Y jest niezależna od zmiennej X (jest stała).
Estymacja parametrów modelu Parametry modelu nie są znane i muszą być estymowane na podstawie odpowiedniej próby losowej. Niech oznacza elementy dwucechowej próby losowej. Wyniki te można zilustrować na wykresie w układzie OXY uzyskując rozrzut empiryczny punktów. Zagadnienie estymacji parametrów modelu sprowadza się do takiego dobrania ich wartości, aby wykres prostej “jak najlepiej” pasował do punktów empirycznych. Odpowiednie kryterium można sformułować tak: chcemy tak poprowadzić prostą regresji, aby suma kwadratów odległości każdego punktu empirycznego od tej prostej była jak najmniejsza.
Estymacja parametrów modelu (c.d.) Zgodnie z modelem każdą obserwację empiryczną można zapisać jako: a kryterium estymacji odpowiednio jako: Problem estymacji sprowadza się więc do wyznaczenia minium funkcji s.
Estymacja parametrów modelu (c.d.) Funkcja s jest funkcją dwóch niewiadomych (a i b), aby znaleźć minimum tej funkcji musimy wyznaczyć pochodne cząstkowe funkcji s względem obu niewiadomych: Przyrównując te pochodne do zera otrzymujemy tzw. układ równań normalnych (w układzie tym, w miejsce a i b wstawiamy ich oszacowania z próby, czyli i ).
Estymacja parametrów modelu,układ równań normalnych Układ równań normalnych ma postać: Rozwiązując powyższy układ otrzymujemy:
Istotność regresji Istotność wyestymowanego równania regresji zbadamy weryfikując hipotezę zerową Przy prawdziwości H0 statystyka: ma rozkład t Studenta z liczbą stopni swobody v = n - 2. Wyrażenie jest oszacowaniem wariancji odchyleń od regresji z próby:
Istotność regresji i interpretacja współczynnika regresji Jeżeli , to H0:b = 0 odrzucamy jako zbyt mało prawdopodobną i wnioskujemy o istotności wyznaczonego równania regresji postaci: W sytuacji, gdy wyniki naszej próby nie przeczą hipotezie zerowej. Tym samym funkcja regresji ma postać: Współczynnik regresji mówi nam o tym, o ile zmieni się zmienna zależna y przy wzroście zmiennej x o jednostkę.
Inne hipotezy związane z regresją Korzystając z rozkładu t-Studenta możemy także weryfikować hipotezy zerowe postaci: przy alternatywie obustronnej jak i jednostronnej. Funkcja testowa ma zawsze tę samą postać: a zmieniać się będą jedynie obszary krytyczne (zależnie od H1) albo krytyczne poziomy istotności (jeżeli korzystamy z pakietów statystycznych).
Dokładność dopasowania prostej regresji Odchylenie obserwowanej wartości od jej średniej można zapisać następująco: Pierwszy składnik można traktować jako tę część całkowitego odchylenia zmiennej y, która jest wyjaśniona regresją liniową y względem x. Drugi zaś składnik jest tą częścią zmienności całkowitej, która nie została wyjaśniona regresją. Na kolejnym slajdzie zależność ta jest zilustrowana graficznie.
Dokładność dopasowania prostej regresji (c.d.) Podnosząc do kwadratu obie strony równości i sumując po i = 1, 2,..., n otrzymamy (po odpowiednich przekształceniach) analogiczną równość dla sum kwadratów odchyleń: Równość ta wyraża podział całkowitej sumy kwadratów odchyleń dla zmiennej y na dwa składniki: - sumę kwadratów odchyleń wyjaśnioną regresją, - resztową sumę kwadratów odchyleń (nie wyjaśnioną regresją).
Współczynnik determinacji Równość można wykorzystać do konstrukcji miary dopasowania prostej regresji. Wyrażenie: w którym sumę kwadratów odchyleń wyjaśnioną regresją odnosimy do całkowitej sumy kwadratów odchyleń nazywamy współczynnikiem determinacji.
Współczynnik determinacji (c.d.) Wartość współczynnika determinacji zawiera się w przedziale <0; 1> i informuje nas o tym, jaka część zmienności całkowitej zmiennej losowej Y została wyjaśniona regresją liniową względem X. Jeżeli między zmiennymi Y i X istnieje pełna zależność, to wszystkie punkty empiryczne leżą na prostej, reszty są zerowe, a r2 = 1. W przypadku braku zależności ( ) funkcja regresji jest równa i w konsekwencji r2 = 0.
Jeszcze raz o weryfikacji hipotezy o istotności regresji Równość daje także możliwość weryfikacji hipotezy o istotności regresji testem F Fishera-Snedecora. Analiza wariancji ma postać: Zmienność df S.S M.S Femp. F Regresji 1 SSR MSR FR Odchyleń n-2 SSE MSE Całkowita n-1 SST gdzie:
Predykcja na podstawie regresji liniowej Wyestymowany model regresji można wykorzystać do przewidywania, jakie wartości przyjmie zmienna Y przy ustalonych wartościach zmiennej niezależnej X. Zagadnienie to nosi nazwę predykcji lub prognozowania. Niech będzie oszacowaniem równania regresji z próby, a oszacowaniem wariancji odchyleń od regresji.
Dokładność predykcji Wariancja wartości regresyjnej określona jest wzorem: Z powyższego wzoru wynika, że wariancja wartości regre-syjnych (teoretycznych) zależy od wielkości różnicy . Im wartość x, dla której dokonujemy predykcji jest bardziej odległa od średniej , tym mniejsza dokładność prognozy.
Przedział ufności dla wartości regresyjnej Przy założeniu, że rozważany model jest klasycznym modelem normalnej regresji liniowej statystyka: ma rozkład t Studenta z liczbą stopni swobody v = n - 2. Na tej podstawie możemy wyznaczyć przedział ufności dla wartości regresyjnych:
Współczynnik korelacji Powiedzmy, że w pewnej populacji generalnej obserwujemy dwie zmienne losowe Y i X. Miarą siły związku między zmiennymi losowymi jest współczynnik korelacji , a jego oceną w próbie wyrażenie: Współczynnik korelacji r ma wszystkie własności określone dla współczynnika korelacji w populacji: • , jeżeli cechy (zmienne) są liniowo nieskorelowane • , jeżeli między zmiennymi zachodzi zależność liniowa (wprost lub odwrotnie proporcjonalna).
Współczynnik korelacji (c.d.) Współczynnik korelacji określa, oprócz siły związku między zmiennymi, także kierunek zależności. Zależności między wartościami współczynnika korelacji r a kształtem rozrzutu danych empirycznych pokazane będą na dwóch kolejnych slajdach. Kwadrat współczynnika korelacji z próby będziemy nazywać współczynnikiem determinacji i jest on, drugim poza współczynnikiem korelacji miernikiem siły związku między zmiennymi. Interpretacja współczynnika determinacji jest nam już znana: podaje, w jakiej części zmienność jednej cechy jest wyjaśniona przez drugą cechę.
Wartości r a rozrzut empiryczny punktów r bliskie -1
Weryfikacja hipotezy o istotności korelacji Załóżymy, że rozkład zmiennych losowych Y i X w populacji generalnej jest normalny. Na podstawie n-elementowej próby chcemy zweryfikować hipotezę, że zmienne te są liniowo niezależne: wobec Jeżeli H0 jest prawdziwa, to statystyka: ma rozkład t Studenta z liczbą stopni swobody v = n - 2 Wnioskowanie co do losów H0 jest standardowe.
Istotność regresji a korelacji Hipoteza o istotności korelacji może być także zweryfikowana poprzez porównanie wyznaczonego współczynnika z próby z wartościami krytycznymi współczynnika korelacji wielokrotnej Pearsona. Jeżeli (gdzie k oznacza liczbę zmiennych niezależnych), to odrzucamy na korzyść Hipotezy o istotności regresji i korelacji są równoważne, tym samym weryfikując jedną z nich wypowiadamy się jednocześnie o losach drugiej.
Regresja wielokrotna liniowa Dotychczas zajmowaliśmy się taką sytuacją, gdzie w populacji generalnej rozpatrywaliśmy tylko dwie zmienne: Y i X. Znacznie częściej będziemy mieć do czynienia z sytuacjami, gdzie w populacji generalnej rozpatrywać będziemy k+1 zmiennych: zmienną losową Y oraz k zmiennych X (stałych lub losowych). O zmiennej Y sformułujemy założenie, że jest to zmienna normalna:
Regresja wielokrotna liniowa (c.d.) Załóżmy dalej, że wartość oczekiwana zmiennej losowej Y jest funkcją liniową zmiennych xi (i=1, ...,k): Zapis wariancji sformułowany w założeniu oznacza, podobnie jak w przypadku regresji jednej zmiennej, stałość rozrzutu wartości cechy Y dla dowolnej kombinacji wartości zmiennych xi. Parametry powyższego modelu liniowego nie są znane i muszą być oszacowane na podstawie n-elementowej próby losowej. Współczynniki modelu b1, ..., bk będziemy nazywać cząstkowymi współczynnikami regresji.
Regresja wielokrotna liniowa, estymacja modelu Oznaczmy elementy próby losowej jako . Zgodnie z modelem dla j-tej wartości mamy: Kryterium estymacji sformułujemy analogicznie jak poprzednio: chcemy tak dobrać parametry modelu, aby suma kwadratów odchyleń od modelu była jak najmniejsza:
Regresja wielokrotna liniowa, estymacja modelu (c.d.) Minimalizacja funkcji s wymaga rozwiązania k+1 układów równań. Można częściowo uprościć obliczenia zapisując model funkcji regresji w postaci: gdzie . Kryterium estymacji ma teraz postać:
Regresja wielokrotna liniowa, estymacja modelu (c.d.) Minimalizacja funkcji s wymaga teraz rozwiązania układu k równań normalnych, które otrzymamy obliczając pochodne cząstkowe funkcji s względem poszczególnych bi i przyrównu-jąc je do zera. Otrzymany układ równań normalnych można zapisać macierzowo w postaci: Macierz V jest macierzą kwadratową współczynników przy niewiadomych, wektor jest wektorem ocen cząstkowych współczynników regresji, a wektor C jest wektorem wyrazów wolnych. Na kolejnym slajdzie podana jest definicja elementów tych macierzy.
Układ równań normalnych Elementami macierzy V są odpowiednio: Wektor kolumnowy ocen cząstkowych współczynników regresji ma postać: a wektor kolumnowy wyrazów wolnych postać:
Przykład układu równań normalnych Dla dwóch zmiennych niezależnych układ równań normalnych można zapisać w postaci: W zapisie macierzowym ten sam układ równań ma postać gdzie:
Rozwiązanie układu równań normalnych Aby rozwiązać równanie macierzowe musimy pomnożyć obie strony powyższego równania przez macierz odwrotną do macierzy V. Tak więc oceny nieznanych cząstkowych współczynników regresji są równe a ocenę wyrazu wolnego znajdziemy z zależności:
Badanie istotności regresji wielokrotnej Hipotezę o istotności regresji wielokrotnej możemy zapisać jako: a do jej weryfikacji wykorzystać test F Fishera-Snedecora. Tabela analizy wariancji ma postać: Zmienność d.f SS MS Femp. F Regresji k SSR MSR FR Odchyleń n-k-1 SSE MSE Całkowita n-1 SST
Badanie istotności regresji wielokrotnej (c.d.) Sumy kwadratów odchyleń i średnie kwadraty potrzebne do zweryfikowania hipotezy o istotności regresji mogą być wyznaczone z niżej podanych wzorów.
Badanie istotności regresji wielokrotnej (c.d.) Hipotezę będziemy odrzucać wtedy, gdy . Odrzucenie hipotezy H0jest równoznaczne z tym, że co najmniej jeden współczynnik regresji jest różny od zera. Tym samym istnieje związek funkcyjny liniowy między zmienną zależną Y a zmiennymi niezależnymi Xi. Problemem statystycznym będzie dalej ustalenie, które zmienne niezależne powinny pozostać w modelu regresji.
Weryfikacja hipotez o istotności cząstkowych współczynników regresji Teoretycznie problem sprowadza się do zweryfikowania serii k hipotez zerowych mówiących o tym, że i-ty cząstkowy współczynnik regresji jest równy zero. Hipotezy te mogą być weryfikowane testem t-Studenta, a funkcja testowa ma postać:
Weryfikacja hipotez Wyrażenie jest oszacowaniem średniego kwadratu odchyleń od regresji, a element vii jest elementem diagonalnym macierzy odwrotnej do macierzy V. Przy prawdziwości hipotez zerowych tak określone statystyki mają rozkład t-Studenta z liczbą stopni swobody v = n-k-1
Weryfikacja hipotez , wnioskowanie Hipotezę będziemy więc odrzucać, jeżeli wartość empiryczna statystyki t znajdzie się w odpowiednim obszarze krytycznym. Tym samym zmienna, przy której stoi weryfikowany cząstkowy współczynnik regresji powinna pozostać w modelu. I tu pojawia się pewien trudny problem. Jeżeli zmienne niezależne są z sobą powiązane (macierz V nie jest macierzą diagonalną), to oceny istotności cząstkowych współczynników regresji nie są niezależne.
Problem doboru zmiennych W przypadku istnienia silnych współzależności między zmiennymi niezależnymi Xi (mierzonymi choćby współczynnikami korelacji miedzy parami zmiennych) może to prowadzić do paradoksalnej (z pozoru) sytuacji. Analizując funkcję regresji wielokrotnej dochodzimy do wniosku, że jest ona istotna statystycznie (testem F). Weryfikując dalej hipotezy o istotności cząstkowych współczynników uzyskujemy takie wartości empiryczne testu t Studenta, które nie przeczą hipotezom zerowym. Z jednej strony mamy więc istotną funkcję regresji, a z drugiej wszystkie zmienne (analizowane oddzielnie) są nieistotne, powinny więc być usunięte z modelu.
Problem doboru zmiennych (c.d.) Problem występowania współzależności między zmiennymi niezależnymi, w aspekcie doboru zmiennych istotnych, zmusza nas do wypracowania innego sposobu określania zestawu zmiennych niezależnych. Można sformułować takie podejście: zaczynamy od pełnego zestawu potencjalnych zmiennych niezależnych, a następnie kolejno usuwamy z modelu tę zmienną niezależną, której rola w opisywaniu zależności między zmienną Y a zmiennymi niezależnymi jest najmniejsza. Podejście takie nosi nazwę regresji krokowej, ale przed jej omówieniem wprowadzimy jeszcze mierniki dobroci dopasowania modelu.
Ocena stopnia dopasowania modelu Miarą stopnia dopasowania modelu może być współczynnik korelacji wielokrotnej R lub jego kwadrat (współczynnik determinacji D). Dobierając model funkcji regresji powinniśmy dążyć do uzyskania jak największego współczynnika determinacji (korelacji), ale przy możliwie małym średnim kwadracie odchyleń od regresji:
Regresja krokowa W świetle poprzednich rozważań można sformułować następujący tok postępowania: 1. Zaczynamy od pełnego (potencjalnie) zestawu zmiennych niezależnych. Estymujemy model i wyznaczamy 2. Wyznaczamy wektor wartości empirycznych statystyk t dla hipotez . 3. Usuwamy z modelu tę zmienną, dla której uzyskaliśmy najmniejszą wartość empiryczną statystyki t (co do wartości bezwzglednej) i ponownie estymujemy model. Postępowanie takie kontynuujemy tak długo, dopóki w modelu nie pozostaną tylko zmienne istotne.
Regresja krokowa (c.d.) W trakcie wykonywania regresji krokowej powinniśmy obserwować zmiany wartości współczynnika determinacji jak i średniego kwadratu błędu. Usuwanie zmiennych niezależnych będzie oczywiście zmniejszać wartości współczynnika determinacji, ale usunięcie zmiennej nieistotnej spowoduje niewielkie zmniejszenie wartości tego parametru. Generalnie nasze postępowanie ma doprowadzić do maksymalizacji wartości współczynnika determiancji przy jednoczesnej minimalizacji średniego kwadratu błędu.
Regresja krzywoliniowa W wielu przypadkach interesuje nas nieliniowy związek między zmienną Y a zmienną X. Przykładowo może to być związek typu wielomianu stopnia drugiego: Problem estymacji tego modelu staje się prosty, jeżeli dokonamy formalnego podstawienia: w wyniku którego sprowadzamy model krzywoliniowy do modelu liniowego postaci:
Regresja krzywoliniowa (c.d.) Rozważmy jeszcze jeden przykład modelu nieliniowego z dwoma zmiennymi niezależnymi: Poprzez formalne podstawienia model ten daje się sprowadzić do standardowego modelu liniowego. Postępowanie, które pozwala na sprowadzenie modelu krzywoliniowego do standardowego modelu liniowego nosi nazwę linearyzacji modelu regresji.
Wnioskowanie w regresji wielokrotnej Podobnie jak w przypadku regresji liniowej jednej zmiennej cząstkowe współczynniki regresji mają następującą interpretację merytoryczną: i-ty, cząstkowy współczynnik regresji mówi nam o tym, o ile średnio zmieni się wartość zmiennej Y przy wzroście i-tej wartości zmiennej X o jednostkę i przy ustalonych wartościach pozostałych zmiennych niezależnych. W przypadku większości modeli regresji krzywoliniowej taka interpretracja nie jest możliwa.
Funkcje przekrojowe Rozważmy model regresji wielomianowej dwóch zmiennych niezależnych postaci: Dość wygodną formą analizowania takiego modelu jest wyznaczenie funkcji przekrojowych, czyli takich, gdzie zmienna Y jest funkcją tylko jednej zmiennej niezależnej. W naszym przykładzie mamy dwie takie funkcje:
Problemy związane z estymacją funkcji regresji Estymacja funkcji regresji jest trudnym zagadniem z kilku powodów: 1. Eksperymentator nie ma pewności, że zbiór analizowanych zmiennych niezależnych jest pełny. 2. Kształt funkcji regresji z reguły nie jest znany, stąd pojawia się problem doboru zmiennych. 3. W wielu sytuacjach można uzyskać porównywalną dobroć dopasowania modelu dla różnych zestawów zmiennych niezależnych.