回帰分析重回帰 (2)

回帰分析重回帰(2) 仮説検定

仮説検定 • 単一の制約 • t検定 • メニューから行う方法 • 複数の制約 • F検定 • メニューから行う方法 • F統計量を実際に求める • 構造変化 • 最適なモデルの決定

回帰分析の前提

最小二乗推定量

最小二乗推定量(2)

個々の係数に関する検定

H0: ある変数の係数が0 係数の標準誤差 t 値 = b / b(s.e.) 係数の真の値が0だとして計算 p値 (両側確率）通常は，0.05より小さければ0と有意に異なると判断 EDUCの t 値は12.56 ｔ分布に従う確率変数が（絶対値で） 12.56より大きな値をとる確率

仮説検定　単一の制約 • t分布 • 特に，「係数が0に等しい」という仮説は，回帰分析のoutputをみるだけでよい • p値　 output の Prob. 欄 • wage1.rawの回帰分析の結果では，educのp値は0.0000。educの係数の真の値が0だとすると，（絶対値で）0.09209以上の推定値を得る確率が0.0000だということ • 一般的には，p値が0.05未満なら，係数=0の仮説は棄却される • 注意： Eviewsのp値は両側確率

educの係数の信頼区間を求める educの係数は自由度522の t 分布をする df= オブザベーション数(526) – 説明変数の個数(4) = 522 • 片側5%の臨界値t分布の95%点 • 両側5%の臨界値t分布の97.5%点 • 例えば，両側5%の場合，臨界値をt0.975とすれば，bjの信頼区間は次の通りになる

educの係数の信頼区間を求める(2) Eviewsの関数を用いて行うには， @qtdist(p, df)　累積分布がpになるｔ値を返す（自由度df) @coefs(i) i番目の係数（定数項は1番目とカウント） @stderrs(i) i番目の係数の標準誤差を用い，コマンド行で次のようにタイプする（ただし， bj0 =bjとした場合）。scalar tc = @qtdist(0.975, 522) scalar b_low=@coefs(i) –tc * @stderrs(i) scalar b_up= @coefs(i) + tc* @stderrs(i) iは実際の数字を入れる計算すると，b_low = 0.077629, b_up= 0.106429 任意のbj0については，上の式の@coef(i)に想定した値を代入回帰分析の結果のメニューから ViewCoefficient Diagnostics  Confidence Intervals をたどっても信頼区間を求められる。 Excel を用いることもできる

問題 • Wage1.rawのデータを用いた先ほどのOLSで，次の仮説をそれぞれ検定せよ。 • EDUCの係数が0.06に等しい • EXPERの係数が0.005に等しい • TENUREの係数が0.02に等しい • それぞれの場合のt値を求めること • この場合のt分布の自由度は? • @coefs, @stderrsを用いる • または，OLSを行った後，menuから View/Coefficient Diagnostics/Wald Test Coefficient Restrictions

複数の制約 • RRSS (Restricted Residual Sum of Squares: 制約付きの残差平方和） • URSS (Unrestricted Residual Sum of Squares: 制約無しの残差平方和） • r : 制約の数 • n-(k+1): 制約無しの回帰での自由度

複数のbjに関する制約（単一の制約） • Kane and Rouse(1995) • 短大と4年生大学:　賃金差はあるか • ln(wage)=a+b1*jc+b2*univ+b3*exper+u • jc短大の教育年数 • univ 4年生大学の教育年数 • exper卒業後の年数（労働市場にでてからの年数） • H0:b1=b2

複数のbjに関する制約（単一の制約）　続き • ln(wage) = a + b1*jc + b2*univ+ b3*exper + u H0: b1=b2 1.でb2=b1+dとおくと ln(wage) = a + b1*jc + (b1+d)*univ+ b3*exper + u これより • ln(wage) = a + b1*(jc + univ) + d*univ+ b3*exper+ u H0: d=0 univの係数が0という制約に帰着

Eviews　係数の制約 ここをクリックし，coefficient diagnostics  Wald tests - coefficient restrictions .. をたどると，係数の制約のテストの画面が表れる。複数の制約も可能。個々の係数=0の検定はここをみる説明変数の全て(educ, exper, tenure)の係数が0かどうかこの値からF検定を行うこともできる。　E-views では直前の回帰の残差平方和は@ssrに保存される

View/ Coefficient diagnostics/ Wald test – Coefficient Restrictions を選択 c(3)=0, c(4)=0 　で制約式を指定（複数の制約式は , で区切る） c(3)は3番目の説明変数の係数（定数項を1番目とカウント） EviewsでのF検定 H0: exper,tenureの係数がともに0 検定のための統計量は，自由度が　(2,252) のF統計量 5%水準の臨界値は3.03 H0は棄却される自由度(2,252)のF分布に従う確率変数が49.685よりも大きな値をとる確率は0.0000

F検定（コマンドを打ち込む方法） • 制約無しの回帰分析URSS　を求める制約なしの回帰後，コマンドウィンドウで　scalar urss= @ssr • 制約付の回帰分析RRSS　を求める制約つきの回帰後，コマンドウィンドウで　scalar rrss= @ssr • F統計量を計算分子は　(rrss-urss)/(制約の数)，分母はurrs/(制約なしの回帰の自由度) で計算した変数を作る（以下では，ｆｆとした）コマンドウィンドウで次のようにタイプ scalar f1= (rrss –urss)/制約の数 scalar f2 =urss/(@regobs-定数項を含んだ説明変数の個数) scalar ff =f1/f2 ffの累積分布を求める（@cfdist(ff,df1,df2)を用いる Excelでも同様の計算ができる

問題1 • wage1.raw 　被説明変数　ln(wage) 　説明変数　educ, exper, tenure, ｆemale • 次の仮説を検定せよ • H0 : 全ての説明変数の係数が0に等しい • H0 : 女性と男性の賃金格差は無い（定数項ダミーだけでよい） • H0 : experと tenure の係数が共に0である 2.と3.については，制約なしの残差平方和と制約付の残差平方和の値を求める方法でも計算せよ。

問題2 • 問題1と同じデータで次の仮説を検討せよ。 • 説明変数にfemale ダミーと学歴(educ)，勤続年数(tenure)の交差項を加える。 • 女性と男性の賃金格差（定数項）は無いし，学歴の効果の違いも無いし，勤続年数の効果の違いも無い。

問題3 • MLB1.RAW • 次の回帰式を推定 • 被説明変数：log(salary) • 説明変数： years, gamesyr, bavg, hrunsyr, rbisyr, runsyr, fldperc, allstar, firstbase, scndbase, thrdbase, shrtstop, catcher,(baseはoutfield) • 次の仮説を検討せよ。 • 他の要因を一定にした場合，捕手と外野手の年俸は同じ • 他の要因を一定にした場合，守備位置の違いは年俸に影響を与えない

Chowテスト • 構造変化の検定 • 例）消費関数，投資関数の推計 • T個の時系列データ • 時点s以降で構造変が起きたかどうかの検定 • 全体を二つの期間に分割 • 時点ダミーを導入してg=0の検定を行う　　 kは説明変数の個数（定数項も含めて）

最適なモデルの決定 • F検定 • nested modelの場合 • adjusted R2を用いる方法 • AIC基準　(Akaike Information Criteria) AIC=-2ln(L)+2k ln(L): 対数尤度,k: パラメータの数（説明変数の数） AICを最小にするようなモデルを選ぶたいていの統計パッケージでは自動的に出力される • 変数増減法(stepwise regression) • RESET (regression specification error test) • 回帰式　非線形性のテスト　 • J テスト • non nested model

RESET 上のモデルを推計し，yの予測値を得る。 yの予測値の平方，３乗の項，...を説明変数に加えた次のモデルを推計する H0: (1)の定式化が正しい  g1=g2=0 EviewsでのRESET (1)式をOLSで推計 View/ Stability Diagnostics/ Ramsey RESET Test Number of Fitted Terms で(2)式にFitted valueをいくつ入れるかを設定 1 2次の項まで，　2 3次の項まで

Non nested model • MLB1.rawのMLB選手の年棒の回帰分析では，hrunsyr(ホームラン数）とrbisyr（打点）はともに，有意ではなかった（二つの変数の単相関は0.89と非常に高いため）。 • そこで，次の二つのモデルのどちらが適切かを選択する必要に迫られたとする。

J test • どちらか一方のモデルが正しいモデルであれば，他方のモデルで得られた予測値は説明力を持たない • （例）H2で推定したモデルの予測値(y2hat)を説明変数としてH1に代入して，b5=0の検定を行う • 同様に，H1で推定したモデルの予測値(y1hat)を説明変数としてH2に代入して，b5=0の検定を行う • 両方のテストとも棄却される場合がある別のモデル

Eviewsでの統計関数 • @c--:cumulative distribution function(CDF) • @d--:density function • @q--:quantile( inverse CDF) • @r--:random number generator ------------------------------------ • @cfdist(x,df1,df2)，@qfdist(x,df1,df2)F分布　 • @cnorm(x), @qnorm(p)　正規分布 • @ctdist(x,df), @qtdist(p,df)t分布 • Eviewsで，自由度(2,522)のF分布に従う変数の95%点を求めるためには scalar ff= @qfdist(0.95, 2, 522) をコマンド行に打ち込む

Eviewsでの回帰分析 • @coefs(i) : i番目の係数 • @stderrs(i): 標準誤差 • @tstats(i): t値 • @coefcov(I,j): i番目のｊ番目の係数の共分散 • @f : F統計量 • @se: standard error of the regression • @ssr: 残差平方和 • @regobs: 回帰分析でのオブザベーション数

回帰分析 重回帰 (2)