520 likes | 1.01k Views
ロジスティック回帰分析 with the assistance of Mr. M. Torii. 二値データの回帰分析法. 規準変数が二値の場合の 回帰分析. 「成功・失敗」を原因系の変数で予測 「発症・非発症」を原因系の変数で予測 「賛成・反対」を原因系の変数で予測 「賛成・どちらでもない・反対」を「賛成する・賛成しない」の二値に落として原因系の 変数で予測. 例:心疾患の発症. 出展:丹後他 (1996) ロジスティック回帰分析 原典 (Truett et. al. 1967) n=2187, 男性 規準変数
E N D
ロジスティック回帰分析with the assistance of Mr. M. Torii 二値データの回帰分析法
規準変数が二値の場合の回帰分析 • 「成功・失敗」を原因系の変数で予測 • 「発症・非発症」を原因系の変数で予測 • 「賛成・反対」を原因系の変数で予測 • 「賛成・どちらでもない・反対」を「賛成する・賛成しない」の二値に落として原因系の変数で予測
例:心疾患の発症 • 出展:丹後他(1996)ロジスティック回帰分析原典(Truett et. al. 1967) • n=2187, 男性 • 規準変数 • 冠状動脈性疾患の発症(12年後に発症したかどうか) • 説明変数 • 年齢 • コレステロール • 血圧 • 相対体重 • ヘモグロビン • 喫煙 • ECG所見
普通に回帰分析してはいけないのか • してはいけない • 0・1変数を連続変数で予測するというモデルに無理がある • y^=0.8, 1.5, -0.4のような予測値はどのように解釈すればよいか不明
では,どう考えるか • 原因系変数が結果の生起確率P(Y=1)に影響すると考えるのが自然 • P(Y=1)=a+bxはどうか? • ダメ • a+bxは区間[0,1]に収まらないことがある • 0.5→0.6とするための努力と0.85 → 0.95とするための努力には違いがある
では,どうするか • そこで,生起(成功)確率を支配する実力という潜在変数(心理学的連続体)があり,それが正規分布すると仮定する • さらに,その潜在変数が原因系の変数(説明変数)から影響を受けることを想定する
原因系の変数が実力に影響する 実力 失敗する確率 成功する確率
実力と成功確率 成功確率:50%⇒60% 成功確率:85%⇒95% 実力の増分:0.25 実力の増分:0.60
ロジスティック回帰モデル 一般にある現象の発生する確率(割合)pを、その現象の生起を説明するために観測された変数群 で説明しようと考える場合、 という状態のもとで現象が生起するという条件付き確率を で表し、これを、 という関数Fを用いてモデル化する。
ロジスティック回帰モデル_2 つぎのFを用いてモデル化:
なぜオッズ比か • オッズ(odds) とは比のこと • オッズ比...比の比 • なぜ「比」だけではダメか
例 A薬 B薬 比 治癒 90 99 0.99/0.90=1.1 未治癒 10 1 0.01/0.10=0.1 A薬 B薬 治癒 50 55 0.55/0.50=1.1 未治癒 50 45 0.45/0.50=0.9 ? ?
解説 • 薬の効きを治癒率の比と未治癒率の比でみたものとが異なるのは矛盾 • 100名中治癒した割合は1割違うだけであるが,90→99と50→55とは評価は異なるべきであろう • では,未治癒率で見ればよいということになるかもしれないが,数値が治癒率と未治癒率が入れ替わっているきは同じ問題が起こる
オッズ比でみると • 治癒率のオッズ比は未治癒率のオッズ比の逆数 • 治癒率のオッズ比=2未治癒率のオッズ比=0.5 • 1の近くでの変化は中庸での変化より高く評価される
例 A薬 B薬 オッズ比 治癒 90 99 未治癒 10 1 A薬 B薬 治癒 50 55 未治癒 50 45
補足 -種々のモデル式- • プロビット回帰モデル • complementary log-log回帰分析 • ロジスティック回帰分析 ⇒標準正規分布関数 ⇒二重指標関数 ⇒ロジスティック関数
1.0 p 二重指数関数 (double exponential function) ロジスティック関数 (logistic function) 0.5 Z 標準正規分布関数 (standardized normal distribution function) 0.0 p:確率値 Z:変数の線形な合成変数
近似について • 二重指数関数とロジスティック関数は標準正規分布関数の近似 • ロジスティックが一般的だが,これといった理由はない • オッズ比との相性のよさ • どの近似を採用しても,データが存在する説明変数xの範囲の中では違いは小さい • しかし,外挿するときは注意が必要 • 感度分析...3種類の関数で推定してみて大きな差がないことを確認する
1986年NASAスペースシャトルCHALLENGER号爆発事故1986年NASAスペースシャトルCHALLENGER号爆発事故 • 事故調査班は原因は「O-ring」という部品の故障だと断定 • また、調査班は事故につながる重要な要因として温度を取り上げている • 過去のデータから、当時の温度から故障率を予測するとどのような結果になるか?
過去23回のスペースシャトル打ち上げ時の温度と 「O-ring」故障数(全6個中)過去23回のスペースシャトル打ち上げ時の温度と 「O-ring」故障数(全6個中)
SASプログラム- proc logistic- OPTIONS NOCENTER PS=54 LS=90; DATA d1; INPUT num nf no temp @@; CARDS; 1 2 6 53 2 0 6 66 3 0 6 68 4 1 6 70 5 0 6 75 6 0 6 78 7 1 6 57 8 0 6 67 9 0 6 69 10 1 6 70 11 2 6 75 12 0 6 79 13 1 6 58 14 0 6 67 15 0 6 70 16 0 6 72 17 0 6 76 18 0 6 81 19 1 6 63 20 0 6 67 21 0 6 70 22 0 6 73 23 0 6 76 ; PROC LOGISTIC DATA=d1; MODEL nf/no = temp / SCALE=NONE COVB PLRL LACKFIT; OUTPUT OUT=d2 C=COOK; PROC PRINT DATA=d2; RUN;
Details • MODEL nf/no = temp / SCALE=NONE PLRL LACKFIT;OUTPUT OUT=d2 C=COOK; • 従属変数に「故障数/全体の数」を指定 • SCALE=NONE…適合度 • PLRL…オッズ比とその区間推定 • LACKFIT…いくつかのデータをまとめて,モデルによる予測頻度とデータの頻度との比較 • C=COOK Cook統計量による回帰診断 • 分析に過度の影響があるobservationの同定
モデルの適合度を調べる 統計量=デビアンス(のp値) SAS出力:適合度ロジスティック関数と線型回帰モデルのよさを吟味 Deviance and Pearson Goodness-of-Fit Statistic Pr > Criterion DF Value Value/DF Chi-Square Deviance 21 18.0863 0.8613 0.6435 Pearson 21 29.9803 1.4276 0.0924 Number of events/trials observations: 23 大きいほど良い
SAS出力:偏回帰係数 exp(-0.1156) Analysis of Maximum Likelihood Estimates Parameter Standard Wald Pr > Standardized Odds Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio INTERCPT 1 5.0850 3.0525 2.7751 0.0957 . . temp 1 -0.1156 0.0470 6.0435 0.0140 -0.441494 0.891 回帰式 Estimated Covariance Matrix Variable INTERCPT TEMP INTERCPT 9.3176671947 -0.142565536 TEMP-0.142565536 0.002211241
SAS出力:オッズ比の区間推定 Profile LikelihoodConfidence Limits Odds Variable Unit Ratio Lower Upper temp 1.0000 0.891 0.809 0.970
SAS出力:予測の「よさ」をみる Association of Predicted Probabilities and Observed Responses Concordant = 65.4% Somers' D = 0.382 Discordant = 27.1% Gamma = 0.413 Tied = 7.5% Tau-a = 0.047 (1161 pairs) c = 0.691
順位相関係数 NF’と推定確率の順位相関係数をとったものがassociationの指標
OBS NUM NF NO TEMP COOK 1 1 2 6 53 0.29503 2 2 0 6 66 0.02790 3 3 0 6 68 0.02110 4 4 1 6 70 0.11088 5 5 0 6 75 0.01097 6 6 0 6 78 0.00799 7 7 1 6 57 0.00340 8 8 0 6 67 0.02395 9 9 0 6 69 0.01894 10 10 1 6 70 0.11088 11 11 2 6 75 1.41421 12 12 0 6 79 0.00712 13 13 1 6 58 0.00002 14 14 0 6 67 0.02395 15 15 0 6 70 0.01721 16 16 0 6 72 0.01443 17 17 0 6 76 0.00993 18 18 0 6 81 0.00555 19 19 1 6 63 0.02428 20 20 0 6 67 0.02395 21 21 0 6 70 0.01721 22 22 0 6 73 0.01322 23 23 0 6 76 0.00993 COOKの統計量 • 当分析に対する影響度の大きなobservation を同定する • No.11 (t=75) は容疑者 • 分析者に都合のよいデータ除去は,慎むべき
回帰式の利用Challenger が爆発したとき(t=31)の故障確率は? • 回帰式のモデル: • 温度が31。Fでの故障確率の点推定値 • 6つの「O-ring」のうち少なくとも1つが故障する確率
一つの問題点 • t=31は,分析に使ったデータ範囲を越えている • これを外挿(extrapolation) という • 外挿をした場合は,その結果が採用した関数Fに大きく依存して変化することが少なくない.選んだ関数の理論的根拠が希薄な場合はなおさら
対策はどうするのか? • 他に考えられる関数を適用してみて、結果がどの程度異なるかという感度分析をするのがよい。 • この場合に考えられる候補としては • プロビット回帰分析 • complementary log-log回帰分析
6個のうち少なくとも1つが 故障する確率 感度分析 表2.温度31Fでの予測確率 Logistic probit comp.log-log 0.82 0.97 0.70 p(31) 0.12-0.99 95% CI 0.16-0.99 0.19-1.00 Pr(少1|6) 1.000 0.999 1.000 0.71-1.00 95% CI 0.65-1.00 0.54-1.00
まとめ • ロジスティック回帰分析は従属変数が二値変数の時に用いる • 3件法のデータを二値変数として分析することもある • 外挿の時は感度分析も忘れない • プロビット回帰分析 • Comp.log-log回帰分析 • SAS,SPSS等で分析可能
文献 • 丹後・山岡・高木(1996).ロジスティック回帰分析.朝倉書店