確率と統計 2009

確率と統計2009 平成20年1月7日(木) 東京工科大学亀田弘之修正版Version 3

復習

はじめにデータありき ５９２８１６１１４２７社会調査や実験の実施により得られる

データを全体として眺めるとき，集団として何らかの性質を持っている．＝＞統計的性質データを全体として眺めるとき，集団として何らかの性質を持っている．＝＞統計的性質 • この性質（分布の様子）を,例えば，(算術)平均・中央値・モードなどのいわゆる代表値や，分散・標準偏差・範囲(range)などで数値的に捕らえた．定義や計算方法が重要．統計ソフトの利用も考えよう．

参考情報 統計ソフトウェア • EXCEL：お手軽？ • R：フリーソフトウェア（お勧め？） • SPSS：本格的なソフトウェア（有償） • SAS：本格的なソフトウェア（有償） • GnunPlot・Maximaなども便利（いろいろと学んでください．）日本計算機統計学会のページも参考にしてください。 http://www.jscs.or.jp/etc/softdata.html

基本的な統計量 • 平均 • 中央値 • モード • 最大値・最小値 • 範囲 • 分散 • 標準偏差　など

平均 • 定義： m =(x1 + x2 + ・・・+Xn)÷n • 意味：データ群の中心 • 考え方：データ群の中心で，データ群　　　　を代表させる．（代表値） • 特徴：量の最小値を与える点．　　（基準点としてふさわしい）

中央値 • 定義：データを大きさの順に並べたときに　　　中央にくるデータ値． • 意味：順序的観点から真ん中辺り． • 考え方：順序的観点から中庸を捉えている．　　　　真ん中辺りを代表値とする． • 特徴：飛び離れ値に影響されない．　　　量　　　の最小値を与える点．

モード • 定義：度数（出現回数）がもっとも　　　多いデータ値． • 意味：多数派がデータ群を代表する． • 考え方：度数の多いもの程重要． • 特徴：飛び離れ値に影響されない．　　　代表値として素直な定義．

データの散らばりも大切 • 分散 • 標準偏差 • 範囲

範囲（レンジ） • 定義：R = 最大値ー最小値 • 考え方：データの存在範囲　　　　（すべてのデータはこの　　　　　　　　　　範囲内にある） • 特徴：計算が簡単　　　（工場などで実用されている）

分散 • 定義： • 考え方：「各データの平均mからのずれ」に着目して，その平方数の平均を求め，データ全体の散らばりを捉える． • 特徴：数学的に取り扱いやすい．

標準偏差 • 定義：分散の平方根（√分散） • 考え方：分散をもとに，データと同じ　　　　次元の量にする． • 特徴：データに対して，足したり　　　引いたりすることができる．

以上で，得られたデータ群の特徴をとらえることができるようになった．以上で，得られたデータ群の特徴をとらえることができるようになった．

さて，…

知りたい対象（母集団） 母集団４３１５１６７

標本母集団４５１３１５３１１６７無作為抽出

標本母集団４５１３１５３１１６７統計的分析

標本母集団４５１３１５３１１６７統計的推論

抽出法 • 無作為抽出法：どのデータも等確率で抽出されるようなサンプリング法．どの単純事象も等確率で取り出される抽出法．Laplaceの確率の定義参照．高校で習った確率の定義でOK． • 詳しく知りたい人は，社会調査法などの勉強をしてください．（データは適切に集めなければ，分析しても意味がない．サンプル数の決め方なども重要です．）

分析法 • 統計的推定 • 統計的検定この授業では「モデルに基づく分析」を主に取り扱っているが，近年モデルに基づかない分析法も重要になっている．（例：データマイニングの分野）

統計的推定 • 点推定 • 区間推定 • 信頼区間 • 信頼限界　興味のある人は，教科書p.136～p.142を参照のこと．

統計的検定 • この授業では，まず，これを学んで欲しいと思っています．（理由：とにかく役に立つから．　　　　そして，なれないと結構　　　　難しいから．）

仮説検定の考え方 • 前提： • 調査や実験によりある事実Eが得られた． • この事実からあることを主張したい．（これを仮説という．） • 方法論： • モデルを仮定する（仮説設定：帰無仮説H0） • その仮説が正しいとして，事実Eの生起確率pを計算する． • pの値が異常に小さければ，仮説H0を棄却する．（誤謬法の考え方）

検定の考え方の例 • 実験：サイコロを600回振ったら，１の目が180回出た（事実E）． • 主張したいこと：１の目が出やすい． • 仮説の設定：どの目も等確率で出る． • Eの生起確率pの計算：p≒0 • 判断：出易い．計算方法と判断の基準の理解が重要

(重要)確率分布の相互関係図

例題（教科書p.163例１） 　ある市役所ではこれまで数年間銘柄Aの電球を購入していたが，銘柄Bの電球の方が価格が安いのでBへの切り替えを考えている．銘柄Bのセールスマンは自社の製品が品質においてAの製品と同じであると主張している．数年間の経験によれば，製品Aの平均寿命は1180時間で，標準偏差は90時間であった．

製品Bのセールスマンの主張をテストするため，その銘柄の電球100個を正規販売店から購入して試験をした．この結果，m=1140,s=80が得られた．電球の品質の尺度として平均寿命時間を考えるとすれば，どう結論すべきか？製品Bのセールスマンの主張をテストするため，その銘柄の電球100個を正規販売店から購入して試験をした．この結果，m=1140,s=80が得られた．電球の品質の尺度として平均寿命時間を考えるとすれば，どう結論すべきか？

問題の整理 • 事実：製品Bのm=1140,s=80　　　製品Aのm=1180,s=90 • 知りたいこと：Bの方が劣っている． • 仮説：AとBは品質的に同等． • 確率の計算：Bのデータの生起確率pを，平均μ=1180,分散σ2=90^2の母集団からの抽出として計算する． • 危険率（有意水準）αを設定する．Α＝１０％とする．

確率の計算をしてみよう

理論的根拠（１） • 標本平均の平均mは母平均と等しい． • 標本平均の分散σm2は母分散のｎ分の１倍．(nは標本の大きさ) つまり， E(m) = μ E(σm2)=σ2/n

理論的根拠（２） • ｘが平均μ，分散σ2 の任意の分布に従うとき，大きさｎの無作為標本に基づく標本平均mは，ｎが限りなく大きくなるとき，平均 μ，分散 σ2 /n の正規分布に近づく．中心極限の定理（統計学で１番重要な定理）教科書p.130 定理２

計算 • 標本平均の分散：90/√100 = 9 • 標準化：Z = (1140 – 1180) / 9 = -40/9 = -4.4 • 標準正規分布表（教科書p.295 表IV）： Zがー∞～－4.4の範囲の値をとる確率は，p≒0．

判断 • 確率p≒０ < 0.1 (10%) ． • おきにくい事が起きたのではなく，仮設が間違っていると考えて，仮設を捨てる． • 最終結論：有意水準10％において，　　　　　銘柄BはAよりも劣っている．

コメント • 確率の計算方法を理解するためには，数学の勉強が必要であるが，検定をすることが目的の場合，基本的考え方と手順をしっかりとマスターすればよい． • 理論的なものは，必要に応じて，必要になったものだけを一生かけて勉強してください．

χ2検定 • いろんな場面で使えて便利な検定法．（先ほどのサイコロの例を再び取り上げてみる．）

自由度φ= ２－１＝１

χ2 = 76.8 ＞　χ02 = 6.6(有意水準1%) • 結論：有意水準１％のもとで，１の目は出やすい．手法は異なっても結論は同じ

２つの平均の差の検定 • 先の電球A，Bの品質の差の問題を再度取り上げる．これは２つの平均同士に差があるかどうかの検定と考えることもできる．これを「２つの平均の差の検定問題」という．教科書p.172～p.176

定理 • x1,x2がそれぞれ独立に平均μ1,μ2，標準偏差σ1,σ2の正規分布に従うとき，変数x1-x2は平均 μ1ーμ2,標準偏差σx1-x2 = √(σx12+ σx22) = √(σ12/n1 + σ22/n2) の正規分布に従う．

仮説：Aの平均とBの平均とは等しい． • 計算：変数x1-x2は， • 平均 = ０ • 標準偏差 = √（90*90/100 + 80*80/100）= 12 の正規分布に従う． • Z＝(1140-1180)/12=-40/12=-10/3=-3.3 • Zがー3.3以下か＋3.3以上になる場合の正規分布曲線の面積を求めると，表VIより，p≒0 • 結論：AとBの平均の差は同じではない．

コメント • 「２つの平均の間に差があるのか？」はしばしば問題となるので，この検定方法は役に立つ． • ただし今の場合，母分散σ1,σ2が既知である．これらが既知でない場合はもう一工夫が必要となる．（t検定を導入する必要がある．）

練習問題

Problem1 さいころを180回投げて、１の目の出る確率が28回以上、34回以下である確率を求めよ。

ヒント • B(n,p)の二項分布は、nが十分大きければ、平均np, 分散np(1-p)の正規分布で近似できる。 • N(μ, σ2)の正規分布は、標準化変換Z = (X – μ)/σ により、標準正規分N(0, 1)に変換される。

Problem2 • １つのさいころを120回投げたら以下のようになった。このさいころは正しく作られているか？　有意水準5%で検定せよ。

Problem3 • ある町で無作為に選ばれた618名に対して、とある伝染病の予防接種の効果を調べたら、以下のようになった。この予防接種は有効といえるか？有意水準5%で検定せよ。

Problem4 • 結婚に対する適応性に関してのアンケート調査を行ったら次ページのような結果が得られた。“学歴”と“結婚に対する適応性”の間には関係があるといえるか？　ただし、有意水準5%。

ヒント I. 理論値 II. 自由度φ ＝ (行数ー 1)× (列数ー 1)　　　　＝ (3－１)・(4ー1) 　　　　＝ 6 III. 計算値χ2 =20.7　＞　 χ02 =12.6

確率と統計 2009