1 / 49

確率と統計 2009

確率と統計 2009. 平成 20 年 1 月 7 日 ( 木 ) 東京工科大学 亀田弘之. 修正版 Version 3. 復習. はじめにデータありき. 5. 9. 2. 8. 1. 6. 1. 1. 4. 2. 7. 社会調査や実験の実施 により得られる. データを全体として眺めるとき, 集団として 何らかの性質を持っている. =>統計的性質 この性質(分布の様子)を , 例えば, ( 算術 ) 平均・中央値・モードなどの いわゆる代表値や,分散・標準偏差・範囲 (range) などで数値的に捕らえた.. 定義や計算方法が重要.

cyndi
Download Presentation

確率と統計 2009

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 確率と統計2009 平成20年1月7日(木) 東京工科大学 亀田弘之 修正版Version 3

  2. 復習

  3. はじめにデータありき 5 9 2 8 1 6 1 1 4 2 7 社会調査や実験の実施 により得られる

  4. データを全体として眺めるとき,集団として何らかの性質を持っている.=>統計的性質データを全体として眺めるとき,集団として何らかの性質を持っている.=>統計的性質 • この性質(分布の様子)を,例えば,(算術)平均・中央値・モードなどのいわゆる代表値や,分散・標準偏差・範囲(range)などで数値的に捕らえた. 定義や計算方法が重要. 統計ソフトの利用も考えよう.

  5. 参考情報 統計ソフトウェア • EXCEL:お手軽? • R:フリーソフトウェア(お勧め?) • SPSS:本格的なソフトウェア(有償) • SAS:本格的なソフトウェア(有償) • GnunPlot・Maximaなども便利(いろいろと学んでください.) 日本計算機統計学会のページも参考にしてください。 http://www.jscs.or.jp/etc/softdata.html

  6. 基本的な統計量 • 平均 • 中央値 • モード • 最大値・最小値 • 範囲 • 分散 • 標準偏差 など

  7. 平均 • 定義 : m =(x1 + x2 + ・・・+Xn)÷n • 意味:データ群の中心 • 考え方:データ群の中心で,データ群    を代表させる.(代表値) • 特徴:量 の最小値を与える点.  (基準点としてふさわしい)

  8. 中央値 • 定義:データを大きさの順に並べたときに   中央にくるデータ値. • 意味:順序的観点から真ん中辺り. • 考え方:順序的観点から中庸を捉えている.    真ん中辺りを代表値とする. • 特徴:飛び離れ値に影響されない.   量   の最小値を与える点.

  9. モード • 定義:度数(出現回数)がもっとも   多いデータ値. • 意味:多数派がデータ群を代表する. • 考え方:度数の多いもの程重要. • 特徴:飛び離れ値に影響されない.   代表値として素直な定義.

  10. データの散らばりも大切 • 分散 • 標準偏差 • 範囲

  11. 範囲(レンジ) • 定義:R = 最大値 ー 最小値 • 考え方:データの存在範囲    (すべてのデータはこの          範囲内にある) • 特徴:計算が簡単   (工場などで実用されている)

  12. 分散 • 定義: • 考え方:「各データの平均mからのずれ」に着目して,その平方数の平均を求め,データ全体の散らばりを捉える. • 特徴:数学的に取り扱いやすい.

  13. 標準偏差 • 定義:分散の平方根(√分散) • 考え方:分散をもとに,データと同じ    次元の量にする. • 特徴:データに対して,足したり   引いたりすることができる.

  14. 以上で,得られたデータ群の特徴をとらえることができるようになった.以上で,得られたデータ群の特徴をとらえることができるようになった.

  15. さて,…

  16. 知りたい対象(母集団) 母集団 4 3 1 5 1 6 7

  17. 標本 母集団 4 5 1 3 1 5 3 1 1 6 7 無作為抽出

  18. 標本 母集団 4 5 1 3 1 5 3 1 1 6 7 統計的分析

  19. 標本 母集団 4 5 1 3 1 5 3 1 1 6 7 統計的推論

  20. 抽出法 • 無作為抽出法:どのデータも等確率で抽出されるようなサンプリング法.どの単純事象も等確率で取り出される抽出法.Laplaceの確率の定義参照.高校で習った確率の定義でOK. • 詳しく知りたい人は,社会調査法などの勉強をしてください.(データは適切に集めなければ,分析しても意味がない.サンプル数の決め方なども重要です.)

  21. 分析法 • 統計的推定 • 統計的検定 この授業では「モデルに基づく分析」を主に取り扱っているが,近年モデルに基づかない分析法も重要になっている.(例:データマイニングの分野)

  22. 統計的推定 • 点推定 • 区間推定 • 信頼区間 • 信頼限界  興味のある人は,教科書p.136~p.142を参照のこと.

  23. 統計的検定 • この授業では,まず,これを学んで欲しいと思っています.(理由:とにかく役に立つから.    そして,なれないと結構    難しいから.)

  24. 仮説検定の考え方 • 前提: • 調査や実験によりある事実Eが得られた. • この事実からあることを主張したい.(これを仮説という.) • 方法論: • モデルを仮定する(仮説設定:帰無仮説H0) • その仮説が正しいとして,事実Eの生起確率pを計算する. • pの値が異常に小さければ,仮説H0を棄却する.(誤謬法の考え方)

  25. 検定の考え方の例 • 実験:サイコロを600回振ったら,1の目が180回出た(事実E). • 主張したいこと:1の目が出やすい. • 仮説の設定:どの目も等確率で出る. • Eの生起確率pの計算:p≒0 • 判断:出易い. 計算方法と判断の基準の理解が重要

  26. (重要)確率分布の相互関係図

  27. 例題(教科書p.163例1)  ある市役所ではこれまで数年間銘柄Aの電球を購入していたが,銘柄Bの電球の方が価格が安いのでBへの切り替えを考えている.銘柄Bのセールスマンは自社の製品が品質においてAの製品と同じであると主張している.数年間の経験によれば,製品Aの平均寿命は1180時間で,標準偏差は90時間であった.

  28. 製品Bのセールスマンの主張をテストするため,その銘柄の電球100個を正規販売店から購入して試験をした.この結果,m=1140,s=80が得られた.電球の品質の尺度として平均寿命時間を考えるとすれば,どう結論すべきか?製品Bのセールスマンの主張をテストするため,その銘柄の電球100個を正規販売店から購入して試験をした.この結果,m=1140,s=80が得られた.電球の品質の尺度として平均寿命時間を考えるとすれば,どう結論すべきか?

  29. 問題の整理 • 事実:製品Bのm=1140,s=80   製品Aのm=1180,s=90 • 知りたいこと:Bの方が劣っている. • 仮説:AとBは品質的に同等. • 確率の計算:Bのデータの生起確率pを,平均μ=1180,分散σ2=90^2の母集団からの抽出として計算する. • 危険率(有意水準)αを設定する.Α=10%とする.

  30. 確率の計算をしてみよう

  31. 理論的根拠(1) • 標本平均の平均mは母平均と等しい. • 標本平均の分散σm2は母分散のn分の1倍.(nは標本の大きさ) つまり, E(m) = μ E(σm2)=σ2/n

  32. 理論的根拠(2) • xが平均μ,分散σ2 の任意の分布に従うとき,大きさnの無作為標本に基づく標本平均mは,nが限りなく大きくなるとき,平均 μ,分散 σ2 /n の正規分布に近づく. 中心極限の定理 (統計学で1番重要な定理) 教科書p.130 定理2

  33. 計算 • 標本平均の分散:90/√100 = 9 • 標準化:Z = (1140 – 1180) / 9 = -40/9 = -4.4 • 標準正規分布表(教科書p.295 表IV): Zがー∞~-4.4の範囲の値をとる確率は,p≒0.

  34. 判断 • 確率p≒0 < 0.1 (10%) . • おきにくい事が起きたのではなく,仮設が間違っていると考えて,仮設を捨てる. • 最終結論:有意水準10%において,     銘柄BはAよりも劣っている.

  35. コメント • 確率の計算方法を理解するためには,数学の勉強が必要であるが,検定をすることが目的の場合,基本的考え方と手順をしっかりとマスターすればよい. • 理論的なものは,必要に応じて,必要になったものだけを一生かけて勉強してください.

  36. χ2検定 • いろんな場面で使えて便利な検定法.(先ほどのサイコロの例を再び取り上げてみる.)

  37. 自由度φ= 2-1=1

  38. χ2 = 76.8 > χ02 = 6.6(有意水準1%) • 結論:有意水準1%のもとで,1の目は出やすい. 手法は異なっても結論は同じ

  39. 2つの平均の差の検定 • 先の電球A,Bの品質の差の問題を再度取り上げる.これは2つの平均同士に差があるかどうかの検定と考えることもできる.これを「2つの平均の差の検定問題」という. 教科書p.172~p.176

  40. 定理 • x1,x2がそれぞれ独立に平均μ1,μ2,標準偏差σ1,σ2の正規分布に従うとき,変数x1-x2は 平均 μ1ーμ2,標準偏差σx1-x2 = √(σx12+ σx22) = √(σ12/n1 + σ22/n2) の正規分布に従う.

  41. 仮説:Aの平均とBの平均とは等しい. • 計算:変数x1-x2は, • 平均 = 0 • 標準偏差 = √(90*90/100 + 80*80/100)= 12 の正規分布に従う. • Z=(1140-1180)/12=-40/12=-10/3=-3.3 • Zがー3.3以下か+3.3以上になる場合の正規分布曲線の面積を求めると,表VIより,p≒0 • 結論:AとBの平均の差は同じではない.

  42. コメント • 「2つの平均の間に差があるのか?」はしばしば問題となるので,この検定方法は役に立つ. • ただし今の場合,母分散σ1,σ2が既知である.これらが既知でない場合はもう一工夫が必要となる.(t検定を導入する必要がある.)

  43. 練習問題

  44. Problem1 さいころを180回投げて、1の目の出る確率が28回以上、34回以下である確率を求めよ。

  45. ヒント • B(n,p)の二項分布は、nが十分大きければ、平均np, 分散np(1-p)の正規分布で近似できる。 • N(μ, σ2)の正規分布は、標準化変換Z = (X – μ)/σ により、標準正規分N(0, 1)に変換される。

  46. Problem2 • 1つのさいころを120回投げたら以下のようになった。このさいころは正しく作られているか? 有意水準5%で検定せよ。

  47. Problem3 • ある町で無作為に選ばれた618名に対して、とある伝染病の予防接種の効果を調べたら、以下のようになった。この予防接種は有効といえるか?有意水準5%で検定せよ。

  48. Problem4 • 結婚に対する適応性に関してのアンケート調査を行ったら次ページのような結果が得られた。“学歴”と“結婚に対する適応性”の間には関係があるといえるか? ただし、有意水準5%。

  49. ヒント I. 理論値 II. 自由度φ = (行数 ー 1)× (列数 ー 1)     = (3-1)・(4ー1)      = 6 III. 計算値χ2 =20.7 >  χ02 =12.6

More Related