430 likes | 845 Views
コレスポンデンス分析と因子分析によるイメージの測定法. 7 月 29 日(火) 学籍番号 speedster. はじめに. 今回の目的はコレスポンデンス分析とはなぞや?を学ぶ事にあるので。 ⇒数量化 Ⅲ 類、ノンメトリック MDS などについては軽く触れるくらいにして、なおかつ・・・ ⇒なるべくわかりやすく書かれている部分に着目してレジュメを作成しました。. 特徴. コレスポンデンス分析は集計票の行と列を同時にマッピングする方法として利用されている。
E N D
コレスポンデンス分析と因子分析によるイメージの測定法コレスポンデンス分析と因子分析によるイメージの測定法 7月29日(火) 学籍番号 speedster
はじめに • 今回の目的はコレスポンデンス分析とはなぞや?を学ぶ事にあるので。 ⇒数量化Ⅲ類、ノンメトリックMDSなどについては軽く触れるくらいにして、なおかつ・・・ ⇒なるべくわかりやすく書かれている部分に着目してレジュメを作成しました。
特徴 • コレスポンデンス分析は集計票の行と列を同時にマッピングする方法として利用されている。 • その際、標準プロフィールとの違いを分析するので、分析対象はデータ形式の違い(シングルアンサー項目、多重解答項目、平均値表など)を問題にしない。
コレスポンデンス分析と類似度分析 • 基本的には集計表の行・列の度数を用いて標準化し、主成分分析(積和行列)を適用して点を重ねるという方法をとる。 • 標準化するのだから行要素と列要素の周辺度数(平均的な反応傾向)を空間の原点にするように変換して、そこから行・列共にプロフィールの類似関係を分析する事になる・・・らしい。
標準化して重心を重ねる事は行・列要素が共通の単位を持っているかどうかわからない場合によく用いられる。標準化して重心を重ねる事は行・列要素が共通の単位を持っているかどうかわからない場合によく用いられる。 • もともと原点が測定されない類似度データの分析はヤング・ハウスホールダーの変換によって重心を原点にし、エッカート・ヤング分解によって小さい次元で近似する方法が取られている・・・ようです。
原点の移動方法としては対象をばらつかせる(ベクトルの共通部分を除いてから分散を100%にして差異をみる)ので、差異がわかりやすい。原点の移動方法としては対象をばらつかせる(ベクトルの共通部分を除いてから分散を100%にして差異をみる)ので、差異がわかりやすい。 • ⇔主成分分析や3相因子分析では、第一因子(主成分)に一般因子が出てしまい、対象の違いを明確にしづらいのだが、コレスポンデンス分析は、標準化プロフィールを用いることで対象の違いを明確にする事ができる。
集計表の見方とコレスポンデンス分析の考え方集計表の見方とコレスポンデンス分析の考え方 • 次スライドのクロス表を見るときは横%の数値と全体の値とを比較する。 • このとき、行の度数の大きさの影響を除くために%に直してから比較をする。 • また、各行の持つ特徴を見るために、%そのものではなくて、全体の行との違いを見る事が必要になる。
横%の差はnij/nj-ni/Nで表せる。そして、横%の式の形を変形すると、(2.1)式のようになる。横%の差はnij/nj-ni/Nで表せる。そして、横%の式の形を変形すると、(2.1)式のようになる。 • ni:行の全体度数 • ni/N:全体に対する行の割合 • この二つをかけると周辺度数と同じ割合で分布した時の度数になる。 • また、 nj×ni/Nはj行において全体度数から予測されるプロフィールパターンを表している(Χ2乗検定では理論度数・予測度数といっている)。
データマトリックスの行・列の合計 合計または平均のプロフィールパターン 合計または平均のプロフィールパターン
分子でnijとの差をとる事で基準値と測定値の違い=行の特徴を把握する事ができる。分子でnijとの差をとる事で基準値と測定値の違い=行の特徴を把握する事ができる。 • その後、列の度数によって数値を調整した結果が(2.2)式であり、コレスポンデンス分析の変換式(形式的にはΧ2乗統計量の計算式)になる。 • (2.2)式を見ると行・列を入れ替えても結果には差し支えない。⇒双対性があるという。
データを標準化し、各セルの特徴を表現した後、列・行の類似関係を取り扱う事になる。データを標準化し、各セルの特徴を表現した後、列・行の類似関係を取り扱う事になる。 • 集計表から類似関係を読み取り、データの凸凹からいくつかのブランドが似てる、似てないの判断ができる。⇒プロフィールの類似度を出せば空間的にマッピングできそうである。
データを空間的に表現するために座標軸を導入して、共通した次元をもとに結びつける。データを空間的に表現するために座標軸を導入して、共通した次元をもとに結びつける。 • その際、一般にはデータの分散を説明できる次元を適当な所まで採用し、その他の分散を誤差として切り捨てる方法を取る。 • しかし、近似がうまくいかないときには意味のある次元が捨てられる危険がある事も多いので注意。
ベクトルイメージで表現すると・・・ • プロフィール間の距離が、平均を重ねた時の形の違いに分解される事を表したのが図2-7である。 • この図はΧ2乗統計量で表現されるコレスポンデンス行列の計算の基本的な原理を表している・・・らしい。
元のデータから平均水準で調整されたプロフィール距離のみを出したのが図2-8である。元のデータから平均水準で調整されたプロフィール距離のみを出したのが図2-8である。 • コレスポンデンス分析はこのように射影された後のデータを主成分分析して、少ない次元で近似する方法である。 • 計算された単位固有ベクトルに周辺度数と固有値の平方根をかけたものがウェイトベクトルであり、図2-8の右下になる。
3つの枠組み • ステップ1 データの変換(基準プロフィールとの比較) • ステップ2 空間の構成(少数次元空間座標での近似、得異値分解) • ステップ3 空間内の対象の得点計算
コレスポンデンス分析では基準プロフィールが原点になり、得られた集計表の全体を基準とすると、バランスよくデータが布置される。コレスポンデンス分析では基準プロフィールが原点になり、得られた集計表の全体を基準とすると、バランスよくデータが布置される。 • そこに新しいデータを加えて位置関係を見たいときはステップ3のみを行って計算をすればよい事になる。 • こうして得られた空間は何回かの変換によって行・列の、特定のばらつきのみを取り出して二次元空間に収まるように近似することができる・・・ようです。
分析データの形と基準プロフィールの決め方 • 基準プロフ⇒一般的には周辺度数 • データの形によって異なる(詳しくは表2.1参照) • 基本的には ①分析データは何か ②標準化をするかしないか ③基準プロフをそのまま用いるか重み付けするか ④外部分析か否か によって方法が異なってくる。
応用上の性質 ①評価対象の差異が強調される。 • 個人データを集計する事で個人差分散を除き、集計結果を標準化する • 評価対象の差異が小さくても明確な差異として抽出される。 • しかし、差異を強調しすぎて予測を誤る危険性もある。
誤解を回避するために • 個人データを分析して、評価対象の平均値を計算するといい。 ⇒しかし、計算が面倒で、応用者にとってクリアでないために嫌われやすい。 • そのほかにもいろいろな方法がある(テキストP21参照)。 • クリアではない結果が事実を表現している可能性があるので、平均の差の検定やΧ2乗検定を併用するとよろしい。
②分析結果は2次元平面で表現できることが多い。 ②分析結果は2次元平面で表現できることが多い。 • 集計データを用いる⇒個人差分散を除くことになるので次元が小さくなる。 • 通常の多変量解析と比較すると、標準化したプロフのみを取り出しているので、小さな次元でデータを近似できる可能性が高い。
③2次元平面でよく解釈できない場合。 • 2次元空間では不十分な時に2次元空間を用いると中心付近に説明できない対象が集まる。 • 3つの対策 ①3次元以上で表現する。 ②説明しづらい対象や項目を除いて分析。 ③空間を均等にするためにノンメトリック法を用いる。←これが一番メジャーらしい。
④多くのデータ形式が分析できる。 • データがクロス集計表に限らなくても平均値表や01データ(数量化Ⅲ類)、3元データなども分析できる。 • 基準プロフを全ての要素について0にすると行列の積和の主成分分析になり、2乗和をとれば原点から長さ1の変数ベクトルを分析する事になる。基準化の数値として列の平均値を取ると分散共分散の主成分分析となる。・・・???
⑤コレスポンデンス分析の欠点を補う関連手法⑤コレスポンデンス分析の欠点を補う関連手法 • 個人データ分析と分散分析 • ⇒個人差分散と集計項目要因の分散の大きさを推定できる。 • 積和の主成分分析 ⇒第一主成分で基準プロフを含めた寄与率がわかる。第二主成分以降を用いればコレスポンデンスとほぼ同じ結果が得られる。
数量化Ⅲ類について • 主成分分析や因子分析などと同様に変量の特性を明らかにしたり、測定対象を分類するモデル。 • 用いるデータは名義尺度や序数尺度などの質的データ • 例:個人のレジャーに関する調査
クロス分析表 • 表の数字はつりとドライブの類似度がつりと映画の類似度より大きいことを示している。
問題の数式化 • サンプルスコア(調査対象に関して原点からの距離に対応させた数量)とカテゴリースコア(変量に原点からの距離を対応させた数量)を求める。 • そのスコアを元に2次元空間などにプロットする。⇒測定対象と変量の相互関係を明らかにしたりグループわけができる。
外部コレスポンデンス分析 • 新しいデータを、既に構成された平面の上で過去のデータを比較したい。 ⇒外部分析と呼んでいる。 • 構成された空間について「列要素の追加」「行要素の追加」といわれる事もある。
基本的な3つの操作 • ①固定される空間はできているので新しいプロフを見るための基準は空間を作ったときの周辺度数になる。 • ②プロフのばらつき調整の度数は元の基準プロフと新しいデータを用いる。 ⇒プロフィールの凸凹を一律化して空間内に収まるようにする操作。
行列が出てきました・・・。 • ③空間的な布置を表す固有値と固有ベクトルは既に計算されたイメージの固有ベクトルを用いる。・・・?? • もとの固有地を対角要素とした行列をΛとし、イメージ項目固有ベクトル行列をAとすると、評価対象の固有ベクトルを計算するための標準係数は ω=A(A’A)-1Λ-1 • これらの操作を用いる事で外部分析は安定した結果になる。
コレスポンデンス分析と集計データの主成分分析コレスポンデンス分析と集計データの主成分分析 • 図2-14は集計データをそのまま主成分分析する場合を示したもので、コレスポンデンス分析(図2-8)と比較できるようになっている。 • コレスポンデンス分析が要素間の差異を除いているのに対し、主成分分析では結果の中に平均水準距離、プロフィール距離の効果を含んでいる。
コレスポンデンス分析⇒各要素のプロフィールごとの類似関係を見る。コレスポンデンス分析⇒各要素のプロフィールごとの類似関係を見る。 • 主成分分析⇒全てを含んだ分散を用い、第一主成分を固有ベクトルとして標準的なプロフィールを推測。 • つまり、第二・第三主成分がコレスポンデンス分析の第一・第二次元と対応する事になる(表2-4に主成分分析の寄与率とコレスポンデンス分析の寄与率を比較したものがあるのでそちらを参照)。
また、試しに・・・ • コレスポンデンス分析、積和の主成分分析、列の相関係数による分析、列の分散共分散行列の分析を比較してみる(図2-15~18) ⇒4つともほとんど同じ結果が得られた。
ノンメトリックMDSとはなんぞや? • MDSは多次元尺度法( Multidimensional scaling )の略 • 対象間の距離を、測定したデータを入力とし,ある次元の空間(通常は2 次元平面)における座標を推定する手法。 • 距離は非類似性と呼ばれることも多く,似ているほど値が小さく,似ていないほど値が大きい。
例えばこんな感じ 出展:http://koko15.hus.osaka-u.ac.jp/~yokoyama/study/MDS2.files/frame.htm#slide0001.htm
ノンメトリックってのは・・・ • 非計量(Non-Metric)を表し、データが順序・名義尺度などの場合を指す。 • クラスカルの方法が代表的 ⇒対象 i , j 間の非類似度Sij(データの値)をn次元空間上の距離dijに変換 • データは誤差eijを伴うのでdij=f(sij)+eij • f(s) は非類似度の単調増加関数 ⇒このとき、s と d は単調関数によって対応づけられていれば十分であると考える。
コレスポンデンス分析とノンメトリックMDS • ノンメトリックMDSを用いると、コレスポンデンス分析では表現できなかった要素が分かれて布置される。 ⇒順序尺度によって表現される座標値には幅があるので少ない次元で均等にばらつかせる事ができる(?) ⇒プロフィールのノンメトリック展開法という。
ノンメトリックMDSは応用者のイメージに適合した結果を出す⇔安定した結果を出すにはデータが少ないとダメ。ノンメトリックMDSは応用者のイメージに適合した結果を出す⇔安定した結果を出すにはデータが少ないとダメ。 • 集計表のような列と行が異なった要素である事は、データ数に対して推定する数値が多いので不合理な解を出す可能性もある。 • 最適値問題で最急降下法を使っているので局所最適値を出す事もある。
多重クロス集計表の同時マッピング • 異なった集計表を同一空間に位置づける方法は ①集計表を並べて一つの表として分析 ②基準となる分析をして、他方を外部分析 ③行と列の要因に、繰り返し要因を加えた3つの相を同等に取り扱う(3相コレスポンデンス分析)
複数の集計表を同時に分析すると、基準プロフは全体の傾向を表現したものになる。複数の集計表を同時に分析すると、基準プロフは全体の傾向を表現したものになる。 • 個々の集計表の特徴は全体を基準としたプロフィールの特徴を表現する(例えば、動物と花のイメージでは、花は動物に比べて「ダイナミック」などは出にくいが、花だけだとハイビスカスやクラジオラスが近くに布置される(図2-22・23参照))。
参考文献 • 「経営のための多変量解析法」 本多正久, 島田一明共著. 産業能率短期大学出版部, 1977 • HP「多次元尺度構成法」 http://koko15.hus.osaka-u.ac.jp/~yokoyama/study/MDS2.files/frame.htm#slide0001.htm To be continued…