1 / 41

<あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

<あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究. 荒牧英治 東京大学 知の構造化センター JST さきがけ. LC 研究会 , 2012 (2 月 22 日 , 国立国語研究所. 素朴 な疑問. なぜ,人間は未だ<完全な言語>(普遍言語 ? )のような言語を持っていないのだろう ? そもそも言語は進歩しているのか ? 言語の変化に 方向性 はあるのか ? な ぜ ( ≒ どういう利点があって)言語は変化するのか ? (補足)そもそも,ここでいう < 言語の変化 > は何を対象としているのか ? 文法の変化 ?

robert
Download Presentation

<あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. <あなた/わたし>にだけ伝わる言葉:Twitterデータでみる語彙の変遷に関する研究<あなた/わたし>にだけ伝わる言葉:Twitterデータでみる語彙の変遷に関する研究 荒牧英治 東京大学知の構造化センター JST さきがけ LC研究会, 2012 (2月22日, 国立国語研究所

  2. 素朴な疑問 • なぜ,人間は未だ<完全な言語>(普遍言語?)のような言語を持っていないのだろう? • そもそも言語は進歩しているのか? • 言語の変化に方向性はあるのか? • なぜ(≒どういう利点があって)言語は変化するのか? • (補足)そもそも,ここでいう<言語の変化>は何を対象としているのか? • 文法の変化? • 語彙の変化? (語の使用頻度の変化) • 語彙と概念の対応関係の変化?

  3. 一連のRQの変遷 言語は変化しているのか? 言語の変化≒語彙の使用頻度の変化 No Yes 言語の変化は時間に対して 方向性を持つか? 研究終了 言語の変化には 方向性がある 言語は常に 変化しつづける 言語が変化することで何かいいことがあるのか? 言語は 進化しているか? なぜ言語は常に変化するのか? ≒

  4. 現代日本語で頻出する1000語のうち万葉集において見られるものは326語[宮島1967]現代日本語で頻出する1000語のうち万葉集において見られるものは326語[宮島1967] 32.6% 使用頻度 時間 平安時代 現代 現代+Δt

  5. 材料 • Twitterクロールデータ約30億tweet • 全データを形態素解析器(juman)にて解析 • 1日毎に過去30日の語の使用頻度を集計した • スライド単位=1日,ウィンドウ幅=30日 • 本稿では形態素を語とみなす • 相対頻度(対象となる形態素頻度/すべての形態素頻度)で正規化 • 日によってクロール稼働率が異なるため

  6. 2つの指標 • N位保存率 • ある時期でN位以内にいた語がΔt経過後にもN位以内にとどまる割合 • 順位相関係数(スピアマン) • 基準期間で上位N位以内の語の順位(の系列)がΔ t時間経過後の順位とどれくらい類似しているか

  7. N位保存率(Y軸)とΔt (1.5年)最新結果

  8. 順位相関係数とΔt

  9. Δt経過後(Δt=180日)に成長した語と衰退した語

  10. どのような頻度変化が起こっているのか?ある時点で頻度Xだった後がΔt時間経過後に頻度Yになっている頻度(Δt=30日)どのような頻度変化が起こっているのか?ある時点で頻度Xだった後がΔt時間経過後に頻度Yになっている頻度(Δt=30日) 時間T+Δtでの相対頻度 Δt経過後に頻度aとなった語が もともと基準期間にどのような 頻度であったかの確率分布 基準期間で頻度aであった語が,Δt経過後にどのような頻度に変化しているかの確率分布 時間Tでの 相対頻度

  11. 詳細釣り合い(detailed balance) • ある過程の起こる確率とその逆過程の起こる確率が等しい状態 • 企業の成長や気体分子の運動などに見られる • 言語の頻度変化で詳細釣り合いが成り立つ範囲 • 相対頻度2.5e-5より大きい語(使用頻度上位4000語) • 語の頻度分布の形は時間の経過とともに変化しない • 現時点での言語がZipf則にしたがっているなら今後も従い続ける

  12. 現代日本語で頻出する1000語の1年後でも同順位に入っているものは80%現代日本語で頻出する1000語の1年後でも同順位に入っているものは80% 32.6% 80% 使用頻度 時間 平安時代 現代 現代+Δt

  13. 一連のRQの変遷(再掲) 言語は変化しているのか? 言語の変化≒語彙の使用頻度の変化 No Yes 言語の変化は時間に対して 方向性を持つか? 研究終了 言語の変化には 方向性がある 言語は常に 変化しつづける 言語が変化することで何かいいことがあるのか? 言語は 進化しているか? なぜ言語は常に変化するのか? ≒ NOW HERE!

  14. 素朴な疑問:語彙の使用頻度が変化することで何かいいことがあるのか?素朴な疑問:語彙の使用頻度が変化することで何かいいことがあるのか? • 変化によって,これまで理解できていた人も理解が困難になる恐れがある • 語彙を固定化した方が効率的なコミュニーケーションが行えるのでは? • 定期的に変化することの利点 • 狭い範囲にしか通じない=仲間うちでしか通じない • セキュリティ/暗号(公開鍵)との強いアナロジーあり〼 • もしそうであるならば,安易なコミュニーケーション支援は,セキュリティを破壊してしまう?

  15. ケース1:少人数のみ共有する笑い • (外国で英語の)講演を聞く.どっと笑い声が起こる.どこが面白いのか,よく理解できない.もっと,集中して聞こうと思う.再び,ジョーク.今度はどこが面白いか分かった.声を立てて笑う.そこはかとない満足感を覚える. • 少人数に向けられた笑いは,全員が分かるような笑いよりも深い満足感をもたらしてくれるであろう

  16. ケース2:流行語の産出 • ファッション誌は,次々と新しい流行語を生み出している.部外者には,どういった商品なのかイメージがわかないが,たぶん,それは素晴らしいものだという気がする. • 流行語を理解できないことが,理解できることへの憧れを生み出し,購買欲を高めるかもしれない. • 熱心な読者層の一体感を生み出すかもしれない.

  17. https://docs.google.com/spreadsheet/ccc?key=0Al1_00GeFekndGJNUktvRVRJM3F5UTFFcDNGUTJvcXc#gid=0https://docs.google.com/spreadsheet/ccc?key=0Al1_00GeFekndGJNUktvRVRJM3F5UTFFcDNGUTJvcXc#gid=0 ケース2の実例:女性誌「inRed」の見出し表現

  18. ケース3:専門用語 • 医療者間で使われる「ステる」「ケモ」などは非医療者には理解できない場合が多い.患者さんに聞かれないように配慮しているとも考えられるが,患者がいないはずの学会でも,これらの表現は使われる. • 同業者の連帯感?

  19. 望ましい性質とRQ • (1) 意図した相手に伝わること • コミュニケーションの成功 • (2) 意図しない相手には伝わらないこと • ディス・コミュニケーションの成功 • → もし意図しない相手に(みんなに)伝わることが分かるとその語を使うのやめるハズ • RQ:語が広まってさっと水が引くように使うのをやめるような現象が観察されるのだろうか?

  20. 材料 • コホート • 連続した6ヶ月(2009年11月〜2010年3月)使い続けているユーザ(18万人)を対象 • 発言数:約0.3億tweet • 調査した語: 頻度変化の大きな名詞(次頁)

  21. 調査した語の一例

  22. 頻度の可視化 頻度 「なう」 時間 頻度 「の」 時間

  23. 可視化方式に関してIndividual Posting Plot [Yamada] • 初めてその語を用いた日でソートする. HUMAN-A ✔ ✔ HUMAN-B ✔ ✔ ✔ HUMAN-C ✔ HUMAN-D ✔ DAY1 DAY2 DAY3 DAY4 DAY5 DAY6 HUMAN-C ✔ HUMAN-A ✔ ✔ HUMAN-B ✔ ✔ ✔ HUMAN-D ✔ DAY1 DAY2 DAY3 DAY4 DAY5 DAY6

  24. 「実に面白い」 終結? そこそこの ブーム ブーム わずかに 広がる

  25. 「成人の日」

  26. 「中央大」 中央大 刺殺事件

  27. 「ググレカス」

  28. 「整いました」

  29. 「ぜよ」 1週単位

  30. 仕分け

  31. 「派遣村」 急に使われなくなる

  32. 「品格」 書籍「国家の品格」 2005 ドラマ「派遣の品格」 2007 急に使用頻度が 減る 急に使われ 始める

  33. モテキ ドラマ開始 モテ期

  34. 望ましい性質とRQ (再掲) • (1) 意図した相手に伝わること • コミュニケーションの成功 • (2) 意図しない相手には伝わらないこと • ディス・コミュニケーションの成功 • → もし意図しない相手に(みんなに)伝わることが分かるとその語を使うのやめるハズ • RQ:語が広まってさっと水が引くように使用をやめるような現象が観察されるのだろうか? YES.では,どんなメカニズムで水引を 再現できるのか?モデルで検証してみる

  35. (提案モデル)語の伝搬のモデル: • 1日にa回つぶやく(a=0…1; 正規分布) • 人間を①②③の3つの状態のいずれかをとるものとする. 1 2 3 語wを知らない状態 語wを知っている状態 b%のつぶやきに語wを使う 語wを使わない状態 c%のつぶやきに語wを使う (c<<b) ①から②への遷移:一定確率(d%)づつ遷移 ②から③への遷移:?(本研究で解くべき問題)

  36. シミュレーション1 Pr=0.01 Pr=0.05 1 2 3 白く抜ける Pr=0.05 Pr=0.05 縦の線(全員一度に使用をや める)はでてこない

  37. シミュレーション2 Pr=0.01 Pr=0.05 1 2 3 Pr=0.05 Pr=0.20 白く抜ける

  38. シミュレーション2 ただし,80%の人が語Aを知れば②は③に強制移行 ①<20% Pr=0.01 Pr=0.05 1 2 3 Pr=0.05 Pr=0.05

  39. さらに調べたいこと • 全員そろって使用するのはありうる(TVなど) • そのブームが全員そろって終わる場合がある • 何がトリガーなのか? • ある語が十分に広まってしまったことが原因なのか? • → ある語が十分に広まってしまっていることを成員はいかに知りうるのか? • (1) 語Aを知らない人間が20%であることを知る →非常に困難 • (2) 語Aを知っている人が80%である →困難 • (3) 語Aを知らなさそうな人が知っていることを知る →ありそう • (4) 語AがTVで取り上げられた →ありそうだが(研究として)面白くない

  40. まとめ • 昔からうすうす思っていること • 言語は変わる • 人間や世の中が変わるから言語も変わるわけではない • 言語(ルールの集合)にはそれ自体を改変するような自己言及的なルールがある(よう) • 今思っていること • <伝わらないこと>ことが価値を持つとすれば言語変化の必要性が説明できるので?

  41. Thank you • Contact INFO. • Eiji ARAMAKI Ph.D. • University of Tokyo • eiji.aramaki@gmail.com • http://mednlp.jp

More Related