760 likes | 914 Views
Research on Information Aggregation and Integration for Multi-Document Summarization. 東京大学大学院情報理工学系研究科 電子情報学専攻・石塚研究室 博士課程3年 37406 岡崎直観. 情報爆発と情報過多. 到達可能な Web サイトのドメイン数 (NetCraft) 5,000 万( 2004 年 5 月)→ 1 億( 2006 年 11 月) ANA61 便のハイジャックに関する文書数 (Google)
E N D
Research on Information Aggregation and Integration for Multi-Document Summarization 東京大学大学院情報理工学系研究科 電子情報学専攻・石塚研究室 博士課程3年 37406 岡崎直観 東京大学情報理工学系研究科・博士後期課程・本審査
情報爆発と情報過多 • 到達可能なWebサイトのドメイン数 (NetCraft) • 5,000万(2004年5月)→ 1億(2006年11月) • ANA61便のハイジャックに関する文書数 (Google) • 5,860,000 (“hijacking”) → 9,910 (+ “ANA 61”) 東京大学情報理工学系研究科・博士本審査
情報過多と自然言語処理 • 情報検索 (information retrieval) • 大量の文書集合からキーワードに基づいて文書を検索する • 検索は情報を得るための有力な手段として浸透しつつある • 動的に文書を集めるため,検索結果は構造化されていない • 質問応答 (question answering) • 自然言語で与えられた質問に直接的に対応する答えを返す • 情報抽出 (information extraction) • あらかじめ定義された表(テンプレート)を埋める • 評判情報抽出 (sentiment analysis) • 特定の製品,会社など関する良い意見/悪い意見を収集 東京大学情報理工学系研究科・博士本審査
複数文書自動要約 • 複数文書自動要約 [Radev and McKeown98] • ユーザーは検索システムを使って文書集合を得る • 検索結果の文書集合から,有用な情報を文章として提示する ユーザ クエリ 閲覧 参照? 検索 要約 要約 検索システム 適合文書集合 東京大学情報理工学系研究科・博士本審査
本システムが作成した要約例 • タンザニア、ケニアでの米国大使館爆破事件(10記事) • 東アフリカ、ケニアの首都ナイロビと隣国タンザニアの首都ダルエスサラームの米大使館近くで7日、ほぼ同時に起きた爆破テロ事件は8日未明現在、死者89人、負傷者は1700人に達した。 • ケニアとタンザニアの米大使館を標的に七日発生した同時爆破テロ事件で、トーマス・ピカリング米国務次官はの会見で、米大使館を狙った組織的、計画的犯行との見解を明らかにした。 • 身元が確認された米人死者は、大使館職員のアーリーン・カークさんと、大使館付武官のケネス・ホブソン陸軍軍曹の二人にとどまっている。 • タンザニアの米大使館同時爆破テロで、両国の警察当局は合計十数人を拘束している。 東京大学情報理工学系研究科・博士本審査
関連研究: Google News 東京大学情報理工学系研究科・博士本審査
人間が要約を行うプロセス • Endres-Niggemeyer [1998]は,要約を職業とする6人の作業を調べ,以下の3ステージにまとめた • 文書構造の認識: タイトル,ジャンル,レイアウトを確認 • 入力文書の整形(例: HTML) • 重要なトピックの認識: 文書を特徴付けるトピックを認識 • 文書を内部表現に変換して,重要箇所を言い当てる • 要約の生成: できる限り「コピー&ペースト」で要約を作成する(要約者は情報を生成してはならない) • 重要箇所抽出,並び替え,文の編集 東京大学情報理工学系研究科・博士本審査
複数文書自動要約の課題 • 複数文書自動要約の課題 • 異なる情報源からの情報の集約(重要箇所抽出) • 入力文書で共通に述べられている事項に着目 • 冗長な要約は避ける • 異なる情報源からの情報の統合(文章構造の再構築) • 抽出文の並び替え • 照応解析・解消 • 固有名詞の統一化 • 複数の文の統合 東京大学情報理工学系研究科・博士本審査
要約システムの概要 文縮約のための 解析 要約文生成 (解析結果の統合と出力) 構文解析・固有表現抽出 (CaboCha) 括弧表現の統一 「同」を対象とした 照応解析 要約 要約対象文書集合 情報断片に基づく 重要文抽出 抽出された文の 並び順の決定 東京大学情報理工学系研究科・博士本審査
発表内容 • 複数文書自動要約で重要なサブトピック • 複数文書自動要約向けの重要文抽出 • 「どの文を要約に含めるべきか?」 • 要約文章の構築に向けた抽出文の並び替え • 「文をどのように並べて文章にするか?」 • 括弧表現に着目した言い換え表現の抽出 • 「冗長な用語をどのように短くすればよいのか?」 • 結論 東京大学情報理工学系研究科・博士本審査
複数文書自動要約向けの重要文抽出 東京大学情報理工学系研究科・博士本審査
重要文抽出 英通信大手のケーブル・アンド・ワイヤレス(C&W)が今月中にも、国際デジタル通信(IDC)の買収を正式に提案する見通しになった。買収総額は約600億円となるとみられる。IDCに対しては、NTTがすでに出資も含めた提携に強い意向を示している。C&Wが正式提案すれば日英両企業による激しい買収合戦に発展する可能性もあり、日本の通信業界再編の動きに拍車をかけることになりそうだ。 NTTは30日までに、「0061」で始まる国際電話のIDC(国際デジタル通信)の株式を買い付ける考えを示した。英大手通信会社、ケーブル・アンド・ワイヤレス(C&W)が額面の2倍の1株約10万円で株式の過半数を取得する計画を打ち出しているが、NTTもほぼ同条件を提示、今後は金額の積み増しや個別条件での攻防になる。世界規模の通信再編の中で、日本に地盤を築きたい外資の思惑と日本の電話会社代表の意地がぶつかり合う構図になった。 国際デジタル通信(IDC)の買収をめぐり、英通信大手ケーブル・アンド・ワイヤレス(C&W)と競合しているNTTは31日、IDCの株式取得額について1株当たり10万8974円(額面5万円)、買収総額680億円とする新たな提案をIDCを通じて全株主141社に通知した。C&Wが株式公開買い付け(TOB)に乗り出し、期限が6月5日に迫る中で、IDC主要株主は依然態度を決めかねていたが、NTTがC&Wの条件を上回る新提案を切り出したことで、NTT側へ株式を売却する動きも出てきそうだ。C&Wが条件引き上げなどの対抗措置を取るのは必至とみられる。 国際デジタル通信(IDC)買収をめぐるNTTと英通信大手ケーブル・アンド・ワイヤレス(C&W)の争いは、IDCの筆頭株主のトヨタ自動車と伊藤忠商事が、C&Wの株式公開買い付けを受け入れて決着した。7月の分割・再編成を機に国際通信に本格進出するNTTは、IDCの活用を柱としていただけに戦略の練り直しを迫られる。一方、IDC買収で日本での業務拡大の足場を築いたC&Wは国内回線網を持つ通信会社との提携など、「次の一手」が早くも注目されている。 東京大学情報理工学系研究科・博士本審査
複数文書要約向けの重要文抽出 • 文書集合から要約に含めるべき文を選ぶ • 多くの文の中から決められた分量の文を選ぶ • 要約文に含めるべき情報を認識する • 文書集合には冗長な内容が含まれている可能性がある • 同じ情報を重複して抽出することは避ける • 複数文書要約システムでは中心的役割を果たす • 常に文法的に正しい要約文を得ることができる • 要約文の生成や文の統合は難しい • 入力文がたくさんあることが仮定できるのであれば,良質な文を選ぶことに注力するほうが,要約の質が上がる 東京大学情報理工学系研究科・博士本審査
複数文書向け重要文抽出の関連研究 • 文の内容の表現(近似)方法について考える • BOW [Salton 75],n-gram [Lin & Hovy 02],係り受け関係 [Okazaki 04],PrefixSpan [平尾 03],類似関係 [Okazaki 03],タグ付け文書(GDAなど) [長尾 98; 綾 05],格文法 • 文(内容)の重み付け方法 • TF*IDFなどの統計的手法によるもの [Salton 91] • 文の出現位置やテキストマーカーに基づくヒューリスティック [Edmundson 67] • SVMなどの学習に基づくアプローチ [平尾 03] • テンプレート(情報抽出)ベース [McKeown et al. 98] • 文の表現に基づいて重要文を抽出 • MMR [Carbonell & Goldstein 98] • 修辞構造に基づく重要文抽出 [Marcu 98] 東京大学情報理工学系研究科・博士本審査
提案手法 • 係り受け関係を使った文の内容表現を提案 • 文の意味を「係り受け関係」で近似する • Bag-of-words, 共起関係と比較する • 情報の網羅性を考慮しつつ,重複の少ない重要文抽出アルゴリズムを提案 • 要約対象文書を情報断片の集合として表現 • ある情報断片を要約に含めたとき,どの情報断片を要約に含めるべきか 東京大学情報理工学系研究科・博士本審査
素粒子 「ニュートリノ」に 質量が ある ことを 東大宇宙線研究所などの 日米共同観測グループが 先週 確認した 係り受け関係に基づく表現(1/4) • 入力文 • 素粒子「ニュートリノ」に質量があることを東大宇宙線研究所などの日米共同観測グループが先週確認した. 構文解析 東京大学情報理工学系研究科・博士本審査
素粒子 「ニュートリノ」に 質量が ある ことを 東大宇宙線研究所などの 日米共同観測グループが 先週 確認した 係り受け関係に基づく表現(2/4) • 構文木から係り受け単語ペアを作成する • 係りの向きは無視する • 格助詞や「ある」「こと」などの単語は除去する 東京大学情報理工学系研究科・博士本審査
素粒子 「ニュートリノ」に 質量が ある ことを 東大宇宙線研究所などの 日米共同観測グループが 先週 確認した 係り受け関係に基づく表現(3/4) • 消去されたノードを取り除き,結ばれているリンクをたどって単語ペアのリスト構造に変換する ( (素粒子 ニュートリノ) (ニュートリノ 確認) (質量 確認) (東大宇宙線研究所 日米共同観測グループ) (日米共同観測グループ 確認) (先週 確認) ) 東京大学情報理工学系研究科・博士本審査
係り受け関係に基づく表現(4/4) • 単語ペアに対して重みを与える • 例: 単語のtf*idf値の平均を重みとする • 例: ペアの出現頻度を重みとする ( (素粒子 ニュートリノ) (ニュートリノ 確認) (質量 確認) (東大宇宙線研究所 日米共同観測グループ) (日米共同観測グループ 確認) (先週 確認) ) ( (素粒子 ニュートリノ 4.35) (ニュートリノ 確認 3.31) (質量 確認 2.75) (東大宇宙線研究所 日米共同観測グループ 2.42) (日米共同観測グループ 確認 1.94) (先週 確認 1.44) ) 東京大学情報理工学系研究科・博士本審査
文-情報断片行列 • 文-情報断片行列 W • wij : 文Siが保有する情報断片cjの重み • 文Siが情報断片cjを含まないときはwij = 0 東京大学情報理工学系研究科・博士本審査
重要文抽出の例 (1/3) • 文-情報断片行列 W • それぞれの文が持つ情報断片の重みの和を計算し,文のスコアとする • 最もスコアが高い文を選ぶ 東京大学情報理工学系研究科・博士本審査
重要文抽出の例 (2/3) • 情報断片重みの更新 • 文3で読者に伝達された情報断片の重みをパラメータα(重複許容定数)で下げる(α = 0) 東京大学情報理工学系研究科・博士本審査
重要文抽出の例 (3/3) • 次に重要な文を選ぶ • 更新された重要断片重みを元に,次にスコアが高い文を抽出する • これを指定された文字数まで繰り返す 東京大学情報理工学系研究科・博士本審査
重要文抽出の評価 • TSC-3コーパスで評価 • 1998年と1999年の毎日新聞,読売新聞の記事 • 30セットの記事集合(記事集合は「トピック」と呼ばれる) • 要約率はだいたい5% (short), 10% (long) に設定されている • 1トピックに含まれる記事数は5から19 (平均11.7) • 評価尺度 • 人手によるcoverage評価 • 正解の要約文を用意し,システムが抽出した文がその内容をカバーしているか,人手で評価する • 複数の正解を用意した自動評価(precision, coverage) • 重要文抽出の正解を複数用意し,precisionとcoverageを計算する • Quality Questions • 被験者に具体的な質問でアンケート調査を行う 東京大学情報理工学系研究科・博士本審査
人手によるcoverageの評価 東京大学情報理工学系研究科・博士本審査
内容が重複する文の数 [qq0] • 「同一の,あるいはほぼ重複する文はいくつあるか?」 一つの記事集合の要約が含む重複文の数 東京大学情報理工学系研究科・博士本審査
表現形式の比較(short) 東京大学情報理工学系研究科・博士本審査
まとめ • ベースライン・システムや他のシステムと比較しても良いパフォーマンスを示している • 他のシステムと比較すると3番目 • 内容が重複した文を抽出しなかった • 文の表現形式の比較 • 係り受け関係は,BOWや共起関係よりも良いパフォーマンスを示した • 今後の課題 • 重要文抽出で用いられる他の素性と組み合わせて,さらなる精度の向上を目指す 東京大学情報理工学系研究科・博士本審査
抽出された文の並び順の決定 (例えば時間順に並べるなど) 抽出 #1 抽出 #2 抽出文 抽出 #3 抽出 #n 複数の新聞記事から抽出した文の並び順の検討 抽出された文を どのように並べて 文章を構築するか? 東京大学情報理工学系研究科・博士本審査
以下の3文を適切に並べなさい クローン羊ドリーは1996年に生まれた. 父親は別種で,ドリーは5ヶ月間妊娠していた. クローン羊ドリーは2頭の子羊を出産した. Q: この3つの文を適当な順序に並び替えなさい. 東京大学情報理工学系研究科・博士本審査
情報を適切な順序に並べる • 様々なタスクが考えられる • 事象の時系列による変遷を追う • どの事象の後にどの事象が生じやすいのか? • QAなどで知識表現から説明文章を生成させる • どの順序に説明していくべきか • 複数文書自動要約 [Radev and McKeown 1998] • 抽出型の要約システムにおいて,どの順序で抽出文を並べるか計画する • 元の文書での並び順をそのまま採用することはできない • 文書の境界を超えた関係も考慮すべき 東京大学情報理工学系研究科・博士本審査
要約を対象とした関連研究 • 記事の発行日時に基づくもの • 記事の書かれた日時による並び [Lin and Hovy 01] • トピックをクラスタリングを行って抽出し,記事の書かれた日時で並べる [Barzilay and Mckeown 02] • 複数文書自動要約ではよく用いられるアプローチ • コーパスに基づく学習アプローチ • 確率モデルに基づく文の並び順の決定 [Lapata 03] • 言語モデルに基づく文の並び順の決定 [Barzilay 04] • 問題が一般化されすぎているため,記事の発行日時による並びを上回るのが難しい 東京大学情報理工学系研究科・博士本審査
A … B C D E … F … 2004-05-04 2004-02-14 2004-02-24 時間情報に基づく文の並び順 • 新聞記事が書かれた順番に文を並べる [Lin and Hovy 2001] • 出来事の発生時間の順序を追う • 同一記事内の文はその出現位置順に並べる [C – D – E – F – A - B] 東京大学情報理工学系研究科・博士本審査
確率モデルによる並び順 • 文章Tが生成される確率 [Lapata 2003] • 文と文の遷移確率は,それぞれの文内に含まれる語の遷移確率をコーパスから計算して決定する • 名詞,動詞,係り受け関係の遷移確率を新聞記事全体から獲得する 東京大学情報理工学系研究科・博士本審査
提案手法 • 本研究でのアプローチ • 時間順の並び改善する方法を探る • 要約したい文書集合内でのローカルな文の並び順に着目 • ある文を配置する際,どの情報が前もって伝わっていなければならないのか考慮する • 重要文抽出で抜き出された文がもともと文書の中でどのような位置を占めていたのかを手がかりとする • 文の並び順の評価方法について考察する • どのような評価尺度を用いればよいか? 東京大学情報理工学系研究科・博士本審査
A … … … … B C … 1996-07-31 1998-02-24 1998-04-25 時間順の問題点 別の内容 ほぼ同じ内容 … B C’ … B 重要文として選ばれなかった文 重要であるとして抽出された3文 Bの文の位置が おかしい A: クローン羊ドリーは1996年に生まれた. B: 父親は別種で,ドリーは5ヶ月間妊娠していた. C: クローン羊ドリーは2頭の子羊を出産した. 東京大学情報理工学系研究科・博士本審査
A … … … … B C … 1996-07-31 1998-02-24 1998-04-25 時間順の改善方法 別の内容 ほぼ同じ内容 … B C’ … B 重要文として選ばれなかった文 重要であるとして抽出された3文 A: クローン羊ドリーは1996年に生まれた. C: クローン羊ドリーは2頭の子羊を出産した. B: 父親は別種で,ドリーは5ヶ月間妊娠していた. 東京大学情報理工学系研究科・博士本審査
評価実験 • 要約文を並べる実験を行う • TSC3 [Hirao 04]コーパスの28記事セットを使う • 複数文書要約向けの重要文抽出法 [Okazaki 04]を用いて抽出された文を並び替える • ランダム(RO),時間順(CO),提案手法(PO),人間が並べたもの(HO)の4者を比較 • 話題クラスタリングを行った時間順(COT)と話題クラスタリングを行った提案手法(POT)の2者も評価対象 • 3人の被験者に評価してもらう • 評価対象サンプル数は28[個]×3[人]=84[個] • 評価方法は3種類 東京大学情報理工学系研究科・博士本審査
RO HO CO POT COT PO 4段階評価による並び順の採点 • それぞれの並び順に点数をつけてもらう • 4(優): 文句のつけようがない.これ以上並び順を改善できない • 3(可): 改善の余地はあるけれども,このままでも意味は通る • 2(悪): 並び順に問題があるので,訂正するほうが望ましい • 1(不可): 並び順にかなりの問題があり,訂正するよりは全体的に再構成したほうが良い ○○に関する記事群の要約の並び順 A) ……..... B) ………. ……... F) ………. C) ……..... E) ………. ……... A) ………. C) ……..... E) ………. ……... A) ………. C) ……..... A) ………. ……... B) ………. C) ……..... A) ………. ……... B) ………. C) ……..... A) ………. ……... D) ………. 1 2 2 3 3 4 東京大学情報理工学系研究科・博士本審査
人間が用意した正解との比較 • 一人の被験者に文を並べてもらい,その並び順を正解とする • 並び順と,その唯一の正解とを比較する • 比較方法については後ほど説明 E)........ F).......... G)...... H)....... A)... B)........ I)....... C)......... D)...... E)........ F).......... G)...... I)....... B)........ H)....... A)... C)......... D)...... 比較 (どのくらい近いか) 評価する並び順 正解の並び順 東京大学情報理工学系研究科・博士本審査
添削による並び順の評価 • 4段階評価で2点(悪)をつけたときは,改善案を示してもらう • 元々の並び順と,その改善案を比較する • 添削を行うときは文を移動するという操作のみを許容する • できるだけ元の並び順を壊さないように改善案を示してもらう • 元の並び順と最も近い「正解」を被験者に用意してもらう E)........ F).......... G)...... H)....... A)... B)........ I)....... C)......... D)...... E)........ F).......... G)...... I)....... B)........ H)....... A)... C)......... D)...... 添削 比較 (どのくらい近いか) 評価する並び順 添削後の並び順 東京大学情報理工学系研究科・博士本審査
順位相関係数の問題点 • スピアマンは絶対的な位置を重視しすぎ • 並び順の評価ではほとんど使われていない • ケンドールは局所的な一貫性を見ない • 以下の例のケンドール相関係数は0.11 • 文は一次元的に配置されるのでむしろ局所的一貫性の方が重要 • かなり離れた場所にある文のペアの順序が逆だったとしても,読者はそのことをあまり意識しない 東京大学情報理工学系研究科・博士本審査
連続性 (continuity) の指標 • 連続性指標を新たに提案 • 0(連続性無し)…1(同一) • 要約を読むときに読者が次に読むべき文を探してしまう場所の数を計測 • 先頭の文は導入文として妥当かどうかを,その要約を読む前の読者の頭の中との連続性を測る • 先の例での連続性: 7/9 = 0.78 東京大学情報理工学系研究科・博士本審査
1) 4段階評価の採点分布 東京大学情報理工学系研究科・博士本審査
2) 唯一の正解との比較 分散分析 (ANOVA) : すべての評価尺度においてRO, CO, PO, HO に差がある (p < 0.01) テューキー (Tukey) の方法 (α = 0.05) : 「ROが最も悪い」,「HOが最も良い」←これは当然 東京大学情報理工学系研究科・博士本審査
3) 添削による並び順の評価 分散分析 (ANOVA) : すべての評価尺度においてRO, CO, PO, HO に差がある (p < 0.01) テューキー (Tukey) の方法 (α = 0.05) : 「ROが最も悪い」, 「CO < PO」(Cont. のみ),「PO < HO」(Cont. のみ) 東京大学情報理工学系研究科・博士本審査
種々の並び替え戦略との比較 • 複数の並び順ヒューリスティックを統合する [Danushka, Okazaki, and Ishizuka 2006] • 文aと文bがあったとき,以下の関数を教師あり学習 Support Vector Machine (SVM) で獲得する • 文aとbのどちらを先に並べるべきか(向き) • 文a→bもしくは文b→aに並べる場合の結びつきの強さ • 複数の並び順戦略(時間順序,文遷移の確率モデル,トピックの一致度,前提情報による制約)を統合・比較する 東京大学情報理工学系研究科・博士本審査
階層化クラスタリングの応用 東京大学情報理工学系研究科・博士本審査
素性の定式化の例: 前提情報 東京大学情報理工学系研究科・博士本審査
SVMによる素性統合の実験結果 • 複数の指標を統合することで,並び順の良さが向上した • 素性のタスクへの貢献度合いを調べると… • 時間順序の戦略のパフォーマンスが最も良い • 前提情報の戦略が2番目に良かった • 文遷移の確率モデルは殆ど貢献しなかった 東京大学情報理工学系研究科・博士本審査