山口大学大学院　理工学研究科 M2 　兼平龍

2010/10/15先端論文紹介ゼミ 「A layered approach to learning coordination knowledgein multiagent environments」(マルチエージェント環境で知識を調整学習するレイヤー型アプローチ) 山口大学大学院　理工学研究科 M2　兼平龍

1. イントロダクション-Introduction- • かつては強化学習についての研究は主にシングルエージェントでのシステムに集中していました. • しかし、自律的シミュレーションなどの複雑なアプリケーションが増えていく中マルチエージェントシステムが重要になり様々な研究が行われてきました. • 本論文では追跡問題において新しいマルチエージェント学習アルゴリズムを提案した. • アプローチの独創性として… ・2レベル学習アルゴリズム・ハンター間における潜在的コミュニケーション　　があります.

2.強化学習-Reinforcement learning- • 強化学習とは環境からの試行錯誤的なインタラクションにより最適な行動を学ぶ事です.一般的なものとしてQ学習・Sarsaがあります. • Q学習はQ値を政策を用いて行動決定に利用します.Q学習において状態－行動の組の価値はQテーブルに置かれ、以下の公式に従い更新されます. ・行動選択メカニズム今回使用するボルツマン選択は各々の行動を選ぶ可能性を計算します.温度ｔは可能性を調整するパラメータで、徐々に減少させます.

2.強化学習-Reinforcement learning- • マルチエージェント強化学習　　　シングルエージェント強化学習を複数のエージェントに広げたものです.しかし、ロボティクスやネット上のソフトウェアのような現実問題にQ値(状態－行動の組)を適応させる事は困難です. • 階層型強化学習(HRL) そこで、状態空間が階層的に構築される強化学習の研究がされてきました.HRL方法はより早く政策を学びますが、現在はシングルエージェントでの研究であり、マルチエージェントの様な複雑な問題では実用されていません.

3.問題設定-Problem domain- • 追跡問題の解説　・ 2種類(ハンター・獲物)のエージェント・エージェントは視覚の深さdで観測することが出来ます・ハンターと獲物は別々のステップで行動します　・ハンターが獲物の周りを囲んだ時、終了(捕獲)とします • 獲物・獲物は大小2つのタイプがある. 大きい獲物[P]：2体以上のハンターで捕まえる　小さい獲物[p]:１体のハンターで捕まえる・獲物の観測範囲内にハンターがいる場合、最も近いハンターのマンハッタン距離が最大になるように動く(ハンターから逃げる) • ハンター・ハンターは観測範囲内で獲物・最も近いハンターを観測する(状態空間節約のため) 図.2　深さ3のハンターH1の観測範囲

4.コミュニケーションによる2レベル強化学習-Two-level reinforcement learning with communication- • 開発したアルゴリズム. 4.1利己的ハンター(SRL,NRLハンター) • SRLハンター:他のハンターを考慮しない　　ハンターは環境として大小の獲物を観測し行動します. • NRLハンター:近いハンターを状態空間の１部に含む　行動を選ぶ際に近いハンターの位置情報も観測します. 協力するハンターがいるにも関わらず小さい獲物に続いたり.反対に誰もいないのに大きい獲物を選んでしまう事がある. 他ハンターと大小の獲物を含むため状態空間は大きく、学習は遅くなるが潜在的な協調行動を示すようになるかもしれない.

4.コミュニケーションによる2レベル強化学習-Two-level reinforcement learning with communication- 4.2 2レベル強化学習コミュニケーションエージェント　・第１レベル：協力的(隣のハンターの後を追う)か、自己的(自身が大きい獲物を捕まえる)かの決定を行う. 　・第２レベル：第１での決定により行動を選ぶ. 2レベル強化学習法・2LRL-1.1「1：レベル1の学習無し」・2LRL-2.1「1：レベル1の学習無し」 • 2LRL-1「1:大きい獲物のみの環境」・2LRL-1.2「2：レベル1の学習あり」・2LRL-2.2「2：レベル1の学習あり」 • 2LRL-2「2：大小の獲物がいる環境」 ※コミュニケーションとして隣にいるハンターは近い大きい獲物の距離を送ります.

4.2.1大きい獲物のみの環境の2LRL-1アルゴリズム4.2.1大きい獲物のみの環境の2LRL-1アルゴリズム第2レベル第１レベル Aの観測情報 Bからの獲物の位置 Qテーブル・Qfollow(状態:観測[位置]情報×送られた獲物位置,行動:あとに続くor続かない) ・QOwn(状態:大きい獲物の位置,行動:上下左右止の5行動) ・QOther(状態:観測情報×大きな獲物の距離,行動:上下左右止の5行動)

4.2.1大きい獲物のみの環境の2LRL-1アルゴリズム4.2.1大きい獲物のみの環境の2LRL-1アルゴリズム • 2LRL-1.1:バージョン1(レベル1の学習なく、指示がある) 　・隣のハンターの後に続く、続かないという決定はない. ・自己の観測情報とコミュニケーション情報が与えられる. ・ 2ハンター間(自己、隣)で獲物までの距離を比較し、自己の距離が遠い場合QOtherより後を追うようになる. • 2LRL-1.2:バージョン2(レベル1の学習あり、指示が無い) 　・隣のハンターに続くかどうか学習をする. ・このバージョンでは自己と隣の大獲物の距離を比較して… 　　　　　　　　　　　　　　　　　　　　　　　　を学習します. ・自分の距離が小さいなら:自身に従い行動する・自分の距離が大きいなら:隣のハンターの後を追う行動をする

4.2.2大小の獲物のいる環境の2LRL-2アルゴリズム4.2.2大小の獲物のいる環境の2LRL-2アルゴリズム ※ハンターの観測情報や隣との情報は省略小さい獲物を追いかける大小の獲物の選択に使用大きい獲物を追いかける・Qfollow：ハンターの後に続くか、獲物を追うかの選択に使用. ・Qprey:大小どちらの獲物を選ぶかの選択に使用. ・QOwnp：獲物を追う場合での小さい獲物を追いかける際の行動に使用. ・QOwnP:獲物を追う場合での大きい獲物を追いかける際の行動に使用. ・Qother:ハンターの後に続く場合での行動に使用. こちらもレベル1の学習ありなしで 2LRL-2.1(レベル1なし) 2LRL-2.2(レベル1あり) …分けられる.

4.2.22LRL-2アルゴリズムでの行動選択例 Lv1A:3マス＜B:5マス・・・Lv2Aに続く:↓行動 5マス 4マス 3マス Lv1A:3マス＜B:5マス・・・獲物を追う Lv2p:4マス＜P1:3マス・・・P１を追う:↓行動

4.3 2レベル強化学習アルゴリズムの利点 1. 状態空間のサイズがエージェントタイプ(ハンター,大小の獲物)ごとに異なるQテーブルを用いているため大幅に減少される. 2. ハンターの行動選択の第1レベルにおいて目標を学び、第2レベルにおいて目標を追いかけます.つまり、小さい獲物を追いかけるハンターは大きい獲物の観測情報を考慮しないで済むという事です. 3. アルゴリズムに関しては多くの獲物が存在する環境にも適用できる.

5.シミュレーション結果 表.入力セット • 今回実装したアルゴリズム・ SRL(利己的)ハンター・ NRL(隣の情報もある)ハンター・ 2LRL-1(大きい獲物だけの2レベルRL) - 2LRL-1.1(レベル１なし) - 2LRL-1.2(レベル１あり) ・ 2LRL-2(大小の獲物がいる2レベルRL) - 2LRL-2.1(レベル１なし) - 2LRL-2.2(レベル１あり) sg:グリッド(sg×sg)の一辺のサイズ H:ハンター数 p:小さい獲物の数 P:大きい獲物の数 ※Q値が収束するまでトレーニングを行い　　のちにテストを行う.

5.1温度定数の決定 Ntest：テスト期間でゴールまでのステップ数異なる温度で入力セットIn1を使用したSRLの結果. tを1から0.3へ減少させる事にした.

5.2.1～各アルゴリズムの比較結果 • SRLとNRLの比較 • SRLと2LRL-1.1の比較（小さいグリッド） ⇒NRLの方が悪い結果となった.原因としてはエージェントがQテーブルを切り離す方法では全ての組を探索できなかった事がある. ⇒結果として、SRLと2LRL-1.1との違いはあまり表れなかった.しかし2LRL-1.1がわずかに良かった点としてSRLには見られなかった協調行動が確認できた事です.

5.2.1～各アルゴリズムの比較結果 • SRLと2LRL-1.1の比較（大きいグリッド） • 2LRL-1.1と2LRL-1.2の比較 ⇒協調行動の重要性を強調するために大きいグリッドでテストした.また、有利に働く初期位置の場合も行い2LRL-1.1はさらに良い結果を示した. ⇒2LRL-1.2ではQテーブルが多いため学習までに時間がかかったが、2LRL-1.1と同等の結果となった.

5.2.1～各アルゴリズムの比較結果 • SRLと2LRL-2.1の比較 • 2LRL-2.1と2LRL-2.2の比較 ⇒2LRL-2.1はSRLと比較して良い結果となった. ⇒2LRL-2.2では、隣のハンターに続くか続かないという正しい行動はできたが、Qpreyテーブルが収束することが出来ず大小の獲物を決め追いかける学習が出来なかった.

6.結論と今後 • マルチエージェント学習における、コミュニケーションによる2レベル決定メカニズムを開発しました. • 2つの階層的なレベルに分ける事でハンターの観測範囲内での全て状態を考慮する代わりに、状態空間のサイズを一定にすることを可能にしました. • しかしハンター間での協調行動は確認できたが、きちんと近い獲物を追いかける学習はできませんでした. • 今回は特定の問題設定であったが、使用の修正により多くのハンターのいる集団行動のメカニズムでも良い結果を示すかもしれません.

山口大学大学院 理工学研究科 M2 兼平 龍