第3回 SHIBUYA SYNAPSE

先端AI技術を活用した
新たな価値あるサービス共創を目指して

イベント開催 Report03

2018年6月23日(土)にDeNA本社にて、『先端AI技術を活用した新たな価値あるサービスの共創』をテーマにしたイベント『SHIBUYA SYNAPSE』が開催されました。

第3回となる今回は AI の自律的な学習を可能にする先端技術でありながら、実応用がなかなか進みにくい「強化学習」をテーマに、多様な概念の解説をしつつ、現在行われている試みやこれから取り組むべき課題について紹介と議論がなされました。
会場には AI 技術に関わるエンジニア・研究者や学生、ゲーム業界のビジネス担当者など約140名の方が参加し、盛況のうちに開催することが出来ました。

セッション1
多様な強化学習の概念と課題認識

SPEAKER

甲野佑

株式会社ディー・エヌ・エー AIシステム部AI研究開発第二グループ AI研究開発エンジニア

博士 (情報学)。2016年東京電機大学大学院先端科学技術研究科修了。2017年4月に DeNA へ中途入社。大学時代はヒトの意思決定傾向や脳における行動の習慣/階層化過程を組み合わせた強化学習モデルの基礎研究を行っていた。DeNA に入社以来、ゲームAI開発に携わっており、学習アーキテクチャ全体の設計と強化学習アルゴリズムの研究開発などに従事している。近年は自律的に意思決定階層が構築されるような階層型強化学習に関心を寄せている。
本イベント Shibuya Synapse #3 の企画者。

SPEAKER

中田勇介

千葉大学大学院 融合理工学府 地球環境科学専攻 都市環境システムコース 荒井研究室 修士2年

2015年明石工業高等専門学校建築学科卒業。2017年千葉大学工学部都市環境システム学科卒業。現在、同大学院融合理工学府博士前期課程在学。機械学習、特に強化学習・逆強化学習の研究に従事。学外では、強化学習の勉強会(強化学習アーキテクチャ勉強会)に運営幹事として参加し、2018年2~3月には株式会社ディー・エヌ・エーの強化学習研究開発グループでインターン。逆強化学習・強化学習の実問題への適用に関心を持つ。

SPEAKER

河村圭悟

東京大学大学院工学系研究科電気系工学専攻 鶴岡研究室 修士2年

東京大学工学部卒業、2017年より同大学大学院工学系研究科に在籍。学部時代より強化学習と教師あり学習を組み合わせて多人数不完全情報ゲームのナッシュ均衡解を求める研究を行っている。修士ではより大規模なマルチエージェント環境について強化学習を適用するタスクに取り組んでいる。第21回ゲームプログラミングワークショップ研究奨励賞受賞。

まず DeNA の甲野から、強化学習の基礎と強化学習が現在抱える諸問題、また強化学習の多様なバリエーションに関して解説を行いました。続いてそれらのバリエーションのうち、逆強化学習・マルチエージェントにフォーカスした解説を、それぞれを専門としている千葉大学の中田勇介さん、東京大学の河村圭悟さんからご講演いただきました。

強化学習の利点

ディープラーニングを含む教師あり学習と比べた時の強化学習の最大の違いは、自らデータを環境から取得することです。教師あり学習では大量のデータが所与であることを前提としていますが、強化学習ではデータの有る無しに関わらず人工知能エージェント自身が足りないデータを環境から自律的に探索し、取得することができます。そのため未知な環境にも対応可能といった万能性を持ちます。

強化学習の問題

強化学習において学習に使うデータは環境(現実環境 or シミュレータ環境)に働きかけないと得られないため、どんなに優れた学習アルゴリズムを使おうと、学習時間が長くなってしまうという問題があります。強化学習が学習対象としている価値関数(収益の推定値)や方策(確率分布)には、他の機械学習と同じく近似関数(ニューラルネットワークなど)を用いる事ができます。一方、学習データの取得はエージェント自身の行動方策に依存し、その点で通常の機械学習と大きく異なります。
そのような自己依存的で非定常な学習のために、強化学習では少数のデータでの効率的な学習、大規模な環境データのサンプリングを可能にする並列化、事前知識(他タスクでの学習結果など)の転移や取得情報の構造化が重要となります。

様々な強化学習概念

一口に強化学習と言っても、様々な観点があり、複数の分野が存在します。広い意味での強化学習では、価値関数、方策、報酬、環境の状態遷移モデル、共通知識・汎用の意思決定モデルなど、これら全てが学習対象になります。
・価値関数・方策 → 通常の強化学習
・報酬 → 逆強化学習・(環境モデルが明らかでない場合の) モデルベース強化学習
・環境の状態遷移モデル → (環境モデルが明らかでない場合の) モデルベース強化学習
・汎用知識・上位の意思決定モデル → 階層型強化学習・マルチタスク学習
・学習効率化 → カリキュラム学習・分散強化学習
それぞれに利点はありますが、全て前述した少数のデータでの効率的な学習、大規模な環境データのサンプリングを可能にする並列化、事前知識(他タスクでの学習結果など)の転移のいずれかを実現するために必要だと考えられています。しかし、最も本質的な問題である不完全な環境観測や非定常な環境で学習する場合など、強化学習の根本的な前提が崩れてうまく学習できない問題についてはあまり議論されていません。

逆強化学習

環境を主体的に探索して学習する強化学習は未知環境でも学習可能という万能性を持ちますが、学習させる側の意図通りにエージェントが学習するかは、目的となる報酬関数の設計に依存します。 そのタスクに関する成績を「解けた/解けなかった」という 2 値で判断できるのであれば、終端状態に 2 値の報酬を与えれば良いので報酬関数の設計は比較的簡単です。しかし報酬が終端状態のみでしか得られないようなスパースな報酬環境での学習は一般的に困難です。このため、うまく途中の知識を利用して学習を進めるために、エージェントが良い状態に近づいているか否かの途中報酬を与える場合があります。しかしその場合、タスクのゴールが目的であるはずが、途中で与えた報酬に執着してしまい、ゴールに向かわなくなるなど、設計次第では意図しない学習をしてしまいます。そのため難しいタスクほど人手による報酬関数の設計には限界があると言えます。
そこで重要になるのが、そのタスクに対するエキスパート(そのタスクが解ける人間・学習済みエージェント)のデモンストレーション(行動の詳細な履歴)からの逆強化学習です。逆強化学習はあるタスクにおけるエキスパートのデモンストレーションから、エキスパートがどの場面(状態)で、どのような内的な報酬を仮定して学習しているかを推定する学習方式です。この学習方式は、強化学習が決められた報酬関数から方策を獲得するのに対して、デモンストレーションという優れた方策から作られた状態遷移の履歴から、エキスパートの報酬関数の推定を行うという逆の学習を行なっているため、逆強化学習と呼ばれます。
そこで得られた報酬関数を用いて再度強化学習を行うことにより、エージェントはエキスパートが基づいていたであろう方策を獲得することができます。逆強化学習の利点は報酬関数の推定を介する事で、エキスパートが見せたデモンストレーション以外の場面、状態にも対応できることにあります。それは特定の場面でのエキスパートの行動確率のみを模倣する教師あり学習には無い性質です。さらに報酬関数の推定と、その報酬関数に基づいた方策の学習を繰り返すことで、よりエキスパートに近い報酬関数と行動方策を得られることも優れた点と言えます。

マルチエージェント強化学習 (ゲーム理論)

基本的に通常の強化学習は一体のエージェントを想定しますが、現実には多数のエージェントが存在する環境(マルチエージェント環境)を想定しなければならない場合も多いです。 マルチエージェントがそれぞれ学習して行動方策を変化させていく場合、その課題は強化学習の前提から外れた非定常な環境になります。また学習の目的に即したエージェント間の関係も、タスクに応じて敵対的、協調的、その両方の組み合わせなど、その時々により最適な関係が変化し、学習を複雑化させます。
そこでマルチエージェントの非定常性、多目的性に対処するために用いられるのが Fictitious Self-Play と呼ばれる学習手法です。Fictitious Self-Play はそれまで自分が取ってきた過去の戦略の平均と戦い続けることにより、常にそれより良い方策を少しずつ学習していくことで、ナッシュ均衡に近い戦略に到達することを目的としたゲーム理論由来の手法です。
また近年では DeepMind が開発した AlphaZero という、モンテカルロ木探索の戦略を模倣する学習アルゴリズムが注目を集めています。 AlphaZero は Fictitious Self-Play と異なり平均としての過去の自分とは戦いませんが、高い計算コストによる強力な探索能力によって少し前の自分自身と戦い学習し続けることで、結果として人間以上の強さにまで到達しています。しかし AlphaZero が全てのマルチエージェントゲームに対応できる訳ではありません。いくつかのゲームでは経験的に成功しているものの、収束の保証などは未だ与えられていないとのことです。他にも AlphaZero は環境の遷移が既知(囲碁やチェスはどこに置けばどう盤面が変化するか自明)である必要がありますが、多くのタスクにおいてそのような環境遷移モデルは未知な状態から始まります。またポーカーなどの相手の手札が見えない不完全情報や、非零和なゲームには対応していないなど、計算コスト以外にも様々な課題があります。
AlphaZero が全てのマルチエージェント問題を解決するわけではありません。ディープラーニングを用いた手法は他にも、環境の遷移モデルを必要としない強化学習的な学習手法 (Neural Fictitious Self-Play) や、不完全性まで網羅した、より複雑なゲーム木を元に近似的にゲーム結果を予測していく手法 (DeepStack ※1) などが存在します。結局は目的に合わせてアルゴリズムを選択すること、これらのアルゴリズムを組み合わせつつ発展させていくことが重要だと考えられます。
※1 DeepStack: 不完全情報ゲームにおける情報の不完全さを考慮し、ありうるゲーム展開を記述した巨大なゲーム木を解く手法(Counterfactual Regret Minimization)を、ディープニューラルネットワークと組み合わせてゲーム結果を学習・予測することでプレイする学習手法

セッション2
認知科学からの視点:満足化によるエミュレーションと、判定問題としての強化学習

SPEAKER

高橋達二

東京電機大学 理工学部 情報システムデザイン学系 准教授

1978年秋田県生まれ。東京電機大学理工学部情報システムデザイン学系(知能情報デザインコース)准教授。ドワンゴ人工知能研究所協力研究員。東京大学教養学部基礎科学科科学史・科学哲学科卒業。神戸大学自然科学研究科修了。博士(理学)。ロンドン大学バークベック校 訪問研究員、パリ高等研究実習院 (EPHE) 訪問研究員、東北大学電気通信研究所 共同研究員、日本女子大学 総合研究所 研究員、学習院大学 計算機センター 研究員を歴任。内部観測研究室を主宰し、認識の外部を捉える認知の柔軟さと創造性を可能な限り計算論的・経験的に研究するため、認知モデリングとその機械学習への応用、また心理実験を行う。Cognitive Science Society、人工知能学会、日本認知科学会などの会員。

本セッションでは認知科学という立場から強化学習との関連を東京電機大学の高橋達二先生からお話しいただきました。
人間の心を情報処理機械として捉え、その情報表現と推論について解明する認知科学は、心理学・哲学・言語学・人類学・神経科学・人工知能などの分野の複合からなります。人工知能の発展にとっても重要であるとされ、事実、欧米の人工知能研究者は Hinton や Jordan など、元々は心理学の専門家である場合が少なくありません。

人間のように学習し考えるマシンを作るには

本講演では認知科学者である Lake らの論文『人間のように学習し考えるマシンを作るには(Building Machines That Learn and Think Like People)』について解説を行っていただきました。ディープラーニングによって、CNN による物体認識、RNN による発話認識、深層強化学習による制御など、それぞれの分野で目覚ましい発展がありました。この論文はそれらの発展を受けて、ディープラーニング技術の成果の再考察と、その上で人間のような汎用性を持つ思考機械を作るために残っている課題の整理と提案を目的としています。要約すると、人間の認知機能の単位である「認知コア」の定義と構築が重要であるとして、特に人間が生得的に有する直観心理学(※2)と直観物理学(※3)のモデリングと実装を提案しています。それらの「認知コア」とディープラーニングなどのパターン認識の組み合わせにより、パターン認識だけでは実現できない抽象的な知識の保存や、高速な学習が可能になるという主張です。
※2 直観心理学:他者・エージェントの信念・欲求・意図や、敵対的・協力的といった社会性の推定モデル
※3 直観物理学:物理現象、特に日常的な力学現象の予測と理解のための推定モデル

自律性によって人間の能力は形成可能か否か

当該論文の掲載誌 Behavioral and Brain Sience は認知科学系の代表的なレビュー論文誌で、オープンな議論を受け付けていることが特徴です。
そこではこの論文に対する DeepMind からのコメンタリーも掲載されています。基本的にはこの論文の主張に同意するものの、DeepMind は Autonomy (自律性) を重視する旨が語られています。人の手で認知コアを組み込むのではなく、何が認知コアなのかということさえも機械に自律的に学習させる方が、複雑な現実世界での必要性に応えることができる、という主張です。この DeepMind のコメンタリーへ Lake らは回答して、人間の持つ知識や理論の全てを勾配による機械学習で自律的に獲得させることは現実的に可能だろうか、という疑念を述べています。こうしたやり取りはディープラーニングの登場によって知能に対する主義主張の対立軸を超えた議論ができるようになってきた証拠でもあります。

エキスパートではなくパイオニアに学ぶ模倣学習

高橋先生はそのどちらの主張にも社会性の考慮が抜けていると指摘します。多くの個体は社会を通じて、他の個体からの模倣により基礎的な能力を取得することが多いはず。高橋先生によると模倣学習は imitation (how の模倣) と emulation (what の模倣) に大別できるそうです。人間は伝聞情報など、断片的な情報からも模倣を可能とします。これを emulation と呼びます。先駆者(パイオニア)からトップの成績水準を示されることで、他のエージェントは先駆者の示した水準を達成する行動方策の「実在を確信」し、その同水準を達成する方策を探すモチベーションが生まれます。例えば、陸上スポーツなどで一度、世界記録が破られると、それと並ぶ記録が頻出することがあります。そのような新たな世界記録への追従事例の原因はシューズの改善など外的要因も色々考えられますが、ある程度は emulation という「目標ありきの試行錯誤」を行なっているからだと考えられます。
社会的模倣学習である emulation のモデルはほとんど存在しません。そんな中、高橋先生は伝聞された水準目標が先にあり、それが本当に達成できるか否かを検証する判別問題として満足化 (※4) を用いる事で emulation が実装可能であると言います。またそれを既存の学習手法と組み合わせる事で「imitation による基礎能力の学習」−「emulation による断片情報や社会性からの学習」−「限界を極め続ける通常の強化学習」といった多段階の学習過程を構築できるとお話いただきました。
※4 満足化 (satisficing):希求水準を満たすような行動を見つけるまで探索し、満たされたら探索を打ち切るという人間の意思決定傾向

セッション3
大脳基底核研究の新展開と強化学習

SPEAKER

太田宏之

防衛医科大学校 医学教育部 生理学講座 助教

慶應義塾大学理工学計測工学科卒。神戸大学自然科学研究科後期博士課程修了。博士(理学)。2007年より現職。パッチクランプ計測・多電極計測・動物行動学習実験などを通じて大脳基底核の機能の解明を目指している。

強化学習は動物の行動学習にその起源の一つがあり、それは大脳基底核で行われている学習の仕組みに対応します。このセッションでは防衛医大の太田宏之先生から、現実の脳と既存の強化学習アルゴリズムの対応関係の解説と、大脳基底核の最新研究に基づいた新たな強化学習アルゴリズムの提案が行われました。そこで太田先生は強化学習の進展には「時間スケール的にスローな性質を有する大脳基底核に学ぶ必要がある」と言います。

Montezuma’s revenge が示しているもの

現在、DQN(※5) をはじめ多くの深層強化学習の壁の一つとなっているのが Montezuma’s revenge と言うゲームタスクです。Montezuma’s revenge は多くのアルゴリズムで何百万回もの膨大な反復による学習を経てもほとんど成績が上がらないことで知られています。その原因にはステップごとの行動選択がステップごとの瞬間的な状態入力に左右されて、シーケンスとしての行動に一貫性がない事が挙げられます。程度の差こそあれ、人間から見れば無駄に見える膨大な試行錯誤を必要とするのが強化学習の最大の問題点の一つであるのは間違いありません。しかし Montezuma’s revenge の問題の本質はそこではなく、その瞬間の環境の状態全てを完全に特定可能でないとそもそも強化学習が成立しない事にあります。つまり DQN のような高々 3〜4 ゲームフレームの状態入力では正しい学習を行う事ができないのです。
※5 Deep Q-Network : 深層強化学習のもっともシンプルな学習アルゴリズム

脳における並列的な状態概念

脳内では、環境の状態認識は多次元の入力ベクトルであって、状態とは並列的で、非同期にその部分的な状態が推移していくものだと考えられます。ゆえに脳システムの上では、状態という概念は、一意的な状態として切り抜いて行動選択のモチベーションと紐づけうる一瞬間、というようなものではないと考えられます。
常時流れてくる多次元の入力ベクトルを一瞬ごとに強力に処理する「環境の状態を一意的に特定できる万能な主体」を作り上げようとして進化してきたのがビッグデータやディープラーニングのアプローチであると捉えられます。それに対して、状態を瞬間一意に特定できないことを前提にした前述の非同期的な脳システムは「環境の部分を並列的に受容し処理する機械」というアプローチと言えるでしょう。
非同期的で並列的な状態表現を扱うには、出力である行動そのものを系列化してプランとして発行する必要があります。そのような持続する自然な行動系列の発行には、外界の予測モデルが重要であると思われます。しかし、外界の予測モデルを完全に構築するのはいくら脳(特に大脳皮質)の機能やディープラーニングでも困難だと考えられます。

積分器としての線条体ニューロンと強化学習

ニューロンは一定の入力が持続的に与えられなければ発火しません。そしてそれは通常ミリ秒単位の長さの持続を要します。しかし大脳基底核の一部である線条体ニューロンには一度発火して数秒以内であれば入力から発火までの時間が短くなる傾向があるそうです。これは非同期な状態入力を統合するための待ち時間が、線条体ニューロンだけ長いことを意味します。このことから線条体はそのスローな時間特性によって、非同期な状態入力に対する積分器としての役割を担っているのだと考えられます。
例えば、時間的に離れて出現する部分状態「A」と部分状態「B」が揃ったときに行動「F」を取るのが最適行動だとします。前述した積分器としての性質は「A」を観測した後に「B」が来ることを期待し、行動「F」に紐づくニューロンの受付時間を引き延ばすことを可能にします。このような「期待」と「待機」が外界の予測モデルの不完全性を緩和するものだと思われます。これは飽くまで例えであるので、現実に線条体ニューロンが扱っているのはそこまで明示的な関係ではないと思われます。しかし、このようなスローな積分器を強化学習アーキテクチャの設計に取り入れていく事により、現実の世界で駆動する場合に現れる複数の条件が非同期、非順序的な観測を考慮できるようになると太田先生は述べています。そうした機能を組み合わせる事で、時間に対する瞬発性を前提としているがゆえの強化学習の問題を解決できるのではないかとお話しいただきました。

セッション4
デジタルゲームの調整・デバッグ・品質管理における人工知能技術の応用

SPEAKER

三宅陽一郎

株式会社スクウェア・エニックス テクノロジー推進部 リードAIリサーチャー

京都大学で数学を専攻、大阪大学(物理学修士)、東京大学工学系研究科博士課程を経てデジタルゲームにおける人工知能の開発・研究に従事。IGDA日本ゲームAI専門部会設立(チェア)、DiGRA JAPAN 理事、芸術科学会理事、人工知能学会編集委員。
共著『デジタルゲームの教科書』『デジタルゲームの技術』『絵でわかる人工知能』(SBCr)、著書『人工知能のための哲学塾』(BNN新社)、『なぜ人工知能は人間と会話ができるのか』(マイナビ出版)『人工知能の作り方』(技術評論社)『はじめてのゲームAI』(WEB+DB PRESS Vol.68、技術評論社)。翻訳監修『ゲームプログラマのためのC++』『C++のためのAPIデザイン』(SBCr)、監修『最強囲碁AI アルファ碁 解体新書』(翔泳社)。

このセッションからは、実応用に向けた研究事例、あるいは既に実用化済みの技術の紹介が行われました。
まずスクウェア・エニックスのリードリサーチャーである三宅陽一郎先生に、ゲームにおける AI 技術、特に「ゲーム内の AI」と「ゲーム外の AI」という区分、それぞれの重要性について解説いただきました。

ゲームの内と外の AI

ゲーム AI には最新の機械学習技術が投入されており、例えば敵の出現具合に対するユーザーの緊張具合を計測して、最も楽しめるように敵の出現パターンを調整するメタ AI の研究がなされています。NPC (Non Player Character) 個体を操作するキャラクター AI としては、プレイヤーの命令からの行動学習や、プレイヤーの動きの模倣などに機械学習技術が使われています。これらは全て「ゲームの内の AI」であり、ゲームのロジックに組み込まれているものです。しかし、それ以外にもゲーム内には組み込まれないゲーム開発に関する「ゲームの外の AI」技術が数多く存在します。例えば開発支援、プロシージャル、QA (Quality Assurance) に用いられる AI 技術です。

品質保証のためのゲームの外の AI

「ゲームの外の AI」 へ機械学習を用いた応用事例として『Assasin’s Creed Origin』における自動的なオブジェクトの配置や経路形成が紹介されました(※6)。ここでは単純にオブジェクトを配置するだけではなく、オブジェクト間に不自然な干渉や閉じた経路を生じさせないためのチェックまで機械学習によって自動的に行うそうです。
他にも、キャラクター AI を強化学習で作成し、ユーザーから見た難易度を事前に判定させる研究や、そのキャラクター AI を用いたゲームの自動テストの研究もなされています。自動テストはゲーム外からの操作なので、キャラクター AI といってもコントローラと同じ行動を入力しなければならないのですが、現在のゲームコントローラーの入力はとても複雑化しています。たとえば同時に押すスイッチの組み合わせパターン数が膨大にあったり、コントローラースティックの倒す角度が繊細な連続量であったりして、行動の表現が複雑になっています。そこで一旦、プレイヤーデータを使った模倣学習では、ありうるスイッチのパターンを減らしてから強化学習を行うカリキュラム学習が提案されているそうです(※6)。
※6 スライド中に文献,発表タイトルの引用あり

ゲーム開発の困難さの上昇と産学連携の意義

近年のゲームは複雑化している上に、リリース後もオンラインに要素が追加されていきます。ゲーム内のコンテンツは AI によって自律的に生成され、ゲームの外の開発においてはよりデータ・ドリブンな手法による調整が必要となっていくと三宅先生は予想します。ゲームの外の AI は先行研究が少なく、まだ始まったばかりなのですが、ゲーム内部の情報を公表する必要が無いため、他のゲーム会社や学術界と連携しやすいと考えられます。そこで本テーマで産学連携していく必要性を三宅先生は述べられています。

セッション5
ゲーム業界における強化学習の実応用の課題認識

SPEAKER

奥村エルネスト純

株式会社ディー・エヌ・エー AIシステム部AI研究開発第二グループ AI研究開発エンジニア

国内外の研究機関で観測的宇宙論の研究に従事し、京都大学理学研究科宇宙物理学専攻にて博士号取得。2014年4月にDeNAでデータアナリストとしてのキャリアをスタート。ユーザー体験や事業推進をデータからサポートすることを目指し、主にゲーム領域のデータ分析・パラメータ設計の経験を積む。2017年1月より機械学習エンジニアに転身し、強化学習技術を中心としたゲームAIの研究開発を推進。機械学習の実ビジネス適用や、UXデザインに興味を持っている。

このセッションでは DeNA の奥村から、ゲーム領域でどの程度 AI 活用が進んでいるのか、実際にどのような形で強化学習を用いた案件化を行っていくか、導入する時の注意点や課題認識について発表いたしました。

ゲーム業界でのAI 事例紹介

GDC 2018 (※7) では機械学習を用いた NPC の意思決定、自然な動きの制御、モーションキャプチャ、音声に合わせた表情の生成や、人間 vs AI コンテンツなど数多くのゲーム領域で AI 活用に関する事例が紹介されていました。
近年では、新たなキャラクターやゲーム要素を継続的に追加していくことで、ゲームの遊び方の定期的に拡張されていく形が普及しており、それによる開発・運用の複雑化・大規模化がコストの増大を招いています。そのため業界全体としてゲームバランス調整のサポートや自動化への関心が集まっているそうです。実際、GDC 2018 でも AI を使ったバランス調整に関して、パズルゲーム『Candy Crush Saga』における新規ステージの QA への実用事例 (※8) が紹介されていました。その事例では作成した新規ステージが想定した時間内で本当にクリアできるのかを、ユーザーログを使用してプレイヤーの挙動を教師あり学習した AI にプレイさせて検証していました。それによって従来 7 日間かかっていたテストプレイの工数が 7 分に削減されたそうです。
※7 Game Developers Conference: ゲーム開発者を中心とした国際会議
※8 スライド中に文献の引用有り

ゲームバランス調整と強化学習

全く新しい未知なるゲーム要素の追加に対しては、教師あり学習よりも強化学習の得意分野になります。現在 DeNA では『逆転オセロニア』というゲームアプリタイトルで、未知キャラクターのバランス調整に対する強化学習の応用について研究開発を行っています。
ゲームバランスの担保のため、新規にリリース予定のキャラクターは実際にプランナーがプレイするなどして調整されています。しかし『逆転オセロニア』のような、キャラクターの組み合わせや戦術が膨大なゲームでは、ゲームバランスを壊すようなパターンの検証は非常に困難で、その知見はどうしても属人化されてしまいます。そのため新規キャラクターを含めた強さを定量化する強化学習 AI が必要とされています。
学習には DQN をアレンジした可変長の行動(どのキャラクターを使うか)を扱える深層強化学習アーキテクチャを使用しています。同時に最新研究の反映のみでなく、プレイ情報から Word2Vec のように自動的にキャラクター表現(特徴量、役割)を獲得する表現学習を組み合わせて、強化学習アルゴリズムの負担を減らす新規技術の研究開発も行なっています。

開発・運用中のゲームタイトルへの強化学習の実応用の困難さとやりがい

ゲームに強化学習を応用することは容易ではありません。例えばシミュレータも含めた学習フレームワークを自前で作成しなければならない点や、対象ドメインに対する特徴量エンジニアリング、最新アルゴリズムのアレンジ、ユースケースの要件定義などが課題として挙げられます。その分、まだ誰もやりきっていないからこそのやりがいもあります。例えば自前の箱庭で最新知見と独自の知見の蓄積ができます。また強化学習のビジネスの案件化をやりきることが、業界全体へのプラスにもなると思われます。

セッション6
ロボットの運動学習とその困難さ

SPEAKER

森本淳

(株) 国際電気通信基礎技術研究所(ATR)脳情報通信総合研究所 ブレインロボットインタフェース研究室 室長

奈良先端科学技術大学院(NAIST)情報科学研究科博士後期課程修了、Carnegie Mellon University (CMU) 博士研究員、(株)国際電気通信基礎技術研究所(ATR) 研究員、JST-ICORP 計算脳プロジェクトグループリーダー(併任)を経て、現在、ATR脳情報通信総合研究所 ブレインロボットインタフェース研究室 室長。強化学習/最適制御手法をロボットの運動生成に応用する研究に従事。

このセッションではハードウェア側も含めた、ロボットの運動制御の学習に関する技術・研究の紹介をしていただきました。

ロボットの運動学習の困難さ

『DARPA Robotics Challenge』 という、人間サイズのロボットが車の乗り降りや運転、ドアを開ける、階段を登るなどの手順を踏んで、ゴールを目指す、災害時のロボットによる対応を想定したコンペティションが存在しました。参加したほとんどのチームが関門のすべてをクリアすることはできませんでしたが、数少ない成功したケースでは、とても慎重な動きで着実にすべての関門を突破しました。しかしその結果、スタートからゴールまでにヒトの10倍程度の時間を要しており、ロボットの運動能力がいまだヒトに遥かに劣っていることがわかりました。

ビックデータ駆動アプローチ

昨今、深層学習とビッグデータを用いたアプローチが大きな注目を集めており、その流れでロボットにも同様の方法論で運動学習を行わせる取り組みが進められています。しかし、ロボット学習の場合は、実世界との相互作用が必要となるため、データを大量に集めることそのものが困難です。2か月程度の時間をかけて摘み動作を学習する事例が話題となりましたが、現状まだ実用的とは考えにくいアプローチと言えます。

ヒューマノイドロボットの制御

そこで、シミュレーションモデルからデータをサンプルし、運動学習を行う方法論が有望と考えられるようになってきました。しかし、モデル誤差の問題で、シミュレーションで学習した方策がそのまま実世界で役立つわけではないという問題があります。そのような場合に、いかにシミュレーションと実世界の両方の状況を鑑みて逐次的に動作生成を行うかが問題となります。それを実現するための候補として、ロボットの状態変化に合わせて毎回評価区間の制御軌道を導き、その最初の制御入力のみを用いる MPC (Model Predictive Control) という手法が存在します。しかし各制御周期で制御軌道を作り直すため、計算処理に時間がかかり、実時間でヒト型ロボットの全身運動を生成するのは困難であると考えられてきました。森本先生のチームでは MPC を階層的に行うことによって、近似的な、ただし実時間での制御軌道の導出を可能とするための手法を開発しています。上位階層では、長い評価区間で長期的な制御入力の影響を考慮しながら、一方で、粗い制御周期での制御軌道を導出します。逆に、下位階層では、短い評価区間で細かい制御周期での制御軌道を導出します。これを組み合わせることで効率的な計算を実現し、実時間での制御軌道の導出を可能とします。一方で、強化学習では、報酬やコスト関数の設定によって生成される動作が大きく左右されますが、この設計が目的とする動作によっては困難となります。そのような場合に逆強化学習と呼ばれる、他者動作を観測することで逆に報酬やコスト関数を推定する方法を用いることが有効であるとのお話しいただきました。

パネルディスカッション
現在の強化学習に何が足りないのか?

趣旨

本セッションでは、強化学習の中でも各専門家の方々に登壇していただき、現在どのような問題が存在し、それらにどう取り組むべきかを議論しました。

登壇者

発表者として登壇いただいた防衛医大の太田先生、東京電機大学の高橋先生、スクウェア・エニックスの三宅先生、ATR の森本先生に、強化学習やその周辺技術、ディープラーニング、高度な人工知能(汎用人工知能)を研究されている先生方を加えた計 8 名の先生方にパネルディスカッションへご登壇いただきました。
パネルディスカッションで新たに登壇していただいたのは、逆強化学習やマルチエージェントを研究していらっしゃる千葉大学の荒井先生、強化学習の一種であり既に実ビジネスに応用されているバンディット問題のアルゴリズムを研究されている東京大学の小宮山先生、ゲーム AI や自然言語の研究をなされている東京大学の鶴岡先生、汎用人工知能の実現を推進する NPO 法人全脳アーキテクチャ・イニシアティブの山川先生です。司会は DeNA の甲野が務めさせていただきました。
パネルディスカッションのテーマとしては 『実応用を行う上での課題観』、『優先して解決すべき研究課題』 の 2 部に分けて議論がなされました。

実応用を行う上での課題観

まず荒井先生から、現実の課題としてほぼ必ず問題となるマルチエージェント環境での行動計画問題について触れられました。一体ずつそれ以外のエージェントを固定して学習するという形式を巡回的に繰り返すことで、マルチエージェント課題を学習していくことは可能だそうです。現実では同時にというよりは、知的格差がある状況での非同期型学習が一般的なので問題は起こりにくいものです。一方でゲームや自動運転などのシミュレーション環境では全てのエージェントがゼロから学習しなければならないことが多く、一体ずつの学習では膨大な時間を要する点は課題であります。会場からは、シミュレータからの学習で完結せず、それ以降の学習 (行動主体のパーツの劣化、環境の変化) も考慮する場合の既存研究、解決策についての質問がなされました。これに答えていただいた森本先生からは経年劣化なども含めてシミュレータに組み込んでいくことや、シミュレータ自身も学習・改善していく事が大事だとお話しいただきました。

他にも AI で品質保証作業をする場合、その品質保証 AI の品質の保証をどのような基準で行うべきかという質問がなされました。そこで三宅先生はゲーム業界には固有の指標があると答えています。もちろんそれだけでは不十分で、加えてドメインベース、目的ベースの指標を設計していく必要があるそうです。またこのような指標の問題も含めて「ゲームの外の AI」に関する研究を盛んに行なっていくべきだと述べられています。
また小宮山先生は「AI の安全性」と一口に言っても、立場によって暗黙的に意図している定義が大きく異なることに触れられました。AI の安全性・危険性に関しては例えば自動運転での事故率が人間よりも低くても、起こしてしまった場合には自動運転の存在の是非を含め大きな問題として扱われます。その時に大切なのは AI の挙動に対する説明可能性・透明性などがあると山川先生は言います。強化学習であれば、初期値として人がデザインした価値関数だけでなく、そこから導出された副次的な価値関数についても人間社会の倫理観に適合できるように配慮すべきとの指摘があると述べられました。

鶴岡先生は、敵対的な環境下(※9) でエージェントを学習させた場合、学習させる側である人間の意図と違う行動をエージェントが学習してしまう場合があることに触れられました。以上のように先生方は、根本的に強化学習はどんなに注意しても意図しない行動を習得してしまう危険性を孕んでおり、このような意図とのズレを正すためにも説明性・透明性を担保できる学習手法の考案が大事だということを強調されました。
※9 エージェントの行動を阻害する敵対エージェントをあえて導入し、敵対エージェントも環境の一部として想定することで、外乱に強いロバストな行動を探索させる手法

優先して解決すべき研究課題

伝統的な強化学習においては、エージェントはいつも環境においてゼロから学習することを仮定していたので、何を学ぶにしても非常に大きな学習コストを要しました。これに対して最近は、環境やタスクが少しずつ変化する中で、事前に得られた知識やスキルを再利用するようなライフロング機械学習などの研究が注目を集めはじめていると山川先生は指摘します。さらに、何らかの知識やスキルには、夫々に適用範囲があり、その範囲の制御をうまく行えないと良い性能を得ることができません。おそらく、そうした再利用可能範囲は何らかの階層性をもち、そうした階層のある部分はアーキテクチャ内に設計されるのではとのことです。そして何れにしてもそれはフレーム問題に取り組むにも等しい難易度の高い、しかし優先すべき課題であると山川先生は言います。
森本先生はロボットの身体であるハードウェアのデザインそのものが学習過程に与える影響を十分に考慮する必要があると言います。太田先生の講演内容から、内側のハードウェアといえる脳の構造に倣うことで同様の効果をもたらす可能性にも触れています。

このような現実に存在するハードウェアに基づく学習アーキテクチャは説得力を持ちます。ただしそれは今あるディープラーニングとの接続が難しく、簡単には大規模にスケールさせることができません。精度だけを重視すると大規模な計算環境が充実しているディープラーニング手法に寄ってしまいがちで、今はまだ小規模スケールの学習しか扱えないものの、今できない問題を全く別概念で解決可能にするような基礎研究の推進を困難にしている側面もあります。とはいえ、ディープラーニングの優れた点は尊重すべきであり難しい問題です。高橋先生は講演で紹介した Lake らの主張から、認識はディープラーニングで行い、推論は確率プログラミングなどで行うという使い分けの重要さに触れています。

他の議論として、生物がやっている強化学習はオンラインな生涯学習であることに三宅先生が触れられています。三宅先生は現在用いられているような学習済みのモデルをゲームコンテンツに載せる形式では本来の柔軟性が発揮できないと言います。逆にオンラインな学習をする場合は柔軟ではあっても、人間の手を離れてしまいプランナーによるキャラクター性のカスタマイズを困難にします。荒井先生はエージェントのキャラクター性の付加には報酬関数や状態認識側の変更が鍵になると述べられています。小宮山先生からは転移学習、マルチタスクの中で、少しずつ状態認識を変えていく事でキャラクター性の付加が実現されうるというお話をいただきました。

他の根本的な問題としては、環境からは常に完全な環境観測を得られるとは限らず、何らかの形で環境の正確な状態を推定する必要がある事が挙げられます。これは深層強化学習において、ほとんどRNN 系のアルゴリズムで時系列を内部状態として内包する事で行われています。鶴岡先生はそれを時系列で扱うのは一面としてそれは正しい。しかし普通の RNN より高度な DNC(※10)などを使った内部状態の学習はほぼ困難であり、その方向でのさらなる進展は難しいと触れられています。「タスクに特化」した状態の地図を形成し、ある程度、記憶構造や特徴量を作り込んでいく仕組みが重要であるとのことです。
※10 DNC: Differentiable Neural Computer, 外部メモリを有して,長期の記憶を扱えるニューラルネットワーク

関係する話題として、近年、コンピュータ・ビジョンの文脈でタスク間の類似度を判定して整理するアプローチが発展していると山川先生が述べられています。タスク間の類似度を計算することでタスク間の共通知見の転移が効率的にできるようになります。また、タスクの類似度がわかれば転移とは逆に、古い知識を意図せず全く新しいタスクの知識で上書きしてしまうことを防ぐことにも役立つはずです。今後の強化学習ではこのような複数のタスク間の関係性を俯瞰した見方もエージェントは獲得する必要があります。

強化学習における今後の産学連携のあり方

強化学習はまだ萌芽的な研究領域であると言えます。しかし一見矛盾しているように思えますが、複合的な研究を行なって初めて見えてくる新たな基礎的な課題というものも存在します。企業が積極性を持って強化学習に取り組もうとしても、このような応用課題でしか現れない基礎研究課題が必ず現れ、プロジェクトの進行を阻害します。
その回避のためには企業と大学・研究機関の産学連携を推し進める必要があります。しかしどの大学・研究機関のどの先生に依頼すれば良いかわからないという企業側の悩みがあります。また大学や研究機関の側としても組織に依存した研究以外の雑務や制約が多く積極的に研究依頼を請け負えない事情が存在するそうです。深層強化学習はまだ萌芽的であるがゆえに、ビジネス側からの依頼も曖昧で、懇切丁寧に議論を重ねる必要があります。逆に時間をかけてでも理解さえしてもらえば、どのように案件化すれば良いか活発な議論になるそうです。
このようなリテラシーや今応用側が抱えている問題の共有、そこからの基礎的な課題への切り離しをうまく行う事が大切です。業界全体でそれを実現する仕組み作りが必要とされているという共通認識を得て、本イベントの締めくくりとなりました。

PANELIST

荒井幸代

千葉大学 大学院工学研究院/融合理工学府都市環境システムコース 教授

慶應義塾大学理工学部/デジタル回路 卒業後、ソニー(株)/ニューメディア開発、
東京工業大学院理工学研究科制御工学/Fuzzy推論、Dempster-Shafer理論、
:博士(工学)U.C Berkely Computer Science, Professor Stuart Russellの下でBayesian Belief Network、POMDP, Carnegie Mellon University. Professor Katia Sycaraの下でMultiagent 、ドイツFraunhofer AIS、senior researcher, RoboCup soccer.
京都大学大学院情報学研究科 客員助教授:セマンティックWeb。
2006~現在、千葉大学大学院教授 強化学習、意思決定、多目的計画問題に従事。人工知能学会、計測自動制御学会、電気学会、日本OR学会、電子情報通信学会他、建築学会、AAAI、ACM各会員。

PANELIST

太田宏之

防衛医科大学校 医学教育部 生理学講座 助教

慶應義塾大学理工学計測工学科卒。神戸大学自然科学研究科後期博士課程修了。博士(理学)。2007年より現職。パッチクランプ計測・多電極計測・動物行動学習実験などを通じて大脳基底核の機能の解明を目指している。

PANELIST

小宮山純平

東京大学生産技術研究所 助教

2009年4月から2012年6月まで (株)ドワンゴにソフトウェア・エンジニアとして勤務。2012年10月より東京大学大学院情報理工学研究科 数理情報学専攻に入学、2016年3月に博士(情報理工学)を取得。2016年4月より東京大学生産技術研究所助教。機械学習・データマイニング分野の研究が専門で、ICML, NIPSなどの機械学習の国際会議に論文を多く発表している。ウェブ広告の最適化などの強化学習モデルである多腕バンディット問題、アルゴリズムの公平性、学習モデルの検定などに詳しい。2015年IBISML研究会賞 (IEICE TC-IBISML Research Award)を受賞。

PANELIST

高橋達二

東京電機大学 理工学部 情報システムデザイン学系 准教授

1978年秋田県生まれ。東京電機大学理工学部情報システムデザイン学系(知能情報デザインコース)准教授。ドワンゴ人工知能研究所協力研究員。東京大学教養学部基礎科学科科学史・科学哲学科卒業。神戸大学自然科学研究科修了。博士(理学)。ロンドン大学バークベック校 訪問研究員、パリ高等研究実習院 (EPHE) 訪問研究員、東北大学電気通信研究所 共同研究員、日本女子大学 総合研究所 研究員、学習院大学 計算機センター 研究員を歴任。内部観測研究室を主宰し、認識の外部を捉える認知の柔軟さと創造性を可能な限り計算論的・経験的に研究するため、認知モデリングとその機械学習への応用、また心理実験を行う。Cognitive Science Society、人工知能学会、日本認知科学会などの会員。

PANELIST

鶴岡慶雅

東京大学大学院 情報理工学系研究科 准教授

1974年生まれ。
1997年、東京大学工学部電気工学科卒業。
2002年、東京大学大学院工学系研究科電子工学専攻博士課程修了。博士(工学)。
同年、科学技術振興事業団研究員。2006年、英国マンチェスター大学研究員。
2009年、北陸先端科学技術大学院大学准教授。
2011年、東京大学大学院工学系研究科准教授。
2017年より東京大学大学院情報理工学系研究科准教授。機械学習に基づく自然言語処理、ゲームAI 等に関する研究に従事。将棋プログラム「激指」開発者。

PANELIST

三宅陽一郎

株式会社スクウェア・エニックス テクノロジー推進部 リードAIリサーチャー

京都大学で数学を専攻、大阪大学(物理学修士)、東京大学工学系研究科博士課程を経てデジタルゲームにおける人工知能の開発・研究に従事。IGDA日本ゲームAI専門部会設立(チェア)、DiGRA JAPAN 理事、芸術科学会理事、人工知能学会編集委員。
共著『デジタルゲームの教科書』『デジタルゲームの技術』『絵でわかる人工知能』(SBCr)、著書『人工知能のための哲学塾』(BNN新社)、『なぜ人工知能は人間と会話ができるのか』(マイナビ出版)『人工知能の作り方』(技術評論社)『はじめてのゲームAI』(WEB+DB PRESS Vol.68、技術評論社)。翻訳監修『ゲームプログラマのためのC++』『C++のためのAPIデザイン』(SBCr)、監修『最強囲碁AI アルファ碁 解体新書』(翔泳社)。
大規模マルチメディアデータ処理、物体認識・機械学習、最適化、3次元映像処理などの研究を行っている。

PANELIST

森本淳

(株)国際電気通信基礎技術研究所(ATR)脳情報通信総合研究所 ブレインロボットインタフェース研究室 室長

奈良先端科学技術大学院(NAIST)情報科学研究科博士後期課程修了、Carnegie Mellon University (CMU) 博士研究員、(株)国際電気通信基礎技術研究所(ATR) 研究員、JST-ICORP 計算脳プロジェクトグループリーダー(併任)を経て、現在、ATR脳情報通信総合研究所 ブレインロボットインタフェース研究室 室長。強化学習/最適制御手法をロボットの運動生成に応用する研究に従事。

PANELIST

山川宏

NPO法人全脳アーキテクチャ・イニシアティブ代表、ドワンゴ人工知能研究所所長、人工知能学会誌 編集委員長、電気通信大学大学院、情報システム学研究科客員教授、玉川大学脳科学研究所 特別研究員、人工知能学会汎用人工知能研究会主査、産総研人工知能研究センター客員研究員、革新知能統合研究センター 社会における人工知能研究グループ

1965年2月8日 埼玉県生まれ。
工学博士。専門は人工知能、特に認知アーキテクチャ、概念獲得、ニューロコンピューティング、意見集約技術など1987年、東京理科大学理学部物理学科卒業。
1989年、東京大学大学院 理学系研究科 物理学専攻 修士課程修了。
1992年、東京大学大学院 工学系研究科 電子工学専攻 博士課程修了。
1992年、(株)富士通研究所入社。
1994年、同社から通産省リアル・ワールド・コンピューティング・プロジェクトに参加 。
2014年、(株)ドワンゴ 人工知能研究所 所長。
2015年、産総研人工知能研究センター客員研究員就任。
2015年、特定非営利活動法人 全脳アーキテクチャ・イニシアティブ 代表就任。
2015年、電気通信大学大学院 情報システム学研究科客員教授就任。
2018年、革新知能統合研究センター 社会における人工知能研究グループに参加。
現在に至る。

イベント情報はこちらから