第1回 SHIBUYA SYNAPSE

先端AI技術を活用した
新たな価値あるサービス共創を目指して

イベント開催 Report01

2017年8月30日(水)、DeNA本社Sakura Cafeにて、「先端AI技術を活用した新たな価値あるサービスの共創」をテーマに第1回「SHIBUYA SYNAPSE」を開催。
AI技術活用に携わるエンジニア、研究者やビジネス&サービスの企画担当者など、総勢70名の方が参加しました。
本イベントでは、東京大学の山崎俊彦准教授をゲストに迎えた講演、DeNAのAI技術活用の取り組み紹介などを行いました。

オープニング「SHIBUYA SYNAPSE」設立の目的

19時の開会に合わせて、DeNA AIシステム部の内田祐介氏が挨拶。大企業の一般的な事業組織と研究開発組織の関係の話題から入り、AI技術を活用して価値あるサービスを最適なスピードで提供していくためには、データ取得を視野に入れ、技術サイドとビジネスサイドが企画段階から密なディスカッションを行うことが必要である。
そして、「SHIBUYA SYNAPSE」のロゴのように、異なるバックグラウンドを持つ参加者の方々が有機的につながり、新ビジネスの種が共創される足がかりとなることが「SHIBUYA SYNAPSE」設立の目的である、と語りました。

▲ オープニング / AIシステム部 内田祐介氏

セッション1
「ビッグ・マルチメディア・データを用いた魅力研究と産学連携の事例紹介」

深層学習、機械学習、統計処理、グラフ信号処理などのAI技術をビッグ・マルチメディア・データに適用することで、「魅力」の予測・解析・増強等を行う研究に取り組む東京大学・山崎俊彦准教授。この魅力研究により、今何が可能となっているのか、そして、将来可能になる新領域とは何かを、研究成果の概要と併せて山崎氏が講演しました。

SPEAKER

山崎俊彦(東京大学)

東京大学工学部電子工学科卒業。東京大学大学院情報理工学系研究科電子情報学専攻准教授。博士(工学)。学生時代は半導体物性を活かしたアナログVLSI研究に従事。2011~2013年まで米国・コーネル大学Visiting Scientist。「魅力」の予測・要因解析・増強を行う 魅力工学に関する研究を精力的に行っているほか、大規模マルチメディアデータ処理、物体認識・機械学習、最適化、3次元映像処理などの研究を行っている。

なぜ今、AIがブレイクしたのか?

初めまして、山崎と申します。
今日は“ビッグ・マルチメディア・データを用いた魅力研究と産学連携の事例紹介”という題で、我々の取り組みの一部を紹介させていただきます。最近、人工知能(AI)を使うサービスや研究が注目を浴びていますが、「なぜ今、AIなのか?」、まずはブレイクの理由を振り返ってみたいと思います。

大きな要因として、次の3点が挙げられます。

1.WEB上に膨大な量のデータが蓄積されたこと
ソーシャルネットワークの発達で人々からの情報発信が増え、例えば1つの同じシーンでも、膨大な画像が手に入るようになりました。さらにIoTデバイスの登場で様々なものがインターネットに接続されるようになり、今までは計測できなかった領域のデータも取得可能になっています。
2.圧倒的な計算資源
コンピューターのハードウェアの性能は、“ムーアの法則”にのっとり指数関数的に進化しました。仮に30年前のハードと比較すると、現在は単純計算で100万倍の速度での計算・分析処理が可能となっています。
3. インターネット上に圧倒的な労働力を容易に確保可能なこと
Amazon Mechanical Turkに代表されるクラウドソーシングという仕組みにより、大量のデータに対して、学習のために必要なラベル付けを低コストで効率的に行うことができるようになりました。AI技術はデータセットが命。ラベル付きのデータが多ければ多いほど精度が高くなると言われています。前述のようなデータだけでは効率的な学習はできず、そのデータに適切なラベルが付いて初めて学習が可能になります。

このように、ビック・マルチメディア・データ技術の進展やコンピューターハードの性能の向上により、大量のデータを取得し、扱えるようになったことなどが、近年AIが発展し、ブレイクした要因になっていると思います。

「魅力工学」とは?

「魅力工学」とは、WEB上、あるいは会社内に蓄積された膨大な量の画像・映像、音声、テキストなどのデータを基に、人や商品、サービスなどの“魅力”を解析する研究です。
個人の嗜好の問題とされてきた“魅力”は、今、一部は数値化することが可能となりつつあります。
我々は、機械学習や画像認識等のAI技術を適用することで「なぜその数値なのか、影響している要素は何か」を工学的に解析し、さらにその魅力を向上・強化させる仕組み作りを行っています。

例えば、「プレゼンテーションの印象解析」。
WEB上の大量のプレゼン動画から、話す内容や言葉づかいなど様々な要素を解析し、それを聞いた人がどのような印象を抱くかを予測。結果を数値化することで、プレゼンの魅力度は客観的に評価できるようになりました。
例えばプレゼンの名手といわれるスティーブ・ジョブズとビル・ゲイツのうまさの違いも、この技術で客観的に分類、評価することが可能です。
これにより、ユーザーは自分のプレゼン能力を、コンピューターを使った予行演習で客観的に判断し、向上させていくことができるようになります。

この技術は多分野に応用可能で、例えば「授業の良し悪しの判断」「TVショッピング」「E-commerce」「営業セールスの仕方」など。テレビであれば番組の視聴率やCMの好感度予測、SNSのコンテンツの人気予測や強化にも使えますし、人間のマッチングに応用すれば、人材採用や婚活などにも利用可能です。

AIに関する産学連携について

「どうやったら企業と大学のAI共同研究がうまくいくのか?」このポイントは3つあります。
1.入力と出力を明確にすること
「沢山データがあるから、何かいい感じにしてほしい」的なご相談は多いのですが、「今ある入力が何か、それに対しどのような出力がほしいのか」、それが明確であるほど、研究はデザインしやすくなります。“出力=何かいい感じ“ではなく、売り上げ予測やYES・NOの判定など、数字の予測に落とし込めるものが理想的です。
2.データ・ラベルをできるだけ多く用意すること
Small setで小出しに試すのはうまくいかないことが多いです。処理に使えるデータの量が増えるほど認識の精度は高まりますから、最初に企業側から出されるデータ量が大きいほどうまくいく確率は高くなります。
3.1クラス1000を目標にデータを用意すること
「どのくらいのデータを用意すればいいのか?」
これもよく聞かれる質問ですが、私の専門の、画像・映像の研究でいうと、1クラス1000が目標です。例えば、YES/NOの二次判定なら2000必要となります。これが1万以上あれば、ある程度満足のいく精度が得られます。

また、連携の形態も、東京大学では「共同研究」「受託研究」「技術提供」などがありますが、いずれの場合も1つの案件につき年単位で見ていただくのがベストです。
ちなみに、今、DeNAさんとは「SHOWROOM」のネットアイドルの魅力・人気解析や、本日の会場である「Sakura Cafe」の利用者の方がどんな感じでリラックス&インタラクションしているのかを解析していく、という共同研究に取り組んでいます。

今後の展望

世界中の人の知恵や経験は、数値化できるようになった瞬間に1台のコンピューターに集約することが可能です。そうすると、その1台のコンピューターが世界中の人の知恵、経験を自分のものとして活かすことができるようになります。
現時点でAIでうまくいっているのは「what」の認識、画像なら「what’s this?=これは何?」、将棋や囲碁なら「what next=次の手は何?」です。将来的には「why/how=どうやって/どうしてやるのか?」という匠の世界を認識する必要があると考えています。
センスや経験による部分が大きかった“匠の技”のスキルやコツをつまびらかにし、さらには人間の内部状態を推定していけるようなAI研究を、今後伸ばしていきたいと考えています。

セッション2「スマートショップ実現に向けたDeNAの取り組み」

インターネットサービスのビジョンを再定義し、全事業領域でAI戦略の活用推進をしているDeNA。今回は、AI戦略推進室およびAIシステム部より、AI技術を活用した「スマートショップ」の実現に向けての取り組みと研究成果が報告されました。

SPEAKER

村上淳(DeNA)

コンサルティングファームを経て2011年にDeNA入社。DeNAグループの社内業務改革を統括し、グループウェア、開発環境、人事管理・経営管理基盤を統合。現在は、AI戦略推進室長として全社AI戦略の立案実行と全社のAI活用を推進している。

SPEAKER

西野剛平(DeNA)

前職のプリンタメーカーでは、不動産間取り図の校正および文章レイアウト認識などの研究に従事し「プリント自動修飾アプリケーション」の実用化などを果たす。その後、起業を経てDeNAに中途入社。DeNAでは大型IPのゲームタイトル立ち上げ、戦国シミュレーションRPG「戦魂」のリードエンジニアを経て、現在はAIシステム部で主に定点カメラや映像からの画像認識に取り組んでいる。

【ビジネス編】DeNAのAI技術推進について

こんにちは。株式会社DeNA、AI戦略推進室室長、村上淳です。
私からは簡単な会社概要と、DeNAのAIに関する取り組みについてビジネス側からお話ししたいと思います。

DeNAはモバイルゲームを主力としつつ、多様なインターネットサービスを提供している会社です。
ゲーム以外にも、「Eコマース」「ヘルスケア」「オートモーティブ」「スポーツ」「エンターテインメント」「新領域」など幅広い事業領域を持っており、現在は「インターネットやAIを活用し、永久ベンチャーとして世の中にデライトを届ける」というビジョンのもと、各事業領域でAI技術活用の強化、推進を行っています。
今日ご紹介するのはその1つ、「スマートショップ」の取り組みです。
弊社のスポーツ事業ではプロ野球の興行や実店舗でのグッズ、飲食の販売等のビジネスを展開していますが、ネットビジネスと違い未購入層も含めたお客様の来店状況や需要予測が非常に難しいという課題があります。
インターネットサービスでは、お客様ごとの最適なコンテンツ配信やログに基づく導線の改 善などサービスを快適にご利用いただけるような工夫をリアルタイムに行っていますが、同じように“お客様の状況やニーズに合わせた接客&提案”がリアルな店舗でも実現されればお客様に喜ばれるのではないか?ということで、AIを活用してその仕組みづくりに向けた研究開発を進めています。

【研究開発編】スマートショップ実現の実証実験

AIシステム部、西野剛平です。
「スマートショップ」実現に向けた、研究開発の成果をご紹介します。

スマートショップ」が目指すのは、実際の店舗における“新しいショップ体験”、例えば、一人一人のお客様の状況に合わせた接客やリアルタイムの商品推奨などのサービスです。そのためには、店内でのお客様の状況を把握する技術の確立が不可欠です。その第1ステップとして、定点カメラの映像を元に「姿勢推定技術を活用した同一人物の再認識技術」の研究開発に取り組みました。

ここで使用しているAI技術は「人検出、姿勢推定、人物同定、年齢推定、性別推定」です。まず、フレーム画像から鼻、首、肩、手(左右)、腰、足(左右)など10個の器官点を検出します。次に、別の人物の同じ器官点同士をCIE2000の色差を利用して照合し、同一人物の判定を行っています。この処理を動画の各フレームに対して逐次行っていくことで、連続的に同一人物の再認識を実現しています。器官点の色の照合には、ピクセルのRGB値ではなく、CIE2000の色差を利用する事で、同一人物判定の精度を向上させました。

また、同一人物の再認識に加えて、入店と退店のタイミングや、年齢および性別の推定も行っており、お客様が店内に滞在されていた時間を属性毎に取得するなど、マーケティングデータとしての活用も期待できます。

実サービスを見据えた場合、コスト対効果を意識しなければいけないため、低コスト化が必須の要件となってきます。そのため、ネットワークモデルの見直し、モデルの見直しに伴うデータセットの再作成、計算速度を上げるためにパラーメーターの精度を落とすなど、今後はさらなる軽量化が必要です。

本講演の技術的な詳細は「DeNA Engineers’ Blog」にて公開しておりますので、ご興味のある方は是非ご覧ください。

Q&A・懇親会

プログラムの締めくくりに、質疑応答が行われました。
エンジニアの方からテクニカルな質問が出される中、ビジネス観点でもAIの活用の可能性を探る積極的な質問の一例をご紹介します。
懇親会では、業種を超えてつながりが生まれ、熱い意見交換が行われました。

Q1.

「面談や組織の活動における部下と上司のワンオーワンなどの場面において、魅力工学の技術を使った成果事例はありますか?」

A(山崎先生).

今まさに取り組みを始めようとしているところなので、お見せできるデータはありませんが、例えばエントリーシートの自己PR文の書き方でも、ある程度人格の予測が可能です。最近では、「自己紹介のビデオをアップロードしてください」という企業もあるようですが、そのようなデータがあればもっとニッチな判断も可能だと思います。研究レベルでは、すでに話し方からその人の性格的な傾向が判断できるということはわかっています。

Q2.

「ネットの性格診断の結果をtwitterに挙げているデータが数十万以上ある場合、「顔、あるいはアカウントから性格診断」というようなシステムを生み出すことは可能ですか?」

A(山崎先生).

可能性は非常に感じます。「twitterで性格診がある程度可能」という話は海外でもあるようですし、経済動向になりますが、実際、「twitterでなんとなく世の中がハッピーと言っている、悲しいと言っているかで株価の上がり下がりが予測できる」という研究もされています。

Q3.

「プレゼンの魅力判定に映像情報を使う場合、例えば身振り手振りは見る角度によって、特定のジェスチャーでないと判断が難しいと思うのですが」

A(山崎先生).

最終的に、我々が開発しているエンジンの中に身振り手振りは入っていません。というのは、最初から最後まで前進の身振り手振りを映している映像というのが、例えば、今データとして使用しているテッド・トークにはないからです。一応、我々の予備実験として、声を一切入れず体の動きだけでプレゼンを判定させると、約70%の精度で良し悪しの判定の予測ができる、という結果はあります。見る方向によってデータが変わるのではという点ですが、詳しく見たいということであれば、例えば奥行き情報を撮れるセンサーなど今は色々なツール、武器が揃ってきています。

イベント情報はこちらから