ディープラーニングの心理学的解釈 (心理学特講IIIA)

Shin Aasakawa, all rights reserved.
Date: Jun/05/2020
Appache 2.0 license

実習

先週の復習

  • 意味的分割 (セマンティック・セグメンテーション)
  • 物体(あるいは対象)分割 (オブジェクト・セグメンテーション)
  • 実体分割 (インスタンス・セグメンテーション)
  • バウディングボックス 関心領域の切り出し

詳しくは 先週の該当箇所 をご覧ください。

どこ (where) に 何 (what) があるのかを認識するための努力が 2014 年から長足の進歩を遂げました。 先週の課題ビデオにあった唐揚げロボットでは,意味的分割では対応不可能であることに注意

要点

  1. 外界の情報を受け取り,認識に至るために,哺乳類の視覚情報処理システムは少なくとも 2 つの経路を作り出して利用しているようである。
  2. 視覚系では,腹側経路で「何」が処理され,背側経路で「どこ」が処理されているらしい
  3. ニューラルネットワークでも,入力画像中の,どこに,何が,写っているのかを認識させるモデルが存在する。
  4. 認識性能の向上に伴い,この認識機能に立脚した発展が盛んである。
  5. 転移学習と生成についてとりあげる

2 経路仮説

  • 腹側経路 ventral pathways ("what" 経路)
  • 背側経路 dorsan pathways ("where" 経路)

Ungerleider and Mishkin (1982) より

Behnke (2003) より

同様の 2 経路による処理は 聴覚 (Romanski et al., 1999) や 触覚(Reed et al., 2005)でも発見されています。

発展的な話題としては,このような 2 種類の処理経路は, 処理される情報の種類の問題ではないくて,機能に関与した区別であるとの仮説もあります。すなわち * 腹側経路は物体に関する情報の知覚 (知覚のための視覚) * 背側経路は行動を導くための情報処理 (行動のための視覚) さらに、背側経路 は背外側経路 dorsolateral と背中側経路 dorsomedial に細分化できることが示唆されています(Binkofski and Buxbaum, 2013, Grafton, 2010, Rizzolatti and Matelli, 2003)。 * 背外側側経路 前頭頂内溝(aIPS)と前頭前皮質の腹側部分(PMv), 古典的に到達運動の計画に寄与 (Davareら、2015、Davareら、2012、Vesia and Crawford、2012) * 背中側経路は V6A と内側頭頂内溝 を介して背側前頭前皮質(PMd)へ. 把持に関連する情報を統合する(Davareら、2007、Davareら、2010、Tunikら、2005) 最近では、これら2つの 副回路が 行動によって要求されるオンライン制御の程度に応じて相互作用することも発見されている(Grol et al., 2007, Verhagen et al., 2013)。

二段階モデル

R-CNN


Girshick (2013) より

Fast R-CNN と Faster R-CNN (2014)


Fast R-CNN

一段階モデル


U-Net

画像分割の SOTA


Ronnenberger et. al (2015) Fig. 1 より

背骨 (バックボーン)ネットワーク と 周辺ネット

detectron2 の実習をしてみましょう。


Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017 Oral


Paper: https://arxiv.org/pdf/1808.07371.pdf
Web site: https://carolineec.github.io/everybody_dance_now/


転移学習

転移学習 transfer learning は機械学習分野のみならず,ロボット工学や実応用の分野でも応用が考えられます。 シミュレーションと現実との間隙をどのように埋めるのかという大きな問題に関連します。 一方で,転移学習と ファインチューニング領域適応* domain adaptation の区別がなされています。

転移学習とは 課題 A を用いて訓練したモデルに対して,別の課題 B に適用することを言います。 DNN では転移学習は頻用されます。 イメージネットで画像分類を学習したネットワークに対して,例えば顔認識を学習させるような場合です。

PyTorch のチュートリアルなどでは,学習済のネットワークに対して,最終直下層を入れ替えて別の課題を訓練することを転移学習と呼びます。 このとき,最終直下層と出力層との結合を学習させ,その他の下位層の結合は固定し,訓練しません。 一方で,下位層まで含めて全結合を訓練させる場合をファインチューニングと呼び,区別しています。


左: ハードパラメータ共有: 転移学習, 右: ソフトパラメータ共有: ファインチューニング

生成モデル

認識の反対の操作をすれば,生成が可能です。生成敵対ネットワーク Generative Adversarial Networks: GAN になります。

GAN では 2 つのニューラルネットワークが用いられ,識別器 descriminator と 生成器 generator と呼びます(Goodfellow,2014)。 識別器も生成器も多層ニューラルネットワークです。 通常の画像分類課題では,最上位層において推論,すなわち入力画像が何であるかを計算するためにソフトマックスる関数などが用いられます。 これに対して GAN の識別器では,0 か 1 かの出力をします。入力画像が通常の画像であれば 1 を,生成器によって生成 された画像であれあば 0 を出力します。 生成器は,識別器の最終直下層で得られたような画像表現に雑音を加えた値から画像を生成します。 生成器は,識別器が入力データから画像を推論するのと逆方法に推論から画像を生成します。 すなわち GAN は入力が実在するか,偽造品,すなわちフェイクかを見破る訓練がなされることになります。

このようにして,生成器は識別器の学習成果であるデータの内部表現を模倣し,生成器を欺こうします。 このようにして識別器と生成器との間で ゲーム理論でいう ナッシュ均衡 Nash's equilibrium が成り立ちます (Heusel, 2017)。 GAN の模式的な流れを下図 に示しました。


画像変換


サイクル GAN

サイクル GAN による領域変換





まんがの画風変換


``CartoonGAN: Generative Adversarial Networks for Photo Cartoonization'' CVPR 2018 (Conference on Computer Vision and Pattern Recognition)


左: 君の名は。右: 風の谷のナウシカ,より