研究紹介

3次元回転運動のオブジェクト方向知覚への影響

 我々は、人間が物体認識処理を行う際に必要となる脳内の物体内部表現の様態を明らかにするための研究を行っています。画像処理に おいては目標物体領域の抽出・パターン照合などの技術が実用化されています。しかし、そこから三次元構造を瞬時に復元することや、あらゆる 視点・環境からでもロバストに認識を行うこと、および未知の物体の構造や機能を類推するといったことはまだまだ研究段階であり、本当の意味での 画像理解が達成されているとは言えません。人間が行う非常に柔軟な物体認識処理を解明するためには、まず現実世界での物体の構造・形状・意味 ・機能などのデータが脳の内部においてどのような形式で表現されているのかを明らかにする必要があります。そこで、本研究室では心理物理実験による 手法を用いて物体内部表現を探ることを目的に研究を行っています。

 立体物を観察するとき、網膜に投影される像はその視点移動に伴って変化します。それにも関わらず我々は視点の違いに依らずに対象を同定する ことができます。この機能が実現されるためには、次の二つ処理のうち少なくとも一方が必要です。ひとつは、認識する対象の三次元モデル(内部表現) を観察者が脳内に持っていて、網膜像からその表象を同定するという処理です。この場合、対象は三次元の内部表現であるため視点に依存しない 認識が可能となります。もうひとつは、異なる視点から見た網膜像に対する複数の内部表現の組によって物体認識を行うものです。この場合、視点に 依存して異なる脳内メカニズム(ニューロン群)が活動することになります。最近の心理物理および電気生理実験によって、オブジェクト認識過程に おいて視点に選択的な処理が存在することが明らかにされつつあります。

 視点依存の物体認識処理が存在するという主張は、視点に依存しない三次元モデルが脳内に表現されているという考えを必ずしも否定するもの ではありません。むしろ両者は同時に存在して、互いに協調して機能することで物体認識処理が実現されていると考えるほうが自然です。

 ここで、最近我々が発見した、物体の三次元内部モデルが根拠にあると考えられる新しい錯視を紹介します。

 一瞬提示されるニワトリは物理的にいつも真正面を向いていますが、知覚上は顔の回転方向に傾いて向いているように見えます。

 我々は、このように垂直軸回りに3次元回転する人の顔画像を用いて、正面を向く瞬間に様々な角度の顔を呈示することで、知覚上正面であると判断される角度を測定しました。 その結果、回転方向から数度遅れた画像が呈示されたときに正面と知覚されるという結果が得られ、回転刺激が異なる物体の 方向知覚に影響を与えることが明らかになりました。

 運動刺激が静止対象の位置ずれを生起することは知られています(Nishidaら(1998),Whitneyら (2000))が、我々の研究の結果は、3次元回転と顔方向判断の間にも同様に異なるオブジェクト間で属性が転移・統合される効果があることを示しています。 運動を伴う刺激によって対象の位置がずれて知覚されるという現象に関しては多数の研究報告があります。しかし「オブジェクト」という 高次の表現において、しかも運動の影響が異なるオブジェクトの「向き」という属性に及ぶという点が、この錯視が新しく示唆するところです。

 さらに興味深いことに、この現象は陰影などの立体手掛りのない平面的な画像を用いても頑健に現れます。

 立体手掛りの有無に関係なく正面の知覚ずれが生じることから、この現象は刺激の低次特徴に依存しない高次過程において物体の三次元モデル表現が関係する現象であると考える ことができます。つまりこの現象は、平面的な画像でありながら我々の視覚系はそれを三次元形状のオブジェクトとして知覚しており、しかもその三次元表現の「向き」が異なる オブジェクトの運動に影響され、「物体の向き」という属性が他のオブジェクトに乗り移り、統合されることを示唆しています。さらに我々は、この効果が空間的近傍刺激の間でのみ生じること、および異なるオブジェクト(異なる顔、動物、車など)へも影響することを確認しており、 これらのことから空間的運動処理が物体認識処理に広く影響を及ぼす可能性が示唆されます。


 この錯視から、我々の脳はとても効率のよい方法で物体表現を保持していることがうかがえます。オブジェクト1つ1つについてその色、形、向き、大きさなどの属性を保持するよりも、 オブジェクト間で属性を共有できるならばそれによって一種のデータ圧縮が実現できます。さらに、物体間の意味や構造の関係を表すネットワークが構築でき、物体表現の管理がより機能的になるというメリットも考えられます。

 物体認識に関して人工知能などの分野では、対象をどのような表現で圧縮して保持するかが古くからの大きな問題でした。 メモリ容量に対して実世界の情報量はほぼ無限大であり、生の情報を記憶するだけではメモリが不足するばかりか読出しも効率的に行えません。 この問題に対して、物体の意味によってカテゴリ化を行うことで、共通情報をひとつに束ねるような表現によって 資源制約の問題を解決するというアイディアがあります。実際に、我々は物の意味、類似性、概念などからカテゴリや意味の階層を構成する ことができます。このモデルとして階層的意味ネットワーク(Collins and Quillian, 1969) などが提案されています。

 一方で、概念の階層構造としてプログラミングの世界ではオブジェクト指向という考え方が用いられています。 これはプログラムを体系的に構成するための考え方で、Java などが代表的な言語です。例えば、「鉛筆」「ボールペ ン」「筆」という複数の道具に備わっている「書く」という機能の具体的な実現方法はそれぞれ異なってい ます。しかし人間が使う際にはその違いを意識することなく単に「書く」ことだけでその機能を使用できます。 このように、複数の実装を一つのインターフェースで呼び出すことをポリモーフィズムといい、また下位 機能の具体的実装に関知しないことをカプセル化といいます。これによって概念の節約とカテゴリ化が実現で き、またモジュールの完結性と再利用性を高めることができます。

 さらに、例えば「色鉛筆」という道具を導入する場合はすでに存在する「鉛筆」を再利用してそれに「色」 という特徴を付加するだけでよいことに気づきます。このように、既存概念の性質を受け継いで新規特徴を付加することで 新しい概念を表現することを「継承」といいます。継承を用いることで、抽象-実態、一般-特殊、などの上位下 位階層構造の関係を記述でき、またその記述量(資源量)を節約することが可能となります。

 以上のようなプログラミングの世界の概念と同様な構造が神経構造にも存在することが知られており、 例えば歩行などのリズミカルなパターン形成に関わるCentral Pattern Generator や衝動性眼球運動など の随意運動がカプセル化にあたります。これらは「動け」と命令するだけであらかじめ用意されたモジュール が駆動されて動作が実現され、動く機能の具体的な実装が意識に上ることはありません。 物体や知識の脳内表現に関しても同様なオブジェクト指向に沿った階層表現が存在しても不思議ではな く、またこれによって意味に構造を持たせることができると私は考えています。そして、オブジェクト指向のネットワーク構造を利用 することで、新規の物体が入力されても適切なカテゴリ化によってロバストな物体同定が可能となっていると考えています。今後は、こ のような神経回路の情報処理過程をさらに解明し、人工知能やマシンビジョンの分野にその方法を応用す ることが期待されます。


 ちなみになぜ「ヒヨコ」の絵を用いたのかと申しますと、これはプログラミングでよく用いられるメタ構文変数の概念を由来させたかったからです。

 プログラムを書くとき、意味のない変数などに適当な名前をつける際、"hoge","piyo", "fuga" などと、一般に意味のない名前であるとして 共通認識が得られている変数名(メタ構文変数)が用いられます。つまりこれらは「名前は何でもよい」ことを意味する名前です。

 このページで紹介した錯視の場合も、呈示する物体はその正面が自然に定義できるものであればほぼ何でもよいことが、筆者らの実験で 分かっています。したがって、筆者は「物体なら何でもよい」という熱い気持ちを込めて、"piyo" の画像を自作・使用しています。



MENU

〒980-8577
仙台市青葉区片平2丁目1-1
東北大学電気通信研究所
新棟4階 M416