マルチモーダル(multimodal)とは

マルチモーダル (multimodal)は、複数の手段を組み合わせることを意味する。複数の手段を組み合わせることで、より高度な制御が実現可能になります。

ロボット以外にもAIの分野でも用いられ、近年では「マルチモーダルAI」の研究が活発化しています。

日常生活におけるマルチモーダル

マルチモーダルは日常生活にも溢れています。

例えば、人間の場合は「視覚、聴覚、触覚」などの感覚情報を得ることが出来ますが、これらの中から複数の感覚情報を組み合わせることで、より正確で豊かな情報を得ることが出来ます。

具体例としては、以下のようなものが存在します。

ロボットも人間と同じように、「カメラ（視覚）、マイク（聴覚）、力覚センサ（触覚）」のようなセンサから得られる複数のデータを組み合わせることでより高度な制御が可能になります。

「Kuniaki Noda., et al. “Multimodal integration learning of robot behavior using deep neural networks.”, Robotics and Autonomous Systems, 2014, Vol.62, No.6, p.721-736.」では、「関節角度、カメラ画像、音声データ」を組み合わせたデータを用いて時系列ネットワークによる学習を行うことで、以下のような成果を示しました。

上記論文の動画