ロボット用語まとめブログ | 初心者でもわかる

初心者でもわかるように、できるだけ数式は使わずにロボット用語をまとめています。

おすすめ
カテゴリ別ロボット用語
ロボティクスの辞書
smabo

マルチモーダル(multimodal)【複数のデータを組み合わせて高度な制御を実現】

マルチモーダル(multimodal)とは

マルチモーダル (multimodal)は、複数の手段を組み合わせることを意味する。複数の手段を組み合わせることで、より高度な制御が実現可能になります。

ロボット以外にもAIの分野でも用いられ、近年では「マルチモーダルAI」の研究が活発化しています。

日常生活におけるマルチモーダル

マルチモーダルは日常生活にも溢れています。

例えば、人間の場合は「視覚、聴覚、触覚」などの感覚情報を得ることが出来ますが、これらの中から複数の感覚情報を組み合わせることで、より正確で豊かな情報を得ることが出来ます。


具体例としては、以下のようなものが存在します。

  • 視覚と聴覚
    • 無音の映像作品よりも、映像+音声の作品の方がストーリが理解しやすく、感情移入しやすくなる
  • 視覚と触覚
    • 物体を触る前に、物体を目で見ることでその物体の質感を予測することが出来る
  • 嗅覚と味覚
    • 美味しそうな匂いを嗅いだうえで、食べ物を食べることでよりおいしく感じる

ロボットにおけるマルチモーダル

ロボットも人間と同じように、「カメラ(視覚)、マイク(聴覚)、力覚センサ(触覚)」のようなセンサから得られる複数のデータを組み合わせることでより高度な制御が可能になります。


Kuniaki Noda., et al. “Multimodal integration learning of robot behavior using deep neural networks.”, Robotics and Autonomous Systems, 2014, Vol.62, No.6, p.721-736.」では、「関節角度、カメラ画像、音声データ」を組み合わせたデータを用いて時系列ネットワークによる学習を行うことで、以下のような成果を示しました。

  • 画像シーケンスから、関節角度シーケンスを推論
  • 関節角度シーケンスから、画像シーケンスを推論
  • 音声シーケンス+関節角度シーケンスから、画像シーケンスを推論
  • 画像シーケンスから、5step先の関節角度を予測
  • 画像データシーケンスと関節角度シーケンスを組み合わせることで、ノイズがあるような環境にも頑健な推論が可能に


上記論文の動画

https://ars.els-cdn.com/content/image/1-s2.0-S0921889014000396-mmc1.mp4