日本語タイトル#
LookOut:現実世界における人型自己中心ナビゲーション
英文タイトル#
LookOut: Real-World Humanoid Egocentric Navigation
日本語要約#
第一人称の観察から衝突のない未来の軌道を予測する能力は、人型ロボティクス、VR/AR、支援ナビゲーションなどのアプリケーションにおいて重要です。本研究では、第一人称のビデオから一連の未来の 6D 頭部ポーズを予測するという挑戦的な問題を提起します。特に、頭部の平行移動と回転を予測し、頭を回すイベントを通じて表現される能動的な情報収集行動を学習します。このタスクを解決するために、静的および動的な環境の幾何学的および意味的制約をモデル化する、時間的に集約された 3D 潜在特徴に基づいて推論するフレームワークを提案します。この分野でのトレーニングデータの不足に触発され、Project Aria 眼鏡を使用したデータ収集パイプラインをさらに提供し、このアプローチを通じて収集されたデータセットを提示します。私たちのデータセットは Aria Navigation Dataset(AND)と呼ばれ、現実のシナリオでナビゲートするユーザーの 4 時間の記録を含んでいます。さまざまな状況やナビゲーション行動を含んでおり、現実世界の第一人称ナビゲーション戦略を学ぶための貴重なリソースを提供します。広範な実験により、私たちのモデルは待機 / 減速、ルート再計画、未知の環境での交通状況を観察するために周囲を見回すなどの人間のようなナビゲーション行動を学習することが示されています。私たちのプロジェクトウェブページをご覧くださいhttps://sites.google.com/stanford.edu/lookout。
英文要約#
The ability to predict collision-free future trajectories from egocentric observations is crucial in applications such as humanoid robotics, VR / AR, and assistive navigation. In this work, we introduce the challenging problem of predicting a sequence of future 6D head poses from an egocentric video. In particular, we predict both head translations and rotations to learn the active information-gathering behavior expressed through head-turning events. To solve this task, we propose a framework that reasons over temporally aggregated 3D latent features, which models the geometric and semantic constraints for both the static and dynamic parts of the environment. Motivated by the lack of training data in this space, we further contribute a data collection pipeline using the Project Aria glasses, and present a dataset collected through this approach. Our dataset, dubbed Aria Navigation Dataset (AND), consists of 4 hours of recording of users navigating in real-world scenarios. It includes diverse situations and navigation behaviors, providing a valuable resource for learning real-world egocentric navigation policies. Extensive experiments show that our model learns human-like navigation behaviors such as waiting / slowing down, rerouting, and looking around for traffic while generalizing to unseen environments. Check out our project webpage at https://sites.google.com/stanford.edu/lookout.
文章ページ#
PDF 取得#
抖音でさらに素晴らしいコンテンツをチェック