日本語のタイトル#
「カフェの入口はアクセス可能に見えますか? ドアはどこですか?」 視覚的な問い合わせに向けた地理空間 AI エージェント
英語のタイトル#
"Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries
日本語の要約#
インタラクティブなデジタル地図は、人々の旅行や世界の理解の仕方を根本的に変えました。しかし、これらは GIS データベース内の既存の構造化データ(例えば、道路ネットワーク、POI インデックス)に依存しており、世界の外観に関連する地理的視覚問題を解決する能力を制限しています。私たちは Geo-Visual Agents のビジョンを提案します。これは、大規模な地理空間画像ライブラリ(ストリートスケープ(例:Google ストリートビュー)、場所ベースの写真(例:TripAdvisor、Yelp)、航空画像(例:衛星写真)および従来の GIS データソースを分析することで、世界に関する微妙な視覚空間の問い合わせを理解し応答できるマルチモーダル AI エージェントです。私たちはビジョンを定義し、感知と相互作用のアプローチを説明し、3 つの例を提供し、将来の作業における重要な課題と機会を列挙します。
英語の要約#
Interactive digital maps have revolutionized how people travel and learn about the world; however, they rely on pre-existing structured data in GIS databases (e.g., road networks, POI indices), limiting their ability to address geo-visual questions related to what the world looks like. We introduce our vision for Geo-Visual Agents--multimodal AI agents capable of understanding and responding to nuanced visual-spatial inquiries about the world by analyzing large-scale repositories of geospatial images, including streetscapes (e.g., Google Street View), place-based photos (e.g., TripAdvisor, Yelp), and aerial imagery (e.g., satellite photos) combined with traditional GIS data sources. We define our vision, describe sensing and interaction approaches, provide three exemplars, and enumerate key challenges and opportunities for future work.
記事ページ#
「カフェの入口はアクセス可能に見えますか? ドアはどこですか?」 視覚的な問い合わせに向けた地理空間 AI エージェント
PDF 取得#
抖音で QR コードをスキャンしてさらに素晴らしいコンテンツを確認