Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision

#1 Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision [PDF⁸] [Copy] [Kimi¹] [REL]

Authors: Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori

Learning to use tools or objects in common scenes, particularly handling them in various ways as instructed, is a key challenge for developing interactive robots. Training models to generate such manipulation trajectories requires a large and diverse collection of detailed manipulation demonstrations for various objects, which is nearly unfeasible to gather at scale. In this paper, we propose a framework that leverages large-scale ego- and exo-centric video datasets --- constructed globally with substantial effort --- of Exo-Ego4D to extract diverse manipulation trajectories at scale. From these extracted trajectories with the associated textual action description, we develop trajectory generation models based on visual and point cloud-based language models. In the recently proposed egocentric vision-based in-a-quality trajectory dataset of HOT3D, we confirmed that our models successfully generate valid object trajectories, establishing a training dataset and baseline models for the novel task of generating 6DoF manipulation trajectories from action descriptions in egocentric vision. Our dataset and code is available upon acceptance.

Subject: CVPR.2025 - Highlight

Yoshida_Generating_6DoF_Object_Manipulation_Trajectories_from_Action_Description_in_Egocentric@CVPR2025@CVF

#1 Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision [PDF8] [Copy] [Kimi1] [REL]

#1 Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric Vision [PDF⁸] [Copy] [Kimi¹] [REL]