Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution

#1 Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution [PDF⁴] [Copy] [Kimi⁴] [REL]

Authors: N Dinesh Reddy, Sudeep Pillai

We introduce Orion, a visual agent framework that can take in any modality and generate any modality. Using an agentic framework with multiple tool-calling capabilities, Orion is designed for visual AI tasks and achieves state-of-the-art results. Unlike traditional vision-language models that produce descriptive outputs, Orion orchestrates a suite of specialized computer vision tools, including object detection, keypoint localization, panoptic segmentation, Optical Character Recognition, and geometric analysis, to execute complex multi-step visual workflows. The system achieves competitive performance on MMMU, MMBench, DocVQA, and MMLongBench while extending monolithic vision-language models to production-grade visual intelligence. By combining neural perception with symbolic execution, Orion enables autonomous visual reasoning, marking a transition from passive visual understanding to active, tool-driven visual intelligence.

Subjects: Computer Vision and Pattern Recognition , Artificial Intelligence , Machine Learning

Publish: 2025-11-18 07:41:02 UTC

2511.14210

#1 Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution [PDF4] [Copy] [Kimi4] [REL]

#1 Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution [PDF⁴] [Copy] [Kimi⁴] [REL]