AgroNVILA: Perception-Reasoning Decoupling for Multi-view Agricultural Multimodal Large Language Models

#1 AgroNVILA: Perception-Reasoning Decoupling for Multi-view Agricultural Multimodal Large Language Models [PDF¹] [Copy] [Kimi] [REL]

Authors: Jiarui Zhang, Junqi Hu, Zurong Mai, Yuhang Chen, Shuohong Lou, Henglian Huang, Lingyuan Zhao, Jianxi Huang, Yutong Lu, Haohuan Fu, Juepeng Zheng

Agricultural multimodal reasoning requires robust spatial understanding across varying scales, from ground-level close-ups to top-down UAV and satellite imagery. Existing Multi-modal Large Language Models (MLLMs) suffer from a significant "terrestrial-centric" bias, causing scale confusion and logic drift during complex agricultural planning. To address this, we introduce the first large-scale AgroOmni (288K), a multi-view training corpus designed to capture diverse spatial topologies and scales in modern precision agriculture. Built on this dataset, we propose AgroNVILA, an MLLM that utilizes a novel Perception-Reasoning Decoupling (PRD) architecture. On the perception side, we incorporate a View-Conditioned Meta-Net (VCMN), which injects macroscopic spatial context into visual tokens, resolving scale ambiguities with minimal computational overhead. On the reasoning side, Agriculture-aware Relative Policy Optimization (ARPO) leverages reinforcement learning to align the model's decision-making with expert agricultural logic, preventing statistical shortcuts. Extensive experiments demonstrate that AgroNVILA outperforms state-of-the-art MLLMs, achieving significant improvements (+15.18%) in multi-altitude agricultural reasoning, reflecting its robust capability for holistic agricultural spatial planning.

Subjects: Computer Vision and Pattern Recognition , Artificial Intelligence

Publish: 2026-03-15 12:24:03 UTC

2603.14342

#1 AgroNVILA: Perception-Reasoning Decoupling for Multi-view Agricultural Multimodal Large Language Models [PDF1] [Copy] [Kimi] [REL]

#1 AgroNVILA: Perception-Reasoning Decoupling for Multi-view Agricultural Multimodal Large Language Models [PDF¹] [Copy] [Kimi] [REL]