SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery

#1 SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery [PDF¹] [Copy] [Kimi²] [REL]

Authors: Jiayuan Huang, Runlong He, Danyal Z. Khan, Evangelos Mazomenos, Danail Stoyanov, Hani J. Marcus, Matthew J. Clarkson, Mobarakol Islam

Image-guided surgery demands adaptive, real-time decision support, yet static AI models struggle with structured task planning and providing interactive guidance. Large vision-language models (VLMs) offer a promising solution by enabling dynamic task planning and predictive decision support. We introduce SurgicalVLM-Agent, an AI co-pilot for image-guided pituitary surgery, capable of conversation, planning, and task execution. The agent dynamically processes surgeon queries and plans the tasks such as MRI tumor segmentation, endoscope anatomy segmentation, overlaying preoperative imaging with intraoperative views, instrument tracking, and surgical visual question answering (VQA). To enable structured task planning, we develop the PitAgent dataset, a surgical context-aware dataset covering segmentation, overlaying, instrument localization, tool tracking, tool-tissue interactions, phase identification, and surgical activity recognition. Additionally, we propose FFT-GaLore, a fast Fourier transform (FFT)-based gradient projection technique for efficient low-rank adaptation, optimizing fine-tuning for LLaMA 3.2 in surgical environments. We validate SurgicalVLM-Agent by assessing task planning and prompt generation on our PitAgent dataset and evaluating zero-shot VQA using a public pituitary dataset. Results demonstrate state-of-the-art performance in task planning and query interpretation, with highly semantically meaningful VQA responses, advancing AI-driven surgical assistance.

Subject: Computer Vision and Pattern Recognition

Publish: 2025-03-12 15:30:39 UTC

2503.09474

#1 SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery [PDF1] [Copy] [Kimi2] [REL]

#1 SurgicalVLM-Agent: Towards an Interactive AI Co-Pilot for Pituitary Surgery [PDF¹] [Copy] [Kimi²] [REL]