OneFocus: Enabling Real-World X-ray Security Screening with a Unified Vision-Language Model

#1 OneFocus: Enabling Real-World X-ray Security Screening with a Unified Vision-Language Model [PDF] [Copy] [Kimi] [REL]

Authors: Jiali Wen, Hongxia Gao, Litao Li, Yixin Chen, Kaijie Zhang, Qianyun Liu, Xiaoqin Wen

X-ray contraband detection is critical for security in large-scale logistics and transportation, yet conventional detectors struggle to adapt to emerging contraband types and lack fundamental visual understanding. Vision-language models (VLMs) offer strong generalization but are hindered by the scarcity of high-quality X-ray image-caption data. To bridge this critical gap, we present MMXray, a meticulously curated benchmark of 52,124 image-caption pairs spanning 28 fine-grained classes of X-ray contraband. To enrich MMXray with realistic occlusion patterns, we further introduce CleanDET, a dedicated synthesis dataset containing clean foreground contraband images from 28 categories and background images with diverse density levels, together with AnyContraSyn, a controllable synthesis method designed to operate on CleanDET. We also develop OnePipe, an extensible pipeline for systematic data curation. Built on MMXray, we propose OneFocus, a unified VLM that supports four core tasks: visual question answering, contraband localization, classification, and image understanding. OneFocus achieves state-of-the-art performance in X-ray contraband understanding and demonstrates robust cross-domain generalization, establishing a strong vision-language baseline for security screening.

Subject: Computer Vision and Pattern Recognition

Publish: 2026-06-14 08:02:06 UTC

2606.15663

#1 OneFocus: Enabling Real-World X-ray Security Screening with a Unified Vision-Language Model [PDF] [Copy] [Kimi] [REL]