Layer-Wise Modality Decomposition for Interpretable Multimodal Sensor Fusion

#1 Layer-Wise Modality Decomposition for Interpretable Multimodal Sensor Fusion [PDF] [Copy] [Kimi] [REL]

Authors: Park Jae Hyun, Konyul Park, Daehun Kim, Junseo Park, Jun Won Choi

In autonomous driving, transparency in the decision-making of perception models is critical, as even a single misperception can be catastrophic. Yet with multi-sensor inputs, it is difficult to determine how each modality contributes to a prediction because sensor information becomes entangled within the fusion network. We introduce Layer-Wise Modality Decomposition (LMD), a post-hoc, model-agnostic interpretability method that disentangles modality-specific information across all layers of a pretrained fusion model. To our knowledge, LMD is the first approach to attribute the predictions of a perception model to individual input modalities in a sensor-fusion system for autonomous driving. We evaluate LMD on pretrained fusion models under camera–radar, camera–LiDAR, and camera–radar–LiDAR settings for autonomous driving. Its effectiveness is validated using structured perturbation-based metrics and modality-wise visual decompositions, demonstrating practical applicability to interpreting high-capacity multimodal architectures. Code is available at https://github.com/detxter-jvb/Layer-Wise-Modality-Decomposition.

Subject: NeurIPS.2025 - Poster

j7L5AiVqJQ@OpenReview

#1 Layer-Wise Modality Decomposition for Interpretable Multimodal Sensor Fusion [PDF] [Copy] [Kimi] [REL]