When Flores Bloomz Wrong: Cross-Direction Contamination in Machine Translation Evaluation

#1 When Flores Bloomz Wrong: Cross-Direction Contamination in Machine Translation Evaluation [PDF¹] [Copy] [Kimi¹] [REL]

Authors: David Tan, Pinzhen Chen, Josef van Genabith, Koel Dutta Chowdhury

Large language models (LLMs) can be benchmark-contaminated, resulting in inflated scores that mask memorization as generalization, and in multilingual settings, this memorization can even transfer to "uncontaminated" languages. Using the FLORES-200 translation benchmark as a diagnostic, we study two 7-8B instruction-tuned multilingual LLMs: Bloomz, which was trained on FLORES, and Llama as an uncontaminated control. We confirm Bloomz's FLORES contamination and demonstrate that machine translation contamination can be cross-directional, artificially boosting performance in unseen translation directions due to target-side memorization. Further analysis shows that recall of memorized references often persists despite various source-side perturbation efforts like paraphrasing and named entity replacement. However, replacing named entities leads to a consistent decrease in BLEU, suggesting an effective probing method for memorization in contaminated models.

Subject: Computation and Language

Publish: 2026-01-28 18:56:21 UTC

2601.20858

#1 When Flores Bloomz Wrong: Cross-Direction Contamination in Machine Translation Evaluation [PDF1] [Copy] [Kimi1] [REL]

#1 When Flores Bloomz Wrong: Cross-Direction Contamination in Machine Translation Evaluation [PDF¹] [Copy] [Kimi¹] [REL]