Hiding in Plain Sight

SceneTAP introduces a novel approach to generate visually natural typographic adversarial attacks that can effectively mislead advanced vision-language models while appearing coherent within real-world environments.

Creates adversarial text that blends seamlessly into scene contexts
Demonstrates serious vulnerabilities in state-of-the-art vision-language models
Achieves high attack success rates while maintaining visual naturalness
Highlights security concerns for AI systems in critical visual interpretation tasks

This research reveals important security implications for deploying vision-language models in sensitive domains like autonomous driving, content moderation, and surveillance systems, emphasizing the need for more robust defenses against adversarial attacks.

SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments