Securing Vision Language Models

SPA-VL is a specialized dataset designed to make Vision Language Models (VLMs) safer while maintaining helpfulness across diverse multimodal interactions.

Addresses safety alignment challenges specific to VLMs that process both text and visual information
Targets 6 key harmfulness domains to reduce potentially dangerous outputs
Fills a critical gap in the lack of large-scale safety datasets for multimodal AI systems
Aims to improve security by design in multimodal AI applications

This research is vital for the security community as it provides a foundation for developing safer VLMs that can resist generating harmful content while still providing valuable services across applications.

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model