Securing Multimodal AI Systems

This research introduces a comprehensive approach to align Multimodal Large Language Models (MLLMs) with human values while maintaining safety guardrails.

Developed a Multi-level Guardrail System to defend against unsafe queries and adversarial attacks
Implemented a min-max optimization framework that balances performance improvement with safety constraint satisfaction
Demonstrated significant improvements in model safety without compromising reasoning capabilities
Created a scalable approach for security-focused fine-tuning of multimodal AI assistants

This research is critical for security professionals as it addresses the growing safety risks in increasingly capable AI systems, providing a practical methodology to prevent harmful outputs while preserving utility.

Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models