Revolutionizing Video Compression with AI

This research introduces Cross-Modality Video Coding (CMVC), a groundbreaking paradigm that leverages Multimodal Large Language Models to achieve more efficient video compression.

Integrates external knowledge priors from MLLMs into traditional video compression pipelines
Disentangles video content on the encoder side for compact representation
Employs generative models to reconstruct high-quality video on the decoder side
Creates a unified framework that transcends traditional redundancy elimination approaches

This engineering innovation could significantly reduce bandwidth requirements for video streaming while maintaining visual quality—critical for evolving multimedia applications in bandwidth-constrained environments.

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding