Optimizing LLM Memory with EMS

This research introduces a head-wise KV cache compression technique that balances memory efficiency and processing speed for large language models.

Combines eviction and merging strategies based on global-local importance metrics
Achieves up to 60% memory reduction with minimal performance impact
Dynamically adapts compression based on content importance, preserving critical information
Outperforms existing compression methods while maintaining retrieval accuracy

This engineering advancement enables more efficient deployment of LLMs in resource-constrained environments, making long-context processing more practical for real-world applications.

EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance