Advancing AI for Daily Living Activities

LLAVIDAL is a specialized Large Language Vision Model that significantly improves AI understanding of Activities of Daily Living (ADL) through enhanced multiview representations and fine-grained action recognition.

Addresses critical gaps in current LLVMs by focusing on fine-grained human-object interactions essential for ADL monitoring
Introduces a semi-automated approach for creating specialized ADL instruction-tuning datasets
Achieves view-invariant representations crucial for practical healthcare monitoring applications
Demonstrates superior performance in understanding complex daily activities across different viewing angles

This research has significant implications for medical applications, enabling more effective remote patient monitoring, rehabilitation assessment, and support for elderly or disabled individuals in maintaining independence.

LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living