Model Tampering Attacks and Detection

Research on understanding, performing, and defending against targeted modifications to LLM weights and behavior through model tampering

Model Tampering Attacks and Detection

Research on Large Language Models in Model Tampering Attacks and Detection

Beyond Inputs: Probing LLM Security Vulnerabilities

Beyond Inputs: Probing LLM Security Vulnerabilities

Revealing hidden capabilities through model tampering attacks

Hidden Threats in LLM Merging

Hidden Threats in LLM Merging

How phishing models can compromise privacy in merged language models

Defending Against Code Poisoning Attacks

Defending Against Code Poisoning Attacks

A lightweight detection method to protect neural code models

Stealing PII Through Model Merging

Stealing PII Through Model Merging

A novel security vulnerability in LLM integration processes

BadVision: The Backdoor Threat to Vision Language Models

BadVision: The Backdoor Threat to Vision Language Models

How stealthy attacks can induce hallucinations in LVLMs

Securing LLMs Against Backdoor Attacks

Securing LLMs Against Backdoor Attacks

New benchmark for evaluating LLM vulnerabilities

PoisonedParrot: The Subtle Threat to LLM Security

PoisonedParrot: The Subtle Threat to LLM Security

How data poisoning can trick LLMs into generating copyrighted content

Backdoor Vulnerabilities in Multi-modal AI

Backdoor Vulnerabilities in Multi-modal AI

Exposing token-level security risks in image-text AI systems

Detecting Backdoor Threats in Outsourced AI Models

Detecting Backdoor Threats in Outsourced AI Models

A novel cross-examination framework for identifying embedded backdoors

Hidden Threats in Large Language Models

Hidden Threats in Large Language Models

New research reveals how LLMs can reproduce dangerous content verbatim

The Trojan in Your Model: LLM Security Alert

The Trojan in Your Model: LLM Security Alert

How malicious fine-tuning can weaponize language models

Detecting When LLMs Change

Detecting When LLMs Change

A statistical approach to monitor black-box language models

Key Takeaways

Summary of Research on Model Tampering Attacks and Detection