MLLM | JJ's Blog

ViSpec - Accelerating Vision-Language Models with Vision-Aware Speculative Decoding

QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

SPECVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning

Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs