📝 ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism

Conference: NeurIPS'25 Oral

1. Background and Motivation

多模态大语言模型（Multimodal Large Language Models, MLLMs）在传统 LLM 的基础上扩展了图像、视频、音频等输入模态，使模型能够进行跨模态理解与推理。然而，这些额外组件（如视觉编码器、投影模块等）带来了显著的推理开销。由于多模态推理流程复杂、任务异构，MLLM 的高效部署成为一个重大挑战。

现有的大多数推理服务架构（serving architecture）采用紧耦合（tightly coupled）设计，无法区分不同请求类型，也无法在不同阶段灵活地调整并行策略，导致 time-to-first-token (TTFT) 延迟增大、GPU 资源利用率低下。

与传统仅处理文本的 LLM 不同，MLLM 需要同时处理多种模态的输入，因此推理流程更复杂，通常包括：

Image Preprocessing：对原始图像进行裁剪、缩放、分块；
Image Encoding：通过视觉编码器提取特征并转化为 vision token；
Text Generation：将 vision token 与文本 prompt 拼接后输入语言模型，经过 prefill 和 decode 阶段生成输出。

这些额外阶段显著增加了推理复杂度和平均上下文长度，从而导致计算与内存开销的上升。

1.1 Multimodal Large Language Models Inference

MLLM 的推理流水线可以拆分为三个关键阶段：

图像预处理：原图像被缩放或分块；
图像编码：视觉编码器提取视觉 token；
文本生成阶段：LLM 同时处理视觉与文本 token 并生成响应。

现代 MLLM 的架构可分为两类：

Decoder-only (DecOnly)：如 LLaVA-OneVision、Qwen-VL、Janus、InternVL。视觉与文本 token 拼接后共同输入模型，视觉 token 参与每一步生成；
Encoder-decoder (EncDec)：如 LLaMA-3.2 Vision、NVLM-X、Flamingo。视觉 token 通过 cross-attention 与文本 token 交互，仅在 cross-attention 层中出现。

两者的主要差异在于视觉 token 的交互方式：前者在每一步生成都参与计算，后者仅在交叉注意力阶段出现。由于视觉 token 的数量通常远大于文本 token，这两种架构都在推理中引入了大量的额外开销，包括更长的上下文、更高的显存使用率和更慢的推理速度。

1.2 LLM Serving Systems

现有 LLM 推理系统（如 vLLM、SGLang）通常采用 KV cache 复用 技术，将推理划分为 prefill 和 decode 两个阶段。

Prefill 阶段：计算输入 token 的 KV cache 并生成首个输出 token；
Decode 阶段：每次迭代生成一个新 token。

Prefill 阶段计算负载更重，而 decode 阶段更受限于显存。系统通过连续批处理（continuous batching）和 chunked prefill 等方式提升效率，但 prefill 与 decode 之间的干扰仍难以消除。

近年的工作如 ORCA、LoongServe 尝试通过 prefill-decoding disaggregation 将两个阶段分离到不同 GPU 实例中运行，以提升利用率。然而这些系统在多模态场景下依然存在严重的耦合问题：

服务级别耦合：将文本与多模态请求混合处理，无法区分其负载特性；
基础设施级别耦合：视觉编码器与语言模型共占 GPU 资源，无法独立扩缩容。

1.3 Research Challenges and Motivations

现有紧耦合架构在多模态任务中面临两个核心问题：

服务层问题：文本与多模态请求的计算开销差异巨大。混合处理会导致整体资源利用率下降、TTFT 增加，并容易造成服务级别目标（SLO）违反。
体系结构问题：Encoder-decoder 模型引入 cross-attention，无法在混合 batch 中高效运行，导致吞吐下降。

关键洞察 1：需要采用解耦架构，将文本与多模态请求分别处理。 关键洞察 2：静态解耦无法适应动态负载变化，必须实现 弹性（elastic） 资源分配。

因此，作者提出了 Elastic Multimodal Parallelism (EMP) —— 一种结合解耦与弹性资源调度的新范式。

2. Challenge

现有系统采用紧耦合架构，不区分请求类型，也不解耦推理组件，所有阶段都在同一 GPU 上执行。结果是在多模态负载下，TTFT 急剧上升，尤其是当 Encoder-decoder 模型中引入 cross-attention 后，计算异构性进一步加剧，导致批处理效率显著降低。

3. Contribution

为了解决上述问题，论文提出了 Elastic Multimodal Parallelism (EMP)，并基于该框架实现了推理系统 ElasticMM。其主要贡献如下：

发现瓶颈：明确指出现有系统紧耦合是 MLLM 服务性能瓶颈；
提出 EMP 框架：将文本和多模态请求分为独立模态组（modality group），并在组内对不同推理阶段（encoding、prefill、decode）施加阶段级并行策略；
设计两项关键技术：
1. 模态感知负载均衡（Modality-aware Load Balancing）：根据实时负载波动动态调整 GPU 分配；
2. 分阶段弹性调度（Elastic Partition Scheduling）：针对每个推理阶段独立调整并行度与资源；
两项优化：
- 统一多模态前缀缓存（Unified Multimodal Prefix Cache）：减少重复编码与数据传输；
- 非阻塞编码（Non-blocking Encoding）：异步解耦视觉编码过程；
实证结果：相比 vLLM，ElasticMM 在 TTFT 上降低 4.2×，吞吐提升 3.2×–4.5×，同时满足 SLO 要求。

4. Elastic Multimodal Parallelism

ElasticMM 的核心在于 两层解耦：

第一层（模态级）：根据请求类型分为文本组与多模态组；
第二层（阶段级）：进一步拆分为 encoding、prefill、decode 阶段。

在两层上均引入弹性调度机制，避免资源争用、提升利用率。

4.1 Modality-Aware Load Balancing

为解决多模态请求在时间维度上的突发性负载问题，ElasticMM 采用主动 + 被动相结合的调度机制。

主动机制（Proactive Mechanism） 系统分析长期负载模式，发现文本请求稳定而多模态请求呈周期性波动。因此，在分配 GPU 实例时，优先保证各模态组的“突发容忍度（burst tolerance）”：

$$ bt(i) = \frac{N_i^{peak}}{N_i^{avg}} $$

其中：

$bt(i)$ 表示第 $i$ 个模态组的突发容忍度；
$N_i^{peak}$ 表示该模态组在峰值负载时可用的 GPU 实例数；
$N_i^{avg}$ 表示其平均负载下所需的 GPU 实例数。

系统采用贪心算法，每次将空闲实例分配给当前 burst tolerance 最低的组，直至资源分配完毕。

被动机制（Reactive Scaling） 面对短期突发（如图像流输入激增），系统根据 gain-cost 模型动态扩缩容。如果 inter-group 抢占（从其他组借 GPU）收益更高，管理器将选择影响最小的实例进行抢占，并迁移其 workload 至其他实例继续执行。

4.2 Stage Partition Scheduling

该部分处理模态组内部各阶段（encoding、prefill、decode）的资源调度与伸缩。

Request Dispatching

系统采用 FCFS（先来先服务）策略，但当文本请求与多模态请求绑定时（如同一对话中含图像），优先调度以减少迁移延迟。调度时需同时考虑：

显存约束：确保 KV cache slot 充足；
计算约束：避免超过 compute-bound tipping point。

Elastic Instance Allocation

Prefill 阶段计算密集，优先分配更多 GPU；若资源不足，则允许从 decode 阶段抢占空闲实例。系统使用 gain-cost 模型评估抢占收益：

$$ \text{Gain} = \sum_{r\in R_p} \frac{T(R_p, E_p) - T(R_p, E_p \cup e_{max})}{r.input_len} $$ $$ \text{Cost} = \sum_{r\in B_d} \frac{M(e_{max}) + w \cdot L(B_d, E_d - e_{max})}{r.output_len} $$ 当 $\text{Gain}>\text{Cost}$ 时执行抢占。迁移仅移动 KV cache，不移动模型权重。

其中：

$r$ 表示单个请求；
$R_p$ 为当前 prefill 阶段的请求集合；
$B_d$ 为当前 decode 阶段的批次集合；
$E_p$、$E_d$ 分别为 prefill 和 decode 阶段分配的实例集合；
$e_{\text{max}}$ 表示拥有最多空闲 KV slot 的候选实例；
$T(\cdot)$ 表示任务在对应实例集上的执行时间；
$M(e_{\text{max}})$ 为迁移开销；
$L(\cdot)$ 表示因抢占造成的性能损失；
$w$ 为惩罚因子，用于控制抢占的激进程度。

当 $\text{Gain} > \text{Cost}$ 时执行抢占。迁移仅移动 KV cache，不移动模型权重。

Elastic Auto-Scaling

Decode 阶段可扩展性差，当检测到延迟上升或显存不足时触发伸缩。若组内资源不足，则跨组抢占：

解释：系统通过比较 $\text{Gain}$ 与 $\text{Cost}$ 判断是否执行跨组伸缩：

当 $\text{Gain} > \text{Cost}$ 时，表示将 GPU 实例从 prefill 组迁移到 decode 组能够带来更高整体收益，系统触发跨组扩展；
否则维持现有分配，避免抢占导致的性能震荡。

通过离线 profiling 设定伸缩阈值，系统可根据 decode 阶段瓶颈自动调节资源，实现精细化动态弹性。

4.3 Multimodal Inference Optimization

Unified Multimodal Prefix Cache

ElasticMM 通过统一缓存机制减少重复计算：

缓存池 1：视觉特征缓存池（CV pool），存储图像哈希与对应视觉 token；
缓存池 2：前缀缓存池（Prefix pool），存储已生成的 KV cache 片段；
工作流程：
1. 对输入图像生成哈希；
2. 若命中缓存，则直接复用视觉 token；
3. 查找前缀树以匹配最长已缓存前缀，跳过重复 prefill；
4. 两池均采用 LRU 策略控制显存。

Non-blocking Encoding

由于图像编码耗时通常为 prefill 的数倍，传统系统中 encoding 与 prefill 串行执行造成阻塞。ElasticMM 将 encoding 分离为异步进程或独立实例，与语言模型部分并行执行。结合统一缓存机制，可显著减少阻塞并降低 TTFT。

5. Evaluation

5.1 Experimental Setup

硬件环境：8 × NVIDIA A800 80GB GPU，2 × Intel Xeon 8358P（64核），2TB 内存，NVLink 带宽 400GB/s；
对比基线：
1. vLLM (coupled)：原始架构；
2. vLLM-Decouple：静态解耦版本；
3. ElasticMM：启用 EMP 与两项优化；
模型与数据集：
- 模型：Qwen2.5-VL、LLaMA3.2-Vision；
- 数据集：ShareGPT-4o、COCO Caption；
指标：TTFT、吞吐量、SLO 满足率。

5.2 End-to-End Performance

结果显示：

在多模态请求比例较高的负载下，ElasticMM 相比 vLLM 将 TTFT 降低最高 4.2×；
平均吞吐量提升 3.2×–4.5×；
在混合场景中依然保持较高的 GPU 利用率与稳定的 SLO 满足率。

5.3 Ablation Study

EMP 有效性

对比三种静态资源分配策略（文本优先 / 平均分配 / 多模态优先），ElasticMM 动态分配的策略表现最优，吞吐量分别提升：

Qwen2.5-VL：1.8×；
LLaMA3.2-Vision：2.3×。

MLLM 优化模块有效性

对比以下系统：

ElasticMM-EMP：无缓存优化；
ElasticMM-UniCache：仅启用缓存；
ElasticMM：完整系统。

结果表明：

统一前缀缓存显著减少重复计算，降低输入 token 延迟；
非阻塞编码进一步减少编码阻塞，使平均 TTFT 下降 50%；
两者结合后在高负载下仍保持稳定吞吐。

现有 MLLM 推理优化多聚焦于模型结构简化（TinyGPT-V、TinyLLaVA）、视觉 token 剪枝（Dynamic-LLaVA、VTM）或 KV cache 压缩（InfMLLM、Elastic Cache），通常以牺牲精度换取速度。 ElasticMM 不涉及模型精度变化，可兼容任意 MLLM 架构。与 Splitwise、DistServe 等静态分片方案不同，ElasticMM 在模态与阶段上实现动态弹性调度，性能提升更显著。

7. Conclusion

本文提出了 ElasticMM —— 基于 Elastic Multimodal Parallelism (EMP) 的多模态大语言模型推理系统，通过模态级与阶段级的双层解耦与弹性伸缩，实现了对动态多模态负载的高效服务。

ElasticMM 的三项核心创新：

模态感知负载均衡；
分阶段弹性调度；
多模态特定优化（统一缓存与非阻塞编码）；

在真实数据集实验中，ElasticMM 相比 vLLM 实现最高 4.2× 的 TTFT 降低 与 4.5× 的吞吐提升。

1. Background and Motivation#

1.1 Multimodal Large Language Models Inference#

1.2 LLM Serving Systems#

1.3 Research Challenges and Motivations#

2. Challenge#

3. Contribution#

4. Elastic Multimodal Parallelism#

4.1 Modality-Aware Load Balancing#

4.2 Stage Partition Scheduling#

Request Dispatching#

Elastic Instance Allocation#

Elastic Auto-Scaling#

4.3 Multimodal Inference Optimization#

Unified Multimodal Prefix Cache#

Non-blocking Encoding#

5. Evaluation#

5.1 Experimental Setup#

5.2 End-to-End Performance#

5.3 Ablation Study#

EMP 有效性#

MLLM 优化模块有效性#

6. Related Work#

7. Conclusion#