Conference: NeurIPS'25 Spotlight

Github: https://github.com/SAI-Lab-NYU/QSVD


1. Motivation

Vision–Language Models (VLMs) 如 LLaVA、BLIP2 等在图像描述、视觉问答 (VQA) 等任务中表现卓越,但这些模型需要极大的计算与存储开销,尤其在推理时:

  • KV Cache 占用高:注意力机制中需存储 Key、Value,每层缓存大小随序列长度线性增长。
  • Q/K/V 投影重复计算:三组权重矩阵独立计算,造成算力浪费。
  • 模型量化困难:激活分布存在极端 outliers,难以稳定进行低比特量化。

QSVD 的目标是统一地对 Q/K/V 权重矩阵进行低秩近似并结合后训练量化 (PTQ),实现以下三点:

  1. 减少参数量、计算量、缓存占用;
  2. 保持模型性能;
  3. 支持低精度硬件部署。


2.1 SVD in Large Models

Singular Value Decomposition (SVD) 是经典的矩阵分解方法。 对于矩阵 ( W \in \mathbb{R}^{m \times n} ),可分解为:

$$ W = U \Sigma V^T $$

其中:

  • (U, V) 为正交矩阵;
  • (\Sigma) 为奇异值对角矩阵;
  • 保留前 (r) 个奇异值可得到 rank-(r) 近似:

$$ W \approx U_r \Sigma_r V_r^T $$

或写作:

$$ W \approx AB, \quad A = U_r \Sigma_r^{1/2}, , B = \Sigma_r^{1/2} V_r^T $$


SVD 在大模型压缩中的应用广泛,但面临显著挑战:

  • FWSVD 基于 Fisher 信息确定重要参数;
  • ASVD 考虑激活 outliers;
  • SVD-LLM / AdaSVD 通过误差感知截断减少损失;
  • Palu / SVD-LLM V2 进一步结合 KV-cache 压缩;
  • DeepSeek / MLA 引入 latent attention,将 attention 中的 Key/Value 投影到低秩空间以减少计算。

QSVD 的创新在于: → 将 Q/K/V 拼接为统一矩阵 进行 SVD,共享下投影矩阵,实现 KV-cache 的统一压缩。


2.2 Quantization for Large Models

Post-Training Quantization (PTQ) 是实现大模型推理高效化的关键技术。

  • AffineQuant: 通过可学习仿射变换优化缩放因子;
  • SmoothQuant: 将激活 outliers 转移到权重;
  • QuaRot / DuQuant / SpinQuant: 引入正交旋转矩阵 ( H ),平滑通道分布。

核心思想: 若 ( Y = XW ),可写作:

$$ Y = (XH)(H^TW) $$

其中 (H) 为正交矩阵,可离线预计算,从而在不改变输出的前提下平滑激活分布。


针对多模态模型(VLM),近年也有特化的量化研究:

  • QSLAW: 引入多模态 warmup + group-wise scaling;
  • Q-VLM: 用激活熵衡量跨层依赖;
  • MBQ: 平衡视觉/文本模态梯度差异。

但以往工作均未探索 “SVD 与量化联合优化” 的方案。 QSVD 是首个提出低秩联合分解 + 低比特量化的高效 VLM 框架。


3. Contributions | 主要贡献

  1. Unified Joint SVD on Q/K/V

    • 将 Q/K/V 三个权重拼接为一个矩阵进行 SVD;
    • 得到共享的下投影矩阵 (W_{qkv}^d),显著减少权重参数与 KV-cache 存储。
  2. Cross-layer Rank Allocation

    • 提出基于梯度内积的 singular value 重要性评估;
    • 实现全局秩预算分配,在保证性能的同时最小化模型秩。
  3. Low-precision Quantization within SVD Framework

    • 在低秩空间引入正交旋转矩阵 (H_1, H_2),消除中间表示 (C_{qkv}) 的通道 outlier;
    • 提出学习型指数参数 (\beta),自适应控制奇异值放缩强度。
  4. 高效低比特 VLM

    • QSVD 在 W8A8、W8A4、W4A4 下均保持接近 FP16 性能;
    • 显著降低 KV-cache、权重与推理 FLOPs。

4. Method

4.1 Singular-Value Decomposition over Joint QKV Weights

传统注意力层中:

  • Query/Key/Value 权重矩阵分别为 ( W_q, W_k, W_v \in \mathbb{R}^{E \times E} );
  • 对输入 (X \in \mathbb{R}^{L \times E}),计算: ( Q = XW_q, , K = XW_k, , V = XW_v )。

QSVD 将这三者拼接为统一矩阵:

$$ W_{concat} = [W_q, W_k, W_v] \in \mathbb{R}^{E \times 3E} $$

对其进行低秩分解:

$$ W_{concat} \approx W^d_r \Sigma_r W^u_r $$

并定义幂次加权:

$$ W_{qkv}^d = W^d_r \Sigma_r^\beta, \quad W_{qkv}^u = \Sigma_r^{1-\beta} W^u_r $$

此时:

$$ [W_q, W_k, W_v] \approx W_{qkv}^d [W_q^u, W_k^u, W_v^u] $$


Parameter / Memory / FLOPs Analysis

项目 原始 (FP16) 独立 SVD 联合 SVD (QSVD)
参数量 (3E^2) (6rE) (4rE)
中间缓存 (2LE) (2rL) (rL)
FLOPs (3LE^2) (6LrE) (4LrE)

条件 (r < 0.75E) 即可保证压缩收益显著。 同时联合 SVD 仅需计算一次 (XW_{qkv}^d),减少重复计算与访存。


推理阶段:

  1. 缓存中间表示: $$ C_{qkv} = X W_{qkv}^d $$

  2. 重构: $$ K = C_{qkv} W_k^u, \quad V = C_{qkv} W_v^u $$

由此,缓存仅需存储 (C_{qkv}) 而非 (K,V),KV-cache 减半以上。


4.2 Cross-layer Rank Allocation for Low-rank SVD

低秩分解的关键在于:如何确定每层应保留的 rank (r)。 QSVD 提出基于梯度内积的 singular value importance scoring


基本推导:

设 $$ W = \sum_{i=1}^{n} \sigma_i u_i v_i^T $$

若截断第 i 个奇异值: $$ \Delta W_{\sigma_i} = \sigma_i u_i v_i^T $$

对训练损失 (L_t(W)) 做一阶近似: $$ L_t(W - \Delta W_{\sigma_i}) \approx L_t(W) - \sum_{j,k} \Delta W_{\sigma_i}[j,k] \frac{\partial L_t}{\partial W[j,k]} $$

即损失变化: $$ \Delta L_{\sigma_i} = \langle \Delta W_{\sigma_i}, G_W \rangle_F $$


多样本期望的重要性分数:

$$ \hat I_{\sigma_i} = \mathbb{E}{x\sim D}\left[(\Delta L{\sigma_i})^2\right] \approx \frac{1}{N}\sum_{n=1}^{N}\left( \sum_{j,k} \Delta W_{\sigma_i}[j,k] G_W^{(n)}[j,k] \right)^2 $$

直接计算需 (O(E^3)) 内存。 论文推导等价表达(Appendix A.1):

$$ \hat I_{\sigma_i} = \frac{1}{N} \sum_{n=1}^N \sigma_i^2 [U^T G_W^{(n)} V]_{(i,i)}^2 $$

此式仅需 (O(E^2)) 内存。


Cross-layer Global Ranking

  1. 对每层计算所有奇异值的重要性分数;
  2. 将全模型所有奇异值排序;
  3. 在总 rank 预算 (k) 下保留前 (k) 个;
  4. 其余奇异值置零(truncation)。

该方法能实现全模型层间 rank 自适应分配,确保保留对整体任务最关键的方向。


4.3 Post-Training Quantization for Low-rank VLMs

SVD 压缩后,模型内部仍存在严重的通道 outlier,特别是中间表示:

$$ C_{qkv} = X W^d_{qkv} $$

为此,QSVD 提出旋转 + β 学习 的联合量化方案。


(1) Orthogonal Rotation (H₁, H₂)

引入两个正交矩阵 (H_1, H_2),使得:

$$ Y = X W^d_{qkv} W^u_{qkv} = (XH_1^T)(H_1 W^d_{qkv} H_2^T)(H_2 W^u_{qkv}) $$

这样在量化时可写为:

$$ C_{qkv} \approx Q(XH_1^T) Q(H_1 W^d_{qkv} H_2^T) $$

正交旋转可以在不改变输出的前提下平滑激活分布,从而减少量化误差。


(2) β 学习机制

因: $$ W^d_{qkv} = W^d_r \Sigma_r^{\beta} $$

若奇异值分布跨度大,则: $$ C_{qkv} = XW^d_r \Sigma_r^{\beta} $$ 中某些通道会出现极端值。

为缓解此问题,QSVD 通过在校准集上最小化量化前后输出误差学习最优 (\beta):

$$ \min_\beta \sum_{d\in D} | Y_d - Y’_d |_2^2 $$

其中 (Y_d) 为非量化输出,(Y’_d) 为量化输出。

(\beta) 可在每层独立学习,通常取值 0.4–0.8 范围。


(3) Quantization Details

Component Scheme Note
Weight Per-channel symmetric RTN 可学习 clip ratio
Activation Per-token symmetric 旋转后分布更平滑
Bitwidth 8/4 bits 支持 W8A8, W8A4, W4A4
Calibration 256 ScienceQA 样本 用于 rank 分配 & β 学习

5. Evaluation

关于 (R_1) 与 (R_2)

符号 含义 数学定义 直观解释
( R_1 ) 综合计算与参数压缩比率 ( R_1 = \frac{\alpha_i}{\alpha_{fp}} = \frac{\gamma_i}{\gamma_{fp}} ) 表示当前方案(i)相对于原始 FP16 模型的权重参数量和计算 FLOPs 比例
( R_2 ) 缓存压缩比率 ( R_2 = \frac{\eta_i}{\eta_{fp}} ) 表示当前方案的 KV 缓存(或中间表示)占原模型的比例

其中:

  • (\alpha) 表示模型参数量;
  • (\gamma) 表示计算 FLOPs;
  • (\eta) 表示 KV cache 或 intermediate buffer 大小。

5.1 Experimental Setup

  • Models: SmolVLM-2B, LLaVA-v1.5 7B / 13B, LLaVA-Next 7B / 13B
  • Tasks: ScienceQA, VizWiz, SEED-Bench-IMG, HallusionBench
  • Calibration Set: 256 samples from ScienceQA
  • Hardware: NVIDIA RTX A6000 (48GB)
  • Metrics: Accuracy / Groundedness / Hallucination Rate

5.2 SVD-only (QSVD-noQ)

Results:

  • 在 LLaVA-v1.5 13B 上,当 rank ratio (R_1 = 46.7%, R_2 = 17.5%) 时:

    • ScienceQA-IMG: accuracy 下降 <1%;
    • VizWiz 上甚至略优于 FP16。

Insights:

  • 联合 SVD 的共享下投影使压缩后性能更稳定;
  • 当 (r) 过低 (<0.5E) 时仍能保持较好表现;
  • 在部分任务上出现正向正则化效应(减轻 hallucination)。

5.3 QSVD (SVD + Quantization)

(a) W8A8 Results

  • 在相同压缩比下 QSVD 明显优于 DuQuant、Q-VLM;
  • 在 LLaVA-v1.5 13B 上接近 FP16 精度;
  • 中间缓存缩减至 18.75%。

(b) W8A4 Results

  • 激进压缩下 (KV 仅 9.38%) QSVD 仍接近 FP16;
  • 其他方法如 DuQuant 精度显著下降。

(c) W4A4 Results

  • QASVD / DuQuant 几乎退化;
  • QSVD 仍保持可用精度,验证了旋转 + β 学习的有效性。

5.4 Ablation Studies

(1) Rank Allocation

方法 描述 结果
Uniform-rank 每层相同 r 最差
Fisher-based 按 Fisher 信息分配 中等
QSVD-importance 基于梯度内积重要性评分 最佳性能

=> QSVD 的重要性打分能更精准地捕捉对任务关键的方向。


(2) β 学习

  • 固定 β = 0.0/0.4/0.8 vs 学习 β;
  • 在 W4A4 下学习 β 带来 4–6% 精度提升;
  • 在高比特下(W8A8)影响较小;
  • 表明 β 在极端低比特压缩中尤为关键。

(3) Hallucination Reduction

在 HallusionBench 上:

Model FP16 QSVD-noQ ΔGroundedness
LLaVA-v1.5 13B 26.7 30.3 +3.6

说明低秩近似带来轻微“正则化”效果,有助减少幻觉生成。


5.5 Latency and Throughput

  • QSVD-noQ 在 4070 GPU(12GB)上避免 KV-cache offload;
  • QSVD (W8A8) 在 seq=4K 时最高达 13.1× 推理加速
  • 存储与计算同时下降,推理延迟显著改善。

5.6 Overall Findings

Setting Memory ↓ FLOPs ↓ Accuracy ↓
SVD-noQ (r/E=0.5) 65% 60% <1%
QSVD W8A8 80% 70% <2%
QSVD W4A4 90% 80% <5%

6. Conclusion & Discussion

Summary

QSVD 是首个结合 joint SVD + importance-based rank allocation + orthogonal quantization 的 VLM 压缩

框架。 在多模型上验证,达到了:

  • KV-cache 最高缩减 82%;
  • 推理速度提升 13×;
  • 精度保持在 FP16 ±1% 以内。

Limitation & Future Work

  • 目前仅针对 self-attention 层;
  • Future work: extend to FFN 层 / cross-modal adapter;
  • 高效 VLM 可能导致滥用(隐私、监控),需进一步伦理研究。