
Conference: NeurIPS'25 Spotlight
Github: https://github.com/SAI-Lab-NYU/QSVD
1. Motivation
Vision–Language Models (VLMs) 如 LLaVA、BLIP2 等在图像描述、视觉问答 (VQA) 等任务中表现卓越,但这些模型需要极大的计算与存储开销,尤其在推理时:
- KV Cache 占用高:注意力机制中需存储 Key、Value,每层缓存大小随序列长度线性增长。
- Q/K/V 投影重复计算:三组权重矩阵独立计算,造成算力浪费。
- 模型量化困难:激活分布存在极端 outliers,难以稳定进行低比特量化。
QSVD 的目标是统一地对 Q/K/V 权重矩阵进行低秩近似并结合后训练量化 (PTQ),实现以下三点:
- 减少参数量、计算量、缓存占用;
- 保持模型性能;
- 支持低精度硬件部署。

2. Related Work
2.1 SVD in Large Models
Singular Value Decomposition (SVD) 是经典的矩阵分解方法。 对于矩阵 ( W \in \mathbb{R}^{m \times n} ),可分解为:
$$ W = U \Sigma V^T $$
其中:
- (U, V) 为正交矩阵;
- (\Sigma) 为奇异值对角矩阵;
- 保留前 (r) 个奇异值可得到 rank-(r) 近似:
$$ W \approx U_r \Sigma_r V_r^T $$
或写作:
$$ W \approx AB, \quad A = U_r \Sigma_r^{1/2}, , B = \Sigma_r^{1/2} V_r^T $$
SVD 在大模型压缩中的应用广泛,但面临显著挑战:
- FWSVD 基于 Fisher 信息确定重要参数;
- ASVD 考虑激活 outliers;
- SVD-LLM / AdaSVD 通过误差感知截断减少损失;
- Palu / SVD-LLM V2 进一步结合 KV-cache 压缩;
- DeepSeek / MLA 引入 latent attention,将 attention 中的 Key/Value 投影到低秩空间以减少计算。
QSVD 的创新在于: → 将 Q/K/V 拼接为统一矩阵 进行 SVD,共享下投影矩阵,实现 KV-cache 的统一压缩。
2.2 Quantization for Large Models
Post-Training Quantization (PTQ) 是实现大模型推理高效化的关键技术。
- AffineQuant: 通过可学习仿射变换优化缩放因子;
- SmoothQuant: 将激活 outliers 转移到权重;
- QuaRot / DuQuant / SpinQuant: 引入正交旋转矩阵 ( H ),平滑通道分布。
核心思想: 若 ( Y = XW ),可写作:
$$ Y = (XH)(H^TW) $$
其中 (H) 为正交矩阵,可离线预计算,从而在不改变输出的前提下平滑激活分布。
针对多模态模型(VLM),近年也有特化的量化研究:
- QSLAW: 引入多模态 warmup + group-wise scaling;
- Q-VLM: 用激活熵衡量跨层依赖;
- MBQ: 平衡视觉/文本模态梯度差异。
但以往工作均未探索 “SVD 与量化联合优化” 的方案。 QSVD 是首个提出低秩联合分解 + 低比特量化的高效 VLM 框架。
3. Contributions | 主要贡献

-
Unified Joint SVD on Q/K/V
- 将 Q/K/V 三个权重拼接为一个矩阵进行 SVD;
- 得到共享的下投影矩阵 (W_{qkv}^d),显著减少权重参数与 KV-cache 存储。
-
Cross-layer Rank Allocation
- 提出基于梯度内积的 singular value 重要性评估;
- 实现全局秩预算分配,在保证性能的同时最小化模型秩。
-
Low-precision Quantization within SVD Framework
- 在低秩空间引入正交旋转矩阵 (H_1, H_2),消除中间表示 (C_{qkv}) 的通道 outlier;
- 提出学习型指数参数 (\beta),自适应控制奇异值放缩强度。
-
高效低比特 VLM
- QSVD 在 W8A8、W8A4、W4A4 下均保持接近 FP16 性能;
- 显著降低 KV-cache、权重与推理 FLOPs。
4. Method
4.1 Singular-Value Decomposition over Joint QKV Weights

传统注意力层中:
- Query/Key/Value 权重矩阵分别为 ( W_q, W_k, W_v \in \mathbb{R}^{E \times E} );
- 对输入 (X \in \mathbb{R}^{L \times E}),计算: ( Q = XW_q, , K = XW_k, , V = XW_v )。
QSVD 将这三者拼接为统一矩阵:
$$ W_{concat} = [W_q, W_k, W_v] \in \mathbb{R}^{E \times 3E} $$
对其进行低秩分解:
$$ W_{concat} \approx W^d_r \Sigma_r W^u_r $$
并定义幂次加权:
$$ W_{qkv}^d = W^d_r \Sigma_r^\beta, \quad W_{qkv}^u = \Sigma_r^{1-\beta} W^u_r $$
此时:
$$ [W_q, W_k, W_v] \approx W_{qkv}^d [W_q^u, W_k^u, W_v^u] $$
Parameter / Memory / FLOPs Analysis
| 项目 | 原始 (FP16) | 独立 SVD | 联合 SVD (QSVD) |
|---|---|---|---|
| 参数量 | (3E^2) | (6rE) | (4rE) |
| 中间缓存 | (2LE) | (2rL) | (rL) |
| FLOPs | (3LE^2) | (6LrE) | (4LrE) |
条件 (r < 0.75E) 即可保证压缩收益显著。 同时联合 SVD 仅需计算一次 (XW_{qkv}^d),减少重复计算与访存。
推理阶段:
-
缓存中间表示: $$ C_{qkv} = X W_{qkv}^d $$
-
重构: $$ K = C_{qkv} W_k^u, \quad V = C_{qkv} W_v^u $$
由此,缓存仅需存储 (C_{qkv}) 而非 (K,V),KV-cache 减半以上。
4.2 Cross-layer Rank Allocation for Low-rank SVD
低秩分解的关键在于:如何确定每层应保留的 rank (r)。 QSVD 提出基于梯度内积的 singular value importance scoring。
基本推导:
设 $$ W = \sum_{i=1}^{n} \sigma_i u_i v_i^T $$
若截断第 i 个奇异值: $$ \Delta W_{\sigma_i} = \sigma_i u_i v_i^T $$
对训练损失 (L_t(W)) 做一阶近似: $$ L_t(W - \Delta W_{\sigma_i}) \approx L_t(W) - \sum_{j,k} \Delta W_{\sigma_i}[j,k] \frac{\partial L_t}{\partial W[j,k]} $$
即损失变化: $$ \Delta L_{\sigma_i} = \langle \Delta W_{\sigma_i}, G_W \rangle_F $$
多样本期望的重要性分数:
$$ \hat I_{\sigma_i} = \mathbb{E}{x\sim D}\left[(\Delta L{\sigma_i})^2\right] \approx \frac{1}{N}\sum_{n=1}^{N}\left( \sum_{j,k} \Delta W_{\sigma_i}[j,k] G_W^{(n)}[j,k] \right)^2 $$
直接计算需 (O(E^3)) 内存。 论文推导等价表达(Appendix A.1):
$$ \hat I_{\sigma_i} = \frac{1}{N} \sum_{n=1}^N \sigma_i^2 [U^T G_W^{(n)} V]_{(i,i)}^2 $$
此式仅需 (O(E^2)) 内存。
Cross-layer Global Ranking
- 对每层计算所有奇异值的重要性分数;
- 将全模型所有奇异值排序;
- 在总 rank 预算 (k) 下保留前 (k) 个;
- 其余奇异值置零(truncation)。
该方法能实现全模型层间 rank 自适应分配,确保保留对整体任务最关键的方向。
4.3 Post-Training Quantization for Low-rank VLMs

SVD 压缩后,模型内部仍存在严重的通道 outlier,特别是中间表示:
$$ C_{qkv} = X W^d_{qkv} $$
为此,QSVD 提出旋转 + β 学习 的联合量化方案。
(1) Orthogonal Rotation (H₁, H₂)
引入两个正交矩阵 (H_1, H_2),使得:
$$ Y = X W^d_{qkv} W^u_{qkv} = (XH_1^T)(H_1 W^d_{qkv} H_2^T)(H_2 W^u_{qkv}) $$
这样在量化时可写为:
$$ C_{qkv} \approx Q(XH_1^T) Q(H_1 W^d_{qkv} H_2^T) $$
正交旋转可以在不改变输出的前提下平滑激活分布,从而减少量化误差。
(2) β 学习机制
因: $$ W^d_{qkv} = W^d_r \Sigma_r^{\beta} $$
若奇异值分布跨度大,则: $$ C_{qkv} = XW^d_r \Sigma_r^{\beta} $$ 中某些通道会出现极端值。
为缓解此问题,QSVD 通过在校准集上最小化量化前后输出误差学习最优 (\beta):
$$ \min_\beta \sum_{d\in D} | Y_d - Y’_d |_2^2 $$
其中 (Y_d) 为非量化输出,(Y’_d) 为量化输出。
(\beta) 可在每层独立学习,通常取值 0.4–0.8 范围。
(3) Quantization Details
| Component | Scheme | Note |
|---|---|---|
| Weight | Per-channel symmetric RTN | 可学习 clip ratio |
| Activation | Per-token symmetric | 旋转后分布更平滑 |
| Bitwidth | 8/4 bits | 支持 W8A8, W8A4, W4A4 |
| Calibration | 256 ScienceQA 样本 | 用于 rank 分配 & β 学习 |
5. Evaluation
关于 (R_1) 与 (R_2)
| 符号 | 含义 | 数学定义 | 直观解释 |
|---|---|---|---|
| ( R_1 ) | 综合计算与参数压缩比率 | ( R_1 = \frac{\alpha_i}{\alpha_{fp}} = \frac{\gamma_i}{\gamma_{fp}} ) | 表示当前方案(i)相对于原始 FP16 模型的权重参数量和计算 FLOPs 比例 |
| ( R_2 ) | 缓存压缩比率 | ( R_2 = \frac{\eta_i}{\eta_{fp}} ) | 表示当前方案的 KV 缓存(或中间表示)占原模型的比例 |
其中:
- (\alpha) 表示模型参数量;
- (\gamma) 表示计算 FLOPs;
- (\eta) 表示 KV cache 或 intermediate buffer 大小。
5.1 Experimental Setup
- Models: SmolVLM-2B, LLaVA-v1.5 7B / 13B, LLaVA-Next 7B / 13B
- Tasks: ScienceQA, VizWiz, SEED-Bench-IMG, HallusionBench
- Calibration Set: 256 samples from ScienceQA
- Hardware: NVIDIA RTX A6000 (48GB)
- Metrics: Accuracy / Groundedness / Hallucination Rate

5.2 SVD-only (QSVD-noQ)
Results:
-
在 LLaVA-v1.5 13B 上,当 rank ratio (R_1 = 46.7%, R_2 = 17.5%) 时:
- ScienceQA-IMG: accuracy 下降 <1%;
- VizWiz 上甚至略优于 FP16。
Insights:
- 联合 SVD 的共享下投影使压缩后性能更稳定;
- 当 (r) 过低 (<0.5E) 时仍能保持较好表现;
- 在部分任务上出现正向正则化效应(减轻 hallucination)。

5.3 QSVD (SVD + Quantization)
(a) W8A8 Results
- 在相同压缩比下 QSVD 明显优于 DuQuant、Q-VLM;
- 在 LLaVA-v1.5 13B 上接近 FP16 精度;
- 中间缓存缩减至 18.75%。
(b) W8A4 Results
- 激进压缩下 (KV 仅 9.38%) QSVD 仍接近 FP16;
- 其他方法如 DuQuant 精度显著下降。
(c) W4A4 Results
- QASVD / DuQuant 几乎退化;
- QSVD 仍保持可用精度,验证了旋转 + β 学习的有效性。

5.4 Ablation Studies
(1) Rank Allocation
| 方法 | 描述 | 结果 |
|---|---|---|
| Uniform-rank | 每层相同 r | 最差 |
| Fisher-based | 按 Fisher 信息分配 | 中等 |
| QSVD-importance | 基于梯度内积重要性评分 | 最佳性能 |
=> QSVD 的重要性打分能更精准地捕捉对任务关键的方向。
(2) β 学习
- 固定 β = 0.0/0.4/0.8 vs 学习 β;
- 在 W4A4 下学习 β 带来 4–6% 精度提升;
- 在高比特下(W8A8)影响较小;
- 表明 β 在极端低比特压缩中尤为关键。
(3) Hallucination Reduction
在 HallusionBench 上:
| Model | FP16 | QSVD-noQ | ΔGroundedness |
|---|---|---|---|
| LLaVA-v1.5 13B | 26.7 | 30.3 | +3.6 |
说明低秩近似带来轻微“正则化”效果,有助减少幻觉生成。
5.5 Latency and Throughput

- QSVD-noQ 在 4070 GPU(12GB)上避免 KV-cache offload;
- QSVD (W8A8) 在 seq=4K 时最高达 13.1× 推理加速;
- 存储与计算同时下降,推理延迟显著改善。
5.6 Overall Findings
| Setting | Memory ↓ | FLOPs ↓ | Accuracy ↓ |
|---|---|---|---|
| SVD-noQ (r/E=0.5) | 65% | 60% | <1% |
| QSVD W8A8 | 80% | 70% | <2% |
| QSVD W4A4 | 90% | 80% | <5% |
6. Conclusion & Discussion
Summary
QSVD 是首个结合 joint SVD + importance-based rank allocation + orthogonal quantization 的 VLM 压缩
框架。 在多模型上验证,达到了:
- KV-cache 最高缩减 82%;
- 推理速度提升 13×;
- 精度保持在 FP16 ±1% 以内。
Limitation & Future Work
- 目前仅针对 self-attention 层;
- Future work: extend to FFN 层 / cross-modal adapter;
- 高效 VLM 可能导致滥用(隐私、监控),需进一步伦理研究。