QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models

Conference: NeurIPS'25 Spotlight

Github: https://github.com/SAI-Lab-NYU/QSVD

1. Motivation

Vision–Language Models (VLMs) 如 LLaVA、BLIP2 等在图像描述、视觉问答 (VQA) 等任务中表现卓越，但这些模型需要极大的计算与存储开销，尤其在推理时：

KV Cache 占用高：注意力机制中需存储 Key、Value，每层缓存大小随序列长度线性增长。
Q/K/V 投影重复计算：三组权重矩阵独立计算，造成算力浪费。
模型量化困难：激活分布存在极端 outliers，难以稳定进行低比特量化。

QSVD 的目标是统一地对 Q/K/V 权重矩阵进行低秩近似并结合后训练量化 (PTQ)，实现以下三点：

减少参数量、计算量、缓存占用；
保持模型性能；
支持低精度硬件部署。

2.1 SVD in Large Models

Singular Value Decomposition (SVD) 是经典的矩阵分解方法。对于矩阵 ( W \in \mathbb{R}^{m \times n} )，可分解为：

$$ W = U \Sigma V^T $$

其中：

(U, V) 为正交矩阵；
(\Sigma) 为奇异值对角矩阵；
保留前 (r) 个奇异值可得到 rank-(r) 近似：

$$ W \approx U_r \Sigma_r V_r^T $$

或写作：

$$ W \approx AB, \quad A = U_r \Sigma_r^{1/2}, , B = \Sigma_r^{1/2} V_r^T $$

SVD 在大模型压缩中的应用广泛，但面临显著挑战：

FWSVD 基于 Fisher 信息确定重要参数；
ASVD 考虑激活 outliers；
SVD-LLM / AdaSVD 通过误差感知截断减少损失；
Palu / SVD-LLM V2 进一步结合 KV-cache 压缩；
DeepSeek / MLA 引入 latent attention，将 attention 中的 Key/Value 投影到低秩空间以减少计算。

QSVD 的创新在于： → 将 Q/K/V 拼接为统一矩阵 进行 SVD，共享下投影矩阵，实现 KV-cache 的统一压缩。

2.2 Quantization for Large Models

Post-Training Quantization (PTQ) 是实现大模型推理高效化的关键技术。

AffineQuant: 通过可学习仿射变换优化缩放因子；
SmoothQuant: 将激活 outliers 转移到权重；
QuaRot / DuQuant / SpinQuant: 引入正交旋转矩阵 ( H )，平滑通道分布。

核心思想：若 ( Y = XW )，可写作：

$$ Y = (XH)(H^TW) $$

其中 (H) 为正交矩阵，可离线预计算，从而在不改变输出的前提下平滑激活分布。

针对多模态模型（VLM），近年也有特化的量化研究：

QSLAW: 引入多模态 warmup + group-wise scaling；
Q-VLM: 用激活熵衡量跨层依赖；
MBQ: 平衡视觉/文本模态梯度差异。

但以往工作均未探索 “SVD 与量化联合优化” 的方案。 QSVD 是首个提出低秩联合分解 + 低比特量化的高效 VLM 框架。

3. Contributions | 主要贡献

Unified Joint SVD on Q/K/V
- 将 Q/K/V 三个权重拼接为一个矩阵进行 SVD；
- 得到共享的下投影矩阵 (W_{qkv}^d)，显著减少权重参数与 KV-cache 存储。
Cross-layer Rank Allocation
- 提出基于梯度内积的 singular value 重要性评估；
- 实现全局秩预算分配，在保证性能的同时最小化模型秩。
Low-precision Quantization within SVD Framework
- 在低秩空间引入正交旋转矩阵 (H_1, H_2)，消除中间表示 (C_{qkv}) 的通道 outlier；
- 提出学习型指数参数 (\beta)，自适应控制奇异值放缩强度。
高效低比特 VLM
- QSVD 在 W8A8、W8A4、W4A4 下均保持接近 FP16 性能；
- 显著降低 KV-cache、权重与推理 FLOPs。

4. Method

4.1 Singular-Value Decomposition over Joint QKV Weights

传统注意力层中：

Query/Key/Value 权重矩阵分别为 ( W_q, W_k, W_v \in \mathbb{R}^{E \times E} )；
对输入 (X \in \mathbb{R}^{L \times E})，计算： ( Q = XW_q, , K = XW_k, , V = XW_v )。

QSVD 将这三者拼接为统一矩阵：

$$ W_{concat} = [W_q, W_k, W_v] \in \mathbb{R}^{E \times 3E} $$

对其进行低秩分解：

$$ W_{concat} \approx W^d_r \Sigma_r W^u_r $$

并定义幂次加权：

$$ W_{qkv}^d = W^d_r \Sigma_r^\beta, \quad W_{qkv}^u = \Sigma_r^{1-\beta} W^u_r $$

此时：

$$ [W_q, W_k, W_v] \approx W_{qkv}^d [W_q^u, W_k^u, W_v^u] $$

Parameter / Memory / FLOPs Analysis

项目	原始 (FP16)	独立 SVD	联合 SVD (QSVD)
参数量	(3E^2)	(6rE)	(4rE)
中间缓存	(2LE)	(2rL)	(rL)
FLOPs	(3LE^2)	(6LrE)	(4LrE)

条件 (r < 0.75E) 即可保证压缩收益显著。同时联合 SVD 仅需计算一次 (XW_{qkv}^d)，减少重复计算与访存。

推理阶段：

缓存中间表示： $$ C_{qkv} = X W_{qkv}^d $$
重构： $$ K = C_{qkv} W_k^u, \quad V = C_{qkv} W_v^u $$

由此，缓存仅需存储 (C_{qkv}) 而非 (K,V)，KV-cache 减半以上。

4.2 Cross-layer Rank Allocation for Low-rank SVD

低秩分解的关键在于：如何确定每层应保留的 rank (r)。 QSVD 提出基于梯度内积的 singular value importance scoring。

基本推导：

设 $$ W = \sum_{i=1}^{n} \sigma_i u_i v_i^T $$

若截断第 i 个奇异值： $$ \Delta W_{\sigma_i} = \sigma_i u_i v_i^T $$

对训练损失 (L_t(W)) 做一阶近似： $$ L_t(W - \Delta W_{\sigma_i}) \approx L_t(W) - \sum_{j,k} \Delta W_{\sigma_i}[j,k] \frac{\partial L_t}{\partial W[j,k]} $$

即损失变化： $$ \Delta L_{\sigma_i} = \langle \Delta W_{\sigma_i}, G_W \rangle_F $$

多样本期望的重要性分数：

$$ \hat I_{\sigma_i} = \mathbb{E}{x\sim D}\left[(\Delta L{\sigma_i})^2\right] \approx \frac{1}{N}\sum_{n=1}^{N}\left( \sum_{j,k} \Delta W_{\sigma_i}[j,k] G_W^{(n)}[j,k] \right)^2 $$

直接计算需 (O(E^3)) 内存。论文推导等价表达（Appendix A.1）：

$$ \hat I_{\sigma_i} = \frac{1}{N} \sum_{n=1}^N \sigma_i^2 [U^T G_W^{(n)} V]_{(i,i)}^2 $$

此式仅需 (O(E^2)) 内存。

Cross-layer Global Ranking

对每层计算所有奇异值的重要性分数；
将全模型所有奇异值排序；
在总 rank 预算 (k) 下保留前 (k) 个；
其余奇异值置零（truncation）。

该方法能实现全模型层间 rank 自适应分配，确保保留对整体任务最关键的方向。

4.3 Post-Training Quantization for Low-rank VLMs

SVD 压缩后，模型内部仍存在严重的通道 outlier，特别是中间表示：

$$ C_{qkv} = X W^d_{qkv} $$

为此，QSVD 提出旋转 + β 学习 的联合量化方案。

(1) Orthogonal Rotation (H₁, H₂)

引入两个正交矩阵 (H_1, H_2)，使得：

$$ Y = X W^d_{qkv} W^u_{qkv} = (XH_1^T)(H_1 W^d_{qkv} H_2^T)(H_2 W^u_{qkv}) $$

这样在量化时可写为：

$$ C_{qkv} \approx Q(XH_1^T) Q(H_1 W^d_{qkv} H_2^T) $$

正交旋转可以在不改变输出的前提下平滑激活分布，从而减少量化误差。

(2) β 学习机制

因： $$ W^d_{qkv} = W^d_r \Sigma_r^{\beta} $$

若奇异值分布跨度大，则： $$ C_{qkv} = XW^d_r \Sigma_r^{\beta} $$ 中某些通道会出现极端值。

为缓解此问题，QSVD 通过在校准集上最小化量化前后输出误差学习最优 (\beta)：

$$ \min_\beta \sum_{d\in D} | Y_d - Y’_d |_2^2 $$

其中 (Y_d) 为非量化输出，(Y’_d) 为量化输出。

(\beta) 可在每层独立学习，通常取值 0.4–0.8 范围。

(3) Quantization Details

Component	Scheme	Note
Weight	Per-channel symmetric RTN	可学习 clip ratio
Activation	Per-token symmetric	旋转后分布更平滑
Bitwidth	8/4 bits	支持 W8A8, W8A4, W4A4
Calibration	256 ScienceQA 样本	用于 rank 分配 & β 学习

5. Evaluation

关于 (R_1) 与 (R_2)

符号	含义	数学定义	直观解释
( R_1 )	综合计算与参数压缩比率	( R_1 = \frac{\alpha_i}{\alpha_{fp}} = \frac{\gamma_i}{\gamma_{fp}} )	表示当前方案（i）相对于原始 FP16 模型的权重参数量和计算 FLOPs 比例
( R_2 )	缓存压缩比率	( R_2 = \frac{\eta_i}{\eta_{fp}} )	表示当前方案的 KV 缓存（或中间表示）占原模型的比例

其中：

(\alpha) 表示模型参数量；
(\gamma) 表示计算 FLOPs；
(\eta) 表示 KV cache 或 intermediate buffer 大小。

5.1 Experimental Setup

Models: SmolVLM-2B, LLaVA-v1.5 7B / 13B, LLaVA-Next 7B / 13B
Tasks: ScienceQA, VizWiz, SEED-Bench-IMG, HallusionBench
Calibration Set: 256 samples from ScienceQA
Hardware: NVIDIA RTX A6000 (48GB)
Metrics: Accuracy / Groundedness / Hallucination Rate

5.2 SVD-only (QSVD-noQ)

Results:

在 LLaVA-v1.5 13B 上，当 rank ratio (R_1 = 46.7%, R_2 = 17.5%) 时：
- ScienceQA-IMG: accuracy 下降 <1%；
- VizWiz 上甚至略优于 FP16。

Insights:

联合 SVD 的共享下投影使压缩后性能更稳定；
当 (r) 过低 (<0.5E) 时仍能保持较好表现；
在部分任务上出现正向正则化效应（减轻 hallucination）。

5.3 QSVD (SVD + Quantization)

(a) W8A8 Results

在相同压缩比下 QSVD 明显优于 DuQuant、Q-VLM；
在 LLaVA-v1.5 13B 上接近 FP16 精度；
中间缓存缩减至 18.75%。

(b) W8A4 Results

激进压缩下 (KV 仅 9.38%) QSVD 仍接近 FP16；
其他方法如 DuQuant 精度显著下降。

(c) W4A4 Results

QASVD / DuQuant 几乎退化；
QSVD 仍保持可用精度，验证了旋转 + β 学习的有效性。

5.4 Ablation Studies

(1) Rank Allocation

方法	描述	结果
Uniform-rank	每层相同 r	最差
Fisher-based	按 Fisher 信息分配	中等
QSVD-importance	基于梯度内积重要性评分	最佳性能

=> QSVD 的重要性打分能更精准地捕捉对任务关键的方向。

(2) β 学习

固定 β = 0.0/0.4/0.8 vs 学习 β；
在 W4A4 下学习 β 带来 4–6% 精度提升；
在高比特下（W8A8）影响较小；
表明 β 在极端低比特压缩中尤为关键。

(3) Hallucination Reduction

在 HallusionBench 上：

Model	FP16	QSVD-noQ	ΔGroundedness
LLaVA-v1.5 13B	26.7	30.3	+3.6

说明低秩近似带来轻微“正则化”效果，有助减少幻觉生成。

5.5 Latency and Throughput

QSVD-noQ 在 4070 GPU（12GB）上避免 KV-cache offload；
QSVD (W8A8) 在 seq=4K 时最高达 13.1× 推理加速；
存储与计算同时下降，推理延迟显著改善。

5.6 Overall Findings

Setting	Memory ↓	FLOPs ↓	Accuracy ↓
SVD-noQ (r/E=0.5)	65%	60%	<1%
QSVD W8A8	80%	70%	<2%
QSVD W4A4	90%	80%	<5%

6. Conclusion & Discussion

Summary

QSVD 是首个结合 joint SVD + importance-based rank allocation + orthogonal quantization 的 VLM 压缩

框架。在多模型上验证，达到了：

KV-cache 最高缩减 82%；
推理速度提升 13×；
精度保持在 FP16 ±1% 以内。

Limitation & Future Work

目前仅针对 self-attention 层；
Future work: extend to FFN 层 / cross-modal adapter；
高效 VLM 可能导致滥用（隐私、监控），需进一步伦理研究。

1. Motivation#

2. Related Work#

2.1 SVD in Large Models#

2.2 Quantization for Large Models#

3. Contributions | 主要贡献#

4. Method#

4.1 Singular-Value Decomposition over Joint QKV Weights#

Parameter / Memory / FLOPs Analysis#

4.2 Cross-layer Rank Allocation for Low-rank SVD#

基本推导：#

多样本期望的重要性分数：#

Cross-layer Global Ranking#

4.3 Post-Training Quantization for Low-rank VLMs#

(1) Orthogonal Rotation (H₁, H₂)#

(2) β 学习机制#

(3) Quantization Details#

5. Evaluation#

5.1 Experimental Setup#

5.2 SVD-only (QSVD-noQ)#

Results:#

Insights:#

5.3 QSVD (SVD + Quantization)#

(a) W8A8 Results#

(b) W8A4 Results#

(c) W4A4 Results#

5.4 Ablation Studies#

(1) Rank Allocation#

(2) β 学习#

(3) Hallucination Reduction#

5.5 Latency and Throughput#

5.6 Overall Findings#

6. Conclusion & Discussion#

Summary#

Limitation & Future Work#