Logits of API-Protected LLMs Leak Proprietary Information | 边际效应

看到一篇挺有意思的论文，大开脑洞，没想到还能这么玩，做一下粗读的笔记。

论文

标题：《Logits of API-Protected LLMs Leak Proprietary Information》，链接： https://arxiv.org/pdf/2403.09539.pdf 。

假设条件

典型 LLM 需要将最后一个 Transformer 块输出的嵌入向量转成要输出的 Token，这一步往往通过一个线性变换加 softmax 获取那个最大概率的 tokenid。

线性变换的权重是一个 vocabulary size * hidden size 的矩阵，比如 llama2-7B 的词表大小是 32000，hidden size 是 4096，那么线性变换权重矩阵的尺寸就是 32000x4096。这个矩阵再与 4096x1 的嵌入向量相乘，得到的就是 32000x1 的 logits 向量，其中每一个元素对应着一个词表中的 token 作为最终输出的概率。

上面这只是假设，也许 GPT 使用的是一个非线性变换，那论文内容可能就不成立了。

数学原理

这个线性变换将一个 4096 维的向量映射到了一个 32000 维的向量，从线性代数的角度来看，这是一个低维向高维的映射，所以它肯定不是一个满射（onto mapping）。也就是说，这个映射的像空间（image）只是 32000 维实数空间的一个子空间（subspace），而且这个像空间的秩（rank）最多是 4096。

这意味着可以找到不多于 4096 个线性无关的基向量（basis），使得这个像空间的每一个元素都能表示为这些基向量的线性组合。假设能采集到 4096 个线性无关的输出 logits，那这些 logits 就构成了像空间的一组基向量。

反过来想，如果你不知道 LLM 的 hidden size，那么你可以通过采集足够多的输出 logits，以保证有足够多的线性无关的向量。然后对矩阵进行奇异值分解（singular value decomposition），可以通过非 0 的奇异值个数推导出矩阵的秩。这个秩应该接近于模型的 hidden size。

逆向恢复 logits

遗憾的是，很多模型的 API 并没有输出完整的 logits 矩阵，但幸运的是，OpenAI 的 API 支持输出最多 top 5 个 token 的 logprobs，并且支持 logit_bias 干预 token 的输出。那就给了反复通过 API 调用来逆向恢复 logits 向量的可能。

但是具体方法我没看，粗读嘛，知道能做到就行了，有用到的时候再看吧。还有另一篇文章《Stealing Part of a Production Language Model》分析了在没有 logit_bias 甚至没有 logprobs 时该如何恢复 logits，我也没看，记录下链接 https://arxiv.org/pdf/2403.06634.pdf 。

无法输出的 Token

这篇论文还介绍了很多其它应用，太长没有看。比较有意思的一个引用是，在将嵌入向量映射到 logits 的过程中，如果一个 token 的嵌入向量在其它 token 的嵌入向量组成的凸包的内部，它就永远不可能被输出。扫了一眼引用的论文，证明没看懂，大致意思是 softmax 权重矩阵的低秩特性导致了可能输出 token 的排列在线性变换后不会出现在子空间里？实话说我感觉不像是很严谨的数学证明。。。

论文

假设条件

数学原理

逆向恢复 logits

无法输出的 Token

相关阅读

发表回复 取消回复

发表回复取消回复