大模型PEFT技术原理（一）：BitFit、Prefix Tuning、Prompt Tuning_peft中的主流技术方案-程序员宅基地

随着预训练模型的参数越来越大，尤其是175B参数大小的GPT3发布以来，让很多中小公司和个人研究员对于大模型的全量微调望而却步，近年来研究者们提出了各种各样的参数高效迁移学习方法（Parameter-efficient Transfer Learning），即固定住Pretrain Language model（PLM）的大部分参数，仅调整模型的一小部分参数来达到与全部参数的微调接近的效果（调整的可以是模型自有的参数，也可以是额外加入的一些参数）。本文将介绍一些常见的参数高效微调技术，比如：BitFit、Prefix Tuning、Prompt Tuning、P-Tuning、P-Tuning v2、Adapter Tuning及其变体、LoRA、AdaLoRA、QLoRA、MAM Adapter、UniPELT等。

1、BitFit

论文地址：https://aclanthology.org/2022.acl-short.1.pdf

代码地址：https://github.com/benzakenelad/BitFit

BitFIt只对模型的bias进行微调。在小规模-中等规模的训练数据上，BitFit的性能与全量微调的性能相当，甚至有可能超过，在大规模训练数据上，与其他fine-tuning方法也差不多。在大模型中bias存在Q,K,V,MLP,LayerNorm中，具体公式如下：

在Bert-Base/Bert-Large这种模型里，bias参数仅占模型全部参数量的0.08%～0.09%。但是通过在Bert-Large模型上基于GLUE数据集进行了 BitFit、Adapter和Diff-Pruning的效果对比发现，BitFit在参数量远小于Adapter、Diff-Pruning的情况下，效果与Adapter、Diff-Pruning想当，甚至在某些任务上略优于Adapter、Diff-Pruning。

通过Bitfit训练前后的参数对比，发现很多bias参数没有太多变化，例如跟计算key所涉及到的bias参数。发现其中计算query与中间MLP层的bias（将特征维度从N放大到4N的FFN层——将输入从768d转化为到3072d）变化最为明显，只更新这两类bias参数也能达到不错的效果，反之，固定其中任何一者，模型的效果都有较大损失。

作者给出了Hugging Face与BitFit参数的映射关系表，如下所示：

2、Prefix Tuning

论文地址：https://arxiv.org/pdf/2101.00190.pdf

代码地址：https://github.com/XiangLi1999/PrefixTuning

prefix-tuning方法是一个轻量级的fine-tuning方法用于自然语言处理的生成任务。该方法可以保持预训练语言模型参数固定（frozen），而只需要在task-specific vector（称为prefix）上进行优化。即只需要少量（约0.1%）的优化参数，即可以在量和小量数据上达到不错的效果。

针对不同的模型结构，需要构造不同的Prefix。

针对自回归架构模型：在句子前面添加前缀，得到 z = [PREFIX; x; y]，合适的上文能够在固定 LM 的情况下去引导生成下文（比如：GPT3的上下文学习）。
针对编码器-解码器架构模型：Encoder和Decoder都增加了前缀，得到 z = [PREFIX1; x; PREFIX2; y]。Encoder端增加前缀是为了引导输入部分的编码，Decoder 端增加前缀是为了引导后续token的生成。

如上图所示， $P_{idx}$ 表示prefix indices序列， $|P_{idx}|$ 表示prefix的长度。Prefix-tuning通过初始化可训练矩阵 $P_\theta$ (维度为 $|P_{idx} \times dim(h_i)|$ ）来存储prefix参数：

$h_i=\left\{\begin{matrix} P_\theta [i,:], ifi even\\ LM_\phi (z_i,h<i), othervise\end{matrix}\right.$

training objective与Fine-tuning相同，但语言模型的参数 $\phi$ 固定，仅仅prefix参数 $\theta$ 是可训练参数。因此 $h_i$ 是可训练的 $P_\theta$ 的函数，当 $i\in P_{idx}$ 时， $h_i$ 由 $P_\theta$ 直接复制得到，对于 $i\notin P_{idx}$ , 由于prefix activations始终在left context因此可以影响到 $h_i$ 。

在实验上，直接更新 $P_\theta$ 的参数会导致优化的不稳定以及表现上的极具下降。因此通过使用较小的矩阵 ${P}'_\theta$ 通过大型前馈神经网络( $MLP_\theta$ )来reparametrize矩阵 $P_\theta$ :

$P_\theta [i,:] = MLP_\theta ({P}'_\theta [i,:])$

其中， $P_\theta$ 和 ${P}'_\theta$ 在相同的行维度（也就是相同的prefix length）, 但不同的列维度。当训练完成后，reparametrization参数被丢掉，仅仅 $prefix(P_\theta )$ 需要被保存下来。

实验中对比了Fine Tuning和Prefix Tuning在E2E、WebNLG和DART三个table-to-text任务上的效果：

3、Prompt Tuning

论文地址：https://arxiv.org/pdf/2104.08691.pdf

代码地址：https://github.com/google-research/prompt-tuning

Prompt Tuning可以看作是Prefix Tuning的简化版本，面向NLU任务，进行了更全面的效果对比，并且在大模型上成功打平了LM微调的效果，它给每个任务定义了自己的Prompt，然后拼接到数据上作为输入，但只在输入层加入prompt tokens，并且不需要加入 MLP 进行调整来解决难训练的问题。通过反向传播更新参数来学习prompts，而不是人工设计prompts；同时冻结模型原始权重，只训练prompts参数，训练完以后，用同一个模型可以做多任务推理。

对比Prefix-Tunning，prompt-tuning的主要差异如下，

论文使用100个prefix token作为默认参数，大于以上prefix-tuning默认的10个token，不过差异在于prompt-Tunning只对输入层(Embedding)进行微调，而Prefix是对虚拟Token对应的上游layer全部进行微调。因此Prompt-Tunning的微调参数量级要更小，且不需要修改原始模型结构，这是“简化”的来源。相同的prefix长度，Prompt-Tunning(<0.01%)微调的参数量级要比Prefix-Tunning(0.1%~1%)小10倍以上，如下图所示

为什么上面prefix-tuning只微调embedding层效果就不好，放在prompt-tuning这里效果就好了呢？因为评估的任务不同无法直接对比，个人感觉有两个因素，一个是模型规模，另一个是继续预训练，前者的可能更大些，在下面的消融实验中会提到

效果&消融实验

在SuperGLUE任务上，随着模型参数的上升，PromptTunning快速拉近和模型微调的效果，110亿的T5模型(上面prefix-tuning使用的是15亿的GPT2)，已经可以打平在下游多任务联合微调的LM模型，并且远远的甩开了Prompt Design（GPT3 few-shot）

作者也做了全面的消融实验，包括以下4个方面，最核心的感受就是只要模型足够够大一切都好说

prompt长度(a)：固定其他参数，作者尝试了{1，5，20，100，150}, Prompt token 的长度在20左右时的表现已经不错（超过20之后，提升Prompt token长度，对模型的性能提升不明显了），同样的，这个gap也会随着模型参数规模的提升而减小（即对于超大规模模型而言，即使 Prompt token 长度很短，对性能也不会有太大的影响）；
Prompt初始化(b): 作者尝试了随机uniform初始化，用标签文本空间初始化，和用Top5K高频词采样初始化，在10^8规模，类标签词初始化效果最好。作者发现预测label也会在对应prompt空间内。不过到百亿规模后，初始化带来的影响就会消失；
T5继续预训练(c):作者认为T5本身的Span Corruption预训练目标和掩码词，并不适合冻结LM的场景，因为在微调中模型可以调整预训练目标和下游目标的差异，而只使用prompt可能无法弥合差异。其实这里已经能看出En-Dn框架在生成场景下没有GPT这样的Decoder来的自然。因此作者基于LM目标对T5进行继续预训练；
继续预训练step(d)：以上的继续预训练steps，继续预训练步数越高，模型效果在不同模型规模上越单调；

可解释性

考虑Prompt-Tunning使用Embedding来表征指令，可解释性较差。作者使用cosine距离来搜索prompt embedding对应的Top5近邻。发现如下：

embedding的近邻出现语义相似的cluster，例如{ Technology / technology / Technologies/ technological / technologies }, 说明连续prompt实际可能是相关离散prompt词的聚合语义
当连续prompt较长（len=100）, 存在多个prompt token的KNN相同：个人认为这和prefix-tuning使用MLP那里我的猜测相似，prompt应该是一个整体
使用标签词初始化，微调后标签词也大概率会出现在prompt的KNN中，说明初始化可以提供更好的prior信息加速收敛

本文链接：https://blog.csdn.net/wshzd/article/details/135509519

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

没有U盘Win10电脑下如何使用本地硬盘安装Ubuntu20.04（单双硬盘都行）_没有u盘怎么装ubuntu-程序员宅基地

文章浏览阅读3.6k次，点赞2次，收藏2次。DELL7080台式机两块硬盘。_没有u盘怎么装ubuntu

【POJ 3401】Asteroids-程序员宅基地

文章浏览阅读32次。题面Bessie wants to navigate her spaceship through a dangerous asteroid field in the shape of an N x N grid (1 <= N <= 500). The grid contains K asteroids (1 <= K <= 10,000), which are conv...

工业机器视觉系统的构成与开发过程（理论篇—1）_工业机器视觉系统的构成与开发过程(理论篇—1-程序员宅基地

文章浏览阅读2.6w次，点赞21次，收藏112次。机器视觉则主要是指工业领域视觉的应用研究，例如自主机器人的视觉，用于检测和测量的视觉系统等。它通过在工业领域将图像感知、图像处理、控制理论与软件、硬件紧密结合，并研究解决图像处理和计算机视觉理论在实际应用过程中的问题，以实现高效的运动控制或各种实时操作。_工业机器视觉系统的构成与开发过程(理论篇—1

plt.legend的用法-程序员宅基地

文章浏览阅读5.9w次，点赞32次，收藏58次。legend 传奇、图例。plt.legend()的作用：在plt.plot() 定义后plt.legend() 会显示该 label 的内容，否则会报error: No handles with labels found to put in legend.plt.plot(result_price, color = 'red', label = 'Training Loss') legend作用位置：下图红圈处。..._plt.legend

深入理解 C# .NET Core 中 async await 异步编程思想_netcore async await-程序员宅基地

文章浏览阅读2.2k次，点赞3次，收藏11次。深入理解 C# .NET Core 中 async await 异步编程思想引言一、什么是异步？1.1 简单实例（WatchTV并行CookCoffee）二、深入理解（异步）2.1 当我需要异步返回值时，怎么处理？2.2 充分利用异步并行的高效性async await的秘密引言很久没来CSDN了，快小半年了一直在闲置，也写不出一些带有思想和深度的文章；之前就写过一篇关于async await 的异步理解，现在回顾，真的不要太浅和太陋，让人不忍直视！好了，废话不再啰嗦，直入主题：一、什么是异步？_netcore async await

IntelliJ IDEA设置类注释和方法注释带作者和日期_idea作者和日期等注释-程序员宅基地

文章浏览阅读6.5w次，点赞166次，收藏309次。当我看到别人的类上面的多行注释是是这样的：这样的：这样的：好装X啊！我也想要！怎么办呢？往下瞅：跟着我左手右手一个慢动作~~~File--->Settings---->Editor---->File and Code Templates --->Includes--->File Header:之后点applay--..._idea作者和日期等注释

随便推点

发行版Linux和麒麟操作系统下netperf 网络性能测试-程序员宅基地

文章浏览阅读175次。Netperf是一种网络性能的测量工具，主要针对基于TCP或UDP的传输。Netperf根据应用的不同，可以进行不同模式的网络性能测试，即批量数据传输（bulk data transfer）模式和请求/应答（request/reponse）模式。工作原理Netperf工具以client/server方式工作。server端是netserver,用来侦听来自client端的连接,c..._netperf 麒麟

万字长文详解 Go 程序是怎样跑起来的？| CSDN 博文精选-程序员宅基地

文章浏览阅读1.1k次，点赞2次，收藏3次。作者| qcrao责编 | 屠敏出品 | 程序员宅基地刚开始写这篇文章的时候，目标非常大，想要探索 Go 程序的一生：编码、编译、汇编、链接、运行、退出。它的每一步具体如何进行，力图弄清 Go 程序的这一生。在这个过程中，我又复习了一遍《程序员的自我修养》。这是一本讲编译、链接的书，非常详细，值得一看！数年前，我第一次看到这本书的书名，就非常喜欢。因为它模仿了周星驰喜剧..._go run 每次都要编译吗

C++之istringstream、ostringstream、stringstream 类详解_c++ istringstream a >> string-程序员宅基地

文章浏览阅读1.4k次，点赞4次，收藏2次。0、C++的输入输出分为三种：(1)基于控制台的I/O (2)基于文件的I/O (3)基于字符串的I/O 1、头文件[cpp] view plaincopyprint?#include 2、作用istringstream类用于执行C++风格的字符串流的输入操作。 ostringstream类用_c++ istringstream a >> string

MySQL 的 binglog、redolog、undolog-程序员宅基地

文章浏览阅读2k次，点赞3次，收藏14次。我们在每个修改的地方都记录一条对应的 redo 日志显然是不现实的，因此实现方式是用时间换空间，我们在数据库崩了之后用日志还原数据时，在执行这条日志之前，数据库应该是一个一致性状态，我们用对应的参数，执行固定的步骤，修改对应的数据。1，MySQL 就是通过 undolog 回滚日志来保证事务原子性的，在异常发生时，对已经执行的操作进行回滚，回滚日志会先于数据持久化到磁盘上（因为它记录的数据比较少，所以持久化的速度快），当用户再次启动数据库的时候，数据库能够通过查询回滚日志来回滚将之前未完成的事务。_binglog

我的第一个Chrome小插件-基于vue开发的flexbox布局CSS拷贝工具_chrome css布局插件-程序员宅基地

文章浏览阅读3k次。概述之前介绍过移动Web开发基础-flex弹性布局（兼容写法）里面有提到过想做一个Chrome插件，来生成flexbox布局的css代码直接拷贝出来用。最近把这个想法实现了，给大家分享下。play-flexbox插件介绍play-flexbox一秒搞定flexbox布局，可直接预览效果，拷贝CSS代码快速用于页面重构。你也可以通过点击以下链接（codepen示例）查_chrome css布局插件

win10下安装TensorFlow-gpu的流程(包括cuda、cuDnn下载以及安装问题)-程序员宅基地

文章浏览阅读308次。我自己的配置是GeForce GTX 1660 +CUDA10.0+CUDNN7.6.0 + TensorFlow-GPU 1.14.0Win10系统安装tensorflow-gpu（按照步骤一次成功）https://blog.csdn.net/zqxdsy/article/details/103152190环境配置——win10下TensorFlow-GPU安装（GTX1660 SUPER+CUDA10+CUDNN7.4）https://blog.csdn.net/jiDxiaohuo/arti